作者:手机用户2502936263 | 来源:互联网 | 2023-09-23 11:02
Spark 提供了丰富的API,让开发人员可以使用简洁的方式,来处理复杂的数据计算和分析。
在开始Spark应用开发之前,需要做好如下准备工作。
(1)搭建好Hadoop环境(如果需要访问HDFS);
(2)安装好Spark v2.4.3 最新版本;
一、首先通过IDEA创建一个Maven项目,并添加Spark 依赖jar包。
groupId: org.apache.spark
artifactId: spark-core_2.11
version: 2.4.3
二、编写Spark 应用代码
示例代码很简单,就是读取本地文件 rickie.txt,然后查找并统计文本文件中有多少行包含有“rickie”字符串。
package com.rickie.spark;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
/**
* Hello world!
*
*/
public class App
{
public static void main( String[] args )
{
System.out.println( "Hello World!" );
String logFile = "file:///root/rickie.txt";
JavaSparkContext sc = new JavaSparkContext("local