作者:啊啊毛 | 来源:互联网 | 2017-07-04 17:34
Spark是一个快速、通用的计算集群框架,它的内核使用Scala语言编写,它提供了Scala、Java和Python编程语言high-levelAPI,使用这些API能够非常容易地开发并行处理的应用程序。下面,我们通过搭建Spark集群计算环境,并进行简单地验证,来体验一下使用Spark计算的特点。无论从安装运行环境还是从编写处理程序(用Scala,Spark默认提供的Shell
Spark是一个快速、通用的计算集群框架,它的内核使用Scala语言编写,它提供了Scala、Java和Python编程语言high-level API,使用这些API能够非常容易地开发并行处理的应用程序。
下面,我们通过搭建Spark集群计算环境,并进行简单地验证,来体验一下使用Spark计算的特点。无论从安装运行环境还是从编写处理程序(用Scala,Spark默认提供的Shell环境可以直接输入Scala代码进行数据处理),我们都会觉得比Hadoop MapReduce计算框架要简单得多,而且,Spark可以很好地与HDFS进行交互(从HDFS读取数据,以及写数据到HDFS中)。
安装配置
1 |
wget http://www.scala-lang.org/files/archive/scala-2.10.3.tgz |
2 |
tar xvzf scala-2.10.3.tgz |
在~/.bashrc中增加环境变量SCALA_HOME,并使之生效:
1 |
export SCALA_HOME=/usr/scala/scala-2.10.3 |
2 |
export PATH=$PATH:$SCALA_HOME/bin |
我们首先在主节点m1上配置Spark程序,然后将配置好的程序文件复制分发到集群的各个从结点上。下载解压缩:
1 |
wget http://d3kbcqa49mib13.cloudfront.net/spark-0.9.0-incubating-bin-hadoop1.tgz |
2 |
tar xvzf spark-0.9.0-incubating-bin-hadoop1.tgz |
在~/.bashrc中增加环境变量SPARK_HOME,并使之生效:
1 |
export SPARK_HOME=/home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1 |
2 |
export PATH=$PATH:$SPARK_HOME/bin |
在m1上配置Spark,修改spark-env.sh配置文件:
1 |
cd /home/shirdrn/cloud/programs/spark-0.9.0-incubating-bin-hadoop1/conf |
2 |
cp spark- env .sh.template spark-
var cpro_id = "u6885494";
推荐阅读
-
本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ...
[详细]
蜡笔小新 2023-12-14 11:26:56
-
一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ...
[详细]
蜡笔小新 2023-10-17 16:06:09
-
-
本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ...
[详细]
蜡笔小新 2023-10-16 18:07:56
-
软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ...
[详细]
蜡笔小新 2023-10-16 16:09:42
-
1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster:ht ...
[详细]
蜡笔小新 2023-10-17 13:28:20
-
前言折腾了一段时间hadoop的部署管理,写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动,我已经把部署的步骤写成脚本,各位只需要按着本文把脚本执行完,整个环境基本就部署 ...
[详细]
蜡笔小新 2023-10-16 15:11:51
-
我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ...
[详细]
蜡笔小新 2023-10-16 14:21:13
-
界面介绍首页有四个菜单projects:最重要的部分,创建一个工程,所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ...
[详细]
蜡笔小新 2023-10-15 23:43:11
-
二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ...
[详细]
蜡笔小新 2023-10-15 19:48:25
-
一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ...
[详细]
蜡笔小新 2023-12-13 13:52:40
-
本文介绍了在sqoop1.4.*版本中,如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件,并重新编译,可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码,重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ...
[详细]
蜡笔小新 2023-12-10 11:29:22
-
这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ...
[详细]
蜡笔小新 2023-10-17 21:04:04
-
11月26日,由中国计算机协会(CCF)主办,CCF大数据专家委员会协办,CSDN承办的Hadoop与大数据技术大会(Hadoop&BigDataTechnology ...
[详细]
蜡笔小新 2023-10-17 17:47:11
-
spark的任务已经执行完成:scalavallinesc.textFile(hdfs:vm122:9000dblp.rdf)line:org.apache ...
[详细]
蜡笔小新 2023-10-16 12:18:00
-
基于,docker,快速,部署,多,需求,spark ...
[详细]
蜡笔小新 2023-10-16 11:58:06
-
|