Spark简介及其在Ubuntu下的安装使用

作者：mobiledu2502932447 | 来源：互联网 | 2017-10-01 23:41

Spark概述Spark是一种与Hadoop相似的开源集群计算环境，在性能和迭代计算上很有看点，现在是Apache孵化的顶级项目吧。Spark由加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)开发，可用来构建大型的、低延迟的数据分析应用程序。Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工

Spark概述

Spark 是一种与 Hadoop 相似的开源集群计算环境，在性能和迭代计算上很有看点，现在是Apache孵化的顶级项目吧。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架，而Scala的语言特点也铸就了大部分Spark的成功。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。

虽然 Spark 与 Hadoop 有相似之处，但它提供了具有有用差异的一个新的集群计算框架。首先，Spark 是为集群计算中的特定类型的工作负载而设计，即那些在并行操作之间重用工作数据集（比如机器学习算法）的工作负载。为了优化这些类型的工作负载，Spark 引进了内存集群计算的概念，可在内存集群计算中将数据集缓存在内存中，以缩短访问延迟。

Spark 还引进了名为弹性分布式数据集 (RDD) 的抽象。RDD 是分布在一组节点中的只读对象集合。这些集合是弹性的，如果数据集一部分丢失，则可以对它们进行重建。重建部分数据集的过程依赖于容错机制，该机制可以维护 “血统”（即充许基于数据衍生过程重建部分数据集的信息）。RDD 被表示为一个 Scala 对象，并且可以从文件中创建它；一个并行化的切片（遍布于节点之间）；另一个 RDD 的转换形式；并且最终会彻底改变现有 RDD 的持久性，比如请求缓存在内存中。

Spark 中的应用程序称为驱动程序，这些驱动程序可实现在单一节点上执行的操作或在一组节点上并行执行的操作。与 Hadoop 类似，Spark 支持单节点集群或多节点集群。对于多节点操作，Spark 依赖于 Mesos 集群管理器。Mesos 为分布式应用程序的资源共享和隔离提供了一个有效平台。该设置充许 Spark 与 Hadoop 共存于节点的一个共享池中。

Spark生态环境

是的，类似hadoop有HDFS，Hive，Pig等一套自己的生态环境，Spark也有一套生态环境，而这套蓝图应该也正是AMP实验室正在绘制的。

Spark简介及其在Ubuntu下的安装使用

Spark在整个生态系统中的地位如上图所示，他是基于Tachyon的。而对底层的Mesos类似与YARN调度框架，在其上也是可以搭载如Spark，Hadoop等环境。Shark类似Hadoop里的Hive，而其性能好撑比Hive要快成百上千倍，不过hadoop注重的不一定是最快的速度，而是廉价集群上离线批量的计算能力。此外，上图中还有图数据库，Spark Streaming以及machine learning的ML Base。也就是说，Spark这套生态环境把大数据这块领域的数据流计算和交互式计算都包含了，而另外一块批处理计算应该由hadoop占据，同时Spark又是可以同HDFS交互取得里面的数据文件的。还有一天，Spark的迭代，内存运算能力以及交互式计算，都为数据挖掘，机器学习提供了很必要的辅助。综上所述，Spark不容小觑，也正是笔者打算研究他的原因。

国内目前豆瓣有一位牛人，读了Spark源码后用python写了一个Dpark在豆瓣内部使用。性能方面应该不及Spark，因为Scala是模吸收了Erlang这样的天生分布式语言的一些优势，既面向对象又是函数式的，目前我也在熟悉之中。

Spark的开发者中有一位是中国的博士，这是他的微博。

Spark安装使用

我在win7下尝试了下，根本不能开启spark的shell或者run一下example，最终还是在Ubuntu上实现了。在Spark的github上你可以得到源码，但是在ubuntu上使用的时候，我是从网上下载了个 spark-0.7.2-prebuilt-hadoop1.tar的包，解压之后，在$SPARK_HOME下执行

./spark-shell

就可以开启交互式spark命令环境，这是一个基于scala的环境，有点类似mongodb的cmd环境是V8引擎下的js环境，应该是spark自带的而不需要外部引用SCALA_HOME。

然后你就可以根据官方document里的quick-start进行一些文件读取操作，并对内容进行处理，做mapreduce呀之类的事情。同时，也是可以去读hdfs上的file的

scala> val textFile = sc.textFile("README.md")

scala> textFile.count() // Number of items in this RDD
scala> textFile.first() // First item in this RDD

例子不举了。如果要跑例子，需要先下载并引用scala，然后用sbt构建下spark。sbt是scala的构建工具，相当于是java的maven。

下好的scala解压之后，是可以在SCALA_HOME/bin下执行scala进入scala命令环境的。完成构建之后（我下载的spark解压之后不需要sbt构建也可以直接run这些例子。），就可以跑例子了。

sbt/sbt package

构建之后。还需要先在$SPARK_HOME/conf/ 下修改那个spark-env.sh，在文件内添加一行"SCALA_HOME=xxx"。

./run spark.examples.SparkPi local

在跑这个例子的时候，可能输出结果会有一个NULL什么的错误，原因在于run这个文件里写的匹配example的路径是xxx-example-xxx.jar，而在SPARK_HOME/example/target/scalaxxxx路径下的jar包是xxx-example_xxx.jar的格式，问题出在"-"和"_"上。我手动改了下jar包的名字，你也可以在run的144-146行里把那个匹配规则改一下，很简单的。

Spark简介及其在Ubuntu下的安装使用

做了以上的事后，就可以慢慢试玩和探索Spark啦。当然这是本地一个standalone的部署，还可以加master和slave的集群部署。略了。

SparkPi这个例子的代码就不具体说了，下面我提供一些有帮助的文档链接，有助于spark的起步。就我今天网上google的结果看，好像也没有什么别的文档也可以参考了。基本上也就是我列举的这些，所以你看完这些应该就可以啦。

Spark 的详细介绍：请点这里
Spark 的下载地址：请点这里

相关阅读：

Spark简介及其在Ubuntu下的安装使用 http://www.linuxidc.com/Linux/2013-08/88606.htm

安装Spark集群(在CentOS上) http://www.linuxidc.com/Linux/2013-08/88599.htm

Hadoop vs Spark性能对比 http://www.linuxidc.com/Linux/2013-08/88597.htm

Spark 并行计算模型 http://www.linuxidc.com/Linux/2012-12/76490.htm

参考

Spark安装与学习 http://www.linuxidc.com/Linux/2013-08/88596.htm

centOS上安装Spark集群 http://www.linuxidc.com/Linux/2013-08/88599.htm

淘宝博客里的几篇：

Spark随谈-翻译指南 http://www.linuxidc.com/Linux/2013-08/88595.htm
Spark随谈-整体架构 http://www.linuxidc.com/Linux/2013-08/88593.htm
Spark随谈-安装攻略 http://www.linuxidc.com/Linux/2013-08/88594.htm

官网文档：

IBM的一篇介绍 http://www.linuxidc.com/Linux/2013-08/88590.htm

(全文完)

更多Ubuntu相关信息见Ubuntu 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=2

推荐阅读

hash
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
go
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
cmd
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
stream
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
stream
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
string
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
command
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
go
解决Docker中volume的权限问题的方法

在Docker中，将主机目录挂载到容器中作为volume使用时，常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法，包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法，可以避免在使用Docker时出现无写权限的情况。 ... [详细]

蜡笔小新 2023-12-14 18:48:02
go
Linux 正则表达式基础及使用注意事项

本文介绍了Linux系统中正则表达式的基础知识，包括正则表达式的简介、字符分类、普通字符和元字符的区别，以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别，并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式，并提供了学习的参考资料。 ... [详细]

蜡笔小新 2023-12-13 14:24:45
command
imx6ull开发板驱动MT7601U无线网卡的方法和步骤详解

本文详细介绍了在imx6ull开发板上驱动MT7601U无线网卡的方法和步骤。首先介绍了开发环境和硬件平台，然后说明了MT7601U驱动已经集成在linux内核的linux-4.x.x/drivers/net/wireless/mediatek/mt7601u文件中。接着介绍了移植mt7601u驱动的过程，包括编译内核和配置设备驱动。最后，列举了关键词和相关信息供读者参考。 ... [详细]

蜡笔小新 2023-12-13 12:34:44
php
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
install
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
install
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
install
MapReduce 切片机制源码分析

总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建 ... [详细]

蜡笔小新 2023-10-16 13:03:18
php
Zookeeper详解应用程序（七）

Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]

蜡笔小新 2023-10-16 08:30:29

mobiledu2502932447

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章