Spark背景知识学习

作者：歪歪Doris | 来源：互联网 | 2023-06-08 12:17

本文主要总结Spark及其生态圈，包括spark概述，产生背景，特点，以及与Hadoop的差异等，希望读者能从

本文主要总结Spark及其生态圈&＃xff0c;包括spark概述&＃xff0c;产生背景&＃xff0c;特点&＃xff0c;以及与Hadoop的差异等&＃xff0c;希望读者能从概念层面对spark有一个直观的认识。

Spark概述及特点

Apache Spark™ is a unified analytics engine for large-scale data processing.

这是来自Spark官网的描述(http://spark.apache.org/)。我们可以看到Spark是对大规模数据处理的一个统一分析引擎。有一种说法是&＃xff1a;Spark给Hadoop这头大象插上了翅膀&＃xff0c;足以看出Spark处理速度之快。Spark官网中&＃xff0c;概括了Spark的几个特点&＃xff1a;

1. Speed&＃xff1a;执行速度很快&＃xff0c;无论是在批处理还是流处理中都很快。官网指出逻辑回归使用hadoop(指的是MapReduce作业)执行需要110秒&＃xff0c;使用spark执行只需要0.9秒。执行快的原因有&＃xff1a;①spark使用了一种DAG执行引擎&＃xff0c;能提供基于内存的计算&＃xff0c;相比Hadoop对磁盘读写要快很多。②MapReduce中的Map作业和Reduce都是基于进程的&＃xff0c;而进程的启动和销毁都有一定的开销。spark中作业是基于线程池的&＃xff0c;任务启动的开销要比Hadoop快。

2. Ease of Use&＃xff1a;易用性。主要体现在①Spark支持Java&＃xff0c;Scala&＃xff0c;Python&＃xff0c;R&＃xff0c;SQL等多种语言&＃xff0c;便于我们选择自己熟悉的语言进行应用开发。②Spark提供了80多种高级别的算子&＃xff0c;比起MapReduce中仅有的map和reduce操作更广泛&＃xff0c;例如join&＃xff0c;groupby等&＃xff0c;也方便了我们进行应用开发。③Spark还支持交互式的命令行操作。而MapReduce需要写完之后打包再运行&＃xff0c;代码量大&＃xff0c;步骤繁琐。

3. Generality&＃xff1a;通用性。Spark之上有不同的子框架用于处理不同的业务场景&＃xff0c;如下图所示。这样降低了环境搭建成本&＃xff0c;运维成本和学习成本。可以说是一栈式解决多种场景问题。

4. Runs Everywhere&＃xff1a;Spark可以有Hadoop(yarn)&＃xff0c;Mesos&＃xff0c;standalone&＃xff0c;Kubernetes等多种运行模式。它还可以访问多种数据源&＃xff0c;例如HDFS&＃xff0c;Cassandra&＃xff0c;HBase&＃xff0c;Hive等&＃xff0c;这样就为在现有的复杂多样的生产环境中使用spark提供了无限可能。

spark的产生背景

1.MapReduce的局限性&＃xff1a;

① 代码繁琐。拿wordcount举例&＃xff0c;使用MapReduce实现&＃xff0c;需要我们自己开发map函数和reduce函数&＃xff0c;并进行打包部署运行&＃xff0c;代码量大&＃xff0c;步骤繁琐&＃xff0c;一单出错就需要重新提交。

② MapReduce只能够支持map和reduce方法&＃xff0c;对于像Join&＃xff0c;group by等的操作的开发比较繁琐。

③执行效率不够高&＃xff0c;原因主要有&＃xff1a;

map阶段的结果写入磁盘&＃xff0c;reduce阶段再从磁盘上读取相应的数据进行有关计算&＃xff0c;中间有磁盘参与的过程。
每一个作业是以进程(一个JVM)的方式&＃xff0c;运行启动和销毁的成本很高。
数据交互通过磁盘进行&＃xff0c;不能充分发挥集群的作用。
不适合迭代多次(如机器学习和图计算的场景)&＃xff0c;交互式学习(如使用命令行操作的场景)&＃xff0c;流式的处理(MapReduce处理的数据是静态不能变化的&＃xff0c;不能处理流式处理)的场景。

2.框架多样化

在spark之前&＃xff0c;有很多框架用于处理不同的任务。主要可以分为以下几种&＃xff1a;

① 批处理(或者称之为离线处理)框架&＃xff0c;如MapReduce、Hive、Pig。

② 流式处理(或者称为实时处理)框架&＃xff0c;如Storm&＃xff0c;JStorm。

③ 交互式计算计算&＃xff0c;如Impala

如果要进行不同场景的业务处理&＃xff0c;则就需要借助不同的框架。如果以上三种都涉及&＃xff0c;就要搭建多个集群&＃xff0c;这样的成本是很高的&＃xff1a;包括对于框架的学习成本以及对实际环境的运维成本。

而spark能够完成以上所有框架可以做的事情。较好的解决了框架多样性的问题。能够完成批处理&＃xff0c;流式处理&＃xff0c;交互式处理等。spark包含的组件有&＃xff1a;Spark SQL处理SQL的场景(离线处理)&＃xff0c;MLlib用于进行机器学习&＃xff0c;Graphx用作图计算&＃xff0c;Spark Streaming 用来进行流式处理。

spark生态对比Hadoop生态

关于Hadoop 生态系统的各个组件我们在前面文章中提到过&＃xff0c;可以参考Hadoop基础知识总结中关于Hadoop生态系统的描述。

我们来看一下spark生态系统的架构&＃xff0c;可以简写为BDAS&＃xff0c;其全称是Berkeley Data Analytics Stack&＃xff0c;即伯克利数据分析栈&＃xff0c;如下图所示&＃xff0c;图片来源&＃xff1a;

https://yq.aliyun.com/articles/371357

从下往上看&＃xff0c;各个组件的作用如下&＃xff1a;

Mesos&＃xff1a;分布式资源管理和调度框架&＃xff0c;和Yarn类似。

HDFS&＃xff1a;分布式文件存储系统。它是外部的相关系统&＃xff0c;严格意义上不属于BDAS。

tachyan&＃xff1a;后来改名为alpha&＃xff0c;是一个分布式内存文件系统&＃xff0c;使得我们的数据可以存储在内存中。

spark&＃xff1a;即&＃xff1a;spark core。基于内存优化的执行引擎&＃xff0c;支持多种语言如Java&＃xff0c;Python&＃xff0c;Scala的编程API。

spark之上有不同的子模块用来满足不同的应用场景&＃xff1a;Spark Streaming 用来做流处理。GraphX用于做图计算&＃xff0c;MLlib用来做机器学习&＃xff0c;Spark SQL(前身是Shark)用于支持SQL的查询。

storm和spark是没有关系的(外部系统)&＃xff0c;它是用来做流处理的框架&＃xff0c;但是spark内部已经有了spark streaming可以用于做流处理&＃xff0c;安装成本和学习成本相对都小很多。

BlinkDB&＃xff1a;用于在海量数据之上运行交互式SQL查询的大规模并行查询引擎&＃xff0c;通过牺牲数据的精度提高查询的响应时间。

spark与Hadoop的对比

对比1&＃xff1a;hadoop生态系统与Spark BDAS 的对比&＃xff0c;如下表所示。

批处理的场景&＃xff1a;Hadoop生态系统中我们只能使用MapReduce&＃xff0c;Spark中我们可以使用RDD以及相应的编程语言。

SQL查询的场景&＃xff1a;Hadoop中可以使用Hive&＃xff0c;Spark中我们可以使用Spark SQL&＃xff0c;二者在使用上具有相当大的相似性。

流处理的场景&＃xff1a;Hadoop生态系统通常使用kafka&＃43;storm&＃xff0c;spark中使用的是 spark streaming&＃xff0c;它也可以整合kafka使用。

机器学习的场景&＃xff1a;Hadoop生态中使用mahout&＃xff0c;但是目前不对MapReduce更新了&＃xff0c;spark中则是单独的MLlib模块。

实时数据查询&＃xff1a;Hadoop生态系统中使用Hbase等NoSQL数据库&＃xff0c;而spark中虽然没有专门的组件&＃xff0c;但是也能够使用spark core的API处理NoSQL查询的场景。spark是一个快速的分布式计算框架&＃xff0c;所以没有提供存储的组件&＃xff0c;但可以访问多种数据源。

对比2&＃xff1a;Hadoop和Spark内部构成的对比

对比3&＃xff1a;MapReduce 与Spark 的对比

如上图所示&＃xff1a;

MapReduce执行时&＃xff0c;从HDFS读取数据&＃xff0c;结果写入到HDFS&＃xff0c;下一个作业再从HDFS读数据&＃xff0c;处理完之后再写回去。多个作业之间的数据共享借助于HDFS完成。

Spark则是把磁盘换成了内存&＃xff0c;第一个作业将结果写入内存而不是磁盘&＃xff0c;后面的作业也直接从内存中读取数据&＃xff0c;这样可以减少序列化&＃xff0c;磁盘&＃xff0c;网络的开销。

Spark和Hadoop的协作性&＃xff1a;

Hadoop 的优势&＃xff1a;

数据规模方面&＃xff1a;Hadoop在存储空间和计算能力方面&＃xff0c;都可以进行扩展&＃xff0c;支持多数据源&＃xff0c;多应用&＃xff0c;多用户。
企业级平台&＃xff1a;高可用(reliability)&＃xff0c;多租户(Multi-tenancy)&＃xff0c;安全性(Security)
多种应用场景&＃xff1a;文件&＃xff0c;数据库&＃xff0c;半结构化数据

Spark的优势&＃xff1a;

易于部署&＃xff1a;API简单&＃xff0c;支持多种语言
基于内存的计算框架&＃xff1a;使用RDD的方式处理数据&＃xff0c;使用DAG的处理模式
综合多个工作流和子框架&＃xff1a;例如spark SQL&＃xff0c;ML&＃xff0c;streaming&＃xff0c;Graphx等组合使用

因此实际工作中常常将二者综合起来&＃xff0c;这样使应用程序可以在内存中计算&＃xff0c;提高计算效率。通常二者协作的框架大致如下图所示&＃xff1a;

大致的逻辑是&＃xff1a;

数据存储在HDFS之上&＃xff0c;由Yarn进行统一的资源管理和作业调度。

在yarn之上&＃xff0c;可以运行各种作业&＃xff0c;如批处理的MR&＃xff0c;流处理的Storm&＃xff0c;S4&＃xff0c;内存计算的spark任务。

我们看到&＃xff0c;Hadoop和Spark在生产生是相辅相成的&＃xff0c;各自的模块负责各自的功能。

至此我们完成了对Spark的基本知识的学习&＃xff0c;如产生背景&＃xff0c;架构组成&＃xff0c;主要子框架&＃xff0c;并进行了与Hadoop的对比&＃xff0c;主要在一些概念上和逻辑上形成一个直观的认识&＃xff0c;为今后的学习奠定一些基础。欢迎大家留言交流~

&＃xff08;完&＃xff09;

推荐阅读

java
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
client
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
java
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
php
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
client
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
main
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
default
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
default
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
copy
java.lang.UnsatisfiedLinkError: …….io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

在利用hadoop运行MapReduce项目时，提示报错（注意最后是Z）：Exceptioninthreadmainj ... [详细]

蜡笔小新 2023-10-15 14:52:06
js
flowable工作流流程变量_信也科技工作流平台的技术实践

1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下：目前OA流程引擎无法满足企业特定业务流程需求，且移动端体 ... [详细]

蜡笔小新 2023-12-13 10:17:15
java
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40
java
kafka 0.9+消费者配置参数说明

ConsumerConfiguration在kafka0.9使用JavaConsumer替代了老版本的scalaConsumer。新版的配置如下：bootstrap. ... [详细]

蜡笔小新 2023-10-16 10:44:59
java
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
java
开发笔记:大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-15 14:29:15
default
dataguard日志传输模式解析_SOFAJRaft 日志复制pipeline 实现剖析 | SOFAJRaft 实现原理

SOFAStack（ScalableOpenFinancialArchitectureStack）是蚂蚁金服自主研发的金融级分布式架构，包 ... [详细]

蜡笔小新 2023-10-15 08:16:39

歪歪Doris

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章