当前位置: 开发笔记 > 编程语言 > 正文

Spark学习之路(一)Spark概述

作者：不要破网名_329 | 来源：互联网 | 2023-10-10 18:42

一,什么是spark定义:Spark一种基于内存的快速,通用,可扩展的大数据分析引擎.官网地址：http:spark.apache.org历史:2009年诞生于加州伯

一,什么是spark

　　定义:Spark一种基于内存的快速,通用,可扩展的大数据分析引擎.

　　官网地址&＃xff1a;http://spark.apache.org/

　　历史:2009年诞生于加州伯克利分校AMPLab,项目采用scala编写

　　　　2010年开源

　　　　2013年6月成为Apache孵化项目

　　　　2014年2月成为Apache顶级项目

　　注:离线计算:会反复的读写磁盘,效率低,很难实现迭代计算,很难做到交互式的数据挖掘.(MapReduce)

　　　实时流式计算:不反复读写磁盘,效率高,实现迭代计算,做到交互式的数据挖掘.(Spark,当内存不足时,也会有写磁盘操作)

二,Spark的组成

　　Spark Core:实现了Spark的基本功能,包含任务调度,内存管理,错误恢复,与存储系统交互等模块.还包含了对弹性分布式数据集(RDD)的API定义.

　　Spark SQL:是Spark用来操作结构化数据的程序包.通过Spark SQL,我们可以使用SQL或者Apache Hive版本的SQL方言(HQL)来查询数据.

　　Spark Streaming:是Spark提供的对实时数据进行流式计算的组件.提供了用来操作数据的API,并且与Spark Core种的RDD API高度对应.

　　Spark MLlib:提供常见的机器学习(ML)功能的程序库.包括分类,回归,聚类,协同,过滤等,还提供了模型评估,数据导入等额外的支持功能.

　　集群管理器&＃xff1a;Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。为了实现这样的要求&＃xff0c;同时获得最大灵活性&＃xff0c;Spark支持在各种集群管理器(Cluster Manager)上运行&＃xff0c;包括Hadoop YARN、Apache Mesos&＃xff0c;以及Spark自带的一个简易调度器&＃xff0c;叫作独立调度器

三,Spark的应用

　　Spark得到了众多大数据公司的支持&＃xff0c;这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于大搜索、直达号、百度大数据等业务&＃xff1b;阿里利用GraphX构建了大规模的图计算和图挖掘系统&＃xff0c;实现了很多生产系统的推荐算法&＃xff1b;腾讯Spark集群达到8000台的规模&＃xff0c;是当前已知的世界上最大的Spark集群。

四,spark特点

　　1.Speed:Apache Spark使用最先进的DAG调度程序&＃xff0c;查询优化程序和物理执行引擎&＃xff0c;实现批量和流式数据的高性能

　　2,易用性:Spark支持Java、Python和Scala的API&＃xff0c;还支持超过80种高级算法&＃xff0c;使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell&＃xff0c;可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法

　　3,通用性

4,兼容性

　　Mesos&＃xff1a;Spark可以运行在Mesos里面&＃xff08;Mesos 类似于yarn的一个资源调度框架&＃xff09;

　　standalone&＃xff1a;Spark自己可以给自己分配资源&＃xff08;master&＃xff0c;worker&＃xff09;

　　YARN&＃xff1a;Spark可以运行在yarn上面

　 Kubernetes&＃xff1a;Spark接收 Kubernetes的资源调度

转:https://www.cnblogs.com/denghao0921/p/10287707.html

推荐阅读

api
无服务器_云原生数据湖架构中的无服务器 Kafka

篇首语：本文由编程笔记#小编为大家整理，主要介绍了云原生数据湖架构中的无服务器Kafka相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-12 15:37:48
schema
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
schema
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
java
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56
python
python可以做什么工作好Python入门后，想要从事自由职业可以做哪方面工作？

Python入门后，想要从事自由职业可以做哪方面工作？1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ... [详细]

蜡笔小新 2023-10-17 16:29:09
java
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
int
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
int
SmartMining

应用场景当遇到数据分类，聚类，预测等场景问题，普通的SQL方法无法解决，需要借助算法这件武器，比如聚类算法，分类算法，预测算法等等，但是手动去研究一个算法比较吃力，有没有那种工具， ... [详细]

蜡笔小新 2023-10-17 15:45:01
int
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
int
原创 | 大数据入门基础系列之ClouderaManager版本的Hive安装部署

添加服务，一 ... [详细]

蜡笔小新 2023-10-15 16:43:57
python
sqlserver触发器写法_技术书籍荐读不可错过的SQL Server数据库书单来袭！

朱熹读书之法，在循序渐进，熟读而精思。2019年转眼就要过去了，这一年，你读了哪些书，得到了哪些收获ÿ ... [详细]

蜡笔小新 2023-10-14 10:40:34
int
吴恩达 Deep learning 第一周深度学习概论

知识点1.Relu（RectifiedLinerUints整流线性单元）激活函数：max(0,z)神经网络中常用ReLU激活函数，与机器学习课程里面提到的sigmoid激活函数 ... [详细]

蜡笔小新 2023-10-13 13:13:17
数组
python c语言挖掘建模,编程语言数据挖掘常用工具有哪几种？

1.Numpy能够提供数组支持，进行矢量运算，并且高效地处理函数，线性代数处理等。提供真正的数组，比起python内置列表来 ... [详细]

蜡笔小新 2023-10-13 11:18:14
window
flume 收集日志到HDFS

作者同类文章X转自：http:www.aboutyun.comthread-7949-1-1.html问题导读：1.什么是flume？ ... [详细]

蜡笔小新 2023-10-12 13:21:24
window
使用clouderaquickstartvm无配置快速部署Hadoop应用

http:zzj270919.blog.163.comblogstatic68997776201522561659999目录：通过CDH网站下载cloudera-vm ... [详细]

蜡笔小新 2023-10-11 18:27:57

不要破网名_329

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章