Spark高速入门指南(QuickStartSpark)

作者：闹剧-豆腐渣_141 | 来源：互联网 | 2023-09-15 12:00

作者:过往记忆 | 新浪微博&＃xff1a;左手牵右手TEL |
能够转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
博客地址&＃xff1a;http://www.iteblog.com/
文章标题&＃xff1a;《Spark高速入门指南(Quick Start Spark)》
本文链接&＃xff1a;http://www.iteblog.com/archives/1040
Hadoop、Hive、Hbase、Flume等QQ交流群&＃xff1a;138615359&＃xff08;已满&＃xff09;&＃xff0c;请增加新群&＃xff1a;149892483
本博客的微信公共帐号为&＃xff1a;iteblog_hadoop。欢迎大家关注。
假设你认为本文对你有帮助&＃xff0c;最好还是分享一次&＃xff0c;你的每次支持。都是对我最大的鼓舞

欢迎关注微信公共帐号

　　这个文档仅仅是简单的介绍怎样高速地使用Spark。

在以下的介绍中我将介绍怎样通过Spark的交互式shell来使用API。

Basics

　　Spark shell提供一种简单的方式来学习它的API&＃xff0c;同一时候也提供强大的方式来交互式地分析数据。Spark shell支持Scala和Python。能够通过以下方式进入到Spark shell中。

1# 本文原文地址&＃xff1a;http://www.iteblog.com/archives/1040
2# 过往记忆。大量关于Hadoop、Spark等个人原创技术博客
3 
4./bin/spark-shell

　　Spark的一个基本抽象概念就是RDD。RDDs能够通过Hadoop InputFormats或者通过其它的RDDs通过transforming来得到。

以下的样例是通过载入SPARK_HOME文件夹下的README文件来构建一个新的RDD

1scala> textFilval textFile &＃61; sc.textFile("file:///spark-bin-0.9.1/README.md")
2textFile:org.apache.spark.rdd.RDD[String]&＃61;MappedRDD[3]at textFile at :1

　　RDDs提供actions操作。通过它能够返回值。同一时候还提供 transformations操作&＃xff0c;通过它能够返回一个新的RDD的引用。例如以下&＃xff1a;

1scala> textFile.count() // Number of items in this RDD
2res1: Long &＃61; 108
3 
4scala> textFile.first() // First item in this RDD
5res2: String &＃61; # Apache Spark

我们再试试transformations操作&＃xff0c;以下的样例中我们通过使用filter transformation来一个新的RDD&＃xff1a;

1scala> val linesWithSpark &＃61; textFile.filter(line &＃61;> line.contains("Spark"))
2linesWithSpark: org.apache.spark.rdd.RDD[String] &＃61; FilteredRDD[4] at 
3filter at :14

我们将transformations操作和actions操作连起来操作&＃xff1a;

1scala> textFile.filter(line &＃61;> line.contains("Spark")).count()
2res3: Long &＃61; 15

很多其它关于RDD上面的操作

　　RDD的transformations操作和actions操作能够用于更复杂的计算。以下的样例是找出README.md文件里单词数最多的行有多少个单词

1scala> var size &＃61; textFile.map(line&＃61;>line.split(" ").size)
2scala> size.reduce((a, b)&＃61;>if (a > b) a else b)
3res4: Long &＃61; 15

map函数负责将line依照空格切割&＃xff0c;并得到这行单词的数量&＃xff0c;而reduce函数将获取文件里单词数最多的行有多少个单词。map和reduce函数的參数是Scala的函数式编程风格。我们能够直接用Java里面的Math.max()函数&＃xff0c;这样会使得这段代码更好理解

1scala> import java.lang.Math
2import java.lang.Math
3 
4scala> textFile.map(line &＃61;> line.split(" ").size).reduce((a, b)&＃61;>Math.max(a, b))
5res10: Int &＃61; 15

我们比較熟悉的一种数据流模式是MapReduce。Spark能够非常easy地实现MapReduce流

1scala> val wordCounts &＃61; textFile.flatMap(line &＃61;> line.split(" "))
2    .map(word &＃61;> (word, 1)).reduceByKey((a, b) &＃61;> a &＃43; b)
3wordCounts: org.apache.spark.rdd.RDD[(String, Int)] &＃61; 
4MapPartitionsRDD[16] at reduceByKey at :15

在上面的代码中&＃xff0c;我们结合了flatMap&＃xff0c;map和reduceByKey等transformations 操作来计算文件里每一个单词的数量。并生成一个(String, Int) pairs形式的RDD。为了计算单词的数量。我们能够用collect action来实现&＃xff1a;

01scala> wordCounts.collect()
02res11: Array[(String, Int)]&＃61;Array(("",120),(submitting,1),(find,1),(versions,4), 
03((&＃96;./bin/pyspark&＃96;).,1), (Regression,1), (via,2), (tests,2), (open,2), 
04(./bin/spark-shell,1), (When,1), (All,1), (download,1), (requires,2), 
05(SPARK_YARN&＃61;true,3), (Testing,1), (take,1), (project,4), (no,1), 
06(systems.,1), (file,1), (&＃96;.,1), (Or,,1), (&＃96;&＃96;,1), 
07(About,1), (project&＃39;s,3), (&＃96;&＃96;,1), (programs,2),(given.,1),(obtained,1), 
08(sbt/sbt,5), (artifact,1), (SBT,1), (local[2],1), (not,1), (runs.,1), (you,5), 
09(building,1), (Along,1), (Lightning-Fast,1), (built,,1), (Hadoop,,1), (use,2), 
10(MRv2,,1), (it,2), (directory.,1), (overview,1), (2.10.,1),(The,1),(easiest,1), 
11(Note,1), (guide](http://spark.apache.org/docs/latest/configuration.html),1), 
12(setup,1), ("org.apache.hadoop",1),...

Caching

　　Spark能够将数据集存放在集群中的缓存中。这个在数据集常常被訪问的场景下非常实用。比方hot数据集的查询&＃xff0c;或者像PageRank这种须要迭代非常多次的算法。作为一个简单的列子。以下是将我们自己的linesWithSpark dataset存入到缓存中&＃xff1a;

1scala> linesWithSpark.cache()
2res12: org.apache.spark.rdd.RDD[String] &＃61;FilteredRDD[4] at filter at :14
3 
4scala> linesWithSpark.count()
5res13: Long &＃61; 15
6 
7scala> linesWithSpark.count()
8res14: Long &＃61; 15

　　利用Spark来缓存100行的数据看起来有点傻&＃xff0c;可是我们能够通过相同的函数来存储非常大的数据集&＃xff0c;甚至这些数据集分布在几十或者几百台节点上。
　　本文翻译自Spark中的文档&＃xff0c;本文地址&＃xff1a;《Spark高速入门指南(Quick Start Spark)》&＃xff1a;http://www.iteblog.com/archives/1040&＃xff0c;过往记忆&＃xff0c;大量关于Hadoop、Spark等个人原创技术博客本博客文章除特别声明&＃xff0c;所有都是原创&＃xff01;

尊重原创。转载请注明&＃xff1a; 转载自过往记忆&＃xff08;http://www.iteblog.com/&＃xff09;
本文链接地址: 《Spark高速入门指南(Quick Start Spark)》&＃xff08;http://www.iteblog.com/archives/1040&＃xff09;
E-mail:wyphao.2007&＃64;163.com

转:https://www.cnblogs.com/ldxsuanfa/p/10704186.html

推荐阅读

go
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
go
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
go
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
go
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
yaml
基于 Docker 快速部署多需求 Spark 自动化测试环境

基于,docker,快速,部署,多,需求,spark ... [详细]

蜡笔小新 2023-10-16 11:58:06
yaml
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
yaml
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
yaml
Hadoop与大数据技术大会将于11月30日开幕

11月26日，由中国计算机协会（CCF）主办，CCF大数据专家委员会协办，CSDN承办的Hadoop与大数据技术大会（Hadoop&BigDataTechnology ... [详细]

蜡笔小新 2023-10-17 17:47:11
version
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
buffer
Hbase Region Server和Hbase Master启动报错 Direct buffer memory

2018-02-1420:07:13,610ERROR[main]regionserver.HRegionServerCommandLine:Regionserverexiting ... [详细]

蜡笔小新 2023-10-16 20:08:57
ip
CentOS 7配置SSH远程访问及控制

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-16 18:40:50
ip
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
ip
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
ip
spark任务已经执行结束，但还显示RUNNING状态

spark的任务已经执行完成：scalavallinesc.textFile(hdfs:vm122:9000dblp.rdf)line:org.apache ... [详细]

蜡笔小新 2023-10-16 12:18:00
ip
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25

闹剧-豆腐渣_141

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章