热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

spark提交命令详解

本片文章主要结合官网的提交说明进行,详情请看http:spark.apache.orgdocslatestsubmitting-applications.html.

本片文章主要结合官网的提交说明进行,详情请看http://spark.apache.org/docs/latest/submitting-applications.html
./bin/spark-submit \--class --master \--deploy-mode \--conf = \... # other options \[application-arguments]

                          标准格式

spark通过命令行来提交,其中一些参数可以在程序中进行指定

/home/tong/installDirectory/spark-1.4.0-bin-hadoop2.6/bin/spark-submit //提交命令位置的指定

--class com.cloudera.streamDemo.StreamingErrorCount //这个参数可以进行指定jar包的入口位置,不是物理位置

--master spark://spark1:7077 //指定spark执行的master和端口号,可以在程序中SparkConf中进行指定

target/streamDemo-1.0-SNAPSHOT.jar //编译好jar包的位置

/spark/streamData.txt 1//最后的参数为程序执行过程中需要的文件,这里指定的为hdfs中的文件位置,指定参数

其他的一些参数还有:

--conf可以以key=value的形式进行spark提交过程中的任意参数的指定,例如执行的核数,执行的存储空间等等。

--deploy-mode可以部署你的驱动在工作节点上(cluster)或者是作为外部客户端部署在本地(client)。一种普遍的部署策略是从一台在物理上依赖于你的集群worker节点的网关(入口)机器来提交你的应用。在这种模式下,client模式是更为合适的,在client模式中,提交过程(submit process)被当做集群中的一个client,驱动在submit下被直接发送,应用的输入输出被显在控制台,这种模式对于那种涉及到REPL的应用是比较合适的,例如spark-shell下。

此外,如果你的应用是从一台距离你的工作节点很远的机器上提交的,例如你本地的笔记本,那么使用cluster模式是非常普遍的,这种模式可以降低在驱动(drivers)和具体执行机器的中间的网络延迟,特别注意的是,cluster模式当前对于mesos集群是并不支持的。当前仅仅是yarn对于Python应用支持cluster模式。在standalone的cluster模式下,可以指定--supervise参数来确保如果驱动以非0退出码失败的时候,他可以确保驱动的自动重启。当然还可以在submit下指定其他的参数,都是比较简单的。下面是一些事例。

# Run application locally on 8 cores
./bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master local[8] \/path/to/examples.jar \100# Run on a Spark Standalone cluster in client deploy mode
./bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://207.184.161.138:7077 \--executor-memory 20G \--total-executor-cores 100 \/path/to/examples.jar \1000# Run on a Spark Standalone cluster in cluster deploy mode with supervise
./bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master spark://207.184.161.138:7077 \--deploy-mode cluster--supervise--executor-memory 20G \--total-executor-cores 100 \/path/to/examples.jar \1000# Run on a YARN cluster
export HADOOP_CONF_DIR=XXX
./bin/spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn-cluster \ # can also be `yarn-client` for client mode--executor-memory 20G \--num-executors 50 \/path/to/examples.jar \1000# Run a Python application on a Spark Standalone cluster
./bin/spark-submit \--master spark://207.184.161.138:7077 \examples/src/main/python/pi.py \1000





推荐阅读
  • 在工作中,遇到需要将excel表中的特定数据提取出来,并将数据以键值对的形式存储到map集合中。因为我用的是maven管理的jar包,所 ... [详细]
  • 本文介绍了在sqoop1.4.*版本中,如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件,并重新编译,可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码,重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • Hadoop之Yarn
    目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]
  • mapreduce原理_MapReduce原理及WordCount实践
    参考链接:https:www.cnblogs.comlaowangcp8961946.html一、MapReduce流程1.1Mapreduce整体流程: ... [详细]
  • 本文介绍了Android中的assets目录和raw目录的共同点和区别,包括获取资源的方法、目录结构的限制以及列出资源的能力。同时,还解释了raw目录中资源文件生成的ID,并说明了这些目录的使用方法。 ... [详细]
  • 目录浏览漏洞与目录遍历漏洞的危害及修复方法
    本文讨论了目录浏览漏洞与目录遍历漏洞的危害,包括网站结构暴露、隐秘文件访问等。同时介绍了检测方法,如使用漏洞扫描器和搜索关键词。最后提供了针对常见中间件的修复方式,包括关闭目录浏览功能。对于保护网站安全具有一定的参考价值。 ... [详细]
  • 本文介绍了解决java开源项目apache commons email简单使用报错的方法,包括使用正确的JAR包和正确的代码配置,以及相关参数的设置。详细介绍了如何使用apache commons email发送邮件。 ... [详细]
  • 抽空写了一个ICON图标的转换程序
    抽空写了一个ICON图标的转换程序,支持png\jpe\bmp格式到ico的转换。具体的程序就在下面,如果看的人多,过两天再把思路写一下。 ... [详细]
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • 1.脚本功能1)自动替换jar包中的配置文件。2)自动备份老版本的Jar包3)自动判断是初次启动还是更新服务2.脚本准备进入ho ... [详细]
  • Jmeter对RabbitMQ压力测试
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了Jmeter对RabbitMQ压力测试相关的知识,希望对你有一定的参考价值。Jm ... [详细]
  • 开发笔记:MyBatis学习之逆向工程
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了MyBatis学习之逆向工程相关的知识,希望对你有一定的参考价值。转载:http://w ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
author-avatar
和尚与尼姑离婚
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有