集群部署模式下的Spark提交如何管理应用程序Jar

作者：maggieting0334_990 | 来源：互联网 | 2023-01-23 18:51

如何解决《集群部署模式下的Spark提交如何管理应用程序Jar》经验，为你挑选了1个好方法。

在《行动中的火花》一书中，我正在阅读以下内容：

“如果您要使用spark-submit脚本以集群部署模式提交应用程序，则您指定的JAR文件需要在执行该应用程序的工作程序上（在您指定的位置）可用。因为无法提前说明将由哪个工作程序执行驱动程序，所以如果您打算使用群集部署模式，则应将应用程序的JAR文件放在所有工作程序上，或者可以将应用程序的JAR文件放在HDFS上并使用HDFS URL作为JAR文件名。”

但是在官方文档中我看到了这一点：

1-如果您的代码依赖于其他项目，则需要将它们打包在您的应用程序旁边，以便将代码分发到Spark集群。为此，创建一个包含您的代码及其依赖项的程序集jar（或“超级” jar）。sbt和Maven都有程序集插件。创建程序集jar时，将Spark和Hadoop列为提供的依赖项；这些不需要捆绑在一起，因为它们是由集群管理器在运行时提供的。组装好jar后，可以在传递jar时调用bin / spark-submit脚本，如下所示。

2-如果您的应用程序是通过Spark提交启动的，则应用程序jar将自动分发到所有工作程序节点。对于您的应用程序所依赖的任何其他jar，您应通过--jars标志使用逗号作为分隔符来指定它们（例如--jars jar1，jar2）。要控制应用程序的配置或执行环境，请参阅Spark配置。

我在这里想念什么？它是如何工作的？我是否需要在整个群集上部署我的程序集jar（期待主节点）？

1> maasg..：

官方文档是正确的（正如我们期望的那样）。

TL; DR：无需跨集群复制应用程序文件或依赖项即可提交具有Spark任务的作业`spark-submit`。

spark-submit负责将应用程序jar交付给执行者。而且，使用该--jars选项指定的jar文件也由驱动程序上的文件服务器提供给所有执行者，因此我们也不需要将任何依赖项都复制到执行者。Spark为您解决了这一问题。

有关更多详细信息，请参见“ 高级依赖关系管理”页面。

推荐阅读

服务器
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
服务器
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
服务器
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
scala
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
scala
mac php错误日志配置方法及错误级别修改

本文介绍了在mac环境下配置php错误日志的方法，包括修改php.ini文件和httpd.conf文件的操作步骤。同时还介绍了如何修改错误级别，以及相应的错误级别参考链接。 ... [详细]

蜡笔小新 2023-12-12 11:59:08
scala
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
format
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
format
ZooKeeper 学习

前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗？如果别人面试官让你给他讲讲ZooKeeper是个什么东西， ... [详细]

蜡笔小新 2023-10-17 17:07:40
install
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
install
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
install
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
install
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
install
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
byte
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
byte
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37

maggieting0334_990

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

集群部署模式下的Spark提交如何管理应用程序Jar

TL; DR：无需跨集群复制应用程序文件或依赖项即可提交具有Spark任务的作业spark-submit。

TL; DR：无需跨集群复制应用程序文件或依赖项即可提交具有Spark任务的作业`spark-submit`。