我试图遵循这里描述的Spark独立应用程序示例 https://spark.apache.org/docs/latest/quick-start.html#standalone-applications
该示例在以下调用中运行良好:
spark-submit --class "SimpleApp" --master local[4] target/scala-2.10/simple-project_2.10-1.0.jar
但是,当我尝试通过引入一些第三方库时--jars
,它会抛出ClassNotFoundException
.
$ spark-submit --jars /home/linpengt/workspace/scala-learn/spark-analysis/target/pack/lib/* \ --class "SimpleApp" --master local[4] target/scala-2.10/simple-project_2.10-1.0.jar Spark assembly has been built with Hive, including Datanucleus jars on classpath Exception in thread "main" java.lang.ClassNotFoundException: SimpleApp at java.net.URLClassLoader$1.run(URLClassLoader.java:202) at java.security.AccessController.doPrivileged(Native Method) at java.net.URLClassLoader.findClass(URLClassLoader.java:190) at java.lang.ClassLoader.loadClass(ClassLoader.java:306) at java.lang.ClassLoader.loadClass(ClassLoader.java:247) at java.lang.Class.forName0(Native Method) at java.lang.Class.forName(Class.java:247) at org.apache.spark.deploy.SparkSubmit$.launch(SparkSubmit.scala:300) at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:55) at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
删除--jars
选项和程序再次运行(我实际上还没有开始使用这些库).这有什么问题?我该如何添加外部罐子?
根据spark-submit
's --help
,该--jars
选项期望在驱动程序和执行程序类路径中包含逗号分隔的本地jar列表.
我认为这里发生的事情/home/linpengt/workspace/scala-learn/spark-analysis/target/pack/lib/*
是扩展到一个空间分隔的jar列表,列表中的第二个JAR被视为应用程序jar.
一种解决方案是使用shell来构建以逗号分隔的jar列表; 基于StackOverflow上的这个答案,这里有一个在bash中快速完成的方法(请参阅处理包含空格的文件名的更复杂方法的答案):
spark-submit --jars $(echo /dir/of/jars/*.jar | tr ' ' ',') \ --class "SimpleApp" --master local[4] path/to/myApp.jar