热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Spark源码编译安装

环境apache-maven-3.3.9-bin.tar.gzscala-2.11.8.tgzjdk-8u91-linux-x64.tar.gzspark-2.2.0.tgz

环境

apache-maven-3.3.9-bin.tar.gz
scala-2.11.8.tgz
jdk-8u91-linux-x64.tar.gz
spark-2.2.0.tgz

编译

  • spark源码目录下的pom.xml
vi pom.xml
添加如下内容:

<repository>
    <id>clouderaid>
    <name>cloudera Repositoryname>
    <url>https://repository.cloudera.com/artifactory/cloudera-reposurl>
repository>

一定要放在原始仓库的下方

 <repository>
      <id>centralid>
      
      <name>Maven Repositoryname>
      <url>https://repo1.maven.org/maven2url>
      <releases>
        <enabled>trueenabled>
      releases>
      <snapshots>
        <enabled>falseenabled>
      snapshots>
    repository>

    <repository>
        <id>clouderaid>
        <name>cloudera Repositoryname>
        <url>https://repository.cloudera.com/artifactory/cloudera-reposurl>
    repository>
  • 编译太慢,修改dev/make-distribution.sh内容
    将上面的版本检测注释,直接替换成我们当前对应软件的版本
#VERSION=$("$MVN" help:evaluate -Dexpression=project.version $@ 2>/dev/null | grep -v "INFO" | tail -n 1)
#SCALA_VERSION=$("$MVN" help:evaluate -Dexpression=scala.binary.version $@ 2>/dev/null\
# | grep -v "INFO"\
# | tail -n 1)
#SPARK_HADOOP_VERSION=$("$MVN" help:evaluate -Dexpression=hadoop.version $@ 2>/dev/null\
# | grep -v "INFO"\
# | tail -n 1)
#SPARK_HIVE=$("$MVN" help:evaluate -Dexpression=project.activeProfiles -pl sql/hive $@ 2>/dev/null\
# | grep -v "INFO"\
# | fgrep --count "hive";\
# # Reset exit status to 0, otherwise the script stops here if the last grep finds nothing\
# # because we use "set -o pipefail"
# echo -n)

VERSION=2.2.0
SCALA_VERSION=2.11
SPARK_HADOOP_VERSION=2.6.0-cdh5.7.0
SPARK_HIVE=1 #表示启用HIVE
  • 在源码文件下执行编译命令
./dev/make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phive -Phive-thriftserver -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0 -Dskiptests clean package

# --name 2.6.0-cdh5.7.0 指定编译后包名
# --tgz 编译后包名进行压缩
# -Pyarn 指定yarn文件生效,这儿的yarn版本是指spark源码中指定的yarn版本(默认不支持yarn)
# -Phive -Phive-thriftserver 指定hive文件生效,这儿的hive版本是指spark源码中指定的hive版本(默认不支持hive和JDBC)
# -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.7.0 
# 由于我们不想用spark源码中指定的hadoop,故这儿我们指定特定的hadoop版本
# -Dskiptests 跳过测试
# clean package 清除之前编译产生的文件
  • 编译后的tgz包就在当前spark源码路径下

推荐阅读
author-avatar
myldd
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有