热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

在YARN下使用Spark为MapR构建ApacheZeppelin

ApacheZeppelin是基于Web的笔记本,可进行交互式数据分析。您可以使用SparkSQL,Scala,Hive,F

Apache Zeppelin是基于Web的笔记本,可进行交互式数据分析。 您可以使用Spark SQL,Scala,Hive,Flink,Kylin等制作漂亮的数据驱动,交互式和协作式文档。 Zeppelin通过简单易用的可视化功能,可以快速开发Spark和Hadoop工作流程。 Zeppelin中的代码可以在Zeppelin笔记本中使用,也可以编译并打包为完整的应用程序。

Zeppeline-Blog-Img1

从当前的master分支(和发行候选版本)开始,所有MapR构建配置文件现在都包含在Apache Zeppelin存储库中 。 四个配置文件mapr3,mapr40,mapr41和mapr50将使用适当的MapR依赖项构建Zeppelin。

该博客提供了有关使用MapR配置文件进行构建的说明。 包括为MapR构建Hive解释器,但是在Hive pom.xml文件中注释了依赖性。

一些假设

  1. 在YARN下运行具有MapR 4.0.x / 5.x和Apache Spark(1.2.x,1.3.x或1.4.x)的集群
  2. 编辑几个文本文件的能力
  3. 不错的浏览器
  4. 在其上运行Zeppelin服务器的机器(节点或边缘)。 这需要安装mapr-spark和至少安装了MapR客户端
  5. Git客户端,npm和Maven 3.x

你需要做什么?

  1. 确保您的计算机上至少安装了MapR客户端和Spark。 通过执行hadoop fs -ls /和Spark Shell(例如1.2.1版)进行测试

    /opt/mapr/spark/spark-1.2.1/bin/spark-shell

  2. 找到一个不错的目录并运行git clone

    https://github.com/apache/incubator-zeppelin zeppelin

  3. cd zeppelin
  4. 进行构建(MapR 4.0.x版):

    mvn clean package -Pbuild-distr -Pmapr40 -Pyarn -Pspark-1.2 -DskipTests

    (对于MapR 4.1版本):

    mvn clean package -Pbuild-distr -Pmapr41 -Pyarn -Pspark-1.3 -DskipTests

    (对于MapR 5.x版):

    mvn clean package -Pbuild-distr -Pmapr50 -Pyarn -Pspark-1.3 -DskipTests

  5. 这将创建一个名为zeppelin-distribution的目录。 Zeppelin和tar文件将在此目录中运行。 tar文件是完整的Zeppelin安装。 用它。
  6. 在要执行Zeppelin服务器的位置解压zeppelin-xxx-incubating-SNAPSHOT.tar.gz 。 一切都在该计算机本地,因此没有必要在MapR群集节点上安装Zeppelin服务器。
  7. 配置…假设您有正在运行的MapR客户端和Spark安装,则几乎不需要配置。 在zeppelin-xxx-incubating-SNAPSHOT/conf目录中,您需要将zeppelin-env.sh.template to zeppelin-env.sh复制zeppelin-env.sh.template to zeppelin-env.sh
  8. 编辑zeppelin-env.sh …您需要导出两个项目。
    一个。

    export
    HADOOP_CONF_DIR="/opt/mapr/hadoop/hadoop-x.x.x/etc/hadoop"

    插入正确的Hadoop版本和路径)
    b。

    export ZEPPELIN_JAVA_OPTS="-Dspark.executor.instances=4 -Dspark.executor.memory=2g"

    Hadoop conf目录是yarn-site.xml所在的目录。 Zeppelin Java选项设置有关Spark部署的信息。 这些选项在此处的Spark文档中说明。

这应该是您在命令行中需要做的所有事情……。 启动Zeppelin服务器,执行

bin/zeppelin-daemon.sh start

现在,您需要配置Zeppelin以使用您的Spark集群。 将浏览器指向

http://:8080

单击解释器(页面顶部),然后编辑Spark部分:

  • 主==纱线客户

如果正在使用HiveServer2,也可以在此页面上配置HiveServer2。 现在,单击“笔记本”(页面顶部),然后选择教程。

笔记

注意Zeppelin运行的端口号。

  • 如果您在群集的节点上,则端口8080可能会与任意数量的Hadoop服务冲突。
  • 在conf目录(步骤8和9)中,还有一个zeppelin-site.xml模板。 复制并编辑...。 端口号在顶部。

翻译自: https://www.javacodegeeks.com/2015/11/building-apache-zeppelin-mapr-using-spark-yarn.html




推荐阅读
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行-- ... [详细]
  • 这篇文章给大家分享的是有关kylin怎样安装使用的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。 环境我选的kylin版 ... [详细]
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  •        在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下:       1、CentOS6.7下安装JDK,地址:http:b ... [详细]
  • 前言折腾了一段时间hadoop的部署管理,写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动,我已经把部署的步骤写成脚本,各位只需要按着本文把脚本执行完,整个环境基本就部署 ... [详细]
  • Hadoop之Yarn
    目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]
  • 马蜂窝数据总监分享:从数仓到数据中台,大数据演进技术选型最优解
    大家好,今天分享的议题主要包括几大内容:带大家回顾一下大数据在国内的发展,从传统数仓到当前数据中台的演进过程;我个人认为数 ... [详细]
  • hbase伪集群搭建
    hbase数据存储有三种跑法,跑在本地磁盘上、跑在伪分布式上、跑在完全分布式上--------额。。。官网的文档挺坑爹的,结合官网、百度、谷歌的各种 ... [详细]
  • flink访问hive(上)——在idea中本地运行
    本文中使用的flink版本1.13,hive版本2.3.4使用工具idea2020有个朋友问了我这个问题,他说他试了很多网上的方法都跑不了, ... [详细]
  • 开发笔记:数据分析工具篇——pyspark应用详解
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了数据分析工具篇——pyspark应用详解相关的知识,希望对你有一定的参考价值。前面 ... [详细]
  • 本文介绍了在Linux下安装和配置Kafka的方法,包括安装JDK、下载和解压Kafka、配置Kafka的参数,以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例,帮助读者快速完成Kafka的安装和配置。 ... [详细]
  • 实践解析可视化开发平台FlinkSever优势
    实践,解析,可,视,化,开发,平台,fli ... [详细]
author-avatar
傻孩纸黄国帅哟
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有