当前位置: 开发笔记 > 编程语言 > 正文

开源项目丨一文详解一站式大数据平台运维管家ChengYing如何部署Hadoop集群

作者：一坛苦水_179 | 来源：互联网 | 2023-06-06 10:15

课件获取：关注公众号“数栈研习社”，后台私信“ChengYing”获得直播课件视频回放：点击这里ChengYing开源项目地址：github丨gitee喜欢我们的项

课件获取：关注公众号“数栈研习社”，后台私信 “ChengYing” 获得直播课件

视频回放：点击这里

ChengYing开源项目地址：github 丨 gitee 喜欢我们的项目给我们点个__ STAR！STAR！！STAR！！！（重要的事情说三遍）__

技术交流钉钉 qun：30537511

本期我们带大家回顾一下海洋同学的直播分享《ChengYing部署Hadoop集群实战》

一、Hadoop集群部署准备
在部署集群前，我们需要做一些部署准备，首先我们需要按照下载Hadoop产品包：

● Mysql

https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Mysql_5.7.38_centos7_x86_64.tar

● Zookeeper

https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Zookeeper_3.7.0_centos7_x86_64.tar

● Hadoop

https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Hadoop_2.8.5_centos7_x86_64.tar

● Hive

https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Hive_2.3.8_centos7_x86_64.tar

● Spark

https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Spark_2.1.3-6_centos7_x86_64.tar

接着我们可以将下载好的产品包直接通过ChengYing界面上传，具体路径是：部署中心—组件管理—组件列表—上传组件安装包：

可以通过两种模式上传产品包：

本地上传方式

产品包在先下载到本机电脑存储中，点击本地上传，选在产品包上传。

file

网络上传模式

直接填写产品包网络地址上传（ChengYing的网络需要和产品包网络互通）。

file

Hadoop集群部署流程
做完准备后，我们可以开始进入集群部署，Hadoop集群部署流程包括以下步骤：

集群部署顺序说明

首先需要部署Mysql和zookeeper，因为Hadoop需要依赖zookeeper，Hive元数据存储使用的是Mysql；
其次需要部署Hadoop，Hive
最后部署Spark，因Spark依赖hivemetastore

PS：部署顺序是不可逆的

Hadoop集群部署角色分布

file

产品包标准部署流程

file

选择需要部署的产品包，点击部署按钮，然后选择对应需要部署的集群，默认集群为dtstack，集群名称可配置；
下一步选择需要部署的服务，默认产品包下的服务都会部署，可以根据实际需求部署，在此阶段可以对服务的配置文件进行修改，例如：修改Mysql连接超时时间等；
最后点击部署，等待部署完成。

Mysql服务部署流程演示

接下来我们以Mysql服务部署流程来为大家实际演示下整体流程：

● 第一步：选择集群

file

● 第二步：选择产品包

file

● 第三步：选择部署节点

file

● 第四步：部署进度查看

file

● 第五步：部署后状态查看

file

Hadoop集群使用与运维
集群部署完毕后，若有需求可以进行配置变更操作。

● 配置修改

例如：如果需要操作修改yarn的配置文件，可以先选择yarn-site.xml文件，可以在搜索框搜索需要修改的配置文件key，如cpu_vcores。

● 配置保存

● 配置下发

Taier对接Hadoop操作流程
ChengYing除了可自动部署运维外，还可以对接Taier部署Hadoop集群，Taier 是一个大数据分布式可视化的DAG任务调度系统，旨在降低ETL开发成本、提高大数据平台稳定性，大数据开发人员可以在 Taier 直接进行业务逻辑的开发，而不用关心任务错综复杂的依赖关系与底层的大数据平台的架构实现，将工作的重心更多地聚焦在业务之中。

利用ChengYing部署管理Taier服务，可以做到实时监控Taier的服务状态，随时界面修改Taier配置等。Taier对接Hadoop集群的操作流程如下：

首先需要在Taier控制台选择多集群配置，新增一个集群；

然后配置sftp、资源调度组件、存储组件和计算组件；

配置完成后需要保存并且测试连通性。

注意事项：

在对接过程中，sftp主机需要和Taier网络相通，并且sftp配置主机的路径需要存在，如果不存在，需要手动创建。

Taier的部署网络需要与Hadoop网络相通，如果运行任务，需要在Taier所在节点加入Hadoop集群的Host配置;编译/etc/hosts文件，增加IP Hostname。

● 第一步：配置公共组件

首先进入Taier登陆界面，点击控制台，新增集群，然后进入多集群管理界面，配置公共组件，选择SFTP，进入SFTP配置界面。

● 第二步：配置SFTP

然后配置SFTP的host，认证方式，默认采用用户名密码方式，输入用户名和密码，并且输入path路径，此路径需要在主机上存在，如果不存在，需要手动创建一个SFTP路径.

● 第三步：资源调度组件配置

需要到部署Hadoop服务器到/opt/dtstack/Hive/hive_pkg/conf目录下获取hive-site.xml文件，下载到本地；

到/opt/dtstack/Hadoop/Hadoop_pkg/etc/Hadoop目录下获取hdfs-site.xml、core-site.xml、yarn-site.xml文件，下载到本地；

这四个文件压缩成一个zip包，上传这个压缩包。

● 第四步：计算组件配置

选择计算组件模块，选择需要对接的计算引擎Hive和Spark，选择Hive和Spark的版本，填写对应的jdbc（jdbc:hive://ip:port/）连接串，然后点击保存，测试连通性。

注意：jdbcurl中ip分别为Hive组件的hiveserver2和Spark中的thrifterserver所在节点ip。

● 第五步：配置Hive和Spark

以下是配置完成Hive和Spark组件后，测试连通性的状态。

注意：本地演示环境Hadoop未开启安全，Hive和Spark只需要配置jdbcurl即可。

Hadoop集群近期规划
最后和大家聊聊Hadoop集群近期规划，近期主要有三大规划：

● 产品包制作

制作ChengYing部署产品包的流程及实践。

● ChunJun&Taier产品包

制作可以用ChengYing部署的Taier和chunjun的产品包

● Hadoop运维

通过ChengYing运维大数据集群；

通过ChengYing一键开启Hadoop集群安全。

袋鼠云开源框架钉钉技术交流qun（30537511），欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息，开源项目库地址：https://github.com/DTStack

推荐阅读

spark
如何利用 Myflash 解析 binlog ?

本文主要介绍了对Myflash的测试，从准备测试环境到利用Myflash解析binl ... [详细]

蜡笔小新 2023-12-11 09:13:37
spark
如何在服务器主机上实现文件共享的方法和工具

本文介绍了在服务器主机上实现文件共享的方法和工具，包括Linux主机和Windows主机的文件传输方式，Web运维和FTP/SFTP客户端运维两种方式，以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外，还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK，以及主机迁移服务会收集的源端服务器信息。 ... [详细]

蜡笔小新 2023-12-13 13:23:48
default
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
python
开发笔记:Python之路第一篇：初识Python

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Python之路第一篇：初识Python相关的知识，希望对你有一定的参考价值。Python简介& ... [详细]

蜡笔小新 2023-10-17 18:58:48
spring
TiDB | TiDB在5A级物流企业核心系统的应用与实践

TiDB在5A级物流企业核心系统的应用与实践前言一、业务背景科捷物流概况神州金库简介二、现状与挑战神州金库现有技术体系业务挑战应对方案三、TiDB解决方案测试迁移收益问题四、说在最 ... [详细]

蜡笔小新 2023-10-17 14:03:52
php
【转】腾讯分析系统架构解析

TA（TencentAnalytics，腾讯分析）是一款面向第三方站长的免费网站分析系统，在数据稳定性、及时性方面广受站长好评，其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]

蜡笔小新 2023-10-16 19:05:20
php
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
php
PHP程序员玩转Linux系列搭建FTP代码开发环境

PHP程序员玩转Linux系列搭建FTP代码开发环境-PHP程序员玩转Linux系列文章：有些同学可能觉得我写的都是啥yum安装的，随便配置一下而已，没啥技术含量，我的目的是让大家 ... [详细]

蜡笔小新 2023-10-13 19:53:40
php
阿里云如何部署php(2023年最新分享)

导读：很多朋友问到关于阿里云如何部署php的相关问题，本文编程笔记就来为大家做个详细解答，供大家参考，希望对大家有所帮助！一起来看看吧！本文目录一览： ... [详细]

蜡笔小新 2023-10-13 10:23:37
php
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
php
RouterOS 5.16软路由安装图解教程

本文介绍了如何安装RouterOS 5.16软路由系统，包括系统要求、安装步骤和登录方式。同时提供了详细的图解教程，方便读者进行操作。 ... [详细]

蜡笔小新 2023-12-12 10:22:22
python
如何在mysql shell命令中执行sql命令行

如何在mysqlshell命令中执行sql命令行本文介绍MySQL8.0shell子模块Util的两个导入特性importTableimport_table(JS和python版本 ... [详细]

蜡笔小新 2023-10-17 08:53:00
python
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
python
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
python
使用SFTP密钥进行根目录不受限制的指定（第三部分）

20190127之前限制ChrootDirectory之后，需要对原有环境改造较多1.之前配置的网站都是直接存在在了varwww2、还没有部署网站的新服务器&#x ... [详细]

蜡笔小新 2023-10-13 16:09:50