大数据组件搭建步骤

为什么80%的码农都做不了架构师&＃xff1f;>>>

本文是在自己工作中用到各个组件的安装方式的记录&＃xff0c;包括&＃xff1a;hadoop,hbase,kafka,es,hive,flume,druid&＃xff0c;flink&＃xff0c;spark等&＃xff0c;在持续更新中。具体的使用记录另有博文具体介绍。

hdfs

这里是列表文本Hadoop有三种分布模式&＃xff1a;单机模式、伪分布、全分布模式&＃xff0c;本文讲解分布式搭建方式。假设有a,b,c三个节点。

第一步&＃xff1a;新建用户

# 增加用户&＃xff0c;并赋予其密码 $ adduser hadoop $ passwd hadoop # ur password for eagle user # 赋予用户root权限 $ chmod u&＃43;w /etc/sudoers $ vim /etc/sudoers# 找到 &＃96;root ALL&＃61;(ALL) ALL&＃96;这行&＃xff0c;并在下面添加hadoop用户hadoop ALL&＃61;(ALL) ALL $ chmod u-w /etc/sudoers # 切换到 hadoop用户 $ su - hadoop $ cd /home/hadoop # 存放软件目录 & 安装目录 & 日志目录 $ mkdir install && mkdir software && mkdir logs

第二步&＃xff1a;修改节点用户名/安装jdk/ssh免密登陆&＃xff1a;

##修改用户名 $ vim /etc/hostname //三个节点分别叫bigdata-01&＃xff0c;bigdata-02,bigdata-03. 然后重启节点。##安装jdk参考博文[ZOOKEEPER安装及测试](https://my.oschina.net/112612/blog/1584832 "ZOOKEEPER安装及测试")## ssh免密登陆参见博文[免密登陆脚本&＃xff08;shell版&＃xff09;](https://my.oschina.net/112612/blog/1560133 "免密登陆脚本&＃xff08;shell版&＃xff09;")

第三部下载并安装hadoop

$ cd /home/hadoop/install/ $ wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.8.4/hadoop-2.8.4.tar.gz $ tar zxvf hadoop-2.8.4.tar.gz -C ~/software/ $ cd ~/software/ $ ln -s hadoop-2.8.4/ hadoop $ cd hadoop/ $ bin/hadoop versionHadoop 2.8.4

配置

$ vim ~/.bashrc# .bashrc# Source global definitionsif [ -f /etc/bashrc ]; then. /etc/bashrcfi# User specific aliases and functions# Hadoop Environment Variablesexport HADOOP_HOME&＃61;~/software/hadoopexport HADOOP_INSTALL&＃61;$HADOOP_HOMEexport HADOOP_MAPRED_HOME&＃61;$HADOOP_HOMEexport HADOOP_COMMON_HOME&＃61;$HADOOP_HOMEexport HADOOP_HDFS_HOME&＃61;$HADOOP_HOMEexport YARN_HOME&＃61;$HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR&＃61;$HADOOP_HOME/lib/nativeexport JAVA_HOME&＃61;~/software/javaexport PATH&＃61;$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$JAVA_HOME/bin $ source ~/.bashrc

配置文件处理

一共涉及以下几个文件

~/hadoop-2.8.4/etc/hadoop/hadoop-env.sh ~/hadoop-2.8.4/etc/hadoop/yarn-env.sh ~/hadoop-2.8.4/etc/hadoop/slaves ~/hadoop-2.8.4/etc/hadoop/core-site.xml ~/hadoop-2.8.4/etc/hadoop/hdfs-site.xml ~/hadoop-2.8.4/etc/hadoop/mapred-site.xml ~/hadoop-2.8.4/etc/hadoop/yarn-site.xml #以上文件默认不存在的&＃xff0c;可以复制相应的template文件获得

在修改之前&＃xff0c;首先新建3个文件夹

$ cd /home/hadoop/software/ mkdir -p /data/tmp mkdir -p /data/dfs/namenode mkdir -p /data/dfs/datanode

修改文件1.hadoop-env.sh

修改JAVA_HOME值&＃xff08;export JAVA_HOME&＃61;/home/software/java&＃xff09;

修改文件2.yarn-env.sh

修改JAVA_HOME值&＃xff08;export JAVA_HOME&＃61;/home/software/java&＃xff09;

修改文件3:slaves

bigdata-02 bigdata-03

修改文件4: $ vim ~/software/hadoop/etc/hadoop/core-site.xml

hadoop.tmp.dirfile:/home/hadoop/software/hadoop/data/tmpAbase for other temporary directories. fs.defaultFShdfs://bigdata-01:9000 io.file.buffer.size131072

修改文件5: $ vim ~/software/hadoop/etc/hadoop/hdfs-site.xml

dfs.replication3dfs.namenode.name.dirfile:/home/hadoop/software/data/dfs/namenodedfs.datanode.data.dirfile:/home/hadoop/software/data/dfs/datanodedfs.webhdfs.enabledtruedfs.namenode.secondary.http-addressbigdata-01:9001

修改文件6:mapred-site.xml

mapreduce.framework.nameyarn mapreduce.jobhistory.addressbigdata-01:10020 mapreduce.jobhistory.webapp.addressbigdata-01:19888

修改文件7&＃xff1a;yarn-site.xml

yarn.nodemanager.aux-servicesmapreduce_shuffle yarn.nodemanager.aux-services.mapreduce.shuffle.classorg.apache.hadoop.mapred.ShuffleHandler yarn.resourcemanager.addressbigdata-01:8032 yarn.resourcemanager.scheduler.addressbigdata-01:8030 yarn.resourcemanager.resource-tracker.addressbigdata-01:8031 yarn.resourcemanager.admin.addressbigdata-01:8033 yarn.resourcemanager.webapp.addressbigdata-01:8088

修改日志文件

$ mkdir -p /home/hadoop/logs/hadoop-hdfs/ $ vim ~/software/hadoop/etc/hadoop/log4j.properties# log4j.appender.RFAAUDIT.File&＃61;${hadoop.log.dir}/hdfs-audit.loglog4j.appender.RFAAUDIT.File&＃61;/home/hadoop/logs/hadoop-hdfs/hdfs-audit.log

将以上操作的文件复制到另外两个节点上。然后在bigdata-01上执行格式化并启动hadoop

$ bin/hdfs namenode -format cd ../sbin;./start-dfs.sh

bigdata-01(master)出现以下现象则成功启动 [hadoop&＃64;lihao ~]$ jps 2324 NameNode 2839 Jps 2601 SecondaryNameNode slave上则只有datanode进程。

启动yarn:

start-yarn.sh

最后在浏览器中输入:http://ip:50070,如果出现hadoop界面则安装成功&＃xff0c;如果jps没有问题&＃xff0c;而界面没有出现&＃xff0c;则检查防火墙。

hbase

由于只有一台服务器&＃xff0c;故只能搭建伪分布式集群。由于搭建hbase必须有zk和jdk&＃xff0c;故也顺道搭建了zk的伪分布集群。

zk伪分布式集群搭建

所谓的“伪分布式集群”就是在一台服务器中&＃xff0c;启动多个Zookeeper实例。“完全分布式集群”是每台服务器&＃xff0c;启动一个Zookeeper实例。
参见【zk操作】中下载zk安装包

cp conf/zoo_sample.cfg conf/zoo1.cfg vim zoo1.cfg dataDir&＃61;/home/hadoop/software/zookeeper/zoo1/data clientPort&＃61;2181 #增加1 server.1&＃61;lihao:2888:3888 server.2&＃61;lihao:2889:3889 server.3&＃61;lihao:2890:3890 cp conf/zoo_sample.cfg conf/zoo2.cfg vim zoo1.cfg dataDir&＃61;/home/hadoop/software/zookeeper/zoo2/data clientPort&＃61;2182 #增加2 server.1&＃61;lihao:2888:3888 server.2&＃61;lihao:2889:3889 server.3&＃61;lihao:2890:3890 cp conf/zoo_sample.cfg conf/zoo3.cfg vim zoo1.cfg dataDir&＃61;/home/hadoop/software/zookeeper/zoo3/data clientPort&＃61;2183 #增加 server.1&＃61;lihao:2888:3888 server.2&＃61;lihao:2889:3889 server.3&＃61;lihao:2890:3890

然后执行

mkdir -p ..../zookeeper/zoo1/data mkdir -p ..../zookeeper/zoo2/data mkdir -p ..../zookeeper/zoo3/data echo &＃39;1&＃39;>zoo1/data/myid echo &＃39;2&＃39;>zoo1/data/myid echo &＃39;3&＃39;>zoo1/data/myid

然后启动三个节点

bin/zkServer.sh start conf/zoo1.cfg bin/zkServer.sh start conf/zoo2.cfg bin/zkServer.sh start conf/zoo3.cfg

最后检查每个节点的状态&＃xff1a;

bin/zkServer.sh status conf/zooX.cfg

hbase安装

下载链接

修改conf/hbase-env.sh

export JAVA_HOME&＃61;JDK_PATH export HBASE_CLASSPATH&＃61;/home/hadoop/software/hbase/conf export JAVA_CLASSPATH&＃61;.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export HBASE_OPTS&＃61;"-XX:&＃43;UseConcMarkSweepGC" export HBASE_MANAGES_ZK&＃61;true [如果你是使用hbase自带的zk就是true&＃xff0c;如果使用自己的zk就是false]

修改conf/hbase-site.xml

hbase.master A:60000 hbase.master.maxclockskew #时间同步允许的时间差 180000 hbase.rootdir hdfs://A:9000/hbase #hbase共享目录&＃xff0c;持久化hbase数据 hbase.cluster.distributed #是否分布式运行&＃xff0c;false即为单机 true hbase.zookeeper.quorum #zookeeper地址 A,B,C hbase.zookeeper.property.dataDir #zookeeper配置信息快照的位置 /data/hbase/tmp

然后将hadoop的core-site.xml和hdfs-site.xml也复制到该文件夹下。

修改环境变量

$ vim ~/.bash_profile export HBASE_HOME&＃61;/home/hadoop/software/hbase export PATH&＃61;$HBASE_HOME/bin:$PATH # 使配置生效 $ source /etc/profile

将修改后的hbase安装包复制到另外两台上去。

scp -r hbase/ B:/home/hadoop/software/ scp -r hbase/ C:/home/hadoop/software/

然后在B/C上做相同操作。

最后在master节点上启动hbase

start-hbase.sh

然后jps查看进程

6788 HRegionServer 4133 SecondaryNameNode 7768 Jps 3672 QuorumPeerMain 3417 QuorumPeerMain 3865 NameNode 3626 QuorumPeerMain 7386 HMaster 3965 DataNode

最后页面操作显示&＃xff1a;http:A:16010

es/kibana

参见博文ES基础操作

kafka分布式集群搭建

以下为分布式集群搭建&＃xff0c;节点分别为&＃xff1a;a,b,c三个节点。其中zk是安装在zookeeper用户下的&＃xff1b;jdk为kafka用户下。

首先&＃xff1a;kafka集群搭建依赖以下组件&＃xff1a;

jdk>1.7
zookeeper. 以上两个部分参看博文

然后&＃xff0c;下载安装

下载链接为&＃xff1a;kafka
将下载的kafka_2.10-0.8.2.2.tgz包解压至&＃xff5e;/software下&＃xff0c;并

tar -zxvf kafka_2.10-0.8.2.2.tgz ln -s kafka_2.10-0.8.2.2 kafka cd kafka/config vim server..properties ###### broker.id&＃61;0 #当前机器在集群中的唯一标识&＃xff0c;和zookeeper的myid性质一样,另外两台可分别为1&＃xff0c;2 port&＃61;9092 #当前kafka对外提供服务的端口默认是9092 num.network.threads&＃61;3 #这个是borker进行网络处理的线程数 num.io.threads&＃61;8 #这个是borker进行I/O处理的线程数 log.dirs&＃61;/opt/kafka/kafkalogs/ #消息存放的目录&＃xff0c;这个目录可以配置为“&＃xff0c;”逗号分割的表达式&＃xff0c;上面的num.io.threads要大于这个目录的个数这个目录&＃xff0c;如果配置多个目录&＃xff0c;新创建的topic他把消息持久化的地方是&＃xff0c;当前以逗号分割的目录中&＃xff0c;那个分区数最少就放那一个 socket.send.buffer.bytes&＃61;102400 #发送缓冲区buffer大小&＃xff0c;数据不是一下子就发送的&＃xff0c;先回存储到缓冲区了到达一定的大小后在发送&＃xff0c;能提高性能 socket.receive.buffer.bytes&＃61;102400 #kafka接收缓冲区大小&＃xff0c;当数据到达一定大小后在序列化到磁盘 socket.request.max.bytes&＃61;104857600 #这个参数是向kafka请求消息或者向kafka发送消息的请请求的最大数&＃xff0c;这个值不能超过java的堆栈大小 num.partitions&＃61;1 #默认的分区数&＃xff0c;一个topic默认1个分区数 log.retention.hours&＃61;168 #默认消息的最大持久化时间&＃xff0c;168小时&＃xff0c;7天 message.max.byte&＃61;5242880 #消息保存的最大值5M default.replication.factor&＃61;2 #kafka保存消息的副本数&＃xff0c;如果一个副本失效了&＃xff0c;另一个还可以继续提供服务 replica.fetch.max.bytes&＃61;5242880 #取消息的最大直接数 log.segment.bytes&＃61;1073741824 #这个参数是&＃xff1a;因为kafka的消息是以追加的形式落地到文件&＃xff0c;当超过这个值的时候&＃xff0c;kafka会新起一个文件 log.retention.check.interval.ms&＃61;300000 #每隔300000毫秒去检查上面配置的log失效时间&＃xff08;log.retention.hours&＃61;168 &＃xff09;&＃xff0c;到目录查看是否有过期的消息如果有&＃xff0c;删除 log.cleaner.enable&＃61;false #是否启用log压缩&＃xff0c;一般不用启用&＃xff0c;启用的话可以提高性能 zookeeper.connect&＃61;a:2181,b:2181,c2181 #设置zookeeper的连接端口 #####

启动

先启动zk&＃xff0c;然后启动kafka

./bin/kafka-server-start.sh -daemon ./config/server.properties &

然后集群的验证等步骤参看博文

spark

参见博文spark安装测试

druid

storm

kafka connect

redis

flume

flume安装使用特别简单,新建用户赋权&＃xff0c;然后下载安装包。flume-1.7

解压至software文件夹&＃xff1b;
修改flume的conf/flume-env.sh中的JAVA_HOME值。 3.验证是否安装成功&＃xff1a;bin/flume-ng version

hive

未完&＃xff0c;待续。。。

大数据组件搭建步骤

hdfs

第一步&＃xff1a;新建用户

第二步&＃xff1a;修改节点用户名/安装jdk/ssh免密登陆&＃xff1a;

第三部下载并安装hadoop

配置文件处理

启动yarn:

hbase

hbase安装

es/kibana

kafka分布式集群搭建

首先&＃xff1a;kafka集群搭建依赖以下组件&＃xff1a;

然后&＃xff0c;下载安装

启动

spark

druid

storm

kafka connect

redis

flume

hive

Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

什么是大数据lambda架构

Centos7.6安装Gitlab教程及注意事项

Linux下Kafka单机安装配置方法（实操成功）

2021最新总结网易/腾讯/CVTE/字节面经分享（附答案解析）

ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES

Hadoop2.6.0 + 云centos +伪分布式只谈部署

ZooKeeper 学习

Hadoop源码解析1Hadoop工程包架构解析

CentOS 7配置SSH远程访问及控制

Kylin 单节点安装

hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们如何在kafkaconect分发模式下手动定义主题分区和复制

python zookeeeper 学习和操作

Zookeeper详解应用程序（七）

大数据组件搭建步骤

hdfs

第一步&＃xff1a;新建用户

第二步&＃xff1a;修改节点用户名/安装jdk/ssh免密登陆&＃xff1a;

第三部 下载并安装hadoop

配置文件处理

启动yarn:

hbase

hbase安装

es/kibana

kafka分布式集群搭建

首先&＃xff1a;kafka集群搭建依赖以下组件&＃xff1a;

然后&＃xff0c;下载安装

启动

spark

druid

storm

kafka connect

redis

flume

hive

第三部下载并安装hadoop