hadoop03集群搭建常见问题集群安装的五种模式

作者：月逝彼山 | 来源：互联网 | 2023-09-24 20:25

一：搭建hadoop常见问题查看集群启动日志存放集群的日志信息位置在hadoop-2.7.6安装目录下的logs，比如我的在：home

一&＃xff1a;搭建hadoop常见问题

查看集群启动日志

存放集群的日志信息位置在hadoop-2.7.6安装目录下的logs
&＃xff0c;比如我的在&＃xff1a;/home/hadoop/apps/hadoop-2.7.6/logs

日志文件名字含义&＃xff1a; hadoop&＃xff08;进程归属&＃xff09;-hadoop&＃xff08;用户名&＃xff09;-datanode&＃xff08;进程名&＃xff09;-hadoop01&＃xff08;节点&＃xff09;.log

start-dfs.sh获取start-yarn.sh启动的时候某一个进程启动不了&＃xff1f;

解决办法一&＃xff1a;

先检查日志文件有没有报错日志文件报错&＃xff0c;排除错误重新启动。

解决办法二&＃xff1a;

如果日志文件没有报错&＃xff0c;查看是否配置好了免密登录。

解决办法三&＃xff1a;

先把集群全部停了&＃xff0c;再重启。分别执行&＃xff1a;stop-dfs.sh&＃xff0c;start-dfs.sh

解决办法四&＃xff1a;

检查hdfs的相关进程看看哪个没有启动&＃xff0c;再单独启动。

单独启动的命令&＃xff1a;hadoop-daemon.sh start hdfs的进程hadoop-daemon.sh start namenodehadoop-daemon.sh start datanodehadoop-daemon.sh start secondarynamenode哪个节点上缺在哪一个节点上执行yarn的相关命令&＃xff0c;单独启动的命令:yarn-daemon.sh start yarn的相关命令yarn-daemon.sh start resourcemanageryarn-daemon.sh start nodemanager

格式化的问题

hdfs的格式化在做什么事情&＃xff1a;创建namenode的数据存储目录&＃xff0c;生成最初的元数据。在这个元数据中有一个重要的信息&＃xff1a;VERSION—-记录的是集群当前的版本号&＃xff0c; 每次格式化一次都会生成一个全新的。

成功的格式化只能进行一次。如果不成功&＃xff0c;则需要找到原因&＃xff0c;直到成功。如果成功格式化之后启动了集群后又进行格式化&＃xff0c;namenode的集群id信息会发生改变&＃xff0c;datanode记录的集群id还是原来的&＃xff0c;这时候就会造成datanode、namenode启动不了。

时间同步问题

机器不能联网&＃xff1a;

手动进行同步&＃xff1a;date -s “”

能联网的时候&＃xff1a;可以用外部的时间服务器或者自己搭建时间服务器来同步时间

ntpdate “时间同步器的网址”

目的&＃xff1a;是为了和北京时间保持一致吗&＃xff1f;不是

是为了集群中各个节点之间的时间保持一致。

环境变量的配置有问题&＃xff1a;

/etc/profile------系统环境变量~/.bashrc-------用户环境变量----针对当前用户的~/.bash_profile-----用户环境变量----针对当前用户的加载顺序&＃xff1a;系统的环境变量》》》》~/.bash_profile》》》~/.bashrc生效顺序&＃xff1a;最后加载的最终生效

二&＃xff1a;集群安装中的5种模式

单机模式

解压就可以。不存在分布式文件系统&＃xff0c;所有文件存取都是本地模式&＃xff0c;数据来源于本地存储。
生产上基本不用&＃xff0c;只在本地测试时使用。

伪分布式

安装在一个节点上&＃xff0c;是存在分布式文件系统的&＃xff0c;只是所有的进程运行在一台机器上。同样存在主从结构&＃xff0c;也是分布式。
生产中不会用&＃xff0c;个人学习的时候会用。

完全分布式

存在主从结构&＃xff0c;运行在多个节点上。存在一个主节点&＃xff0c;多个从节点。是一种多从的结构。
在生产中用得少&＃xff0c;在集群的节点数比较少的时候才用。
缺陷&＃xff1a;一个主节点&＃xff0c;一个冷备份节点

主节点的压力比较大&＃xff0c;如果有一天namenode宕机了&＃xff0c;集群就不能正常访问&＃xff0c;集群处于瘫痪状态。会存在主节点的单点故障。

高可用&＃xff1a;

多个主节点&＃xff0c;多个从节点。目前使用最广泛的集群模式。

多个主节点中同一时间只有一个主节点对外提供服务&＃xff0c;我们称之为active namenode,其他主节点处于热备份状态 standby namenode&＃xff0c;时刻监控active主节点的状态&＃xff0c;当active namenode宕机的时候 standny namenode立即进行切换,切换为active namenode,standby namenode必须实时和active namenode的元数据保持一致。

这种集群模式依赖于zookeeper&＃xff0c;虽然有多个主节点&＃xff0c;但是同一时间只有一个是active的&＃xff0c;集群中真正服务的主节点仍然是一台机器的能力。举个例子&＃xff0c;如果我的集群非常大&＃xff0c;10000台从节点机器&＃xff0c;每台datanode的存储数据的元数据信息都需要存储在namenode中&＃xff0c;namenode的压力会很大&＃xff0c;namenode存储的东西过多&＃xff0c;进行数据访问的时候效率过低。

我们需要帮namenode分担压力&＃xff0c;同一时间是否可以有多个主节点对外提供服务&＃xff1f;

联邦模式

适用于超大集群。

同一时间会有多个namenode共同服务&＃xff0c;多个namenode之间相互协作的时候依赖于块池id,来区分哪个数据归属哪一个namenode管理。多个namenode共同管理集群中的所有datanod&＃xff0c;分工明确的。每个namenode只负责管理datanode上自己块池的数据

块池&＃xff1a;联邦模式中标志数据块的管理权限的。格式例如&＃xff1a;blockpoolID&＃61;BP-54673466-192.168.40.201-1531445892504。这个指的是当前的namenode所管理的块池的名字

hadoop四个模块

common

hdfs

mapreduce

yarn

推荐阅读

ip
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
int
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
search
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
sum
伸缩性|发生_分布式文件系统设计，该从哪些方面考虑？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了分布式文件系统设计，该从哪些方面考虑？相关的知识，希望对你有一定的参考价值。点击上方关注“ ... [详细]

蜡笔小新 2023-10-16 17:43:40
sum
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
go
Zookeeper 总结与面试题汇总

Zookeeper总结与面试题汇总,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-15 12:51:19
int
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
go
iServer集成Hadoop YARN集群，详细操作指南解析分布式分析

HadoopYARN集群是一个通用的资源管理平台，可为各类计算框架提供资源的管理和调度。其核心是通过一个全局的资源管理器来实现分离资源管理与作业调度监控。Hadoop ... [详细]

蜡笔小新 2023-10-14 16:24:53
go
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
go
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
int
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
int
Zookeeper详解应用程序（七）

Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]

蜡笔小新 2023-10-16 08:30:29
hash
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
ip
Hadoop框架之HDFS的shell操作

既然HDFS是存取数据的分布式文件系统，那么对HDFS的操作，就是文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的she ... [详细]

蜡笔小新 2023-10-15 16:12:13
java
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56

月逝彼山

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章