热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hadoop基础----hadoop实战(六)-----hadoop管理工具---ClouderaManager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多



我们在之前的文章中已经初步介绍了Cloudera。

hadoop基础----hadoop实战(零)-----hadoop的平台版本选择

从版本选择这篇文章中我们了解到除了hadoop官方版本外很多公司都对hadoop进行了改版发布,其中Cloudera就是其中最成型的发行版本,并且配备了相应的管理工具。


本篇文章我们就来学习Cloudera的相关知识。


什么是CDH

Cloudera's Distribution for Hadoop(即Cloudera公司发布的Hadoop,简称CDH)基于最新稳定版本的Apache Hadoop,有许多补丁、向后移植和更新。Cloudera公司以多种不同的形式进行发布,包括源码和二进制tar文件、RPM ,  Debian包、VMware image和在云上运行CDH的脚本。CDH是在Apache 2.0许可下发布的自由软件,用户可从http: //www. cloudera. com/hadoop 获得。

为了简化部署,Cloudera还在公共的yum和apt存储库中提供了若干个包,因此只用一条指令就能在计算机上安装和配置Hadoop。即使是新手用户,不借助手册也可成功安装整个Hadoop集群。






CDH支持的组件

CDH管理着跨组件版本,并提供一个稳定的平台供许多包一起运行。以CDH3为例,它包含下列包,其中许多包都是需要我们去学习掌握的:
    HDFS—自我修复的分布式文件系统
    MapReduce—强大的并行数据处理框架
    Hadoop Common—一组支持Hadoop子项目的工具
    HBase—支持随机读/写访问的Hadoop数据库
    Hive—在大数据集合上的类SQL查询和表
    Pig—数据流语言和编译器
    Oozie针对互相依赖的Hadoop作业的工作流
    Sqoop利用集成到Hadoop的数据库和数据仓库
    Flume—高可靠、可配置的数据流集合
    Zookeeper—面向分布式应用的协调服务
    Hue—可视化Hadoop应用的用户接口框架和SDK

目前最新版本的CDH包含了哪些组件可查看(当然越新版本的支持的组件越多)

http://www.cloudera.com/developers/inside-cdh.html


组件的详细版本号只能在安装完成后才能查看出来,我目前没有在官网中找到对应表。



至于之前版本哪些组件最少需要哪个CDH的版本可查看

http://www.cloudera.com/documentation/enterprise/release-notes/topics/rn_consolidated_pcm.html


要下载CDH,请访问http: //www. cloudera. com/downloads/ 。

更多cloudera的信息可查看官网http://www.cloudera.com/



CDH(Cloudera)与hadoop(apache官方)对比

(1) CDH对Hadoop版本的划分非常清晰,只有两个系列的版本,分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;比Apache hadoop在兼容性,安全性,稳定性上有增强。  

(2)CDH3版本是基于Apache  hadoop  0.20.2改进的,并融入了最新的patch,CDH4版本是基于Apache hadoop 2.X改进的,CDH总
是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提早发布,更新速度比Apache官方快。

(3)安全 CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证 

(4)CDH文档清晰,很多采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。 

(5)CDH支持Yum/Apt包,Tar包,RPM包,CM安装,Cloudera Manager三种方式安装,Apache hadoop只支持Tar包安装。


  注:CDH使用推荐的Yum/Apt包安装时,有以下几个好处: 
1、联网安装、升级,非常方便 
2、自动下载依赖软件包 

3、Hadoop生态系统包自动匹配,不需要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。

4、自动创建相关目录并软链到合适的地方(如conf和logs等目录);自动创建hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程中相关目录的权限。





CDH版本介绍

Cloudera公司的发行版,我们将该版本称为CDH。

很多新手问的最多的问题是,哪个是收费的,那个是免费的。
Cloudera Express版本是免费的
Cloudera Enterprise是需要购买注册码的


截至目前为止,CDH共有5个版本,其中,前两个已经不再更新,最近的两个,分别是CDH4在Apache Hadoop 2.0.0版本基础上演化而来的),CDH5,它们每隔一段时间便会更新一次。

Cloudera以patch level划分小版本,比如patch level为923.142表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch(这些patch是各个公司或者个人贡献的,在Hadoop jira上均有记录),其中923个是最后一个beta版本添加的patch,而142个是稳定版发行后新添加的patch。由此可见,patch level越高,功能越完备且解决的bug越多。
Cloudera版本层次更加清晰,且它提供了适用于各种操作系统的Hadoop安装包,可直接使用apt-get或者yum命令进行安装,更加省事。


版本含义介绍
各版本特性查看
http://www.cloudera.com/documentation/enterprise/release-notes/topics/rg_release_notes_cdh.html



安装包下载

各个版本包的地址:
Cloudera文档汇总
http://www.cloudera.com/content/support/en/documentation.html
CDH4、CDH5包汇总
http://archive.cloudera.com/cdh4/
http://archive.cloudera.com/cdh5/
CM4、CM5包汇总
http://archive.cloudera.com/cm4/
http://archive.cloudera.com/cm5/

官网CDH5下载
http://www.cloudera.com/content/ ... /cdh/cdh-5-1-0.html

以前版本地址:
CDH1~CDH3
http://archive-primary.cloudera.com/cdh/




安装方式

CM(Cloudera Manager)有三种安装方式

第一种使用cloudera-manager-installer.bin在线安装

这种安装方式需要所有机子能上网,只要从官网下载cloudera-manager-installer.bin,然后执行这个bin文件,剩下的就是等待下载和安装。但是这个时间不是一般的长,最好吃个饭,睡个觉,最后看到还在安装过程中。而且网速不好的话有可能会中断。但是是最方便的。



第二种使用rpm、yum、apt-get方式在线安装

这种安装方式也是在线安装需要机子能上网,在网上看的有点眼花缭乱,可能是因为我们对yum、apt、rpm了解的不多造成的,对于Linux基础缺乏的,可以多学习一下这几个linux命令,总的来说:由于rpm依赖关系不好,所以产生了yum,而yum和apt则都是Linux的包管理工具,并且解决了包与包的依赖关系。


第三种使用是Tarballs的方式离线安装

这种方式使用的是tar包,跟hadoop的安装方式是一样的。

我们将在下一篇文章中进行详细的安装步骤记录。


官网对于安装的介绍可查看

http://www.cloudera.com/documentation/enterprise/latest/topics/installation_installation.html




安装失败的处理

由于内存不足或者操作步骤不对,缺失等等原因可能导致安装失败,这时候不能直接第二次安装,需要把cloudrea卸载干净才能进行第二次安装。

卸载的详细步骤我们在后续的文章中会详细记录。



目录结构

由于我们大多采用在线安装的方式,所以初学者根本不知道cloudera安装在了什么位置,详细的目录分析我们在后续的文章中会记录。




CDH开发

CDH开发跟之前我们的hadoop开发其实是一样的,没什么大的区别,还是有2种方式:

一种是安装插件在eclipse中,配置好参数后run on hadoop直接在搭建好的集群中运行。

另一种是自己添加需要的包,在本地测试好方法之后打包成jar上传到linux中在hadoop集群中运行。

详细步骤可参考:

hadoop基础----hadoop实战(四)-----myeclipse开发MapReduce---myeclipse搭建hadoop开发环境并运行wordcount




注意事项

cloudera CM的安装比起hadoop集群的安装对硬件的要求更高。如果是在一台机子中的虚拟机中安装,那这台机子内存至少10G,为什么会这么多,如果少于10G是否可以,答案是可以的,但是后面你会遇到各种问题,或许都找不到答案。
对于cloudera-scm-server就需要至少4G的内存,cloudera-scm-agent的内存至少也需要1.5G以上。那么如果你的机器是8G的,还是很吃力的。
在安装的过程中,后面有很多的服务安装遇到问题的可能性是很大的。




参考文章

http://www.aboutyun.com/thread-9219-1-1.html



推荐阅读
  • 阅读目录一、Hadoop简介二、Hadoop的特性三、hadoop组成与体系结构四、Hadoop安装方式五、Hadoop集群中的节点类型一、Hadoop简介Hadoop是Apac ... [详细]
  • 大数据开发笔记(一):HDFS介绍
    ✨大数据开发笔记推荐:大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试​本文详细介绍大数据hadoop生态圈各部分知识,包括不限 ... [详细]
  • 怎么快速学好大数据开发?
    新如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题,已成为热门大数据领域热门问题,以下是对新手如何学习大数据技术问题的解答! ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • 本文_大数据之非常详细Sqoop安装和基本操作
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识,希望对你有一定的参考价值。大数据大数据之 ... [详细]
  • HBase干货 | 如何优雅的通过Key与Value分离降低写放大难题?
    本文将为大家介绍为什么这样能够有效的降低写放大,然后聊聊几个keyvalue分离系统的结构,包括两篇影响比较广泛的学术论文,以及HBase在keyvalue ... [详细]
  • 架构升级给DolphScheduler带来2~3倍性能提升
     引言大数据任务调度作为大数据建设中的核心基础设施,在经过社区用户们长期的使用中,不少用户对调度也提出了很多新的要求,为此,ApacheDolphinScheduler(Incub ... [详细]
  • 前言本文隶属于专栏《1000个问题搞定大数据技术体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出, ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • python zookeeeper 学习和操作
    1.zookeeeper介绍ZooKeeper是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的 ... [详细]
  • Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]
  • go语言能做什么?很多朋友可能知道Go语言的优势在哪,却不知道Go语言适合用于哪些地方。1、Go语言作为服务器编程语言,很适合处理日志、数据打包、虚拟机处理、文件系统、分布式系统、 ... [详细]
  • [转]ZooKeeper学习第一期Zookeeper简单介绍
    ZooKeeper学习第一期---Zookeeper简单介绍http:www.cnblogs.comsunddenlyp4033574.html一、分布式协调技术在给大家介绍Zoo ... [详细]
author-avatar
红颜弹指老a刹那芳华_623
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有