热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

CDH4简介

原文地址:CDH4简介作者:HadoopChinaWebelievethatduring2012,enterprisedistributionsofHa
原文地址:CDH4简介作者:HadoopChina

We believe that during 2012, enterprise distributions of Hadoop will mature enough that enterprises will accelerate production deployments and begin to yield  tangible organizational value.

— Ben Woo, VP, Storage and Big Data, IDC


随着大数据之说日渐人心,越来越来多的企业把目光投向了Hadoop,希望采用Hadoop来建立其数据驱动平台。因此,如何让Hadoop能更好地满足企业需求,就成为众多Hadoop产商争夺用户的焦点。

一般来说,企业的需求体现在如下几个方面:

-和企业已有的IT系统的结合,以保护企业已有的投资。

-数据和访问安全性,保护商业价值

-可扩展性,允许系统随着企业需求的增长而增长,而无需一次性投入建立一个庞大的系统

-高可靠性,尽量降低或消除down time

- 简易的安装和部署,目前Hadoop人才紧缺,经验普遍欠缺,而系统往往涉及大量的软硬件资源,如何降低管理成本,同时又能达到最优的系统性能,非常关键

-高质量和快速的支持和服务

对此,ClouderaHortonworks这两家提供100%开源Hadoop发行版的公司都在于近期结束的Hadoop Summit召开之前及时推出了其Hadoop产品和解决方案。Cloudera推出了CDH4 GA (General Availability)以及Cloudera Enterprise 4,而Hortonworks则推出了Hortonworks Data Platform 1.0 。这显示了2012年将是Hadoop企业版走向成熟的一年,也将是Hadoop厂商一决雌雄的关键一年。奇怪的是,我注意到,作为纯Hadoop厂商三驾马车之一的MapR这一次却在Hadoop Summit召开期间及前后没有推出更新的稳定版本;更加费解的是,他们也没有派出Speaker参加Summit做主题演讲或技术产品报告,听由这次Summit变成ClouderaHortonworks两家你唱罢我登台的走秀场(两个公司在这次峰会上均有多达10人左右的speaker )。但愿这可能是由于其产品开发档期不同,或者是由于其忙于推出Hadoop-as-a-service而不代表MapR退出Hadoop发行版的竞争(update: MapR于28日公布了和Google合作-在Google Compute Engine上部署运行MapR,加上不久前MapR公布的和Amazon的合作,看来其市场策略更偏重于在云服务市场上的竞争。不过,这些市场应该在可以预见的相当长的时间里跟绝大多数国人无关,至少在争夺中国这个大市场上,是不是意味着MapR拜GFW所赐输在了起跑线上呢)。

作为Hadoop领域里的“老大”和生力军,Cloudera新近推出的CDH4突出的新特性包括以下三方面:

- High Availability/HA

这主要包括Name Node High Availability,以及允许在同一个Cluster里运行CDH3和CDH4(所谓的"Heterogeneous Cluster")。

- Security

除了已经 为HDFS提供的Kerberos,现在可以允许对HBase的表和列进行访问控制;另外,CDH4加入了对Fair Scheduler ACL的支持,对管理和递交到Fair Scheduler Pool的作业进行控制。以往像张三那样可以随心所欲地把作业递交到李四pool里的日子可能一去不复返了 :-)

- Extensibility

这主要是通过加入co-processor和MPv2,允许用户运行更多定制的程序和使用不同的计算平台。


下面对CDH4 GA版的更新做一些概括性的介绍,详细信息可以参考Cloudera网站上的相应文档,下面是其相关Blog报道: http://www.cloudera.com/blog/2012/06/cdh4-and-cloudera-enterprise-4-0-now-available

  • 新的版本号

CDH4采用了新的版本记法。在CDH4之前,CDH按照CDHxUy来命名,譬如CDH3u0, CDH3u1等等。从CDH4开始,版本号命名格式为CDH X.Y.Z。其中X是主版本号,意味着重大变更;Y是次版本号,类似于之前的“update”版本号;Z是点版本号,对应于一些critical fixes。下面是CDH4发行版所包括的组件版本号。

 

Component

Description

CDH3u4 Version

CDH4u0 Version

Apache Hadoop

Reliable, scalable distributed storage and computing

hadoop-0.20.2+923.256

hadoop-2.0.0+73

HDFS

The Hadoop Distributed File System

hadoop-0.20.2+923.256

hadoop-2.0.0+73

Fuse-DFS

Module for mounting HDFS as a traditional file system

hadoop-0.20.2+923.256

hadoop-2.0.0+73

MapReduce

Distributed computing framework for Apache Hadoop

hadoop-0.20.2+923.256

mr1-0.20.2+1213

MapReduce 2

The next-generation of the MapReduce framework

--

hadoop-2.0.0+73

Hadoop Common

A set of utilities that support the Hadoop subprojects

hadoop-0.20.2+923.256

hadoop-2.0.0+73

Apache Flume

Distributed service for collecting and aggregating log and event data

flume-0.9.4+25.43,

flume-1.1.0

flume-1.1.0

Apache HBase

Scalable record and table storage with real-time read/write access

hbase-0.90.6+84.29

hbase-0.92.1+37

Apache Hive

SQL-like language and metadata repository

hive-0.7.1+42.43

hive-0.8.1+59

Apache Mahout

Library of machine learning algorithms for Hadoop

mahout-0.5+9.5

mahout-0.6+15

Apache Oozie

Workflow engine to coordinate Hadoop activities

oozie-2.3.2+27.19

oozie-3.1.3+153

Apache Pig

High-level data flow language

pig-0.8.1+28.32

pig-0.9.2+25

Apache Sqoop

Data transport engine for integrating Hadoop with relational databases

sqoop-1.3.0+5.76

sqoop-1.4.1+27

Apache Whirr

Library for deploying and running Hadoop in the cloud

whirr-0.5.0+4.12

whirr-0.7.1+14

Apache Zookeeper

Highly-reliable distributed coordination service

zookeeper-3.3.5+19.1

zookeeper-3.4.3+14

Hue

Browser-based interface for interacting with Hadoop

hue-1.2.0.0+114.35

hue-2.0.0+49

 

  • 很多属性被重新命名

譬如fs.default.name现在变成了fs.defaultFS。不过不用担心的是,老的名字还能继续被使用。 


  • 包含Flume NG

CDH4及以后版本将主打Flume NG (next generation Flume)Flume NG被重新设计和改写,极大地降低了内存的消耗。目前CDH4仍然包含Flume OG(original Flume),不过将逐渐被淘汰掉。需要注意的是,Flume NGFlume OGAPI上是不兼容的。


  • Name Node Federation

NameNode Federation 允许配置多个name space在多个Name Node上,而这些Name Node之间是相互独立的,不互相通信。这给Hadoop集群带来了更好的伸缩性,更好的性能和容错性。在客户端则可以通过ViewFS从多个Name Space中选取全部或者部分来组建所需的文件系统视图来使用HDFS。这好比在Linux 系统中使用/etc/fstab来安装文件系统到当前运行的系统中。

譬如在下图中,可能有两个Name Node,第一个负责/users,另一个负责/reports。而所有Name Node存储的实际数据(block)则可以存储在任意一个slave node上,也就是说所有的slave nodes为所有的Name Nodes所共享。

[转载]CDH4简介

  • Name Node HA (High Availability)

以前版本里的Name NodeSPOF(Single Point Of Failure)。CDH4则包含了Apache Hadoop 0.23.x引进的HDFS HA特性。通过部署两个Name Node,一个active,另一个standbyHDFS客户(包括Data Node )只与active NN联系,standby NN仍然给active NNCheck Pointing (所以Secondary Name Node不再需要了),同时通过维护active NN的状态来在active NN失效的情况下接管active NN的角色。CDH4支持两种FailOver,自动和手动。

[转载]CDH4简介

值得提出的是,Name Node HAName Node Federation是不互相牵制的。你可以只有HA或者只有Federation,也可以两个都配置。


  • MRv2

MapReduce Version 2, 简称MRv2,也被称为YARN (Yet Another Resource Negotiator),起始于Hadoop 0.23分支。使用CDH4,可以选择运行MRv1或者MRv2,但两者不能在一个集群里同时运行。MRv2 和新旧MapReduce API 没有关系,仅指MapReduce体系结构上的变化。MRv1MRv2应用在源代码上是兼容的。这意味着以前为MRv1 编写的MapReduce程序不需要改写。但如果需要运行在CDH4部署的系统上,不管选择运行MRv1还是MRv2,都需要重新编译生成代码。需要提请注意的是,MRv2 目前还不是Production Ready,所以不要用于生产环境。

MRv1里的一个Job,在MRv2 里则被称为一个Application  每个Cluster拥有一个Resource Manager。每个Slave Node则运行一个Node Manager,来监控和管理该节点上的资源使用情况。在运行Job的时候,和MRv1相似,每个Slave Node运行Map/或者Reduce Task。对应每个Job(application),有一个Application Master(运行在某个Slave Node上),负责管理application的生命周期,向resource manager申请资源,以及监控task的状态等(譬如重启出错任务)。这种体系结构相当于解脱了MRv1 JobTracker繁忙的管理所有资源及调度管理Job/Task状态的职责,使得MRv2能支持在更大的集群上运行更多的MapReduce应用。

[转载]CDH4简介

MRv2重新设计了MapReduce的体系结构,其设计目的是不仅仅支持运行MapReduce,还支持很多其他计算系统,包括有:

Hamster: MPI @ Hadoop

Hama: Bulk Synchronous Parallel (BSP) processing

Giraph: Graph processing framework

当然,以上只是一些简介,更多的了解可以参考Cloudera网站,并下载和实际使用CHD4。

最后,Cloudera把CH4+CM4(Cloudera Manager)号称为最完整最先进的基于Hadoop的企业解决方案,所以,我就顺带简单列举一下作为Hadoop安装部署和管理监控工具的CM4的几个优势,供参考。

-易用性

3-step HA configuration

Multi-cluster management

Backward compatibility

- 功能强大

Heatmaps

Federated NN management

- 易于扩充和集成

Cloudera manager API

LDAP authentication,login against Active Directory

etc.



推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • ZSI.generate.Wsdl2PythonError: unsupported local simpleType restriction ... [详细]
  • flowable工作流 流程变量_信也科技工作流平台的技术实践
    1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下:目前OA流程引擎无法满足企业特定业务流程需求,且移动端体 ... [详细]
  • Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]
  • 本文介绍了OpenStack的逻辑概念以及其构成简介,包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 本文介绍了如何在Azure应用服务实例上获取.NetCore 3.0+的支持。作者分享了自己在将代码升级为使用.NET Core 3.0时遇到的问题,并提供了解决方法。文章还介绍了在部署过程中使用Kudu构建的方法,并指出了可能出现的错误。此外,还介绍了开发者应用服务计划和免费产品应用服务计划在不同地区的运行情况。最后,文章指出了当前的.NET SDK不支持目标为.NET Core 3.0的问题,并提供了解决方案。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • 本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存,其中系统内存占用了一部分SDRAM,而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念,常用于消费电子设备中。此外,文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]
  • 本文介绍了使用C++Builder实现获取USB优盘序列号的方法,包括相关的代码和说明。通过该方法,可以获取指定盘符的USB优盘序列号,并将其存放在缓冲中。该方法可以在Windows系统中有效地获取USB优盘序列号,并且适用于C++Builder开发环境。 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • 近期,某用户在重启RAC一个节点的数据库实例时,发现启动速度非常慢。同时业务部门反馈连接RAC存活节点的业务也受影响。通过对日志的分析, ... [详细]
author-avatar
杨扬洒傻
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有