热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hadoop系列002从Hadoop框架讨论大数据生态

本人微信公众号,欢迎扫码关注!从hadoop框架讨论大数据生态1、hadoop是什么1)hadoop是一个由apache基金会所开发的分布式系统基础架构2)主要解决,海量数据的存储

本人微信公众号,欢迎扫码关注!



从hadoop框架讨论大数据生态


1、hadoop是什么

1)hadoop是一个由apache基金会所开发的分布式系统基础架构

2)主要解决,海量数据的存储和海量数据的分析计算问题。

3)广义上来说,hadoop通常是指一个更广泛的概念——hadoop生态圈


2、hadoop发展历史

1)lucene--doug cutting开创的开源软件,用java书写代码,实现与google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎

2)2001年年底成为apache基金会的一个子项目

3)对于大数量的场景,lucene面对与google同样的困难

4)学习和模仿google解决这些问题的办法 :微型版nutch

5)可以说google是hadoop的思想之源(google在大数据方面的三篇论文)



  • gfs --->hdfs

  • map-reduce --->mr

  • bigtable --->hbase

6)2003-2004年,google公开了部分gfs和mapreduce思想的细节,以此为基础doug cutting等人用了2年业余时间实现了dfs和mapreduce机制,使nutch性能飙升

7)2005 年hadoop 作为 lucene的子项目 nutch的一部分正式引入apache基金会。2006 年 3 月份,map-reduce和nutch distributed file system (ndfs) 分别被纳入称为 hadoop 的项目中

8)名字来源于doug cutting儿子的玩具大象

9)hadoop就此诞生并迅速发展,标志这云计算时代来临


3、hadoop三大发行版本

apache、cloudera、hortonworks

1)apache版本最原始(最基础)的版本,对于入门学习最好。

2)cloudera在大型互联网企业中用的较多。



  • 2008年成立的cloudera是最早将hadoop商用的公司,为合作伙伴提供hadoop的商用解决方案,主要是包括支持、咨询服务、培训。

  • 2009年hadoop的创始人doug cutting也加盟cloudera公司。cloudera产品主要为cdh,cloudera manager,cloudera support

  • cdh是cloudera的hadoop发行版,完全开源,比apache hadoop在兼容性,安全性,稳定性上有所增强

  • cloudera manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个hadoop集群,并对集群的节点及服务进行实时监控。cloudera support即是对hadoop的技术支持。

  • cloudera的标价为每年每个节点4000美元。cloudera开发并贡献了可实时处理大数据的impala项目。

3)hortonworks文档较好。



  • 2011年成立的hortonworks是雅虎与硅谷风投公司benchmark capital合资组建。

  • 公司成立之初就吸纳了大约25名至30名专门研究hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发hadoop,贡献了hadoop80%的代码。

  • 雅虎工程副总裁、雅虎hadoop开发团队负责人eric baldeschwieler出任hortonworks的首席执行官。

  • hortonworks的主打产品是hortonworks data platform(hdp),也同样是100%开源的产品,hdp除常见的项目外还包括了ambari,一款开源的安装和管理系统。

  • hcatalog,一个元数据管理系统,hcatalog现已集成到facebook开源的hive中。hortonworks的stinger开创性的极大的优化了hive项目。hortonworks为入门提供了一个非常好的,易于使用的沙盒。

  • hortonworks开发了很多增强特性并提交至核心主干,这使得apache hadoop能够在包括window server和windows azure在内的microsoft windows平台上本地运行。定价以集群为基础,每10个节点每年为12500美元。


4、hadoop的优势

1)高可靠性:因为hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。

2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

3)高效性:在mapreduce的思想下,hadoop是并行工作的,以加快任务处理速度。

4)高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。


5、hadoop组成


5.1 hdfs架构概述

1)namenode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的datanode等。

2)datanode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

3)secondary namenode(2nn):用来监控hdfs状态的辅助后台程序,每隔一段时间获取hdfs元数据的快照。


5.2 yarn架构概述

1)resourcemanager(rm):处理客户端请求、启动/监控applicationmaster、监控nodemanager、资源分配与调度。

2)nodemanager(nm):单个节点上的资源管理、处理来自resourcemanager的命令、处理来自applicationmaster的命令。

3)applicationmaster:数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。

4)container:对任务运行环境的抽象,封装了cpu、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。


5.3 mapreduce架构概述

mapreduce将计算过程分为两个阶段:map和reduce

1)map阶段并行处理输入数据

2)reduce阶段对map结果进行汇总


6、大数据技术生态体系



7、推荐系统框架图



推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • 大数据技术原理与应用:大数据处理架构Hadoop生态圈
    Hadoop生态圈概述Hadoop简介什么是Apachehadoop?ApacheHadoop项目是以可靠、可扩展和分布式计算为目的而发展而来的开源软件ApacheHadoop软件 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • Hadoop——Hive简介和环境配置
    一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎,它将SQL转译成MapReduce作业,并 ... [详细]
  • hadoop2.2.0 分布式存储hdfs完全分布式搭建及功能测试记录(一)架构及原理介绍...
    0.文档说明:本文是围绕hadoop2.2的分布式文件系统hdfs进行分布式存储功能测试,形成的hdfs分布式存储功能测试报告,其中主要包 ... [详细]
  • Ambari实战1:Ambari使用场景及介绍
    本篇文章主要讲解Ambari的一些基础知识,让大家对Ambari有一个潜意识的认识。什么是Ambari?ApacheAmbari是一种基于We ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • 1.0为什么要做这个博客站?  在工作学习中,经常要搜索查找各种各样的资料,每次找到相关资料后都会顺手添加到浏览器书签中,时间一长,书签也就满了。而且下次再点击这个书签时,可能就会忘记当时为什么要添加这个书签了,更有可能书签连接已经无效。这样一来,也就不方便 ... [详细]
  • hbase伪集群搭建
    hbase数据存储有三种跑法,跑在本地磁盘上、跑在伪分布式上、跑在完全分布式上--------额。。。官网的文档挺坑爹的,结合官网、百度、谷歌的各种 ... [详细]
  • 说明:搜索模块针对的是买家用户,在找菜品找的很费劲下的一种查询方面。目前也是快速的检索商品。对于移动端的APP买家用户而言,要求的速度在3秒内完成。支持模糊查询,由于业务实战表面, ... [详细]
  • HortonworksDataPlatform3.0.0版本,基本上集成Hadoop社区生态最新版本 ... [详细]
  • 系统:windows10eclipse版本:neon.3hadoop版本:ambari2.5.1安装下的hdp2.6.1对应hadoop版本2.7.3plugin版 ... [详细]
author-avatar
zx15899966868
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有