7赞
577
当前位置:  开发笔记 > 编程语言 > 正文

大数据开发生态圈之Apache

Hadoop概述Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Ha

大数据开发生态圈之Apache Hadoop简介

Hadoop概述

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

分布式存储

    在分布式存储系统中,分散在不同节点中的数据可能属于同一个文件,为了组织众多的文件,把文件可以放到不同的文件夹中,
文件夹可以一级一级的包含。我们把这种组织形式称为命名空间(namespace)。命名空间管理着整个服务器集群中的所有文件。

分布式计算

    把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计
算结果综合起来得到最终的结果。

Hadoop关联项目

大数据开发生态圈之Apache Hadoop简介

AmbariTM:基于web能够提供资源、监控、管理Hadoop集群的操作工具。
AvroTM:数据序列化系统。
HBaseTM:能支持结构化数据大表存储的可扩展的、分布式的数据库。
HiveTM:能够支持数据的汇总和临时查询的数据仓库基础框架。
MahoutTM:一个可扩展的机器学习和数据挖掘库。
PigTM:高级数据流语言和并行计算执行框架
SparkTM:一个快速和通用的计算Hadoop数据引擎。
TezTM:一个通用的数据流编程框架。
ZooKeeperTM:一个分布式应用的高性能协调的服务。

Hadoop版本

大数据开发生态圈之Apache Hadoop简介

大数据开发生态圈之Apache Hadoop简介

Hadoop的版本大致分为以下:
Apache
官方版本
Cloudera(CDH)
使用下载最多的版本,稳定,有商业支持,在Apache的基础上打上了一些补丁。推荐使用。
HortonWorks(HDP)
基于Apache的版本进行了集成。
MapR

Hadoop模块构成

Hadoop2包括4个模块

Hadoop Common
The common utilities that support the other Hadoop modules.
Hadoop Distributed File System(HDFSTM)
A distributed file system that provides high-throughput access to application data.
Hadoop Yarn
A framework for job scheduling and cluster resource management.
Hadoop MapReduce
A YARN-based system for parallel processing of large data sets.

Hadoop1和Hadoop2简介

Hadoop1
HDFS:Hadoop Distributed File System 分布式文件系统
MapReduce:分布式计算模型
Hadoop2
HDFS2: Hadoop Distributed File System 分布式文件系统
Yarn:资源管理平台,在上面运行分布式计算,典型的计算模型有
MapReduce、Storm、Spark等。

大数据开发生态圈之Apache Hadoop简介

详细可参考http://hadoop.apache.org


推荐阅读
  • 猿创征文|Pythonsklearn机器学习之旅:我的第一个机器学习实战项目
    目录 前言 一、从目的出发 1.导入数据 二、项目开启 1.导入数据 2.预览数据 3.数据预处理 1.过采样2.欠采样 4.数据可视化单变量图表 多变量图表 5.训练模型 5.1 ... [详细]
  • 如何在Windows系统中搭建WAMP环境?
    这篇文章主要介绍windows下如何搭建WAMP环境,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!PHP运行环境:Linux下的 ... [详细]
  • 大赛简介阿里巴巴大数据竞赛是阿里巴巴集团主办,在阿里巴巴大数据科研平台——“天池”上开展的,基于天猫海量真实用户的访问数据的推荐算法大赛。本次比赛的目的是让广大的高校同学在大数据时代的背景下,有机会学 ... [详细]
  • 声明:机器学习系列主要记录自己学习机器学习算法过程中的一些参考和总结,其中有部分内容是借鉴参考书籍和参考博客的。目录:什么是关联规则关联规则中的必须知道的概念关联规则的实现过程关联 ... [详细]
  • Python库大盘点:8个数据分析必备的数组和数据处理工具(含实例和代码)
    Python库大盘点:8个数据分析必备的数组和数据处理工具(含实例和代码) ... [详细]
  • 12个大数据领域的趋势,你必须掌握
    多个数据源并提供深度分析的系统)已经开始进入实际应用阶段,成为企业决策的重要支撑。这也意味着大数据技术的成熟度和市场需求的增长已经推动了整个行业的发展。近期,在大数据领域频繁出现了新动向,不论是初创公司还是老牌企业都推出了新产品、更新了现有产品系列,甚至建立了战略性关系。业内人士指出,许多企业正在将试点阶段的大数据系统(尤其是整合多个数据源并提供深度分析的系统)投入实际应用,成为企业决策的重要支撑。这表明大数据技术已经成熟,市场需求也在增长,推动着整个行业的发展。 ... [详细]
  • zkeys在IDC企业中的应用价值是什么?
    DC企业的价值本文旨在介绍zkeys在IDC企业中的价值,并向Thoughtworks思特沃克中国投稿技术文章《基于HDP构建企业数据平台》。如果您遇到与数据相关的问题,本文的相关知识可能会对您有所帮助。 ... [详细]
  • 如何解决《zookeeper服务器没有运行》经验,是哪儿的问题? ... [详细]
  • 大数据算法_大数据挖掘十大经典算法
    一、C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进 ... [详细]
  • 如何解决《从Eclipse和SparkContext提交sparkapp作为yarn作业》经验,请帮忙看看怎么搞? ... [详细]
  • 来源:https:blog.csdn.netu011414200articledetails50336735一非HDFSHA集群转换成HA集群二HDFS的HA自动切 ... [详细]
  • 《知识图谱构建技术综述》读后感
    为论文信息构建技术——综述出版来源:《计算机研究与发展》,2016,53(3):582-600摘要:本文综述了论文信息知识图谱构建技术,将其划分为不同的分类。作者包括刘峤、李杨、段宏、刘瑶和秦志光。 ... [详细]
  • mysql查询语句怎么到处.sql查看某个表的建表语句,可以使用phpmyadmin查看,首先选择这个表所在的数据库,比如:ecshop库,里面有个ecs_goods表,那么查看g ... [详细]
  • 如何解决《在Zeppelin上增加SparkExecutors》经验,为你挑选了1个好方法。 ... [详细]
  • 如何解决《Spark工作继续运行》经验,为你挑选了1个好方法。 ... [详细]
author-avatar
一二三
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有