每天收获一点点Hadoop概述

作者：喵喵心碎 | 来源：互联网 | 2023-12-14 18:58

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明

一、Hadoop来历

　　Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到&＃xff0c;由于这个问题Google发明了倒排索引算法&＃xff0c;通过加入了Map-reduce的思想来计算Page Rank&＃xff0c;通过不断的演变Google带给我们了GFS、Map-Reduce、Bigtable这三大的关键技术和思想。由于Google的这些技术没有开源代码。有个人就模仿Google实现了类似Google全文搜索功能的框架Lucene&＃xff0c;它提供了全文检索引擎的架构&＃xff0c;包括完整的查询引擎和搜索引擎。面临大数据的情况下&＃xff0c;Lucene面对与Google同样的困难。就使得Lucene的作者模仿着Google解决的这些问题在lucene项目下做了一个子项目Nutch。几年以后Google公开了部分GFS和Mapreduce的思想细节&＃xff0c;作者在此为基础上做出了Hadoop&＃xff0c;Hadoop作为 Lucene的子项目Nutch的一部分正式引入了Apache基金。

　　二、Hadoop解决了什么问题?

　　随着时间的推移Hadoop一步步的进步解决了一下几个问题&＃xff1a;

　　1、海量数据的及时分析和处理。

　　2、海量数据深入分析和挖掘。

　　3、数据的长期保存。

　　4、实现云计算。

　　5、能在数千个节点上运行&＃xff0c;处理数据量和排序时间不断的缩短。

　　三、Hadoop基本架构。

　　3.1 Hadoop框架的基本构成。

　　HBase&＃xff1a;NoSql数据库&＃xff0c;Key-Value存储&＃xff0c;NoSql的数据库链式存储&＃xff0c;数据分析提高相应速度。最大化利用内存。

　　HDFS&＃xff1a; Hadoop distribute file system 分布式文件系统&＃xff0c;最大化利用磁盘

　　MapReduce&＃xff1a;编程模型主要用来做数据的分析&＃xff0c;最大化利用CPU。

　　Pig&＃xff1a;用户与MapReduce的转换器。

　　Hive &＃xff1a;SQL语言到MapReduce的转换器。

　　Zookeeper&＃xff1a;服务器节点和进程之间的通讯。

　　chukwa&＃xff1a;数据集成通讯。

　　3.2 Hadoop框架集群架构

　　Namenode&＃xff1a;HDFS的守护程序&＃xff0c;记录文件是如何分割成数据块的。以及这些数据块被存储到哪些节点上。对内存和I/O进行集中管理。是个单点&＃xff0c;发生故障将使集群崩溃。

　　Secondary Namenode&＃xff1a; 监控HDFS状态的辅助后台程序&＃xff0c;在每一个集群都有一个&＃xff0c;与NameNode进行通讯保存HDFS元数据快照&＃xff0c;当NameNode故障可以作为备用NameNode使用。

　　DateNode&＃xff1a;每台从服务器都运行一个负责把HDFS数据块读写到本地文件系统。

　　JobTracker&＃xff1a;用于处理用户提交代码的后台程序&＃xff0c;决定由哪些文件参与处理&＃xff0c;然后切割task并分配节点。监控task&＃xff0c;重启失败的task&＃xff0c;每个集群只有唯一一个JobTracker位于Master节点。

　　四、总结。

　　Hadoop的出现解决了我们大数据分析和挖掘&＃xff0c;还大大降低了成本&＃xff0c;不用买什么很强大的服务器&＃xff0c;只要是个PC机我们就可以把它挂到Hadoop节点上就可以让它为我们大数据的分析和挖掘做贡献。Hadoop还解决了我们关于大数据的存储问题&＃xff0c;这样我们就不用担心大数据对磁盘I/0操作带来的瓶颈。

欢迎各位来探讨交流&＃xff1a;QQ&＃xff1a;747861092

QQ群&＃xff1a;163354117 &＃xff08;群名称&＃xff1a;CodeForFuture&＃xff09;

转:https://www.cnblogs.com/yangxiao99/p/4593583.html

推荐阅读

nosql
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
nosql
Hadoop的分布式架构改进与应用

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-10-11 14:10:35
java
Java工程师书单（初级，中级，高级）

简介怎样学习才能从一名Java初级程序员成长为一名合格的架构师，或者说一名合格的架构师应该有怎样的技术知识体系，这是不仅一个刚刚踏入职场的初级程序员也是工作一两年之后开始迷茫的程序 ... [详细]

蜡笔小新 2023-10-16 19:11:34
java
Nginx入门指南：从零开始掌握基础配置与优化技巧

Nginx入门指南：从零开始掌握基础配置与优化技巧 ... [详细]

蜡笔小新 2024-10-25 15:30:21
jsp
学术论文深度解析与评价

本文深入探讨了基于摆线推进器的无人监测船系统的研发背景及其重要性。从环境保护的宏观视角出发，逐步聚焦至湖泊生态监测的具体需求，分析了现有生态监测技术的局限性，并提出了创新性的解决方案，旨在通过改进内部技术实现更高效、精准的生态环境监测。 ... [详细]

蜡笔小新 2024-10-24 19:04:07
java
字节Java高级岗：java开发cpu吃多线程吗

前言抱着侥幸心理投了字节跳动后台JAVA开发岗，居然收到通知去面试，一面下整个人来都是懵逼的，不知道我对着面试官都说了些啥（捂脸~~）。侥幸一面居然过了，三天后接到二面通知，结果这 ... [详细]

蜡笔小新 2024-10-20 20:15:35
jsp
mysql基本认识【关系型数据库和nosql、mysql操作流程和体系，库操作，表操作，数据的操作，字符集的操作，以及php作为client操作数据库】对连接本身没有疑问

1.关系型数据库永久性保存数据的仓库php的变量只是php脚本执行期间，临时性保存变量的空间【使用内存空间临时保存】关系型数据库：利用二者的关系来描述实体的信息。【利用二维表字段名 ... [详细]

蜡笔小新 2024-10-10 13:48:19
jsp
Redis概念

Redis概念：redis是一款高性能的NOSQL系列的非关系型数据库什么是NOSQLNOSQL(NoSQLNotOnlySQL)，意即不仅仅是SQL，是一项全新的数据库理念， ... [详细]

蜡笔小新 2024-10-09 16:39:07
jsp
【回顾】聚焦DTCC | 巨杉数据库与您相约DTCC 数据库技术大会

2018年5月10-12日，第九届中国数据库技术大会（DTCC2018）将以“数领先机•智赢未来”为主题，设定2大主会场及20个技术专场，邀请来自国内外互联网、金融、教育等行业百余 ... [详细]

蜡笔小新 2023-10-17 16:51:57
java
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
java
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
java
【转】腾讯分析系统架构解析

TA（TencentAnalytics，腾讯分析）是一款面向第三方站长的免费网站分析系统，在数据稳定性、及时性方面广受站长好评，其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]

蜡笔小新 2023-10-16 19:05:20
java
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
java
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
byte
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27

喵喵心碎

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章