每天收获一点点Hadoop概述

作者：喵喵心碎 | 来源：互联网 | 2023-12-14 18:58

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明

一、Hadoop来历

　　Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到&＃xff0c;由于这个问题Google发明了倒排索引算法&＃xff0c;通过加入了Map-reduce的思想来计算Page Rank&＃xff0c;通过不断的演变Google带给我们了GFS、Map-Reduce、Bigtable这三大的关键技术和思想。由于Google的这些技术没有开源代码。有个人就模仿Google实现了类似Google全文搜索功能的框架Lucene&＃xff0c;它提供了全文检索引擎的架构&＃xff0c;包括完整的查询引擎和搜索引擎。面临大数据的情况下&＃xff0c;Lucene面对与Google同样的困难。就使得Lucene的作者模仿着Google解决的这些问题在lucene项目下做了一个子项目Nutch。几年以后Google公开了部分GFS和Mapreduce的思想细节&＃xff0c;作者在此为基础上做出了Hadoop&＃xff0c;Hadoop作为 Lucene的子项目Nutch的一部分正式引入了Apache基金。

　　二、Hadoop解决了什么问题?

　　随着时间的推移Hadoop一步步的进步解决了一下几个问题&＃xff1a;

　　1、海量数据的及时分析和处理。

　　2、海量数据深入分析和挖掘。

　　3、数据的长期保存。

　　4、实现云计算。

　　5、能在数千个节点上运行&＃xff0c;处理数据量和排序时间不断的缩短。

　　三、Hadoop基本架构。

　　3.1 Hadoop框架的基本构成。

　　HBase&＃xff1a;NoSql数据库&＃xff0c;Key-Value存储&＃xff0c;NoSql的数据库链式存储&＃xff0c;数据分析提高相应速度。最大化利用内存。

　　HDFS&＃xff1a; Hadoop distribute file system 分布式文件系统&＃xff0c;最大化利用磁盘

　　MapReduce&＃xff1a;编程模型主要用来做数据的分析&＃xff0c;最大化利用CPU。

　　Pig&＃xff1a;用户与MapReduce的转换器。

　　Hive &＃xff1a;SQL语言到MapReduce的转换器。

　　Zookeeper&＃xff1a;服务器节点和进程之间的通讯。

　　chukwa&＃xff1a;数据集成通讯。

　　3.2 Hadoop框架集群架构

　　Namenode&＃xff1a;HDFS的守护程序&＃xff0c;记录文件是如何分割成数据块的。以及这些数据块被存储到哪些节点上。对内存和I/O进行集中管理。是个单点&＃xff0c;发生故障将使集群崩溃。

　　Secondary Namenode&＃xff1a; 监控HDFS状态的辅助后台程序&＃xff0c;在每一个集群都有一个&＃xff0c;与NameNode进行通讯保存HDFS元数据快照&＃xff0c;当NameNode故障可以作为备用NameNode使用。

　　DateNode&＃xff1a;每台从服务器都运行一个负责把HDFS数据块读写到本地文件系统。

　　JobTracker&＃xff1a;用于处理用户提交代码的后台程序&＃xff0c;决定由哪些文件参与处理&＃xff0c;然后切割task并分配节点。监控task&＃xff0c;重启失败的task&＃xff0c;每个集群只有唯一一个JobTracker位于Master节点。

　　四、总结。

　　Hadoop的出现解决了我们大数据分析和挖掘&＃xff0c;还大大降低了成本&＃xff0c;不用买什么很强大的服务器&＃xff0c;只要是个PC机我们就可以把它挂到Hadoop节点上就可以让它为我们大数据的分析和挖掘做贡献。Hadoop还解决了我们关于大数据的存储问题&＃xff0c;这样我们就不用担心大数据对磁盘I/0操作带来的瓶颈。

欢迎各位来探讨交流&＃xff1a;QQ&＃xff1a;747861092

QQ群&＃xff1a;163354117 &＃xff08;群名称&＃xff1a;CodeForFuture&＃xff09;

转:https://www.cnblogs.com/yangxiao99/p/4593583.html

推荐阅读

nosql
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
python
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
python
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
python
OpenStack及其构成简介

本文介绍了OpenStack的逻辑概念以及其构成简介，包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]

蜡笔小新 2023-12-12 06:47:38
python
ElasticSerach初探第一篇认识ES+环境搭建+简单MySQL数据同步+SpringBoot整合ES

一、认识ElasticSearch是一个基于Lucene的开源搜索引擎，通过简单的RESTfulAPI来隐藏Lucene的复杂性。全文搜索，分析系统&# ... [详细]

蜡笔小新 2023-12-09 10:36:06
list
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
byte
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
js
Zookeeper详解应用程序（七）

Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]

蜡笔小新 2023-10-16 08:30:29
js
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
php
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56
php
Spark面试题汇总大全

1RDD简介RDD是Spark最基本也是最根本的数据抽象，它具备像MapReduce等数据流模型的容错性，并且允许开发人员在大型集群上执行基于内存的计 ... [详细]

蜡笔小新 2023-10-13 12:55:35
python
【2019全国职业技能大赛大数据技术】任务三：4数据清洗与分析（25分_题目+答案＜图片+分值＞）

【题目】现已从相关网站及平台获取到原始数据集，为保障用户隐私和行业敏感信息，已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及 ... [详细]

蜡笔小新 2023-10-13 09:29:42
python
Hive简介,HIV的介绍

hive的本质是hadoop客户端通过写sql转换成MapReduce提交给yarn、hdfs执行hive的优点操作接口采用类sql语法提供快速开发能力避免了去写MapReduce ... [详细]

蜡笔小新 2023-10-12 23:50:55
python
es的分布式原理？es是如何实现分布式的？

Elasticsearch设计的理念是分布式搜索引擎，底层其实是基于lucene。核心思 ... [详细]

蜡笔小新 2023-10-12 18:29:23
python
Solr简介（1）

一：什么是solrSolr是apache下的一个开源项目，使用Java基于lucene开发的全文搜索服务器；Lucene是一个开放源代 ... [详细]

蜡笔小新 2023-10-12 18:15:48

喵喵心碎

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章