当前位置: 开发笔记 > 编程语言 > 正文

关于Hadoop的一点随笔

作者：mobiledu2502859223 | 来源：互联网 | 2023-07-24 09:28

第一章 Hadoop

Hadoop是一个开源的分布式计算平台，核心包括分布式文件系统HDFS和并行运算方法MapReduce。

1.1 关于Hadoop

1.1.1 Hadoop 特性

高可靠性、高容错性
高效性
高可扩展性
成本低
运行在Linux平台上
支持多种编程语言

1.1.2 Hadoop 项目结构

关于Hadoop的一点随笔

组件	功能
HDFS	分布式文件系统
MapReduce	分布式并行编程模型
YARN	资源管理和调度器
Tez	运行在YARN之上的下一代Hadoop查询处理框架
Hive	Hadoop上的数据仓库
HBase	Hadoop上的非关系型的分布式数据库
Pig	一个基于Hadoop的大规模数据分析平台，提供类似SQL的查询语言
Sqoop	用于在Hadoop与传统数据库之间进行数据传递
Oozie	Hadoop上的工作流管理系统
Zookeeper	提供分布式协调一致性服务
Storm	流计算框架
Flume	一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统
Ambari	Hadoop快速部署工具，支持Apache Hadoop集群的供应、管理和监控
Kafka	一种高吞吐量的分布式发布订阅消息系统
Spark	类似于Hadoop MapReduce的通用并行框架

1.1.3 Hadoop与Spark

Hadoop实质上是一个分布式数据基础设施，它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着不需要购买和维护昂贵的服务器硬件。
Spark则是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它并不会进行分布式数据的存储。
它们两者可合可分，Hadoop还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark，使用MapReduce来完成数据的处理。Spark也不是非要依附在Hadoop身上才能生存。但毕竟它没有提供文件管理系统，所以，它必须和其他的分布式文件系统进行集成才能运作。

1.2 HDFS

HDFS是一种分布式文件系统，它具有极高的吞吐量和容错率，共有两类节点，一类为主节点——“NameNode”，另一类为从节点——“DataNode”。

1.2.1 HDFS块存储

HDFS使用块结构存储数据，其优点为：

支持大规模文件存储。
简化系统设计，方便数据管理和储存管理。
适合数据备份。

1.2.2 HDFS的局限性

命名空间的限制：名称节点是保存在内存中的，因此，名称节点能够容纳的对象的个数会受到内存空间大小的限制。
性能的瓶颈：整个分布式文件系统的吞吐量，受限于单个名称节点的吞吐量。
隔离问题：由于集群中只有一个名称节点，只有一个命名空间，因此，无法对不同应用程序进行隔离。
集群的可用性：一旦这个唯一的名称节点发生故障，会导致整个集群变得不可用。

1.2.3 HDFS读过程

打开文件（DFS），创建输入流。
获取块信息。
处理读取请求。
读取数据。
“处理读取请求”与“读取数据”两步循环，直至结束。

1.2.4 HDFS写过程

打开文件。
创建文件元数据。
处理写入请求。
写入数据包。
接收确认包。
关闭文件。

1.3 MapReduce

MapReduce将大规模计算抽象到了两个函数：Map和Reduce。在MapReduce中，一个大规模数据集，会被切分成许多小数据块，这些小数据块可以被多个Map任务并行处理。Map任务生成的结果会继续作为Reduce任务的输入，最终由Reduce任务输出最后结果，并写入到分布式文件系统中。

1.3.1 MapReduce执行阶段

InputFormat：进行数据预处理，如校验格式等。
Split：将输入文件切分为逻辑上的多个InputSplit。
RecordReader：加载数据并转换为map任务读取的键值对。
Map：执行Map函数。
Shuffle：溢写过程。
Reduce：执行Reduce函数。
OutputFormat：进行数据后处理，如变换格式等。

推荐阅读

php
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
php
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
php
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
java
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
java
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
java
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
java
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
ip
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
ip
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
php
Zookeeper详解应用程序（七）

Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]

蜡笔小新 2023-10-16 08:30:29
ip
【转】腾讯分析系统架构解析

TA（TencentAnalytics，腾讯分析）是一款面向第三方站长的免费网站分析系统，在数据稳定性、及时性方面广受站长好评，其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]

蜡笔小新 2023-10-16 19:05:20
php
python zookeeeper 学习和操作

1.zookeeeper介绍ZooKeeper是一个为分布式应用所设计的分布的、开源的协调服务，它主要是用来解决分布式应用中经常遇到的一些数据管理问题，简化分布式应用协调及其管理的 ... [详细]

蜡笔小新 2023-10-16 11:58:31
php
原创 | 大数据入门基础系列之ClouderaManager版本的Hive安装部署

添加服务，一 ... [详细]

蜡笔小新 2023-10-15 16:43:57
list
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37
ip
iServer集成Hadoop YARN集群，详细操作指南解析分布式分析

HadoopYARN集群是一个通用的资源管理平台，可为各类计算框架提供资源的管理和调度。其核心是通过一个全局的资源管理器来实现分离资源管理与作业调度监控。Hadoop ... [详细]

蜡笔小新 2023-10-14 16:24:53

mobiledu2502859223

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章