当前位置: 开发笔记 > 运维 > 正文

深入解析MapReduce架构设计与实现原理–读书笔记(1)概述

作者：微笑 | 来源：互联网 | 2018-06-11 12:45

董西成的书，非常不错。买了有一段时间了，最近才有时间好好观摩一下，而且我们的hadoop集群也是在0.20的版本，还是比较适合的，而且这本书也介绍了部分1.0和2.0的MR框架，是很不错的学习资料。买本书吧，支持一下董大侠。也不贵，打完折页才40多吧。尤其最

董西成的书，非常不错。买了有一段时间了，最近才有时间好好观摩一下，而且我们的hadoop集群也是在0.20的版本，还是比较适合的，而且这本书也介绍了部分1.0和2.0的MR框架，是很不错的学习资料。买本书吧，支持一下董大侠。也不贵，打完折页才40多吧。尤其最近当当，京东都有活动，还是超级实惠的。知识无价！
这本书深入的解析了MR的原理实现，对于我们这些平时只具体应用的，有很好的提纲挈领的作用，可以指导我们把code写的更好，更全。

分布式编程方法

1.迭代(iteration)。遍历输入数据，并将之解析成key/value对。
2.将输入key/value对映射(map)成另外一些key/value对。
3.依据key对中间数据进行分组(grouping)。
4.以组为单位对数据进行归约(reduce)。
5.迭代。将最终产生的key/value对保存到输出文件中。

编程模型分层

编程模型位于应用程序层和MapReduce执行器之间，可以分为两层。
第一层是最基本的JavaAPI，主要有5个可编程组件。
InputFormat，Mapper，Partitioner，Reducer，OutputFormat。
第二层是工具层，位于基本Java API之上，主要是为了方便用户编写复杂的MapReduce程序和利用其它编程语言增加MapReduce计算平台的兼容性而提出的。
JobControl：
方便用户编写有依赖关系的作业，作业构成一个有向图。DAG(directed Acyclic Graph)作业。
ChainMapper/ChainReducer：
方便用户编写链式作业，即在Map或Reduce阶段存在多个Mapper (MAPPER + REDUCER MAPPER*)
Hadoop Streaming：
方便用户采用非JAVA语言编写作业，允许用户指定可执行文件或者脚本作为Mapper/Reducer
Hadoop Pipes:
专门为C/C++程序员编写的MapReduce程序提供的工具包。

新旧MapReduceAPI比较

1.存放位置：新版API存放在org.apache.hadoop.mapreduce包及其子包中。
2.接口变为抽象类：
抽象类是一种较宽松的约束协议，它可以为某些方法提供默认实现。而继承类则可选择是否重新实现这些方法。
新API将InputStream,OutputStream,Mapper,Reducer,Partitioner由接口变为抽象类。
3.上下文封装：
新版API将变量和函数封装成各种上下文(Context)类。使得API具有更好的易用性和扩展性。
JobContext： Job的基本信息
TaskAttemptContext：Task的基本信息
TaskInputOutputContext：封装了Task的各种输入输出操作
MapContext和ReduceContext：分别封装了Mapper和Reducer对外的公共接口

基本概念

1.序列化

结构化对象转变为字节流以便于通过网络进行传输或写入持久存储的过程。反序列化指的是将字节流转为结构化对象的过程。
MR中序列化的主要作用为：永久存储和进程间通信。
Writable，Comparable，WritableComparable

2.Reporter参数

Reporter是MR提供给应用程序的工具。应用程序可使用Reporter中的方法报告完成进度(progress),设定状态消息(setStatus)以及更新计数器(incrCounter)。
Reporter是一个基础参数。MR对外提供的大部分组件，均在其主要方法中添加了该参数。
Interface:Progressable,Reporter

3.回调机制

回调机制是一种常见的设计模式。它将工作流内的某个功能按照约定的接口暴露给外部使用者，为外部使用者提供数据，或要求外部使用者提供数据。
例如：
MapReduce给用户保留了接口Mapper，当用户按照自己的应用程序实现了MyMapper后，Hadoop MapReduce运行时环境会将输入数据解析成key/value对，并调用map()函数迭代处理。
Hadoop MapReduce Runtime
MapTask

this.mapper = ReflectionUtils.newInstance(job.getMapperClass(),jobs);迭代处理while(input.next(key,value)){mapper.map(key,value,output,reporter);}结束

原文地址：深入解析MapReduce架构设计与实现原理–读书笔记(1)概述, 感谢原作者分享。

推荐阅读

架构设计
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
debian
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
debian
Zookeeper详解应用程序（七）

Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]

蜡笔小新 2023-10-16 08:30:29
debian
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
debian
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
debian
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
linux
LVS-DR直接路由实现负载均衡示例

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-17 10:27:04
port
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
ssh
CentOS 7配置SSH远程访问及控制

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-16 18:40:50
ssh
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
ssh
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
ssh
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
linux
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
linux
java.lang.UnsatisfiedLinkError: …….io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

在利用hadoop运行MapReduce项目时，提示报错（注意最后是Z）：Exceptioninthreadmainj ... [详细]

蜡笔小新 2023-10-15 14:52:06
linux
开发笔记:大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-15 14:29:15

微笑

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章