当前位置: 开发笔记 > 运维 > 正文

深入解析MapReduce架构设计与实现原理–读书笔记(4)MR及Partitio

作者：mobiledu2502886767 | 来源：互联网 | 2018-06-11 12:54

MR解析MapperReducer封装了应用程序的数据处理逻辑。所有存储在底层分布式文件系统上的数据均要解释成keyvalue的形式。并交给MR中的mapreduce函数处理，产生另外一些keyvalue。Mapper1)初始化Mapper继承了JobConfigurable接口。该config方法允许通

MR解析 Mapper/Reducer封装了应用程序的数据处理逻辑。所有存储在底层分布式文件系统上的数据均要解释成key/value的形式。并交给MR中的map/reduce函数处理，产生另外一些key/value。 Mapper 1)初始化 Mapper继承了JobConfigurable接口。该config方法允许通

MR解析

Mapper/Reducer封装了应用程序的数据处理逻辑。
所有存储在底层分布式文件系统上的数据均要解释成key/value的形式。并交给MR中的map/reduce函数处理，产生另外一些key/value。

Mapper

1)初始化

Mapper继承了JobConfigurable接口。该config方法允许通过JobConf参数对Mapper进行初始化。

2)Map操作

MapReduce会通过InputFormat中RecordReader从InputSplit获取一个key/value对，并交给map()函数处理：
void map(K1 key,V2 value,OutputCollector output,Reporter reporter) throws IOException;

3)清理

Mapper通过继承Colseable获得close方法，用户可通过实现该方法对Mapper进行清理。

Mapper类型

ChainMapper 链式作业；IdentityMapper对于输入不进行任何处理，直接输出；InvertMapper 交换key/value位置；
RegexMapper 正则表达式字符串分割；TokenMapper 将字符串分割成若干个token，可用作wordCount的Mapper；
LongSumReducer：以key为组，对long类型的value求累加和。
新的Mapper由接口变为抽象类；不再继承JobConfigurable和Closeable，而是直接在类中添加了setup和cleanup两个方法进行初始化和清理工作。
将参数封装到Context对象中，接口具有良好扩展性。
去掉MapRunnable接口，在Mapper中添加run方法，以方便用户定制map()函数的调用方法。
新API中，Reducer遍历value的迭代器类型变为Iterable

void reduce(KEYIN key,Iteratable values,Context context) throws IOException,InterrupteException{for(VALUEIN value:values){	context.write((KEYOUT) key,(VALUEOUT) value);}}

Partitioner接口的设计与实现

Partitioner的作用是对Mapper产生的中间结果进行分片，以便将同一分组的数据交给同一个Reducer处理，它直接影响Reduce阶段的负载均衡。
只包含一个待实现的方法getPartition。该方法包含3个参数，均由框架自传入，前面2个参数是key/value,第三个参数numPartitions表示每个Mapper的分片数，
也就是Reducer的个数。

HashPartitioner和TotalOrderPartitioner。其中HashPartitioner是默认实现：public int getPartition(K2 key,V2 value,int numReduceTasks){return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks ;}

TotalOrderPartitioner提供了一种基于区间的分片方法，通常用在数据全排序中，归并排序。
在Map阶段，每个MapTask进行局部排序；在Reduce阶段，启动一个ReduceTask进行全局排序。由于作业只能有一个ReduceTask，因此会产生瓶颈。
TotalOrderPartitioner按照大小将数据分成若干个区间，并保证后一个区间的所有数据均大于前一个区间数据。

步骤1：数据采样。

在client端通过采样获取分片的分割点。
采样数据：b,abc,abd,bcd,abcd,efg,hii,afd,rrr,mnk
排序后:abc,abcd,abd,afd,b,bcd,efg,hii,mnk,rrr
如果有4个Reduce Task，则采样数据的四等分点为abd,bcd,mnk

步骤2：Map阶段。

Mapper可采用IdentityMapper直接将输入数据输出，TotalOrderPartitioner将步骤1中获取的分割点保存到trie树中以便快速定位任意一个记录所在的区间，这样每个
Map Task产生R个区间，且区间中间有序。

步骤3：Reduce阶段。

每个Reducer对分配到的区间数据进行局部排序，最终得到全排序数据。
TotalOrderPartitioner有2个典型应用实例；TeraSort和HBase。
HBase内部数据有序，Region之间也有序。

原文地址：深入解析MapReduce架构设计与实现原理–读书笔记(4)MR及Partitioner, 感谢原作者分享。

推荐阅读

apache
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
服务器
[翻译]微服务设计模式5. 服务发现服务端服务发现

服务之间需要互相调用，在单体架构中，服务之间的互相调用直接通过编程语言层面的方法调用就搞定了。在传统的分布式应用的部署中，服务地 ... [详细]

蜡笔小新 2023-10-17 18:03:57
负载均衡
14亿人的大项目，腾讯云数据库拿下！

全国人 ... [详细]

蜡笔小新 2023-10-17 17:56:19
负载均衡
【回顾】聚焦DTCC | 巨杉数据库与您相约DTCC 数据库技术大会

2018年5月10-12日，第九届中国数据库技术大会（DTCC2018）将以“数领先机•智赢未来”为主题，设定2大主会场及20个技术专场，邀请来自国内外互联网、金融、教育等行业百余 ... [详细]

蜡笔小新 2023-10-17 16:51:57
服务器
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
apache
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
apache
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
服务器
域名解析系统DNS

文章目录前言一、域名系统概述二、因特网的域名结构三、域名服务器1.根域名服务器2.顶级域名服务器(TLD,top-leveldomain)3.权威(Authoritative)域名 ... [详细]

蜡笔小新 2023-10-17 02:59:43
服务器
Java工程师书单（初级，中级，高级）

简介怎样学习才能从一名Java初级程序员成长为一名合格的架构师，或者说一名合格的架构师应该有怎样的技术知识体系，这是不仅一个刚刚踏入职场的初级程序员也是工作一两年之后开始迷茫的程序 ... [详细]

蜡笔小新 2023-10-16 19:11:34
服务器
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
服务器
linux服务器开发之网关服务器的实现

什么是网关服务器初学linux服务器开发时，我们的服务器是很简单的，只需要一个程序完成与客户端的连接，接收客户端数据，数据处理，向客户端发送数据。但是在处理量很大的情况下，一 ... [详细]

蜡笔小新 2023-10-16 15:00:29
负载均衡
朱晔的互联网架构实践心得S1E7：三十种架构设计模式（上）

朱晔的互联网架构实践心得S1E7：三十种架构设计模式（上）【下载本文PDF进行阅读】设计模式是前人通过大量的实践总结出来的一些经验总结和最佳实践。在经过多年的软件开发实践之后，回过头 ... [详细]

蜡笔小新 2023-10-16 14:34:46
debian
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
debian
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
kubectl
Kubernetes（k8s）基础简介

Kubernetes（k8s）基础简介目录一、Kubernetes概述（一）、Kubernetes是什么（二& ... [详细]

蜡笔小新 2023-10-16 11:29:40

mobiledu2502886767

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章