MapReduce优化（总（总体怎么调优），分（map怎么调优，ruduce怎么调优））

作者：鲁野山人2602886435 | 来源：互联网 | 2023-07-11 14:08

1、配置调优调优总的原则给shuffle过程尽量多提供内存空间，在map端，可以通过避免多次溢出写磁盘来获得最佳性能(相关配置io.sort.*，io.sort.mb)，在redu

1、配置调优

调优总的原则给shuffle过程尽量多提供内存空间，在map端，可以通过避免多次溢出写磁盘来获得最佳性能(相关配置io.sort.*，io.sort.mb)，在reduce端，中间数据全部驻留在内存时，就能获得最佳性能，但是默认情况下，这是不可能发生的，因为一般情况所有内存都预留给reduce含函数(如需修改需要配置mapred.inmem.merge.threshold，mapred.job.reduce.input.buffer.percent)

如果能够根据情况对shuffle过程进行调优，对于提供MapReduce性能很有帮助。
一个通用的原则是给shuffle过程分配尽可能大的内存，当然你需要确保map和reduce有足够的内存来运行业务逻辑。因此在实现Mapper和Reducer时，应该尽量减少内存的使用，例如避免在Map中不断地叠加。
运行map和reduce任务的JVM，内存通过mapred.child.java.opts属性来设置，尽可能设大内存。容器的内存大小通过mapreduce.map.memory.mb和mapreduce.reduce.memory.mb来设置，默认都是1024M。
可以通过以下方法提高排序和缓存写入磁盘的效率：

调整mapreduce.task.io.sort.mb大小，从而避免或减少缓存溢出的数量。当调整这个参数时，最好同时检测Map任务的JVM的堆大小，并必要的时候增加堆空间。
mapreduce.task.io.sort.factor属性的值提高100倍左右，这可以使合并处理更快，并减少磁盘的访问。
为K-V提供一个更高效的自定义序列化工具，序列化后的数据占用空间越少，缓存使用率就越高。
提供更高效的Combiner（合并器），使Map任务的输出结果聚合效率更高。
提供更高效的键比较器和值的分组比较器。

输出依赖于作业中Reduce任务的数量，下面是一些优化建议：

压缩输出，以节省存储空间，同时也提升HDFS写入吞吐量
避免写入带外端文件（out-of-band side file）作为Reduce任务的输出
根据作业输出文件的消费者的需求，可以分割的压缩技术或许适合
以较大块容量设置，写入较大的HDFS文件，有助于减少Map任务数

2、Map/Reduce端调优

通用优化
Hadoop默认使用4KB作为缓冲，这个算是很小的，可以通过io.file.buffer.size来调高缓冲池大小。

map端优化
避免写入多个spill文件可能达到最好的性能，一个spill文件是最好的。通过估计map的输出大小，设置合理的mapreduce.task.io.sort.*属性，使得spill文件数量最小。例如尽可能调大mapreduce.task.io.sort.mb。

《MapReduce优化（总（总体怎么调优），分（map怎么调优，ruduce怎么调优））》
reduce端优化
如果能够让所有数据都保存在内存中，可以达到最佳的性能。通常情况下，内存都保留给reduce函数，但是如果reduce函数对内存需求不是很高，将mapreduce.reduce.merge.inmem.threshold（触发合并的map输出文件数）设为0，mapreduce.reduce.input.buffer.percent（用于保存map输出文件的堆内存比例）设为1.0，可以达到很好的性能提升。在TB级别数据排序性能测试中，Hadoop就是通过将reduce的中间数据都保存在内存中胜利的。

《MapReduce优化（总（总体怎么调优），分（map怎么调优，ruduce怎么调优））》

推荐阅读

process
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
import
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
import
开发笔记:大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-15 14:29:15
import
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
import
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
java
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
main
Flink使用java实现读取csv文件简单实例

Flink使用java实现读取csv文件简单实例首先我们来看官方文档中给出的几种方法：首先我们来看官方文档中给出的几种方法：第一种：Da ... [详细]

蜡笔小新 2023-10-17 10:21:46
jar
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
java
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
java
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
main
[大整数乘法] java代码实现

本文介绍了使用java代码实现大整数乘法的过程，同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率，并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]

蜡笔小新 2023-12-13 11:21:32
main
学习Java异常处理之throws之抛出并捕获异常（9）

任务描述本关任务：在main方法之外创建任意一个方法接收给定的两个字符串，把第二个字符串的长度减1生成一个整数值，输出第一个字符串长度是 ... [详细]

蜡笔小新 2023-12-12 10:14:42
java
OrbitDBPeer 2 Peer Database using CRDTs

2019独角兽企业重金招聘Python工程师标准Apeer-to-peerdatabaseforthedecentralizedwebOrbitDBisaserverless ... [详细]

蜡笔小新 2023-10-16 15:17:57
ip
Hadoop框架之HDFS的shell操作

既然HDFS是存取数据的分布式文件系统，那么对HDFS的操作，就是文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的she ... [详细]

蜡笔小新 2023-10-15 16:12:13
java
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37

鲁野山人2602886435

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章