HadoopStreaming自带参数解析

作者：aadsasdass_998_268 | 来源：互联网 | 2023-10-10 14:56

排序、hash分组、压缩格式、内存设定-Option：-input：输入文件路径-output：输出文件路径-mapper：用户自己写的mapper程序，可以是可执行文件或者脚本-

排序、hash分组、压缩格式、内存设定
-Option：

-input：输入文件路径
-output：输出文件路径
-mapper：用户自己写的mapper程序，可以是可执行文件或者脚本
-reducer：用户自己写的reducer程序，可以是可执行文件或者脚本
-file：打包文件到提交的作业中，可以是mapper或者reducer要用的输入文件，如配置文件，字典等，将客户端本地文件打成jar包上传到HDFS然后分发到计算节点。
-cacheFile hdfs://host:port/path/to/file#linkname 分发HDFS文件到本地。在计算节点缓存文件，Streaming程序通过./linkname在本地访问文件
-cacheArchive Optional 指定一个上传到HDFS的jar文件，这个jar文件会被自动解压缩到当前工作目录下
-partitioner：用户自定义的partitioner程序
-combiner：用户自定义的combiner程序（必须用java实现）
-cluster name：在本地Hadoop集群与一个或多个远程集群间切换
-additionalconfspec specfile ：用一个类似于hadoop-site.xml的XML文件保存所有配置，从而不需要用多个&＃8221;-D name=value&＃8221;类型的选项单独为每个配置变量赋值
-numReduceTasks Optional reduce任务个数
-combiner Combiner聚合类，对map的输出进行本地聚合，对map端的输出先做一次合并，以减少在map和reduce节点之间的数据传输量，以提高网络IO性能，是MapReduce的一种优化手段之一
-cmdenv = 传给mapper和reducer的环境变量
-mapdebug mapper 失败时运行的debug程序
-reducedebug reducer失败时运行的debug程序
-verbose Optional 详细输出模式
-D作业配置
mapred.job.name作业名
mapred.job.priority 作业优先级
mapred.job.map.capacity 最多同时运行map任务数
mapred.job.reduce.capacity 最多同时运行reduce任务数
hadoop.job.ugi 作业执行权限
mapred.map.tasks map任务个数
mapred.reduce.tasks reduce任务个数
mapred.job.groups 作业可运行的计算节点分组
mapred.task.timeout 任务没有响应（输入输出）的最大时间
stream.non.zero.exit.is.failure=true #任务失败重启
mapred.compress.map.output map的输出是否压缩
mapred.map.output.compression.codec map的输出压缩方式
stream.map.output.field.separator 指定map输出时的分割符
stream.num.map.output.key.fields=4 指定map输出按照分隔符切割后，key所占有的列数
mapred.output.compress reduce的输出是否压缩
mapred.output.compression.type：压缩类型，有NONE, RECORD和BLOCK，默认值RECORD。
mapred.output.compression.codec reduce的输出压缩方式, 默认值org.apache.hadoop.io.compress.DefaultCodec
stream.reduce.output.field.separator 指定reduce输出时的分割符
stream.num.reduce.output.key.fields 指定输出按照分隔符切割后，key所占有的列数
map.output.key.field.separator=. #分桶分隔符：指定map输出对之后，其中key内部的分割符
num.key.fields.for.partition=2 #指定分桶时，按照分隔符切割后，用于分桶key所占的列数
mapred.job.reduce.memory.mb #每个map Task需要的内存量
mapred.job.reduce.memory.mb #每个reduce Task需要的内存量
mapreduce.job.reduce.slowstart.completedmaps 当Map Task完成的比例达到该值后才会为Reduce Task申请资源，默认是0.05
常见的例子：

按照前四位进行排序，前两列进行分组 -D stream.map.output.field.separator=. \ -D stream.num.map.output.key.fields=4 \ -D map.output.key.field.separator=. \ -D mapreduce.partition.keypartitioner.optiOns=-k1,2 \

merge合并输出的小文件们

set hive.merge.mapfiles = true #在Map-only的任务结束时合并小文件 set hive.merge.mapredfiles = true #在Map-Reduce的任务结束时合并小文件 set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小 set hive.merge.smallfiles.avgsize=16000000 #当输出文件的平均大小小于该值时，启动一个独立的map-reduce任务进行文件merge

推荐阅读

ip
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
ip
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
ip
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
cmd
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
int
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
int
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
char
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
cmd
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
cmd
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
int
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
int
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
ip
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
ip
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
int
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
int
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25

aadsasdass_998_268

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章