HadoopStreaming自带参数解析

作者：aadsasdass_998_268 | 来源：互联网 | 2023-10-10 14:56

排序、hash分组、压缩格式、内存设定-Option：-input：输入文件路径-output：输出文件路径-mapper：用户自己写的mapper程序，可以是可执行文件或者脚本-

排序、hash分组、压缩格式、内存设定
-Option：

-input：输入文件路径
-output：输出文件路径
-mapper：用户自己写的mapper程序，可以是可执行文件或者脚本
-reducer：用户自己写的reducer程序，可以是可执行文件或者脚本
-file：打包文件到提交的作业中，可以是mapper或者reducer要用的输入文件，如配置文件，字典等，将客户端本地文件打成jar包上传到HDFS然后分发到计算节点。
-cacheFile hdfs://host:port/path/to/file#linkname 分发HDFS文件到本地。在计算节点缓存文件，Streaming程序通过./linkname在本地访问文件
-cacheArchive Optional 指定一个上传到HDFS的jar文件，这个jar文件会被自动解压缩到当前工作目录下
-partitioner：用户自定义的partitioner程序
-combiner：用户自定义的combiner程序（必须用java实现）
-cluster name：在本地Hadoop集群与一个或多个远程集群间切换
-additionalconfspec specfile ：用一个类似于hadoop-site.xml的XML文件保存所有配置，从而不需要用多个&＃8221;-D name=value&＃8221;类型的选项单独为每个配置变量赋值
-numReduceTasks Optional reduce任务个数
-combiner Combiner聚合类，对map的输出进行本地聚合，对map端的输出先做一次合并，以减少在map和reduce节点之间的数据传输量，以提高网络IO性能，是MapReduce的一种优化手段之一
-cmdenv = 传给mapper和reducer的环境变量
-mapdebug mapper 失败时运行的debug程序
-reducedebug reducer失败时运行的debug程序
-verbose Optional 详细输出模式
-D作业配置
mapred.job.name作业名
mapred.job.priority 作业优先级
mapred.job.map.capacity 最多同时运行map任务数
mapred.job.reduce.capacity 最多同时运行reduce任务数
hadoop.job.ugi 作业执行权限
mapred.map.tasks map任务个数
mapred.reduce.tasks reduce任务个数
mapred.job.groups 作业可运行的计算节点分组
mapred.task.timeout 任务没有响应（输入输出）的最大时间
stream.non.zero.exit.is.failure=true #任务失败重启
mapred.compress.map.output map的输出是否压缩
mapred.map.output.compression.codec map的输出压缩方式
stream.map.output.field.separator 指定map输出时的分割符
stream.num.map.output.key.fields=4 指定map输出按照分隔符切割后，key所占有的列数
mapred.output.compress reduce的输出是否压缩
mapred.output.compression.type：压缩类型，有NONE, RECORD和BLOCK，默认值RECORD。
mapred.output.compression.codec reduce的输出压缩方式, 默认值org.apache.hadoop.io.compress.DefaultCodec
stream.reduce.output.field.separator 指定reduce输出时的分割符
stream.num.reduce.output.key.fields 指定输出按照分隔符切割后，key所占有的列数
map.output.key.field.separator=. #分桶分隔符：指定map输出对之后，其中key内部的分割符
num.key.fields.for.partition=2 #指定分桶时，按照分隔符切割后，用于分桶key所占的列数
mapred.job.reduce.memory.mb #每个map Task需要的内存量
mapred.job.reduce.memory.mb #每个reduce Task需要的内存量
mapreduce.job.reduce.slowstart.completedmaps 当Map Task完成的比例达到该值后才会为Reduce Task申请资源，默认是0.05
常见的例子：

按照前四位进行排序，前两列进行分组 -D stream.map.output.field.separator=. \ -D stream.num.map.output.key.fields=4 \ -D map.output.key.field.separator=. \ -D mapreduce.partition.keypartitioner.optiOns=-k1,2 \

merge合并输出的小文件们

set hive.merge.mapfiles = true #在Map-only的任务结束时合并小文件 set hive.merge.mapredfiles = true #在Map-Reduce的任务结束时合并小文件 set hive.merge.size.per.task = 256*1000*1000 #合并文件的大小 set hive.merge.smallfiles.avgsize=16000000 #当输出文件的平均大小小于该值时，启动一个独立的map-reduce任务进行文件merge

推荐阅读

express
Spring框架《一》简介

Spring框架《一》1.Spring概述1.1简介1.2Spring模板二、IOC容器和Bean1.IOC和DI简介2.三种通过类型获取bean3.给bean的属性赋值3.1依赖 ... [详细]

蜡笔小新 2023-12-09 20:10:11
config
使用freemaker生成Java代码的步骤及示例代码

本文介绍了使用freemaker这个jar包生成Java代码的步骤，通过提前编辑好的模板，可以避免写重复代码。首先需要在springboot的pom.xml文件中加入freemaker的依赖包。然后编写模板，定义要生成的Java类的属性和方法。最后编写生成代码的类，通过加载模板文件和数据模型，生成Java代码文件。本文提供了示例代码，并展示了文件目录结构。 ... [详细]

蜡笔小新 2023-12-09 09:42:44
stream
目前项目未升级到Andridx,怎样拉取升级至Androidx之前的版本呢？谢谢！

Question该提问来源于开源项目：react-native-device-info/react-native-device-info ... [详细]

蜡笔小新 2023-10-17 20:56:15
stream
大量研发销售产品设计市场岗位！

关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商，服务新产业周期的IoT&5G、边缘计算与云计算市场，交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]

蜡笔小新 2023-12-13 21:02:32
config
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
int
shiro java配置问题：加入Shiro listener后启动失败

本文讨论了在shiro java配置中加入Shiro listener后启动失败的问题。作者引入了一系列jar包，并在web.xml中配置了相关内容，但启动后却无法正常运行。文章提供了具体引入的jar包和web.xml的配置内容，并指出可能的错误原因。该问题可能与jar包版本不兼容、web.xml配置错误等有关。 ... [详细]

蜡笔小新 2023-12-10 09:43:05
config
Jboss的EJB部署描述符standardjaws.xml配置步骤详解

本文详细介绍了Jboss的EJB部署描述符standardjaws.xml的配置步骤，包括映射CMP实体EJB、数据源连接池的获取以及数据库配置等内容。 ... [详细]

蜡笔小新 2023-12-09 18:15:53
config
解决java开源项目apache commons email简单使用报错的方法

本文介绍了解决java开源项目apache commons email简单使用报错的方法，包括使用正确的JAR包和正确的代码配置，以及相关参数的设置。详细介绍了如何使用apache commons email发送邮件。 ... [详细]

蜡笔小新 2023-12-09 17:35:16
config
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
stream
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
config
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
config
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
config
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
config
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
config
r2dbc配置多数据源

R2dbc配置多数据源问题根据官网配置r2dbc连接mysql多数据源所遇到的问题pom配置可以参考官网,不过我这样配置会报错我并没有这样配置将以下内容添加到pom.xml文件d ... [详细]

蜡笔小新 2023-12-12 16:38:53

aadsasdass_998_268

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章