Hadoop：MapReduce编程之统计单词的数目

作者：落幕YL他 | 来源：互联网 | 2023-07-19 20:22

MapReduce编程之统计单词的数目要求：统计出每个单词的数目，显示结果为单词单词的长度单词的数目分析：由于MapReduce中的数

MapReduce编程之统计单词的数目

要求&＃xff1a;统计出每个单词的数目&＃xff0c;显示结果为单词单词的长度单词的数目

分析&＃xff1a;由于MapReduce中的数据传输只能以形式传输&＃xff0c;只能传递两列数据&＃xff0c;因此为了实现三列数据的传输&＃xff0c;我们可以通过两种方法解决&＃xff1a;字符串拼接和自定义数据类型封装JavaBean。

文章目录

MapReduce编程之统计单词的数目
- 一、字符串拼接
- 二、自定义数据类型封装JavaBean
- 三、自定义数据类型实现比较器接口
- 四、自定义排序器

一、字符串拼接

我们可以将单词与单词对应的长度拼接成一列数据进行传输
代码实现&＃xff1a;

package com.miao.wordcount;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; import org.apache.hadoop.util.Tool; import org.apache.hadoop.util.ToolRunner;import java.io.IOException;/*** &＃64;ClassName WordConcat* &＃64;Description TODO 统计每个单词出现的次数&＃xff0c;并且单词与对应长度拼接* &＃64;Date 2021-04-27 20:08:50* &＃64;Create By Miao*/ public class WordConcat extends Configured implements Tool {public int run(String[] args) throws Exception {//构建JobJob job &＃61; Job.getInstance(this.getConf(),"wordConcat");job.setJarByClass(WordConcat.class);//配置Jobjob.setInputFormatClass(TextInputFormat.class);//指定输入源TextInputFormat.setInputPaths(job,new Path("D:\\Study\\idea\\MavenProject\\count.txt"));job.setMapperClass(WCMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);job.setReducerClass(WCReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);job.setOutputFormatClass(TextOutputFormat.class);//指定输出源Path outputPath &＃61; new Path("D:\\Study\\idea\\MavenProject\\output\\five");FileSystem fs &＃61; FileSystem.get(this.getConf());if(fs.exists(outputPath)){fs.delete(outputPath,true);}TextOutputFormat.setOutputPath(job,outputPath);//提交Jobreturn job.waitForCompletion(true) ? 0 : -1;}public static void main(String[] args) throws Exception {Configuration conf &＃61; new Configuration();int status &＃61; ToolRunner.run(conf, new WordConcat(), args);System.exit(status);}public static class WCMapper extends Mapper {//输出的Key2Text outputKey &＃61; new Text();//输出的Value2IntWritable outputValue &＃61; new IntWritable(1);/*** 每条KV调用一次map* &＃64;param key&＃xff1a;行的偏移量* &＃64;param value&＃xff1a;行的内容* &＃64;param context* &＃64;throws IOException* &＃64;throws InterruptedException*/&＃64;Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {//将每行的内容分割得到每个单词String[] words &＃61; value.toString().split("\\s&＃43;");//迭代取出每个单词作为Key2for (String word : words) {//将当前的单词作为Key2this.outputKey.set(word);//将Key2和Value2传递到下一步context.write(outputKey,outputValue);}}}public static class WCReducer extends Reducer {//输出Key3:拼接单词和单词的长度Text outputKey &＃61; new Text();//输出Value3IntWritable outputValue &＃61; new IntWritable();/*** 每一组调用一次* &＃64;param key&＃xff1a;单词* &＃64;param values&＃xff1a;所有相同单词对应的1* &＃64;param context* &＃64;throws IOException* &＃64;throws InterruptedException*/&＃64;Overrideprotected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {int sum &＃61; 0;for (IntWritable value : values) {//取出当前单词所有 1&＃xff0c;进行累加sum &＃43;&＃61; value.get();}//给key3赋值,单词和单词的长度this.outputKey.set(key.toString()&＃43;"\t"&＃43;key.toString().length());//给Value3赋值this.outputValue.set(sum);//传递到下一步context.write(outputKey,this.outputValue);}} }

二、自定义数据类型封装JavaBean

我们可以通过定义一个类型&＃xff0c;存储一个String属性和一个Int属性&＃xff0c;用于实现MapReduce中的三列数据的传输

代码实现&＃xff1a;

自定义数据类型&＃xff1a;

package com.miao.bean;import org.apache.hadoop.io.Writable; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException;public class WordCountBean implements Writable {private String firstKey;private int secondkey;public WordCountBean() {}public String getFirstKey() {return firstKey;}public void setFirstKey(String firstKey) {this.firstKey &＃61; firstKey;}public int getSecondkey() {return secondkey;}public void setSecondkey(int secondkey) {this.secondkey &＃61; secondkey;}&＃64;Overridepublic String toString() {return this.firstKey &＃43; "\t" &＃43; this.secondkey;}&＃64;Overridepublic void write(DataOutput dataOutput) throws IOException {dataOutput.writeUTF(this.firstKey);dataOutput.writeInt(this.secondkey);}&＃64;Overridepublic void readFields(DataInput dataInput) throws IOException {this.firstKey &＃61; dataInput.readUTF();this.secondkey &＃61; dataInput.readInt();} }

测试&＃xff1a;

package com.miao.wordcount;import com.miao.bean.WordCountBean; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; import org.apache.hadoop.util.Tool; import org.apache.hadoop.util.ToolRunner;import java.io.IOException;public class WordCount extends Configured implements Tool {public int run(String[] args) throws Exception {//构建JobJob job &＃61; Job.getInstance(this.getConf(),"wordConcat");job.setJarByClass(WordCount.class);//配置Jobjob.setInputFormatClass(TextInputFormat.class);TextInputFormat.setInputPaths(job,new Path("D:\\Study\\idea\\MavenProject\\count.txt"));job.setMapperClass(WCMapper.class);job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);job.setReducerClass(WCReducer.class);job.setOutputKeyClass(WordCountBean.class);job.setOutputValueClass(IntWritable.class);job.setOutputFormatClass(TextOutputFormat.class);Path outputPath &＃61; new Path("D:\\Study\\idea\\MavenProject\\output\\five");FileSystem fs &＃61; FileSystem.get(this.getConf());if(fs.exists(outputPath)){fs.delete(outputPath,true);}TextOutputFormat.setOutputPath(job,outputPath);//提交Jobreturn job.waitForCompletion(true) ? 0 : -1;}public static void main(String[] args) throws Exception {Configuration conf &＃61; new Configuration();int status &＃61; ToolRunner.run(conf, new WordCount(), args);System.exit(status);}public static class WCMapper extends Mapper {//输出的Key2Text outputKey &＃61; new Text();//输出的Value2IntWritable outputValue &＃61; new IntWritable(1);/*** 每条KV调用一次map* &＃64;param key&＃xff1a;行的偏移量* &＃64;param value&＃xff1a;行的内容* &＃64;param context* &＃64;throws IOException* &＃64;throws InterruptedException*/&＃64;Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {//将每行的内容分割得到每个单词String[] words &＃61; value.toString().split("\\s&＃43;");//迭代取出每个单词作为Key2for (String word : words) {//将当前的单词作为Key2this.outputKey.set(word);//将Key2和Value2传递到下一步context.write(outputKey,outputValue);}}}public static class WCReducer extends Reducer {//输出Key3:拼接单词和单词的长度WordCountBean outputKey&＃61;new WordCountBean();//输出Value3IntWritable outputValue &＃61; new IntWritable();/*** 每一组调用一次* &＃64;param key&＃xff1a;单词* &＃64;param values&＃xff1a;所有相同单词对应的1* &＃64;param context* &＃64;throws IOException* &＃64;throws InterruptedException*/&＃64;Overrideprotected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {int sum &＃61; 0;for (IntWritable value : values) {//取出当前单词所有 1&＃xff0c;进行累加sum &＃43;&＃61; value.get();}//给key3赋值,单词和单词的长度this.outputKey.setFirstKey(key.toString());this.outputKey.setSecondkey(key.toString().length());//给Value3赋值this.outputValue.set(sum);//传递到下一步context.write(this.outputKey,this.outputValue);}} }

运行结果&＃xff1a;
在这里插入图片描述

三、自定义数据类型实现比较器接口

当WordCountBean这个类型数据作为key2时需要实现比较器接口

代码实现&＃xff1a;

package com.miao.bean;import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException;public class WCBean2 implements WritableComparable {private String firstKey;private int secondKey;public WCBean2(){}public String getFirstKey() {return firstKey;}public void setFirstKey(String firstKey) {this.firstKey &＃61; firstKey;}public int getSecondKey() {return secondKey;}public void setSecondKey(int secondKey) {this.secondKey &＃61; secondKey;}&＃64;Overridepublic String toString() {return this.firstKey&＃43;"\t"&＃43;this.secondKey;}public void write(DataOutput out) throws IOException {out.writeUTF(this.firstKey);//类型必须一致out.writeInt(this.secondKey);}//反序列化public void readFields(DataInput in) throws IOException {this.firstKey &＃61; in.readUTF(); //必须与序列化的顺序保持一致this.secondKey &＃61; in.readInt();}/*** 当这个类型作为K2经过shuffle时&＃xff0c;需要调用该方法进行比较判断&＃xff1a;排序和分组* &＃64;param o* &＃64;return*/public int compareTo(WCBean2 o) {//先比较第一个属性int comp &＃61; this.getFirstKey().compareTo(o.getFirstKey());//如果第一个值&＃xff0c;比较第二个值&＃xff0c;用第二个属性的比较的结果作为最后的结果if(comp &＃61;&＃61; 0){return Integer.valueOf(this.getSecondKey()).compareTo(Integer.valueOf(o.getSecondKey()));}//默认升序&＃xff0c;如果要降序&＃xff0c;添加负号即可return -comp;} }

测试&＃xff1a;

package com.miao.bean;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; import org.apache.hadoop.util.Tool; import org.apache.hadoop.util.ToolRunner; import java.io.IOException;public class WordCount2 extends Configured implements Tool {public int run(String[] args) throws Exception {//构建JobJob job &＃61; Job.getInstance(this.getConf(),"wordConcat");job.setJarByClass(WordCount2.class);//配置Jobjob.setInputFormatClass(TextInputFormat.class);//使用程序的第一个参数作为输入TextInputFormat.setInputPaths(job,new Path("D:\\Study\\idea\\MavenProject\\count.txt"));job.setMapperClass(WCMapper.class);job.setMapOutputKeyClass(WCBean2.class);job.setMapOutputValueClass(IntWritable.class);job.setReducerClass(WCReducer.class);job.setOutputKeyClass(WCBean2.class);job.setOutputValueClass(IntWritable.class);job.setOutputFormatClass(TextOutputFormat.class);//使用程序的第二个参数作为输出路径Path outputPath &＃61; new Path("D:\\Study\\idea\\MavenProject\\output\\seven");FileSystem fs &＃61; FileSystem.get(this.getConf());if(fs.exists(outputPath)){fs.delete(outputPath,true);}TextOutputFormat.setOutputPath(job,outputPath);//提交Jobreturn job.waitForCompletion(true) ? 0 : -1;}public static void main(String[] args) throws Exception {Configuration conf &＃61; new Configuration();int status &＃61; ToolRunner.run(conf, new WordCount2(), args);System.exit(status);}public static class WCMapper extends Mapper {//输出的Key2WCBean2 outputKey&＃61;new WCBean2();//输出的Value2IntWritable outputValue &＃61; new IntWritable(1);&＃64;Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {//将每行的内容分割得到每个单词String[] words &＃61; value.toString().split("\\s&＃43;");//迭代取出每个单词作为Key2for (String word : words) {//将当前的单词作为Key2this.outputKey.setFirstKey(word.toString());this.outputKey.setSecondKey(word.toString().length());//将Key2和Value2传递到下一步context.write(outputKey,outputValue);}}}public static class WCReducer extends Reducer {//输出Value3IntWritable outputValue &＃61; new IntWritable();&＃64;Overrideprotected void reduce(WCBean2 key, Iterable values, Context context) throws IOException, InterruptedException {int sum &＃61; 0;for (IntWritable value : values) {//取出当前单词所有 1&＃xff0c;进行累加sum &＃43;&＃61; value.get();}//给Value3赋值this.outputValue.set(sum);//传递到下一步context.write(key,this.outputValue);}} }

四、自定义排序器

默认排序方式为升序&＃xff0c;如果想要实现降序排序&＃xff0c;我们需要自定义排序器

package com.miao.sort;import org.apache.hadoop.io.Text; import org.apache.hadoop.io.WritableComparable; import org.apache.hadoop.io.WritableComparator;public class WCSort extends WritableComparator {//step1&＃xff1a;注册public WCSort(){super(Text.class,true);}//step2&＃xff1a;实现比较&＃64;Overridepublic int compare(WritableComparable a, WritableComparable b) {//将两个比较器对象强转为要比较的Text类型Text t1 &＃61; (Text) a;Text t2 &＃61; (Text) b;//实现两个Text类型的比较&＃xff0c;降序排序return -t1.toString().compareTo(t2.toString());} }

最后需要在测试类中添加&＃xff1a;

job.setSortComparatorClass(WCSort.class); //指定排序器

推荐阅读

string
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
string
C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享

本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]

蜡笔小新 2023-12-14 15:56:00
format
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
string
Java太阳系小游戏分析和源码详解

本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践，作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构，包括工具类、常量、图片加载、面板等。通过这个小游戏的制作，读者可以巩固和应用所学的知识，如类的继承、方法的重载与重写、多态和封装等。 ... [详细]

蜡笔小新 2023-12-14 19:53:34
ip
JS进修笔记——闭包的运转机制和作用域

本文介绍了闭包的定义和运转机制，重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则，闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]

蜡笔小新 2023-12-14 18:45:00
go
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
string
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
string
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
include
VScode格式化文档换行或不换行的设置方法

本文介绍了在VScode中设置格式化文档换行或不换行的方法，包括使用插件和修改settings.json文件的内容。详细步骤为：找到settings.json文件，将其中的代码替换为指定的代码。 ... [详细]

蜡笔小新 2023-12-14 17:15:38
string
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
web
Java序列化对象传给PHP的方法及原理解析

本文介绍了Java序列化对象传给PHP的方法及原理，包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用，以及代码执行序列化所需要的权限。最后指出，序列化会将对象实例的所有字段都进行序列化，使得数据能够被表示为实例的序列化数据，但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]

蜡笔小新 2023-12-14 15:25:15
ip
实现下拉列表，点击其他位置自动隐藏效果的三种方式比较

目录实现效果：实现环境实现方法一：基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]

蜡笔小新 2023-12-14 15:03:14
string
Java容器中的compareto方法排序原理解析

本文从源码解析Java容器中的compareto方法的排序原理，讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点，回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录，展示了整个讲解过程。 ... [详细]

蜡笔小新 2023-12-14 13:53:31
string
SpringBoot yml 配置多配置文件,开发环境,生产环境配置文件分开

原文地址:https:www.cnblogs.combaoyipSpringBoot_YML.html1.在springboot中，有两种配置文件，一种 ... [详细]

蜡笔小新 2023-12-14 12:39:13
format
Metasploit攻击渗透实践

本文介绍了Metasploit攻击渗透实践的内容和要求，包括主动攻击、针对浏览器和客户端的攻击，以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码，以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]

蜡笔小新 2023-12-14 12:14:09

落幕YL他

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章