开发笔记:大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操

作者：pfshi | 来源：互联网 | 2023-10-15 14:29

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操相关的知识，希望对你有一定的参考价值。

&＃xff08;1&＃xff09;利用“订单id和成交金额”作为key&＃xff0c;可以将Map阶段读取到的所有订单数据按照id升序排序&＃xff0c;如果id相同再按照金额降序排序&＃xff0c;发送到Reduce。
&＃xff08;2&＃xff09;在Reduce端利用groupingComparator将订单id相同的kv聚合成组&＃xff0c;然后取第一个即是该订单中最贵商品&＃xff0c;如图4-18所示。
在这里插入图片描述

3.代码实现

&＃xff08;1&＃xff09;定义订单信息OrderBean类

package com.jinghang.mapreduce.order; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.WritableComparable; public class OrderBean implements WritableComparable<OrderBean> { private int order_id; // 订单id号 private double price; // 价格 public OrderBean() { super(); } public OrderBean(int order_id, double price) { super(); this.order_id &＃61; order_id; this.price &＃61; price; } &＃64;Override public void write(DataOutput out) throws IOException { out.writeInt(order_id); out.writeDouble(price); } &＃64;Override public void readFields(DataInput in) throws IOException { order_id &＃61; in.readInt(); price &＃61; in.readDouble(); } &＃64;Override public String toString() { return order_id &＃43; "\\t" &＃43; price; } public int getOrder_id() { return order_id; } public void setOrder_id(int order_id) { this.order_id &＃61; order_id; } public double getPrice() { return price; } public void setPrice(double price) { this.price &＃61; price; } // 二次排序 &＃64;Override public int compareTo(OrderBean o) { int result; if (order_id > o.getOrder_id()) { result &＃61; 1; } else if (order_id < o.getOrder_id()) { result &＃61; -1; } else { // 价格倒序排序 result &＃61; price > o.getPrice() ? -1 : 1; } return result; } }

&＃xff08;2&＃xff09;编写OrderSortMapper类

package com.jinghang.mapreduce.order; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; public class OrderMapper extends Mapper<LongWritable, Text, OrderBean, NullWritable> { OrderBean k &＃61; new OrderBean(); &＃64;Override protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { // 1 获取一行 String line &＃61; value.toString(); // 2 截取 String[] fields &＃61; line.split("\\t"); // 3 封装对象 k.setOrder_id(Integer.parseInt(fields[0])); k.setPrice(Double.parseDouble(fields[2])); // 4 写出 context.write(k, NullWritable.get()); } }

&＃xff08;3&＃xff09;编写OrderSortGroupingComparator类

package com.jinghang.mapreduce.order; import org.apache.hadoop.io.WritableComparable; import org.apache.hadoop.io.WritableComparator; public class OrderGroupingComparator extends WritableComparator { protected OrderGroupingComparator() { super(OrderBean.class, true); } &＃64;Override public int compare(WritableComparable a, WritableComparable b) { OrderBean aBean &＃61; (OrderBean) a; OrderBean bBean &＃61; (OrderBean) b; int result; if (aBean.getOrder_id() > bBean.getOrder_id()) { result &＃61; 1; } else if (aBean.getOrder_id() < bBean.getOrder_id()) { result &＃61; -1; } else { result &＃61; 0; } return result; } }

&＃xff08;4&＃xff09;编写OrderSortReducer类

package com.jinghang.mapreduce.order; import java.io.IOException; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.mapreduce.Reducer; public class OrderReducer extends Reducer<OrderBean, NullWritable, OrderBean, NullWritable> { &＃64;Override protected void reduce(OrderBean key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException { context.write(key, NullWritable.get()); } }

&＃xff08;5&＃xff09;编写OrderSortDriver类

package com.jinghang.mapreduce.order; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class OrderDriver { public static void main(String[] args) throws Exception, IOException { // 输入输出路径需要根据自己电脑上实际的输入输出路径设置 args &＃61; new String[]{"e:/input/inputorder" , "e:/output1"}; // 1 获取配置信息 Configuration conf &＃61; new Configuration(); Job job &＃61; Job.getInstance(conf); // 2 设置jar包加载路径 job.setJarByClass(OrderDriver.class); // 3 加载map/reduce类 job.setMapperClass(OrderMapper.class); job.setReducerClass(OrderReducer.class); // 4 设置map输出数据key和value类型 job.setMapOutputKeyClass(OrderBean.class); job.setMapOutputValueClass(NullWritable.class); // 5 设置最终输出数据的key和value类型 job.setOutputKeyClass(OrderBean.class); job.setOutputValueClass(NullWritable.class); // 6 设置输入数据和输出数据路径 FileInputFormat.setInputPaths(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); // 8 设置reduce端的分组 job.setGroupingComparatorClass(OrderGroupingComparator.class); // 7 提交 boolean result &＃61; job.waitForCompletion(true); System.exit(result ? 0 : 1); } }

推荐阅读

string
通过Go SDK（Amazon S3）从Bucket生成Torrent - Generate Torrent from Bucket via Go SDK (Amazon S3)

Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]

蜡笔小新 2023-12-12 14:13:01
client
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
header
如何自行分析定位SAP BSP错误

The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]

蜡笔小新 2023-12-14 19:58:05
string
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
spring
Spring特性实现接口多类的动态调用详解

本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍，以及getBeansOfType方法的应用，解决了在实际工作中遇到的接口及多个实现类的问题。同时，文章还提到了SPI使用的不便之处，并介绍了借助ApplicationContext实现需求的方法。阅读本文，你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]

蜡笔小新 2023-12-14 03:24:19
string
java 线程死锁模拟

1，关于死锁的理解死锁，我们可以简单的理解为是两个线程同时使用同一资源，两个线程又得不到相应的资源而造成永无相互等待的情况。 2，模拟死锁背景介绍：我们创建一个朋友 ... [详细]

蜡笔小新 2023-12-13 19:12:25
client
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新 2023-12-13 17:08:24
spring
在重复造轮子的情况下用ProxyServlet反向代理来减少工作量

像不少公司内部不同团队都会自己研发自己工具产品，当各个产品逐渐成熟，到达了一定的发展瓶颈，同时每个产品都有着自己的入口，用户 ... [详细]

蜡笔小新 2023-12-13 15:19:01
client
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
spring
springmvc学习笔记(十)：控制器业务方法中通过注解实现封装Javabean接收表单提交的数据

本文介绍了在springmvc学习笔记系列的第十篇中，控制器的业务方法中如何通过注解实现封装Javabean来接收表单提交的数据。同时还讨论了当有多个注册表单且字段完全相同时，如何将其交给同一个控制器处理。 ... [详细]

蜡笔小新 2023-12-13 12:16:34
string
南邮ctf-web的writeup

本文介绍了南邮ctf-web的writeup，包括签到题和md5 collision。在CTF比赛和渗透测试中，可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型，可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]

蜡笔小新 2023-12-13 10:58:55
string
关于Linq to sql 实现模糊查询 string数组

前景：当UI一个查询条件为多项选择，或录入多个条件的时候，比如查询所有名称里面包含以下动态条件，需要模糊查询里面每一项时比如是这样一个数组条件：newstring[]{兴业银行, ... [详细]

蜡笔小新 2023-12-13 09:34:59
cmd
C#制作Java+Mysql+Tomcat环境安装程序，一键式安装教程

本文介绍了如何使用C#制作Java+Mysql+Tomcat环境安装程序，实现一键式安装。通过将JDK、Mysql、Tomcat三者制作成一个安装包，解决了客户在安装软件时的复杂配置和繁琐问题，便于管理软件版本和系统集成。具体步骤包括配置JDK环境变量和安装Mysql服务，其中使用了MySQL Server 5.5社区版和my.ini文件。安装方法为通过命令行将目录转到mysql的bin目录下，执行mysqld --install MySQL5命令。 ... [详细]

蜡笔小新 2023-12-12 19:29:55
string
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48
header
词向量计算文本相似度,通过词向量求文本相似度

基于词向量计算文本相似度1.测试数据：链接：https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码：f4vx2.实验代码：imp ... [详细]

蜡笔小新 2023-10-17 12:10:15

pfshi

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

开发笔记:大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操

目录