当前位置: 开发笔记 > 运维 > 正文

java使用hadoop实现关联商品统计

作者：手机用户2602897795 | 来源：互联网 | 2021-09-28 01:10

本篇文章java使用hadoop实现关联商品统计，可以实现商品的关联统计，具有一定的参考价值，感兴趣的小伙伴们可以参考一下。

最近几天一直在看Hadoop相关的书籍，目前稍微有点感觉，自己就仿照着WordCount程序自己编写了一个统计关联商品。

需求描述：

根据超市的销售清单，计算商品之间的关联程度（即统计同时买A商品和B商品的次数）。

数据格式：

超市销售清单简化为如下格式：一行表示一个清单，每个商品采用 "," 分割，如下图所示：

需求分析：

采用hadoop中的mapreduce对该需求进行计算。

map函数主要拆分出关联的商品，输出结果为 key为商品A，value为商品B，对于第一条三条结果拆分结果如下图所示：

这里为了统计出和A、B两件商品想关联的商品，所以商品A、B之间的关系输出两条结果即 A-B、B-A。

reduce函数分别对和商品A相关的商品进行分组统计，即分别求value中的各个商品出现的次数，输出结果为key为商品A|商品B，value为该组合出现的次数。针对上面提到的5条记录，对map输出中key值为R的做下分析：

通过map函数的处理，得到如下图所示的记录：

reduce中对map输出的value值进行分组计数，得到的结果如下图所示

将商品A B作为key，组合个数作为value输出，输出结果如下图所示：

对于需求的实现过程的分析到目前就结束了，下面就看下具体的代码实现

代码实现：

关于代码就不做详细的介绍，具体参照代码之中的注释吧。

package com; 
 
import java.io.IOException; 
import java.util.HashMap; 
import java.util.Map.Entry; 
 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.conf.Configured; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.IntWritable; 
import org.apache.hadoop.io.LongWritable; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.mapreduce.Job; 
import org.apache.hadoop.mapreduce.Mapper; 
import org.apache.hadoop.mapreduce.Reducer; 
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 
import org.apache.hadoop.util.Tool; 
import org.apache.hadoop.util.ToolRunner; 
 
public class Test extends Configured implements Tool{ 
 
  /** 
   * map类，实现数据的预处理 
   * 输出结果key为商品A value为关联商品B 
   * @author lulei 
   */ 
  public static class MapT extends Mapper { 
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{ 
      String line = value.toString(); 
      if (!(line == null || "".equals(line))) { 
        //分割商品 
        String []vs = line.split(","); 
        //两两组合，构成一条记录 
        for (int i = 0; i <(vs.length - 1); i++) { 
          if ("".equals(vs[i])) {//排除空记录 
            continue; 
          } 
          for (int j = i+1; j  { 
    private int count; 
     
    /** 
     * 初始化 
     */ 
    public void setup(Context context) { 
      //从参数中获取最小记录个数 
      String countStr = context.getConfiguration().get("count"); 
      try { 
        this.count = Integer.parseInt(countStr); 
      } catch (Exception e) { 
        this.count = 0; 
      } 
    } 
    public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException{ 
      String keyStr = key.toString(); 
      HashMap hashMap = new HashMap(); 
      //利用hash统计B商品的次数 
      for (Text value : values) { 
        String valueStr = value.toString(); 
        if (hashMap.containsKey(valueStr)) { 
          hashMap.put(valueStr, hashMap.get(valueStr) + 1); 
        } else { 
          hashMap.put(valueStr, 1); 
        } 
      } 
      //将结果输出 
      for (Entry entry : hashMap.entrySet()) { 
        if (entry.getValue() >= this.count) {//只输出次数不小于最小值的 
          context.write(new Text(keyStr + "|" + entry.getKey()), new IntWritable(entry.getValue())); 
        } 
      } 
    } 
  } 
   
  @Override 
  public int run(String[] arg0) throws Exception { 
    // TODO Auto-generated method stub 
    Configuration cOnf= getConf(); 
    conf.set("count", arg0[2]); 
     
    Job job = new Job(conf); 
    job.setJobName("jobtest"); 
     
    job.setOutputFormatClass(TextOutputFormat.class); 
    job.setOutputKeyClass(Text.class); 
    job.setOutputValueClass(Text.class); 
     
    job.setMapperClass(MapT.class); 
    job.setReducerClass(ReduceT.class); 
     
    FileInputFormat.addInputPath(job, new Path(arg0[0])); 
    FileOutputFormat.setOutputPath(job, new Path(arg0[1])); 
     
    job.waitForCompletion(true); 
     
    return job.isSuccessful() &＃63; 0 : 1; 
     
  } 
   
  /** 
   * @param args 
   */ 
  public static void main(String[] args) { 
    // TODO Auto-generated method stub 
    if (args.length != 3) { 
      System.exit(-1); 
    } 
    try { 
      int res = ToolRunner.run(new Configuration(), new Test(), args); 
      System.exit(res); 
    } catch (Exception e) { 
      // TODO Auto-generated catch block 
      e.printStackTrace(); 
    } 
  } 
 
}

上传运行：

将程序打包成jar文件，上传到机群之中。将测试数据也上传到HDFS分布式文件系统中。

命令运行截图如下图所示：

运行结束后查看相应的HDFS文件系统，如下图所示：

到此一个完整的mapreduce程序就完成了，关于hadoop的学习，自己还将继续~感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

推荐阅读

分布式
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
debian
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
服务器
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
服务器
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
port
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
centos
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
centos
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
服务器
Zookeeper详解应用程序（七）

Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]

蜡笔小新 2023-10-16 08:30:29
服务器
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
tomcat
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
centos
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
shell
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
touch
Hadoop框架之HDFS的shell操作

既然HDFS是存取数据的分布式文件系统，那么对HDFS的操作，就是文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的she ... [详细]

蜡笔小新 2023-10-15 16:12:13
touch
java.lang.UnsatisfiedLinkError: …….io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

在利用hadoop运行MapReduce项目时，提示报错（注意最后是Z）：Exceptioninthreadmainj ... [详细]

蜡笔小新 2023-10-15 14:52:06
touch
开发笔记:大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-15 14:29:15

手机用户2602897795

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章