当前位置: 开发笔记 > 编程语言 > 正文

wordcount_hadoop开发WordCount

作者：XL | 来源：互联网 | 2023-10-11 17:53

篇首语：本文由编程笔记#小编为大家整理，主要介绍了hadoop开发---WordCount相关的知识，希望对你有一定的参考价值。参考http://hadoop.apac

篇首语：本文由编程笔记#小编为大家整理，主要介绍了hadoop 开发---WordCount相关的知识，希望对你有一定的参考价值。

参考http://hadoop.apache.org/docs/r2.7.6/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html

eclipse 新建maven项目

pom 文件内容

xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

4.0.0

hadoop_mapreduce

WordCount

0.0.1-SNAPSHOT

jar

WordCount

http://maven.apache.org

UTF-8

org.apache.hadoop

hadoop-client

2.8.0

jdk.tools

1.8

system

C:Program FilesJavajdk1.8.0_151lib ools.jar

注: 只需要hadoop-client包，如果引入hbase相关的包，很可能出现包冲突，运行会出现异常。

WordCount类代码

package hadoop_mapreduce.WordCount;

import java.io.IOException;

import java.io.InterruptedIOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount{

public static class TokenizerMapper

extends Mapper{

private final static IntWritable One=new IntWritable(1);

private Text word = new Text();

public void map(Object key,Text value,Context context) throws IOException,InterruptedIOException, InterruptedException

{

StringTokenizer itr = new StringTokenizer (value.toString());

while(itr.hasMoreTokens()) {

word.set(itr.nextToken());

context.write(word, one);

}

public static class IntSumReducer

extends Reducer {

private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable values,Context context) throws IOException,InterruptedException {

int sum = 0;

for (IntWritable val : values) {

sum += val.get();

}

result.set(sum);

context.write(key, result);

}

//public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException

public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException

{

* IntWritable intwritable = new IntWritable(1);

Text text = new Text("abc");

System.out.println(text.toString());

System.out.println(text.getLength());

System.out.println(intwritable.get());

System.out.println(intwritable);

StringTokenizer itr = new StringTokenizer ("www baidu com");

while(itr.hasMoreTokens()) {

System.out.println(itr.nextToken()); hdfs://192.168.50.107:8020/input hdfs://192.168.50.107:8020/output

//String path = WordCount.class.getResource("/").toString();

//System.out.println("path = " + path);

System.out.println("Connection end");

//System.setProperty("hadoop.home.dir", "file://192.168.50.107/home/hadoop-user/hadoop-2.8.0");

//String StringInput = "hdfs://192.168.50.107:8020/input/a.txt";

//String StringOutput = "hdfs://192.168.50.107:8020/output/b.txt";

Configuration cOnf= new Configuration();

//conf.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem");

//conf.addResource("classpath:core-site.xml");

//conf.addResource("classpath:hdfs-site.xml");

//conf.addResource("classpath:mapred-site.xml");

//conf.set("HADOOP_HOME", "/home/hadoop-user/hadoop-2.8.0");

Job job = Job.getInstance(conf,"word count");

job.setJarByClass(WordCount.class);

job.setMapperClass(TokenizerMapper.class);

job.setCombinerClass(IntSumReducer.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

//FileInputFormat.addInputPath(job, new Path(StringInput));

//FileOutputFormat.setOutputPath(job, new Path(StringOutput));

FileInputFormat.addInputPath(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

System.exit(job.waitForCompletion(true)?0:1);

}

连接hadoop的配置文件位置如图

技术分享图片

eclipse执行运行会报错: HADOOP_HOME and hadoop.home.dir are unset.

编译打包，放入linux系统

mvn clean

mvn compile

mvn pacakge

我将打包生成的WordCount-0.0.1-SNAPSHOT.jar放到了/home/hadoop-user/work目录

在linux 运行 hadoop jar WordCount-0.0.1-SNAPSHOT.jar hadoop_mapreduce.WordCount.WordCount hdfs://192.168.50.107:8020/input hdfs://192.168.50.107:8020/output

注: 我这里如果不带类路径就会报错，找不到WordCount类。把要分析的文件放入hdfs的input目录中，Output目录不用自己创建。最后生成的分析结果会存在于output目录中

推荐阅读

文件
Maven构建Hadoop,

Maven构建Hadoop工程阅读目录序Maven安装构建示例下载系列索引序　　上一篇，我们编写了第一个MapReduce，并且成功的运行了Job，Hadoop1.x是通过ant ... [详细]

蜡笔小新 2023-10-17 16:11:18
instance
Activiti7流程定义开发笔记

本文介绍了Activiti7流程定义的开发笔记，包括流程定义的概念、使用activiti-explorer和activiti-eclipse-designer进行建模的方式，以及生成流程图的方法。还介绍了流程定义部署的概念和步骤，包括将bpmn和png文件添加部署到activiti数据库中的方法，以及使用ZIP包进行部署的方式。同时还提到了activiti.cfg.xml文件的作用。 ... [详细]

蜡笔小新 2023-12-10 19:22:56
filter
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
get
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
main
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
main
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
instance
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
main
java.lang.UnsatisfiedLinkError: …….io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

在利用hadoop运行MapReduce项目时，提示报错（注意最后是Z）：Exceptioninthreadmainj ... [详细]

蜡笔小新 2023-10-15 14:52:06
main
Skywalking系列博客1安装单机版 Skywalking的快速安装方法

本文介绍了如何快速安装单机版的Skywalking，包括下载、环境需求和端口检查等步骤。同时提供了百度盘下载地址和查询端口是否被占用的命令。 ... [详细]

蜡笔小新 2023-12-14 19:05:47
main
shiro java配置问题：加入Shiro listener后启动失败

本文讨论了在shiro java配置中加入Shiro listener后启动失败的问题。作者引入了一系列jar包，并在web.xml中配置了相关内容，但启动后却无法正常运行。文章提供了具体引入的jar包和web.xml的配置内容，并指出可能的错误原因。该问题可能与jar包版本不兼容、web.xml配置错误等有关。 ... [详细]

蜡笔小新 2023-12-10 09:43:05
utf-8
Struts2+Sring+Hibernate简单配置

2019独角兽企业重金招聘Python工程师标准Struts2SpringHibernate搭建全解！Struts2SpringHibernate是J2EE的最 ... [详细]

蜡笔小新 2023-12-09 03:24:40
utf-8
CentOS 7配置SSH远程访问及控制

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-16 18:40:50
utf-8
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
get
MapReduce 切片机制源码分析

总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建 ... [详细]

蜡笔小新 2023-10-16 13:03:18
get
开发笔记:大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之Hadoop(MapReduce)：GroupingComparator分组案例实操相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-15 14:29:15

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章