热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hadoop1.2运行demo(MapReduce测试)

专业术语叫:运行一个mapreduce(分布式计算)Hadoop提供的jar包demo:hadoop-mapreduce

专业术语叫:运行一个mapreduce(分布式计算)

Hadoop提供的jar包demo:

hadoop-mapreduce-examples-2.4.1.jar提供的demo有:

pi计算圆周率、wordcount统计相同单词数量

${hadoop安装目录}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar


 计算圆周率(自带的jar包)

 启动一个job计算任务,将这个job分五成个map运行。 

[root@weekend110 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.4.1.jar pi 5 5


06:30:39 INFO input.FileInputFormat: Total input paths to process : 5
06:30:39 INFO mapreduce.JobSubmitter: number of splits:5 ### 将任务分5个map执行
06:30:40 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_local944404022_0001   ### job标识id

....................

Job Finished in 14.069 seconds   ### 耗时
Estimated value of Pi is 3.68000000000000000000    ### 结果 


统计相同单词数量DEMO

1. 创建一个text.txt文件

[root@weekend110 mapreduce]# cat text.txt 
world
hello tom
hello job
hello name
wang ming
wang liang
wang world

2. 将文件推入HDFS文件服务器

hadoop -fs -mkdir /workcount   ### 在HDFS创建workcount目录

hadoop -fs -mkdir /workcount/input   ### 在HDFS创建workcount/input输入目录

hadoop -fs -put test.txt /workcount/input   ### 将文件推到HDFS

说明:hdfs服务地址可简写,

简写前:hadoop -fs -mkdir hdfs://127.0.0.1:9000/workcount

简写后:hadoop -fs -mkdir /workcount

3. 运行-统计

 hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /wordcount/input /wordcount/output 

说明:计算HDFS服务/wordcount/input目录下的所有文件,将结果文件放到HDFS服务的/wordcount/output目录下

 4. 结果查看

下载结果文件part-r-00000打开后看到:

hello    3
job    1
liang    1
ming    1
name    1
tom    1
wang    3
world    2
~    1


推荐阅读
  • 对于开源的东东,尤其是刚出来不久,我认为最好的学习方式就是能够看源代码和doc,測试它的样例为了方便查看源代码,关联导入源代 ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • t-io 2.0.0发布-法网天眼第一版的回顾和更新说明
    本文回顾了t-io 1.x版本的工程结构和性能数据,并介绍了t-io在码云上的成绩和用户反馈。同时,还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后,详细介绍了t-io 2.0.0版本的更新内容,包括更简洁的使用方式和内置的httpsession功能。 ... [详细]
  • 本文介绍了使用PHP实现断点续传乱序合并文件的方法和源码。由于网络原因,文件需要分割成多个部分发送,因此无法按顺序接收。文章中提供了merge2.php的源码,通过使用shuffle函数打乱文件读取顺序,实现了乱序合并文件的功能。同时,还介绍了filesize、glob、unlink、fopen等相关函数的使用。阅读本文可以了解如何使用PHP实现断点续传乱序合并文件的具体步骤。 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • Centos下安装memcached+memcached教程
    本文介绍了在Centos下安装memcached和使用memcached的教程,详细解释了memcached的工作原理,包括缓存数据和对象、减少数据库读取次数、提高网站速度等。同时,还对memcached的快速和高效率进行了解释,与传统的文件型数据库相比,memcached作为一个内存型数据库,具有更高的读取速度。 ... [详细]
  • ejava,刘聪dejava
    本文目录一览:1、什么是Java?2、java ... [详细]
  • 安装oracle软件1创建用户组、用户和目录bjdb节点下:[rootnode1]#groupadd-g200oinstall[rootnode1]#groupad ... [详细]
  • Hadoop2.6.0 + 云centos +伪分布式只谈部署
    3.0.3玩不好,现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0,rm掉3.0.32.在etcp ... [详细]
  • 概述H.323是由ITU制定的通信控制协议,用于在分组交换网中提供多媒体业务。呼叫控制是其中的重要组成部分,它可用来建立点到点的媒体会话和多点间媒体会议 ... [详细]
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
author-avatar
beauty360尜囡囡
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有