当前位置: 开发笔记 > 运维 > 正文

eclipse中hadoop2.3.0环境部署及在eclipse中直接提交mapreduce任

作者：love留着对她说吧 | 来源：互联网 | 2017-05-12 15:45

1eclipse中hadoop环境部署概览eclipse中部署hadoop包括两大部分：hdfs环境部署和mapreduce任务执行环境部署。一般hdfs环境部署比较简单，部署后就可以在eclipse中像操作windows目录一样操作hdfs文件。而mapreduce任务执行环境的部署就比较复杂一点，不同版

1eclipse中hadoop环境部署概览 eclipse中部署hadoop包括两大部分：hdfs环境部署和mapreduce任务执行环境部署。一般hdfs环境部署比较简单，部署后就可以在eclipse中像操作windows目录一样操作hdfs文件。而mapreduce任务执行环境的部署就比较复杂一点，不同版

1 eclipse中hadoop环境部署概览

eclipse中部署hadoop包括两大部分：hdfs环境部署和mapreduce任务执行环境部署。一般hdfs环境部署比较简单，部署后就可以在eclipse中像操作windows目录一样操作hdfs文件。而mapreduce任务执行环境的部署就比较复杂一点，不同版本对环境的要求度高低不同就导致部署的复杂度大相径庭。例如hadoop1包括以前的版本部署就比较简单，可在windows和Linux执行部署运行，而hadoop2 及以上版本对环境要求就比较严&＃26684;，一般只能在Linux中部署，如果需要在windows中部署需要使用cygwin等软件模拟Linux环境，该篇介绍在Linux环境中部署hadoop环境。该篇假设hadoop2.3.0集群已经部署完成，集群访问权限为hadoop用户。这种在eclipse上操作hdfs和提交mapreduce任务的方式为hadoop客户端操作，故无须在该机器上配置hadoop集群文件，也无须在该机器上启动hadoop相关进程。

2 部署环境机器相关配置

Centos6，32位
Hadoop2.3.0
Eclipse4.3.2_jee Linux版
JDK1.7 Linux版

3 eclipse中hdfs及mapreduce环境部署

3.1 Linux中eclipse安装

3.1.1 在Linux中选择一个eclipse安装目录如/home目录，将eclipse压缩包eclipse-standard-kepler-SR2-linux-gtk.tar.gz在该目录下解压即可，解压命令如下：

tar -zxvf eclipse-standard-kepler-SR2-linux-gtk.tar.gz

3.1.2 解压后的eclipse目录需要赋予hadoop用户权限chown -R hadoop:hadoop /home/eclipse，解压后eclipse目录如下图所示：

3.1.3 将自己打包或者下载的hadoop和eclipse直接的插件导入eclipse的 plugins目录（复制进去即可），该篇使用直接下载的插件hadoop-eclipse-plugin-2.2.0.jar，然后启动eclipse。

3.2 eclipse环境部署

3.2.1 打开eclipse后切换到mapreduce界面会出现mapreduce插件图标，一个是DFS显示的位置，一个是mapreduce显示的位置，具体如下图所示：

3.2.2 在MapReduce Locations出处点击右键新建mapreduce配置环境，具体图示如下：

3.2.3 进入mapreduce配置环境，具体如下图所示。其中，Location name可任意填写，Mapreduce Master中Host为resourcemanager机器ip，Port为resourcemanager接受任务的端口号，即yarn-site.xml文件中yarn.resourcemanager.scheduler.address配置项中端口号。DFS Master中的Host为namenode机器ip，Port为core-site.xml文件中fs.defaultFS配置项中端口号。

3.2.4 上一步骤配置完成后，我们看到的界面如下图所示。左侧栏中即为hdfs目录，在每个目录上课点击右键操作。

4 eclipse中直接提交mapreduce任务（此处以wordcount为例，同时注意hadoop集群防火墙需对该机器开放相应端口）

如果我们将hadoop自带的wordcount在eclipse中执行是不可以的，调整后具体操作如下。

4.1 首先新建Map/Reduce工程（无须手动导入hadoop jar包），或者新建java工程（需要手动导入hadoop相应jar包）。

4.1.1 新建Map/Reduce工程（无须手动导入hadoop jar包），具体图示如下图所示：

4.1.1.1 点击next输入hadoop工程名即可，具体如下图所示：

4.1.1.2 新建的hadoop工程如下图所示：

4.1.2 新建java工程（需要手动导入hadoop相应jar包），具体如下图所示：

4.1.2.1 新建java工程完成后，下面添加hadoop相应jar包，hadoop2.3.0相应jar包在/hadoop-2.3.0/share/hadoop目录中。

4.1.2.2 进入Libraries，点击Add Library添加hadoop相应jar包。

4.1.2.3 新建hadoop相应library成功后添加hadoop相应jar包到该library下面即可。

4.1.2.4 需要添加的hadoop相应jar包有：

/hadoop-2.3.0/share/hadoop/common下所有jar包，及里面的lib目录下所有jar包

/hadoop-2.3.0/share/hadoop/hdfs下所有jar包，不包括里面lib下的jar包

/hadoop-2.3.0/share/hadoop/mapreduce下所有jar包，不包括里面lib下的jar包

/hadoop-2.3.0/share/hadoop/yarn下所有jar包，不包括里面lib下的jar包

4.2 eclipse直接提交mapreduce任务所需环境配置代码如下所示：

import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.net.URL;
import java.net.URLClassLoader;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.jar.JarEntry;
import java.util.jar.JarOutputStream;
import java.util.jar.Manifest;

public class EJob {

    // To declare global field
    private static List classPath = new ArrayList();

    // To declare method
    public static File createTempJar(String root) throws IOException {
        if (!new File(root).exists()) {
            return null;
        }
        Manifest manifest = new Manifest();
        manifest.getMainAttributes().putValue("Manifest-Version", "1.0");
        final File jarFile = File.createTempFile("EJob-", ".jar", new File(System.getProperty("java.io.tmpdir")));

        Runtime.getRuntime().addShutdownHook(new Thread() {
            public void run() {
                jarFile.delete();
            }
        });

        JarOutputStream out = new JarOutputStream(new FileOutputStream(jarFile), manifest);
        createTempJarInner(out, new File(root), "");
        out.flush();
        out.close();
        return jarFile;
    }

    private static void createTempJarInner(JarOutputStream out, File f,
            String base) throws IOException {
        if (f.isDirectory()) {
            File[] fl = f.listFiles();
            if (base.length() > 0) {
                base = base + "/";
            }
            for (int i = 0; i  0)) {
            try {
                File f = new File(component);

                if (f.exists()) {
                    URL key = f.getCanonicalFile().toURL();
                    if (!classPath.contains(key)) {
                        classPath.add(key);
                    }
                }
            } catch (IOException e) {
            }
        }
    }

}

4.3 修改后的wordcount代码如下

4.4 在eclipse中提交mapreduce任务

在eclipse中代码区点击右键，点击里面的run on hadoop即可运行该程序。

Java自学之道完整版 CSDN 下载地址： http://download.csdn.net/detail/longdeyun/5839581

Java自学之道完整版开源中国下载地址： http://www.oschina.net/news/42748/java-self-study-guide

Java自学之道技术分享及经验交流群：301318062

Java、hadoop、spark相关技术共享交流群：287683381

推荐阅读

centos
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
服务器
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
service
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
服务器
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
apache
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
centos
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
apache
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
tomcat
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
centos
在Windows10系统上使用VMware创建CentOS虚拟机的详细步骤教程

本文详细介绍了在Windows10系统上使用VMware创建CentOS虚拟机的步骤，包括准备条件、安装VMware、下载CentOS ISO文件、创建虚拟机并进行自定义配置、设置虚拟机的ISO与网络、进行安装和配置等。通过本文的指导，读者可以轻松地创建自己的CentOS虚拟机并进行相应的配置和操作。 ... [详细]

蜡笔小新 2023-12-09 09:09:21
service
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
apache
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
apache
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
apache
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
debian
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
apache
Zookeeper详解应用程序（七）

Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]

蜡笔小新 2023-10-16 08:30:29

love留着对她说吧

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章