当前位置: 开发笔记 > 编程语言 > 正文

【大数据开发】HBase高级应用之数据迁移方案及实战（四）

作者：木木的亦尘_283 | 来源：互联网 | 2023-07-24 11:28

第五小节数据迁移一.数据迁移方案数据迁移，更多的场

第五小节数据迁移

一.数据迁移方案

数据迁移，更多的场景是外部的数据源如何将数据写入到HBase

1.数据库RDBMS

1)sqoop

2)kettle ETL工具

3)其他方式

**写程序

**导出文件加载

2.数据文件(log)

1）flume:实时数据收集，将数据的数据插入到HBase

source -> channel -> sink

2）MapReduce

input file -> mapreduce -> hbase table

3）completebulkload

input file -> mapreduce -> hfile -> completebulkload -> hbase table

二.数据迁移实施

1.通过importtsv命令，将文件直接导入到HBase

2. 通过-Dimporttsv.bulk.output命令，我们可以将外部的数据文件直接生成一个HFile文件，然后通过completebulkload直接加载到HBase数据表中。

log文件 -> HFfile文件 ->HBase table表中

1)第一步:

2)第二步：

export HADOOP_HOME=/opt/modules/hadoop-2.6.0-cdh5.5.0
export HBASE_HOME=/opt/modules/hbase-1.2.0
HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath` ${HADOOP_HOME}/bin/hadoop jar ${HBASE_HOME}/lib/hbase-server-1.2.0.jar \
completebulkload \ //将临时文件加载到HBase表中
hdfs://bigdata-pro-m01.kfk.com:9000/user/kfk/hfoutput \
stutsv

3.不同文件中数据分割符的处理

export HADOOP_HOME=/opt/modules/hadoop-2.6.0-cdh5.5.0
export HBASE_HOME=/opt/modules/hbase-1.2.0
HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath` \
${HADOOP_HOME}/bin/hadoop jar ${HBASE_HOME}/lib/hbase-server-1.2.0.jar \
importtsv -Dimporttsv.columns=HBASE_ROW_KEY,info:username,info:age,info:address \
-Dimporttsv.bulk.output=hdfs://bigdata-pro-m01.kfk.com:9000/user/kfk/hfoutputcsv \
-Dimporttsv.separator=, \ //源端以逗号分隔
stutsv \
hdfs://bigdata-pro-m01.kfk.com:9000/user/kfk/datas/stu.csv

export HADOOP_HOME=/opt/modules/hadoop-2.6.0-cdh5.5.0
export HBASE_HOME=/opt/modules/hbase-1.2.0
HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath` ${HADOOP_HOME}/bin/hadoop jar ${HBASE_HOME}/lib/hbase-server-1.2.0.jar \
completebulkload \
hdfs://bigdata-pro-m01.kfk.com:9000//user/kfk/hfoutputcsv \
stutsv

4.自定义MR程序生成 HFile文件（企业常用的方案）

1）第一步：

log文件 -> HFfile文件

import com.kfk.hbase.HBaseConstant;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.*;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.hive.ql.io.sarg.PredicateLeaf;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;

public class MRHFHBase extends Configured implements Tool {

//
// //复杂版本，不用循环(不适用于多字段)
// public static class HFMapper extends Mapper {
//
// // rowkey username age address
// // 00001, henry, 20, city-10
//
// ImmutableBytesWritable rowkey = new ImmutableBytesWritable();
// @Override
// protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//
// String[] values = value.toString().split(",");
// rowkey.set(Bytes.toBytes(values[0]));
//
// Put put = new Put(rowkey.get());
// put.addColumn(Bytes.toBytes(HBaseConstant.HBASE_STU_CF_INFO),Bytes.toBytes("username"),Bytes.toBytes(values[1]));
// put.addColumn(Bytes.toBytes(HBaseConstant.HBASE_STU_CF_INFO),Bytes.toBytes("age"),Bytes.toBytes(values[2]));
// put.addColumn(Bytes.toBytes(HBaseConstant.HBASE_STU_CF_INFO),Bytes.toBytes("address"),Bytes.toBytes(values[3]));
//
// context.write(rowkey,put);
// }
// }

//简单版本，采用循环（适用于字段多）
public static class HFMapper extends Mapper{
// rowkey username age address
// 00001, henry, 20, city-10

ImmutableBytesWritable rowkey = new ImmutableBytesWritable();
String[] COLUMN = new String[]{"username","age","address"};

@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String[] values = value.toString().split(",");
rowkey.set(Bytes.toBytes(values[0]));
Put put = new Put(rowkey.get());

for(int index = 1 ; index
put.addColumn(Bytes.toBytes(HBaseConstant.HBASE_STU_CF_INFO),Bytes.toBytes(COLUMN[index]),Bytes.toBytes(values[index]));
}
context.write(rowkey,put);
}
}

//driver组装
public int run(String args[]) throws Exception{

//get configuration
Configuration cOnfiguration= this.getConf();

//create job
Job job = Job.getInstance(configuration,this.getClass().getSimpleName());
job.setJarByClass(this.getClass());

//input
Path inputpath = new Path(args[0]);
FileInputFormat.addInputPath(job,inputpath);

//map
job.setMapperClass(HFMapper.class);
job.setMapOutputKeyClass(ImmutableBytesWritable.class);
job.setMapOutputValueClass(Put.class);

//获取链接信息
TableName tableName = TableName.valueOf(HBaseConstant.HBASE_STU);
Connection cOnnection= ConnectionFactory.createConnection();
Table table = connection.getTable(tableName);
RegionLocator regiOnLocator= connection.getRegionLocator(tableName);
HFileOutputFormat2.configureIncrementalLoad(job,table,regionLocator);

//标示
boolean isSuc = job.waitForCompletion(true);
return (isSuc) ? 0 : 1 ;

}

public static void main(String[] args) {

//demo
// args = new String[]{
// "hdfs://bigdata-pro-m01.kfk.com:9000/user/kfk/datas/stu.csv", //hdfs上源文件路径
// "hdfs://bigdata-pro-m01.kfk.com:9000/user/kfk/datas/hfcsv-output" //hdfs上HF临时文件路径
// };

Configuration cOnfiguration= HBaseConfiguration.create();

try{
Path outputFilePath = new Path(args[1]);
FileSystem fileSystem = FileSystem.get(configuration);
if(fileSystem.exists(outputFilePath)){
fileSystem.delete(outputFilePath,true);
}
int status = ToolRunner.run(configuration,new MRHFHBase(),args);
System.exit(status);
}catch (Exception e){
e.printStackTrace();
}

}
}

2）第二步：上传Jar包并执行

export HADOOP_HOME=/opt/modules/hadoop-2.6.0-cdh5.5.0
export HBASE_HOME=/opt/modules/hbase-1.2.0
HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath` \
${HADOOP_HOME}/bin/hadoop jar /opt/jars/student.jar hdfs://bigdata-pro-m01.kfk.com:9000/user/kfk/datas/stu.csv hdfs://bigdata-pro-m01.kfk.com:9000/user/kfk/datas/hfcsv-output1

3）第三步：加载HBase数据

HADOOP_CLASSPATH=`${HBASE_HOME}/bin/hbase classpath` ${HADOOP_HOME}/bin/hadoop jar ${HBASE_HOME}/lib/hbase-server-1.2.0.jar completebulkload \
hdfs://bigdata-pro-m01.kfk.com:9000/user/kfk/datas/hfcsv-output1 \
stutsv

推荐阅读

web
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
int
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
int
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
int
大数据开发笔记（一）：HDFS介绍

✨大数据开发笔记推荐：大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试本文详细介绍大数据hadoop生态圈各部分知识，包括不限 ... [详细]

蜡笔小新 2023-10-10 18:18:49
java
Hadoop学习笔记：Hadoop基础知识

阅读目录一、Hadoop简介二、Hadoop的特性三、hadoop组成与体系结构四、Hadoop安装方式五、Hadoop集群中的节点类型一、Hadoop简介Hadoop是Apac ... [详细]

蜡笔小新 2023-09-25 14:07:40
java
mysql数据库etl全部课程的简单介绍

本文目录一览：1、大数据培训课程大纲要学什么课程? ... [详细]

蜡笔小新 2023-09-25 08:52:14
java
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
java
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
java
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
int
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
web
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56
python
crontab 取不到环境变量

2019独角兽企业重金招聘Python工程师标准今天遇到一个问题，觉得有一些价值和大家分享一下。脚本在手动执行的情况下，没有问题，但 ... [详细]

蜡笔小新 2023-10-12 09:05:32
web
Sqoop 的使用场景分析

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出， ... [详细]

蜡笔小新 2023-10-10 19:29:19
java
怎么快速学好大数据开发？

新如何学习大数据技术？大数据怎么入门？怎么做大数据分析？数据科学需要学习那些技术？大数据的应用前景等等问题，已成为热门大数据领域热门问题，以下是对新手如何学习大数据技术问题的解答！ ... [详细]

蜡笔小新 2023-10-10 16:15:09
command
sqoop导出数据到mysql出现异常，语句是对的，不多不知道为什么报错，求帮忙解决

[root@cloud4conf]#sqoopexport--connectjdbc:mysql:192.168.56.1:3306hive--usernameroot--pas ... [详细]

蜡笔小新 2023-09-25 11:46:02

木木的亦尘_283

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章