当前位置: 开发笔记 > 编程语言 > 正文

【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96，并自己主动生成组合行键

作者：POWER_WALKING_823 | 来源：互联网 | 2023-01-30 11:07

目的：使用Sqoop将Oracle中的数据导入到HBase中，并自己主动生成组合行键！环境：Hadoop2.2.

目的：

使用Sqoop将Oracle中的数据导入到HBase中，并自己主动生成组合行键！

环境：

Hadoop2.2.0

Hbase0.96

sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz

Oracle11g

jdk1.7

Ubuntu14 Server

这里关于环境吐槽一句：

最新版本号的Sqoop1.99.3功能太弱。仅仅支持导入数据到HDFS，没有别的不论什么选项，太土了。（如有不允许见欢迎讨论给出解决方式）

命令：

sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username ZHAOBIAO --P --table CMS_NEWS_0625 --hbase-create-table --hbase-table 147patents --column-family patentinfo --split-by CREATE_TIME --hbase-row-key "CREATE_TIME,PUBLISH_TIME,ID,TITLE"

数据源相关參数说明：

--connect：数据库连接串

--username：用户名

--P：交互式输入password

--table：表名

-m：并行运行sqoop导入程序的map task的数量，在不指定的情况下默认启动4个map

--split-by：并行导入过程中。各个map task依据哪个字段来划分数据段，该參数最好指定一个能相对均匀划分数据的字段，比方创建时间、递增的ID

HBase相关參数说明：

--hbase-table：hbase中接收数据的表名

--hbase-create-table：假设指定的接收数据表在hbase中不存在，则新建表

--column-family：列族名称，全部源表的字段都进入该列族

--hbase-row-key：假设不指定则採用源表的key作为hbase的row key。能够指定一个字段作为row key。或者指定组合行键。当指定组合行键时，用双引號包括多个字段，各字段用逗号分隔

-D sqoop.hbase.add.row.key ：是否将rowkey相关字段写入列族中，默觉得false，默认情况下你将在列族中看不到不论什么row key中的字段。

注意。该參数必须放在import之后。

注意几个坑：

1.Oracle的表名必须大写（--table CMS_NEWS_0625）。

2.用户名必须大写字母（ --username ZHAOBIAO）；

3.组合行键參数中的字段名都必须大写（ --hbase-row-key "CREATE_TIME,PUBLISH_TIME,TITLE" ）；

4.作为组合行键的几个字段都不能有null值，否则会报错，请运行该语句前先确认；

5.sqoop不会导入值为null的字段。

异常解决

过程中遇到报错：

Error: java.io.IOException: Could not insert row with null value for row-key column: OPERATE_TIME

at org.apache.sqoop.hbase.ToStringPutTransformer.getPutCommand(ToStringPutTransformer.java:125)

at org.apache.sqoop.hbase.HBasePutProcessor.accept(HBasePutProcessor.java:142)

at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:128)

at org.apache.sqoop.mapreduce.DelegatingOutputFormat$DelegatingRecordWriter.write(DelegatingOutputFormat.java:92)

at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.write(MapTask.java:634)

at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89)

at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112)

at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:38)

at org.apache.sqoop.mapreduce.HBaseImportMapper.map(HBaseImportMapper.java:31)

at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)

at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)

at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:763)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:339)

at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162)

at java.security.AccessController.doPrivileged(Native Method)

at javax.security.auth.Subject.doAs(Subject.java:415)

at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)

at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)

原因1：

--hbase-row-key "create_time,publish_time,operate_time,title"

字段名小写了，须要将其改动为大写

--hbase-row-key "CREATE_TIME,PUBLISH_TIME,TITLE"

原因2：

该字段在原表中的确存在Null值。

补充：

Map-Reduce Framework

Map input records=639529

Map output records=639529

166251 row(s) in 1006.7010 seconds

推荐阅读

import
大数据异构环境数据同步工具DataX与Sqoop之比较

从接触DataX起就有一个疑问，它和Sqoop到底有什么区别，昨天部署好了DataX和Sqoop，就可以对两者进行更深入的了解了。两者从原理上看有点相似，都是解决异构环境的数据交换 ... [详细]

蜡笔小新 2023-09-25 09:46:49
import
Sqoop 的使用场景分析

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出， ... [详细]

蜡笔小新 2023-10-10 19:29:19
import
Python SQLAlchemy库的使用方法详解

本文详细介绍了Python中使用SQLAlchemy库的方法。首先对SQLAlchemy进行了简介，包括其定义、适用的数据库类型等。然后讨论了SQLAlchemy提供的两种主要使用模式，即SQL表达式语言和ORM。针对不同的需求，给出了选择哪种模式的建议。最后，介绍了连接数据库的方法，包括创建SQLAlchemy引擎和执行SQL语句的接口。 ... [详细]

蜡笔小新 2023-12-12 15:23:06
get
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
get
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
get
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37
utf-8
python中抽象类和抽象方法_python抽象类+抽象方法实现接口(interface)

#python没有类似于java和C#的接口类(interface)，需要使用抽象类和抽象方法来实现接口功能#!usrbinenvpython#_*_coding ... [详细]

蜡笔小新 2023-10-14 22:37:24
utf-8
Python中的异常处理示例及其应用

Python异常处理python提供了两个非常重要的功能来处理python程序在运行中出现的异常和错误。你可以使用该功能来调试python程序。异常处理:本站Python教程会 ... [详细]

蜡笔小新 2023-10-14 20:22:40
utf-8
大数据开发笔记（一）：HDFS介绍

✨大数据开发笔记推荐：大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试本文详细介绍大数据hadoop生态圈各部分知识，包括不限 ... [详细]

蜡笔小新 2023-10-10 18:18:49
utf-8
怎么快速学好大数据开发？

新如何学习大数据技术？大数据怎么入门？怎么做大数据分析？数据科学需要学习那些技术？大数据的应用前景等等问题，已成为热门大数据领域热门问题，以下是对新手如何学习大数据技术问题的解答！ ... [详细]

蜡笔小新 2023-10-10 16:15:09
utf-8
大数据目录结构

hadoop常用操作命令https:www.cnblogs.comcerofangp10460494.htmlday3_day6https:www.cnblogs.comcerof ... [详细]

蜡笔小新 2023-09-25 18:17:34
utf-8
Hadoop学习笔记：Hadoop基础知识

阅读目录一、Hadoop简介二、Hadoop的特性三、hadoop组成与体系结构四、Hadoop安装方式五、Hadoop集群中的节点类型一、Hadoop简介Hadoop是Apac ... [详细]

蜡笔小新 2023-09-25 14:07:40
utf-8
mysql数据库etl全部课程的简单介绍

本文目录一览：1、大数据培训课程大纲要学什么课程? ... [详细]

蜡笔小新 2023-09-25 08:52:14
utf-8
大数据岗位职责与学习，未来的职业岗位，主要有哪些

　　大数据与云计算的就职方向有哪些，其实在找工作的时候，我们不仅要看我们所学的专业名称，更要看看哪些岗位的岗位要求符合我们所学的内容。　　例如大数据开发工程师这一职位，其岗位职责包 ... [详细]

蜡笔小新 2023-09-24 12:16:31
process
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35

POWER_WALKING_823

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章