mysql数据倾斜_sqoop数据倾斜解决实战

作者：老6李家小宝 | 来源：互联网 | 2023-07-09 15:32

背景:下面导致数据倾斜的sqoop任务,这个数据倾斜是由于源数据导致的-源表的index1分布不均匀,不均匀指每一块的数据量不均匀，范围[min(index),max

背景: 下面导致数据倾斜的sqoop任务,这个数据倾斜是由于源数据导致的- 源表的index1 分布不均匀,不均匀指每一块的数据量不均匀&＃xff0c;范围[min(index),max(index)]被分为m块&＃xff0c;每块index[0,7]的值在 [min&＃43;index*range/8,min&＃43;(index&＃43;1)*range] 间&＃xff0c;如第一块100MB,最后一块1GB的数据量&＃xff0c;数据量可在hdfs查看map文件大小。

(数据量&＃xff0c;用时)&＃xff1a;(一千万&＃43;条&＃xff0c;20分钟)

sqoop import \

--connect "jdbc:mysql://${mysql_host}:${mysql_port}/${mysql_db}?zeroDateTimeBehavior&＃61;convertToNull&dontTrackOpenResources&＃61;true&tinyInt1isBit&＃61;false&defaultFetchSize&＃61;10000&useCursorFetch&＃61;true&autoReconnect&＃61;true&failOverReadOnly&＃61;false&useSSL&＃61;false" \

--driver com.mysql.jdbc.Driver \

--username ${mysql_user} \

--password ${mysql_password} \

--table ${mysql_table} \

--columns &＃39;field1,field2,...,fieldn&＃39; \

--hcatalog-database test \

--hcatalog-table ${hive_table} \

--hcatalog-partition-keys 分区字段 \

--hcatalog-partition-values 分区字段值 \

-m 8 \

--split-by index1

solutionA: 使用–query语句中添加自增ID&＃xff0c;作为split-by的参数

用时&＃xff1a;8分钟

sqoop import \

--driver com.mysql.jdbc.Driver \

--username ${mysql_user} \

--password ${mysql_password} \

--hcatalog-database test \

--hcatalog-table table \

--hcatalog-partition-keys 分区字段 \

--hcatalog-partition-values 分区字段值 \

--query &＃39;select tt.* from (select &＃64;rowNum:&＃61;&＃64;rowNum&＃43;1 as INC_ID, t.* from table t,(select &＃64;rowNum:&＃61;0) b ) tt where $CONDITIONS&＃39; \

-boundary-query "select 1 as min , sum(1) as max from table " \

-m 8 \

--split-by INC_ID

solutionB: 使用另一个均匀索引-index2

用时&＃xff1a;8分钟

sqoop import \

--driver com.mysql.jdbc.Driver \

--username ${mysql_user} \

--password ${mysql_password} \

--table ${mysql_table} \

--columns &＃39;field1,field2,...,fieldn&＃39; \

--hcatalog-database test \

--hcatalog-table ${hive_table} \

--hcatalog-partition-keys 分区字段 \

--hcatalog-partition-values 分区字段值 \

-m 8 \

--split-by index2

solutionB_update: 查看了planB的执行计划&＃xff0c;发现是全表扫描&＃xff0c;要通过force index(index) 强制执行索引扫描

用时&＃xff1a;3分钟

sqoop import \

--connect --connect "jdbc:mysql://${mysql_host}:${mysql_port}/${mysql_db}?zeroDateTimeBehavior&＃61;convertToNull&dontTrackOpenResources&＃61;true&tinyInt1isBit&＃61;false&defaultFetchSize&＃61;10000&useCursorFetch&＃61;true&autoReconnect&＃61;true&failOverReadOnly&＃61;false&useSSL&＃61;false" \

--driver com.mysql.jdbc.Driver \

--username ${mysql_user} \

--password ${mysql_password} \

--hcatalog-database test \

--hcatalog-table table \

--hcatalog-partition-keys 分区字段 \

--hcatalog-partition-values 分区字段值 \

--query &＃39;select field1,...,fieldn from table T force index(index2) where $CONDITIONS&＃39; \

-m 8 \

--split-by index2

推荐排名&＃xff1a;solutionB_update > solutionB > solutionA

适用场景&＃xff1a;solutionB_update/solutionB 适用于mysql有均匀索引的情况。没有均匀索引的话&＃xff0c;用solutionA。由于一天的数据量很大(1000w&＃43;)&＃xff0c;应该考虑增量更新的方式-canal 导入&＃xff0c;但听说使用canal会比较麻烦&＃xff0c;有待研究,目前先用这些方案。

sqoop参数说明(来源官网)&＃xff1a;

翻译&＃xff1a;

7.2.2。选择要导入的数据

Sqoop通常以表为中心导入数据。使用--table参数选择要导入的表。例如&＃xff0c;--table employees。此参数还可以标识数据库中的视图或其他类似表的实体。

默认情况下&＃xff0c;表中的所有列都被选中进行导入。导入的数据以其“自然顺序”写入HDFS&＃xff1b;也就是说&＃xff0c;包含列a、B和C的表会导致数据导入&＃xff0c;例如&＃xff1a;

A1、B1、C1

A2、B2、C2

...

您可以选择列的子集并使用--columns参数控制它们的顺序。这应该包括要导入的列的逗号分隔列表。例如&＃xff1a;--列“name&＃xff0c;employee_id&＃xff0c;jobtitle”。

可以通过向import语句中添加sqlwhere子句来控制导入哪些行。默认情况下&＃xff0c;Sqoop生成SELECTFROM

默认情况下&＃xff0c;sqoop将使用query select min()&＃xff0c;max()from

标签&＃xff1a;实战,倾斜,hcatalog,--,sqoop,mysql,table,false,true

来源&＃xff1a; https://blog.csdn.net/AnlaGodness/article/details/110090691

推荐阅读

int
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
hash
如何搭建服务器环境php(2023年最新解答)

导读：本篇文章编程笔记来给大家介绍有关如何搭建服务器环境php的相关内容，希望对大家有所帮助，一起来看看吧。本文目录一览：1、怎么搭建p ... [详细]

蜡笔小新 2023-10-17 15:34:53
hash
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
hash
C#制作Java+Mysql+Tomcat环境安装程序，一键式安装教程

本文介绍了如何使用C#制作Java+Mysql+Tomcat环境安装程序，实现一键式安装。通过将JDK、Mysql、Tomcat三者制作成一个安装包，解决了客户在安装软件时的复杂配置和繁琐问题，便于管理软件版本和系统集成。具体步骤包括配置JDK环境变量和安装Mysql服务，其中使用了MySQL Server 5.5社区版和my.ini文件。安装方法为通过命令行将目录转到mysql的bin目录下，执行mysqld --install MySQL5命令。 ... [详细]

蜡笔小新 2023-12-12 19:29:55
int
MyBatis多表查询与动态SQL使用

本文介绍了MyBatis多表查询与动态SQL的使用方法，包括一对一查询和一对多查询。同时还介绍了动态SQL的使用，包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]

蜡笔小新 2023-12-12 17:12:51
int
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
merge
Git 命令清单

先记住几个专用名词，如下：Workspace：工作区IndexStage：暂存区Repository：仓库区（或本地仓库）Remote：远程仓库一、新建代码库#在当前目录新建一个G ... [详细]

蜡笔小新 2023-10-17 14:38:56
merge
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
stream
Hadoop 源码学习笔记(4)Hdfs 数据读写流程分析

Hdfs的数据模型在对读写流程进行分析之前，我们需要先对Hdfs的数据模型有一个简单的认知。数据模型如上图所示，在NameNode中有一个唯一的FSDirectory类负责维护文件 ... [详细]

蜡笔小新 2023-10-17 11:27:29
int
PHP连接MySQL的2种方法小结以及防止乱码【PHP】

后端开发|php教程PHP,MySQL,乱码后端开发-php教程PHP的MySQL配置报错信息：ClassmysqlinotfoundinAnswer:1.在confphp.ini ... [详细]

蜡笔小新 2023-10-17 11:15:45
int
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
int
关于Perl中split的用法的更多说明 - More clarification about the usage of split in Perl

Ihavethisfollowinginputfile:我有以下输入文件:test.csvdone_cfg,,,,port<0>,clk_in,subcktA,ins ... [详细]

蜡笔小新 2023-10-16 17:45:16
int
伸缩性|发生_分布式文件系统设计，该从哪些方面考虑？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了分布式文件系统设计，该从哪些方面考虑？相关的知识，希望对你有一定的参考价值。点击上方关注“ ... [详细]

蜡笔小新 2023-10-16 17:43:40
ip
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
ip
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13

老6李家小宝

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章