当前位置: 开发笔记 > 编程语言 > 正文

将mysql表中数据导入到hive分区事务桶表

作者：加勒比海盗530 | 来源：互联网 | 2023-07-04 11:23

3.1.1逻辑描述1.删除hv_orders_user_buckets表中对应分区的数据2.按指定日期从mysql中的数据库查询数据orders0-9和orders_user0

3.1.1 逻辑描述

1.删除hv_orders_user_buckets表中对应分区的数据

2.按指定日期从mysql中的数据库查询数据orders0-9和orders_user0-9表的数据导入到hive中的hv_orders_user表指定的分区中。Hv_orders_user是一个分区表&＃xff0c;不具有事务

3.将hv_orders_user表中的数据按分区导入到hv_orders_user_buckets表对应的分区中。hv_orders_user_buckets表具有分区和事务。

4.删除指定表hv_orders_use中分区的数据

为何要先把数据加载到hv_orders_user表&＃xff08;只具有分区&＃xff09;&＃xff0c;再合并到hv_orders_user_buckets&＃xff08;分区事务表&＃xff09;&＃xff1f;

因为直接将其加载到hv_orders_user_buckets&＃xff08;具有分区事务&＃xff09;的表中&＃xff0c;报错&＃xff0c;不支持&＃xff0c;只能将数据先存储到hv_orders_user表后&＃xff0c;经过中转&＃xff0c;合并到hv_orders_user_buckets表中

19/07/10 16:05:05 INFO hive.HiveImport: FAILED: SemanticException Unable to load data to destination table. Error: The file that you are trying to load does not match the file format of the destination table.

19/07/10 16:05:05 ERROR tool.ImportTool: Import failed: java.io.IOException: Hive exited with status 64

at org.apache.sqoop.hive.HiveImport.executeExternalHiveScript(HiveImport.java:384)

at org.apache.sqoop.hive.HiveImport.executeScript(HiveImport.java:337)

at org.apache.sqoop.hive.HiveImport.importTable(HiveImport.java:241)

at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:537)

at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:628)

at org.apache.sqoop.Sqoop.run(Sqoop.java:147)

at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)

at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:183)

at org.apache.sqoop.Sqoop.runTool(Sqoop.java:234)

at org.apache.sqoop.Sqoop.runTool(Sqoop.java:243)

at org.apache.sqoop.Sqoop.main(Sqoop.java:252)

3.1.2 新建表

#订单用户集成表&＃xff08;临时的中转表没有事务&＃xff09;

create table hv_orders_user(

user_id bigint,

order_no string,

total_amount decimal(10,2),

order_amount decimal(10,2),

mi_amount decimal(10,2),

unlimited_card_amount decimal(10,2),

mi_card_amount decimal(10,2),

give_mi_amount decimal(10,2),

coupon_amount decimal(10,2),

activity_amount decimal(10,2),

pay_status int,

pay_method int,

end_time string)

PARTITIONED BY (ymd string)

ROW FORMAT DELIMITED FIELDS TERMINATED BY &＃39;\t&＃39;;

#订单用户集成表&＃xff08;具有事务&＃xff0c;分区&＃xff0c;桶表&＃xff09;

create table if not exists hv_orders_user_buckets(

user_id bigint,

order_no string,

total_amount decimal(10,2),

order_amount decimal(10,2),

mi_amount decimal(10,2),

unlimited_card_amount decimal(10,2),

mi_card_amount decimal(10,2),

give_mi_amount decimal(10,2),

coupon_amount decimal(10,2),

activity_amount decimal(10,2),

pay_status int,

pay_method int,

end_time string)

PARTITIONED BY (ymd string)

clustered by (user_id) into 10 buckets

ROW FORMAT DELIMITED FIELDS TERMINATED BY &＃39;\t&＃39;

stored as orc

TBLPROPERTIES(&＃39;transactional&＃39;&＃61;&＃39;true&＃39;);

3.1.3 脚本文件import-ordersdata.sh

#!/bin/bash #要遍历的表序号 table_name&＃61;(0 1 2 3 4 5 6 7 8 9) analysis_date&＃61;$1#开始执行方法 function start(){echo "...........第一步&＃xff1a;开始删除hv_orders_user_buckets表中的ymd&＃61;${analysis_date}的分区数据.............................................................................."/opt/hive-2.3.5/bin/hive -e "use hv_user_profile;ALTER TABLE hv_orders_user_buckets DROP partition(ymd&＃61;&＃39;$analysis_date&＃39;);" for str in ${table_name[&＃64;]}doecho "...........第二步&＃xff1a;str:orders_${str},将mysql中orders_${str}表导入到hive的hv_orders_user表中&＃xff0c;分区为:ymd&＃61;$analysis_date................................................................................................"sqoop import --connect jdbc:mysql://10.1.11.110:3310/meboth-userprofile?characterEncoding&＃61;UTF-8 --username baojia_xm --password &＃39;DgisNKhg&＃39; --query "select a.user_id,a.order_no ,a.total_amount,a.order_amount,a.mi_amount,a.unlimited_card_amount,a.mi_card_amount,a.give_mi_amount,b.coupon_amount,b.activity_amount,a.pay_status,a.pay_method,b.end_time from orders_${str} as a ,orders_user_${str} as b where a.order_no&＃61;b.order_no and b.end_time like &＃39;${analysis_date}%&＃39; AND \$CONDITIONS " \--target-dir &＃39;/user/hive/warehouse/hv_user_profile.db/hv_orders_user_temp&＃39; --delete-target-dir --split-by a.user_id --hive-import --hive-database hv_user_profile --hive-table hv_orders_user --hive-drop-import-delims --hive-partition-key ymd --hive-partition-value ${analysis_date} --fields-terminated-by &＃39;\t&＃39; --m 5 --lines-terminated-by "\n";echo ".......... 第三步&＃xff1a;str:orders_${str}, 将hv_orders_user表分区ymd&＃61;$analysis_date的数据执行合并到hv_orders_user_buckets表分区ymd&＃61;$analysis_date中........................................................."/opt/hive-2.3.5/bin/hive -e "use hv_user_profile;insert into table hv_orders_user_buckets partition(ymd&＃61;&＃39;$analysis_date&＃39;) select user_id,order_no,total_amount,order_amount,mi_amount,unlimited_card_amount,mi_card_amount,give_mi_amount,coupon_amount,activity_amount,pay_status,pay_method,end_time from hv_orders_user where ymd&＃61;&＃39;$analysis_date&＃39;;"echo "...........第四步&＃xff1a;str:orders_${str},删除表hv_orders_user表中&＃xff0c;分区为:ymd&＃61;$analysis_date 中的数据........................................................."/opt/hive-2.3.5/bin/hive -e "use hv_user_profile;ALTER TABLE hv_orders_user DROP partition(ymd&＃61;&＃39;$analysis_date&＃39;);"echo ".............................本次循环执行表为:orders_${str}&＃xff0c;分区为:ymd&＃61;$analysis_date中的数据成功successfully!!!!!!!........................................................."done echo "程序执行完成!!!!$1" }#程序的入口 start

3.1.4 执行脚本

[www&＃64;1-11-100 opt]$ sh import-ordersdata.sh 2019-06

3.1.5 查看结果

推荐阅读

merge
MySQL数据实时同步到KafkaBinlog canal、Maxwell、Kafka Connect 实现MySQL增量同步

一、需求分析早期业务借助Sqoop将Mysql中的数据同步到Hive、hdfs来进行数据分析，使用过程中也带来了一些问题：虽然Sqoop支持增量同步但还属于粗粒度的离线同步，无法满 ... [详细]

蜡笔小新 2023-10-10 13:14:45
php
求解hdu 1003 java题目的动态规划优化方法

本文讨论了如何优化解决hdu 1003 java题目的动态规划方法，通过分析加法规则和最大和的性质，提出了一种优化的思路。具体方法是，当从1加到n为负时，即sum(1,n)sum(n,s)，可以继续加法计算。同时，还考虑了两种特殊情况：都是负数的情况和有0的情况。最后，通过使用Scanner类来获取输入数据。 ... [详细]

蜡笔小新 2023-12-14 13:11:00
php
Hibernate基础映射

在说Hibernate映射前，我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象，以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]

蜡笔小新 2023-12-14 10:57:47
foreach
Spring特性实现接口多类的动态调用详解

本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍，以及getBeansOfType方法的应用，解决了在实际工作中遇到的接口及多个实现类的问题。同时，文章还提到了SPI使用的不便之处，并介绍了借助ApplicationContext实现需求的方法。阅读本文，你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]

蜡笔小新 2023-12-14 03:24:19
php
解决Mac上无法使用localhost连接mysql的问题

本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题，并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别，指出了使用socket方式连接导致连接失败的原因。此外，还提供了相关链接供读者深入了解。 ... [详细]

蜡笔小新 2023-12-13 17:48:58
bit
java boolean 大小_java boolean 大小

先看官方文档TheJavaTutorialshavebeenwrittenforJDK8.Examplesandpracticesdescribedinthispagedontta ... [详细]

蜡笔小新 2023-12-12 13:36:56
bit
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
stream
解决java开源项目apache commons email简单使用报错的方法

本文介绍了解决java开源项目apache commons email简单使用报错的方法，包括使用正确的JAR包和正确的代码配置，以及相关参数的设置。详细介绍了如何使用apache commons email发送邮件。 ... [详细]

蜡笔小新 2023-12-09 17:35:16
stream
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37
scala
【数据结构与算法】——快速排序

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql)间进行数据的传递，可以将一个关系型数据库（例如：MySQL,O ... [详细]

蜡笔小新 2023-10-11 18:06:17
php
架构升级给DolphScheduler带来2~3倍性能提升

引言大数据任务调度作为大数据建设中的核心基础设施，在经过社区用户们长期的使用中，不少用户对调度也提出了很多新的要求，为此，ApacheDolphinScheduler(Incub ... [详细]

蜡笔小新 2023-10-11 15:35:02
php
Sqoop 的使用场景分析

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出， ... [详细]

蜡笔小新 2023-10-10 19:29:19
php
怎么快速学好大数据开发？

新如何学习大数据技术？大数据怎么入门？怎么做大数据分析？数据科学需要学习那些技术？大数据的应用前景等等问题，已成为热门大数据领域热门问题，以下是对新手如何学习大数据技术问题的解答！ ... [详细]

蜡笔小新 2023-10-10 16:15:09
php
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
utf-8
Activiti7流程定义开发笔记

本文介绍了Activiti7流程定义的开发笔记，包括流程定义的概念、使用activiti-explorer和activiti-eclipse-designer进行建模的方式，以及生成流程图的方法。还介绍了流程定义部署的概念和步骤，包括将bpmn和png文件添加部署到activiti数据库中的方法，以及使用ZIP包进行部署的方式。同时还提到了activiti.cfg.xml文件的作用。 ... [详细]

蜡笔小新 2023-12-10 19:22:56

加勒比海盗530

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章