关于大数据T+1执行流程

作者：手机用户2602914627 | 来源：互联网 | 2023-07-07 21:24

关于大数据T1执行流程前提：搭建好大数据环境（hadoophivehbasesqoopzookeeperooziehue）1.将所有数据库

关于大数据T&＃43;1执行流程

前提&＃xff1a; 搭建好大数据环境&＃xff08;hadoop hive hbase sqoop zookeeper oozie hue&＃xff09;

1.将所有数据库的数据汇总到hive (这里有三种数据源 ORACLE MYSQL SEQSERVER)

全量数据抽取示例&＃xff1a;

ORACLE&＃xff08;注意表名必须大写&＃xff01;&＃xff01;&＃xff01;&＃xff09;

sqoop import --connect jdbc:oracle:thin:&＃64;//10.11.22.33:1521/LPDR.china.com.hh --username root --password 1234 \ --table DATABASENAME.TABLENAME --hive-overwrite --hive-import --hive-database bgda_hw --hive-table lp_tablename \ --target-dir /user/hadouser_hw/tmp/lp_tablename --delete-target-dir \ --null-non-string &＃39;\\N&＃39; --null-string &＃39;\\N&＃39; \ --hive-drop-import-delims --verbose --m 1

MYSQL:

sqoop import --connect jdbc:mysql://10.33.44.55:3306/DATABASEBANE --username ROOT --password 1234 \ --query &＃39;select * from DEMO t where t.DATE1 --hive-overwrite --hive-import --hive-database bgda_hw --hive-table DEMO \ --target-dir /user/hadouser_hw/tmp/DEMO --delete-target-dir \ --null-non-string &＃39;\\N&＃39; --null-string &＃39;\\N&＃39; \ --hive-drop-import-delims --verbose --m 1

SQLSERVER:

sqoop import --connect &＃39;jdbc:sqlserver://10.55.66.15:1433;username&＃61;ROOT;password&＃61;ROOT;database&＃61;db_DD&＃39; \ --query &＃39;select * from TABLE t where t.tasktime --hive-overwrite --hive-import --hive-database bgda_hw --hive-table TABLENAME \ --target-dir /user/hadouser_hw/tmp/TABLENAME --delete-target-dir \ --null-non-string &＃39;\\N&＃39; --null-string &＃39;\\N&＃39; \ --hive-drop-import-delims --verbose --m 1

2.　　编写hive脚本&＃xff0c;对数据进行处理

说明&＃xff1a;

data 存储T&＃43;1跑出来的数据信息&＃xff0c;只存一天的数据量

data_bak : 存储所有的数据信息

&＃xff08;初始化脚本&＃xff09;

use bgda_hw; set hive.auto.convert.join&＃61;false;drop table data_bak; create table data_bak(scanopt string ,scanoptname string ,statisdate string ) row format delimited fields terminated by &＃39;\001&＃39;; insert overwrite table data_bak SELECT a.scanopt ,x0.name as scanoptname ,to_date(a.scandate) as statisdate from bgda_hw.scan a left outer join bgda_hw.user x0 on x0.userid &＃61; a.scanopt where 1&＃61;1 and datediff(a.scandate,&＃39;2019-01-01&＃39; )>&＃61;0 and datediff(a.scandate,&＃39;2019-09-20&＃39; )<0 GROUP BY a.scanopt,x0.name,a.scandate order by a.scandate ;

&＃xff08;t&＃43;1脚本&＃xff09;

use bgda_hw; set hive.auto.convert.join&＃61;false;drop table data; create table data(scanopt string ,scanoptname string ,statisdate string ) row format delimited fields terminated by &＃39;\001&＃39;; insert overwrite table data SELECT a.scanopt ,x0.name as scanoptname ,to_date(a.scandate) as statisdate from bgda_hw.scan a left outer join bgda_hw.user x0 on x0.userid &＃61; a.scanopt where 1&＃61;1 and a.scandateand a.scandate>&＃61;date_add(from_unixtime(unix_timestamp(),&＃39;yyyy-MM-dd&＃39;),-1) GROUP BY a.scanopt,x0.name,a.scandate order by a.scandate ;insert into table data_bak select * from data ;

3.将结果数据抽取到结果库里

sqoop export \ --connect jdbc:mysql://10.6.0.115:3306/report \ --username root \ --password 1234 \ --table data \ --export-dir /user/hive/warehouse/bgda_hw.db/data \ --columns scanopt,scanoptname,statisdate \ --fields-terminated-by &＃39;\001&＃39; \ --lines-terminated-by &＃39;\n&＃39; \ --input-null-string &＃39;\\N&＃39; \ --input-null-non-string &＃39;\\N&＃39;

4.定义调度信息&＃xff08;oozie&＃xff09;,每天定时跑出结果数据&＃xff0c;自动抽取到结果库中

HUE的基本使用

定义工作流信息

先进入workflow

开始定义

选定要执行的脚本

定义定时任务

先进入定时任务页面

新建定时任务

定时任务详细定义&＃xff08;点击Options ,选择ShangHai时区&＃xff0c;然后定义任务执行时长&＃xff08;例如从2019年到2099年&＃xff0c;最后保存&＃xff0c;保存好后记得点击执行&＃xff01;&＃xff01;&＃xff01;&＃xff09;&＃xff09;

5.配置可视化组件展示数据 saiku

这部分详细教程请参考 https://www.cnblogs.com/DFX339/tag/saiku/

转:https://www.cnblogs.com/DFX339/p/11552665.html

推荐阅读

format
MySQL显示SQL语句执行时间的实例详解

本文详细介绍了如何使用MySQL来显示SQL语句的执行时间，并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法：瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]

蜡笔小新 2023-12-12 16:16:42
format
MySQL语句大全：创建、授权、查询、修改等【MySQL】的使用方法详解

本文详细介绍了MySQL语句的使用方法，包括创建用户、授权、查询、修改等操作。通过连接MySQL数据库，可以使用命令创建用户，并指定该用户在哪个主机上可以登录。同时，还可以设置用户的登录密码。通过本文，您可以全面了解MySQL语句的使用方法。 ... [详细]

蜡笔小新 2023-12-11 15:34:14
web
搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的详细步骤

本文详细介绍了搭建Windows Server 2012 R2 IIS8.5+PHP（FastCGI）+MySQL环境的步骤，包括环境说明、相关软件下载的地址以及所需的插件下载地址。 ... [详细]

蜡笔小新 2023-12-14 17:03:58
web
如何限制php数据库链接数和连接超时时间？

本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目，以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数，以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]

蜡笔小新 2023-12-14 14:06:10
web
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
client
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
format
MySQL表分区的创建、增加和删除方法详解

本文详细介绍了MySQL表分区的创建、增加和删除方法，包括查看分区数据量和全库数据量的方法。欢迎大家阅读并给予点评。 ... [详细]

蜡笔小新 2023-12-13 12:26:11
java
C#制作Java+Mysql+Tomcat环境安装程序，一键式安装教程

本文介绍了如何使用C#制作Java+Mysql+Tomcat环境安装程序，实现一键式安装。通过将JDK、Mysql、Tomcat三者制作成一个安装包，解决了客户在安装软件时的复杂配置和繁琐问题，便于管理软件版本和系统集成。具体步骤包括配置JDK环境变量和安装Mysql服务，其中使用了MySQL Server 5.5社区版和my.ini文件。安装方法为通过命令行将目录转到mysql的bin目录下，执行mysqld --install MySQL5命令。 ... [详细]

蜡笔小新 2023-12-12 19:29:55
stream
FileNotFoundException: File does not exist

ubuntu用sqoop将数据从hive导入mysql时，命令： ... [详细]

蜡笔小新 2023-12-12 18:56:13
utf-8
MyBatis多表查询与动态SQL使用

本文介绍了MyBatis多表查询与动态SQL的使用方法，包括一对一查询和一对多查询。同时还介绍了动态SQL的使用，包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]

蜡笔小新 2023-12-12 17:12:51
format
如何在Laravel DB :: insert中返回OUTPUT子句的值？

本文介绍了在使用Laravel和sqlsrv连接到SQL Server 2016时，如何在插入查询中使用输出子句，并返回所需的值。同时讨论了使用CreatedOn字段返回最近创建的行的解决方法以及使用Eloquent模型创建后，值正确插入数据库但没有返回uniqueidentifier字段的问题。最后给出了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 10:09:09
utf-8
如何使用PHP代码将表格导出为UTF8格式的Excel文件

本文介绍了如何使用PHP代码将表格导出为UTF8格式的Excel文件。首先，需要连接到数据库并获取表格的列名。然后，设置文件名和文件指针，并将内容写入文件。最后，设置响应头部，将文件作为附件下载。 ... [详细]

蜡笔小新 2023-12-11 00:29:33
format
InnoDB存储引擎——内存

上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的，并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中，由于CPU速度 ... [详细]

蜡笔小新 2023-12-10 19:47:18
format
使用pymysql的Python无法向mysql数据库中的表添加字段

WhenIusepythontoapplythepymysqlmoduletoaddafieldtoatableinthemysqldatabase,itdo ... [详细]

蜡笔小新 2023-12-12 13:45:10
format
再淡spring jdbc 连接池断开重连设置

先看一段错误日志：###Errorqueryingdatabase.Cause:com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransie ... [详细]

蜡笔小新 2023-12-11 15:02:18