当前位置: 开发笔记 > 编程语言 > 正文

hive表列数限制_?Hive的优化和压缩

作者：keleisibuo | 来源：互联网 | 2023-07-09 10:15

使用之前的数据库执行语句explainselectcount(*)fromemp;explain可以帮助我们看到有多少个任务会出现下面的信息根标签，操作语法树等信息根

使用之前的数据库

执行语句

explain select count(*) from emp;

explain可以帮助我们看到有多少个任务

会出现下面的信息根标签&＃xff0c;操作语法树等信息

根标签

操作语法树

之前在做日志分析的时候&＃xff0c;创建表的语句&＃xff0c;也有很多信息

依赖&＃xff0c;是会构成有向无环图的, 根据有向无环图会按照顺序执行job。这样也会造成执行时间比较长&＃xff0c;我们就需要做优化

优化一&＃xff1a;大表拆小表

比如临时表、分区表、外部表。其中分区表&＃xff1a;加载的表会更少&＃xff0c;会直接加载到某个数据&＃xff0c;不需要加载所有数据&＃xff0c;提高检索速度。

优化二&＃xff1a;sql语句

将复杂的语句&＃xff0c;比如子查询简化拆分成多个简单的语句。

join和filter的使用&＃xff0c;先过滤再join

优化三&＃xff1a;合理设置map和reduce个数

reduce数目&＃xff1a;可以通过参数设置&＃xff0c;默认是一个

** hive中&＃xff1a;set mapreduce.job.reduces&＃61;

** mapreduce编码中&＃xff1a;job.setNumReduceTasks(tasks);

map的数目&＃xff1a; 一个分片就是一个块&＃xff0c;一个maptask&＃xff0c;不可以通过参数去设置

在源码中有个计算方式&＃xff0c;大体是&＃xff1a;

** Math.max(minSize, Math.min(maxSize, blockSize));

minSize默认参数值是0M

maxSize默认参数值是256M

blockSize默认参数值128M

可以打开FileInputFormat类中的computeSplitSize的方法

修改块的大小是不可行的&＃xff0c;因为集群投入生产&＃xff0c;格式化后就不能再修改了&＃xff0c;可以通过代码指定

** FileInputFormat.setMaxInputSplitSize(job, size);

** FileInputFormat.setMinInputSplitSize(job, size);

通过split的最大最小值来改变map任务数

优化四&＃xff1a;开启并行执行

有多个job之间无依赖关系可以一起执行&＃xff0c;充分利用资源&＃xff0c;在工作中都会把它打开

hive.exec.parallel

设置同时运行的线程数&＃xff0c;根据集群资源设置&＃xff0c;默认是8

hive.exec.parallel.thread.number

优化五&＃xff1a;jvm重用

mapreduce.job.jvm.numtasks默认是1&＃xff0c;运行一个job会启动一个jvm上运行

用完就销毁&＃xff0c;可以设置重用&＃xff0c;节省资源&＃xff0c;可以按照比例调整数目&＃xff0c;会影响map任务&＃xff0c;shuffer会有小幅度的下降

reduce影响不大&＃xff0c;一般可以设置为3或5

还有一个推测执行&＃xff08;不建议使用&＃xff0c;了解为主&＃xff09;&＃xff1a;

比如&＃xff1a;运行十个map&＃xff0c;十个reduce&＃xff0c;等map结束后&＃xff0c;等了一段时间后&＃xff0c;九个执行reduce完毕&＃xff0c;有一个还没结束&＃xff0c;分布的数据量都是差不多的。推测执行&＃xff1a;mapreduce会再重新开启一个跟这个一模一样的任务&＃xff0c;&＃xff0c;两个相同的任务完成同一件事&＃xff0c;谁先完成&＃xff0c;就会把另一个kill。缺点&＃xff1a;会消耗更多的资源&＃xff0c;一般不建议开启&＃xff0c;有可能数据会重复写入&＃xff0c;造成异常。

优化六&＃xff1a;hive本地模式&＃xff08;了解为主&＃xff09;

hive的本地模式&＃xff1a;hive.exec.mode.local.auto默认flase

hive底层运用的是hadoop集群&＃xff0c;本地模式不会在集群所有机器上运行&＃xff0c;会选择一台作为本地运行&＃xff0c;一般处理小数据量级的

速度会很快

限制&＃xff1a;job的输入数据不能大于128MB&＃xff0c;map的个数不能超过4个&＃xff0c;reduce的个数不能超过1个

优化七&＃xff1a;

hive数据倾斜&＃xff1a;在MR程序中由于某个key值分布不均匀&＃xff0c;导致某个reduce运行速度严重过慢&＃xff0c;严重影响了整个job的运行

原因有很多&＃xff0c;解决办法也很多&＃xff0c;有几个比较典型。

解决一&＃xff1a;默认的分区是采用hash取值&＃xff0c;可以自定义实现分区规则来避免产生倾斜

解决二&＃xff1a;在key中加入随机数的侧率&＃xff0c;打乱分区

在hive中

产生倾斜的主要语句&＃xff1a;join、group by、distinct。

join&＃xff0c;连接某个key值时&＃xff0c;key值得数据量很多。

join&＃xff1a;map join 、 reduce join 、SMB join(sort merge bucket)

map join&＃xff1a;适合小表join大表的场景【读取小表缓存到内存中&＃xff0c;在map端完成reduce&＃xff0c;减轻reduce压力】

开启mapjoin&＃xff0c;默认值是true&＃xff0c;开启了map join&＃xff0c;符合条件就会去执行

属性配置

hive.auto.convert.join

true

执行map join的条件&＃xff0c;默认是10M

属性配置

hive.auto.convert.join.noconditionaltask.size

10000000

reduce join&＃xff1a;适合大表join大表的场景【加上随机数&＃xff0c;把倾斜的数据分到不同的reduce上】

SMB join&＃xff1a;适合大表join大表的场景&＃xff0c;简称&＃xff1a;桶join&＃xff0c;创建桶表

分区与分区之间的join&＃xff0c;减少了join的范围。

桶join只适合桶与桶之间的join&＃xff0c;适合抽样的统计。

注意&＃xff1a;桶表之间的join&＃xff0c;两张表的桶的个数要么是一致&＃xff0c;要么就是成倍数关系

如何判断是大key导致的问题&＃xff1f;

通过时间判断&＃xff1a;如果每个reduce的运行时间都很长&＃xff0c;那么可能是reduce数目设置过少造成的&＃xff1b;如果大部分的reduce任务在几分钟之内完成了&＃xff0c;而某一个reduce可能30分钟还没完成&＃xff0c;可能是倾斜&＃xff1b;可能也是某个节点造成的问题&＃xff0c;可以考虑使用推测执行&＃xff0c;如果推测执行的任务也很慢&＃xff0c;就有可能是倾斜问题或者如果推测执行的新任务在短时间内完成&＃xff0c;可能就是节点造成的某个任务运行过慢。

自定义counter判断&＃xff1a;判断统计查看每个任务的信息&＃xff0c;输入记录条数和输出字符数。

Hadoop和 hive 压缩

Hadoop数据压缩

MR操作过程中进行大量数据传输。

压缩技术能够有效的减少底层存储&＃xff08;HDFS&＃xff09;读写字节数。

压缩提高了网络带宽和磁盘空间的效率。

数据压缩能够有效的节省资源&＃xff01;

压缩是mr程序的优化策略&＃xff01;

通过压缩编码对mapper或者reducer数据传输进行数据的压缩&＃xff0c;以减少磁盘IO。

bin/hadoop checknative可以查看hadoop是否开启了压缩

我们准备几个软件

解压

tar -zxvf cdh5.3.6-snappy-lib-natirve.tar.gz

将hadoop中对应的目录native直接删除覆盖

这是hadoop中的目录

我们将原先的删除备份

再将解压的拷贝过来

bin/hadoop checknative可以查看hadoop是否开启了压缩

压缩要支持可分割性

那什么叫可分割性呢&＃xff0c;我们来看一个小例子

我桌面上有一个Tomcat文件&＃xff0c;我们进行压缩

我们压缩的时候&＃xff0c;进行分卷

这是压缩完的

我解压一个是可以的

但是我删除一个&＃xff0c;就不可以了&＃xff0c;这就是不可分割性

MR 压缩设置

设置这两个参数

map&＃xff1a;输出

mapreduce.map.output.compress&＃61;true

mapreduce.map.output.compress.codec&＃61;org.apache.hadoop.io.compress.SnappyCodec

reduce&＃xff1a;输出

mapreduce.output.fileoutputformat.compress&＃61;true

mapreduce.output.fileoutputformat.compress.codec&＃61;org.apache.hadoop.io.compress.SnappyCodec

代码中设置

FileOutputFormat.setCompressOutput(job, true)

FileOutputFormat.setOutputCompressorClass(job, SnappyCodec.class);

可以利用wordcount查看下

跑一个普通的看看&＃xff08;数据量大的效果比较明显&＃xff09;&＃xff1a;

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount /input /output

设置后再查看

bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-cdh5.3.6.jar wordcount -Dmapreduce.map.output.compress&＃61;true -Dmapreduce.map.output.compress.codec&＃61;org.apache.hadoop.io.compress.SnappyCodec -Dmapreduce.output.fileoutputformat.compress&＃61;true -Dmapreduce.output.fileoutputformat.compress.codec&＃61;org.apache.hadoop.io.compress.SnappyCodec /input /output2

Hive的压缩设置

map:输出

hive.exec.compress.intermediate

true

配置Map

set hive.exec.compress.intermediate&＃61;true;

set mapreduce.map.output.compress&＃61;true;

set mapreduce.map.output.compress.codec&＃61;org.apache.hadoop.io.compress.SnappyCodec;

reduce&＃xff1a;输出

hive.exec.compress.output

true

配置reduce

set mapreduce.output.fileoutputformat.compress&＃61;true;

set mapreduce.output.fileoutputformat.compress.codec&＃61;org.apache.hadoop.io.compress.SnappyCodec;

set hive.exec.compress.output&＃61;true;

hive的高压缩存储格式

[STORED AS file_format]

file_format:

hive默认的存储格式是TEXTFILE

我们创建数据

【原文本数据】

create table file_source(

id string,

url string,

referer string,

keyword string,

type string,

guid string,

pageId string,

moduleId string,

linkId string,

attachedInfo string,

sessionId string,

trackerU string,

trackerType string,

ip string,

trackerSrc string,

COOKIE string,

orderCode string,

trackTime string,

endUserId string,

firstLink string,

sessionViewNo string,

productId string,

curMerchantId string,

provinceId string,

cityId string,

fee string,

edmActivity string,

edmEmail string,

edmJobId string,

ieVersion string,

platform string,

internalKeyword string,

resultSum string,

currentPage string,

linkPosition string,

buttonPosition string

)row format delimited fields terminated by &＃39;t&＃39;;

导入数据

load data local inpath &＃39;/data/test/data1&＃39; into table file_source;

创建表

create table file_textfile(

id string,

url string,

referer string,

keyword string,

type string,

guid string,

pageId string,

moduleId string,

linkId string,

attachedInfo string,

sessionId string,

trackerU string,

trackerType string,

ip string,

trackerSrc string,

COOKIE string,

orderCode string,

trackTime string,

endUserId string,

firstLink string,

sessionViewNo string,

productId string,

curMerchantId string,

provinceId string,

cityId string,

fee string,

edmActivity string,

edmEmail string,

edmJobId string,

ieVersion string,

platform string,

internalKeyword string,

resultSum string,

currentPage string,

linkPosition string,

buttonPosition string

)

row format delimited fields terminated by &＃39;t&＃39;

stored as textfile;

导入数据

insert overwrite table file_textfile select * from file_source;

创建表

create table file_parquet(

id string,

url string,

referer string,

keyword string,

type string,

guid string,

pageId string,

moduleId string,

linkId string,

attachedInfo string,

sessionId string,

trackerU string,

trackerType string,

ip string,

trackerSrc string,

COOKIE string,

orderCode string,

trackTime string,

endUserId string,

firstLink string,

sessionViewNo string,

productId string,

curMerchantId string,

provinceId string,

cityId string,

fee string,

edmActivity string,

edmEmail string,

edmJobId string,

ieVersion string,

platform string,

internalKeyword string,

resultSum string,

currentPage string,

linkPosition string,

buttonPosition string

)

row format delimited fields terminated by &＃39;t&＃39;

stored as PARQUET;

导入数据

insert overwrite table file_parquet select * from file_source;

创建表

create table file_orc(

id string,

url string,

referer string,

keyword string,

type string,

guid string,

pageId string,

moduleId string,

linkId string,

attachedInfo string,

sessionId string,

trackerU string,

trackerType string,

ip string,

trackerSrc string,

COOKIE string,

orderCode string,

trackTime string,

endUserId string,

firstLink string,

sessionViewNo string,

productId string,

curMerchantId string,

provinceId string,

cityId string,

fee string,

edmActivity string,

edmEmail string,

edmJobId string,

ieVersion string,

platform string,

internalKeyword string,

resultSum string,

currentPage string,

linkPosition string,

buttonPosition string

)

row format delimited fields terminated by &＃39;t&＃39;

stored as orc;

导入数据

insert overwrite table file_orc select * from file_source;

【结果比较】

原始数据 37.6 MB

textfile 27.48 MB

parquet 16.14 MB

orc 4.4 MB

总结&＃xff1a;

textfile 存储空间消耗比较大&＃xff0c;并且压缩的text 无法分割和合并查询的效率最低,可以直接存储&＃xff0c;加载数据的速度最高

sequencefile 存储空间消耗最大,压缩的文件可以分割和合并查询效率高&＃xff0c;需要通过text文件转化来加载

rcfile 存储空间最小&＃xff0c;查询的效率最高 &＃xff0c;需要通过text文件转化来加载&＃xff0c;加载的速度最低

text,seqfile能不用就尽量不要用最好是选择orc

推荐阅读

input
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
input
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
get
Spring特性实现接口多类的动态调用详解

本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍，以及getBeansOfType方法的应用，解决了在实际工作中遇到的接口及多个实现类的问题。同时，文章还提到了SPI使用的不便之处，并介绍了借助ApplicationContext实现需求的方法。阅读本文，你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]

蜡笔小新 2023-12-14 03:24:19
copy
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
datetime
高质量SQL书写的30条建议

本文提供了30条关于优化SQL的建议，包括避免使用select *，使用具体字段，以及使用limit 1等。这些建议是基于实际开发经验总结出来的，旨在帮助读者优化SQL查询。 ... [详细]

蜡笔小新 2023-12-13 13:24:33
join
模板引擎StringTemplate的使用方法和特点

本文介绍了模板引擎StringTemplate的使用方法和特点，包括强制Model和View的分离、Lazy-Evaluation、Recursive enable等。同时，还介绍了StringTemplate语法中的属性和普通字符的使用方法，并提供了向模板填充属性的示例代码。 ... [详细]

蜡笔小新 2023-12-11 21:45:03
list
Java面经整理及相关概念解析

本文整理了Java面试中常见的问题及相关概念的解析，包括HashMap中为什么重写equals还要重写hashcode、map的分类和常见情况、final关键字的用法、Synchronized和lock的区别、volatile的介绍、Syncronized锁的作用、构造函数和构造函数重载的概念、方法覆盖和方法重载的区别、反射获取和设置对象私有字段的值的方法、通过反射创建对象的方式以及内部类的详解。 ... [详细]

蜡笔小新 2023-12-10 22:17:08
get
Hibernate延迟加载深入分析-集合属性的延迟加载策略

本文深入分析了Hibernate延迟加载的机制，特别是集合属性的延迟加载策略。通过延迟加载，可以降低系统的内存开销，提高Hibernate的运行性能。对于集合属性，推荐使用延迟加载策略，即在系统需要使用集合属性时才从数据库装载关联的数据，避免一次加载所有集合属性导致性能下降。 ... [详细]

蜡笔小新 2023-12-10 14:26:13
get
单击后为什么远程通知操作无效？ - Why remote notification action is doing nothing after clicking?

IhaveconfiguredanactionforaremotenotificationwhenitarrivestomyiOsapp.Iwanttwodiff ... [详细]

蜡笔小新 2023-12-14 15:57:44
tree
使用在线工具jsonschema2pojo根据json生成java对象

本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具，用户只需将json字符串复制到输入框中，即可自动将其转换成java对象。该工具还能解析列表式的json数据，并将嵌套在内层的对象也解析出来。本文以请求github的api为例，展示了使用该工具的步骤和效果。 ... [详细]

蜡笔小新 2023-12-13 21:23:45
tree
基于事件驱动的并发编程及其消息通信机制的同步与异步、阻塞与非阻塞、IO模型的分类

本文介绍了基于事件驱动的并发编程中的消息通信机制，包括同步和异步的概念及其区别，阻塞和非阻塞的状态，以及IO模型的分类。同步阻塞IO、同步非阻塞IO、异步阻塞IO和异步非阻塞IO等不同的IO模型被详细解释。这些概念和模型对于理解并发编程中的消息通信和IO操作具有重要意义。 ... [详细]

蜡笔小新 2023-12-13 19:32:09
php
java 线程死锁模拟

1，关于死锁的理解死锁，我们可以简单的理解为是两个线程同时使用同一资源，两个线程又得不到相应的资源而造成永无相互等待的情况。 2，模拟死锁背景介绍：我们创建一个朋友 ... [详细]

蜡笔小新 2023-12-13 19:12:25
php
问题2：重新命名或者移动数据文件、日志文件到新的位置

本文讨论了在数据库打开和关闭状态下，重新命名或移动数据文件和日志文件的情况。针对性能和维护原因，需要将数据库文件移动到不同的磁盘上或重新分配到新的磁盘上的情况，以及在操作系统级别移动或重命名数据文件但未在数据库层进行重命名导致报错的情况。通过三个方面进行讨论。 ... [详细]

蜡笔小新 2023-12-13 13:02:24
input
关于Linq to sql 实现模糊查询 string数组

前景：当UI一个查询条件为多项选择，或录入多个条件的时候，比如查询所有名称里面包含以下动态条件，需要模糊查询里面每一项时比如是这样一个数组条件：newstring[]{兴业银行, ... [详细]

蜡笔小新 2023-12-13 09:34:59
input
一次上线事故，30岁+的程序员踩坑经验之谈

本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间，作为一个在线医疗项目，他们进行了优惠折扣活动的升级改造。然而，在上线前的最后一天，由于大量数据请求，导致部分接口出现问题。作者通过部署两台opentsdb来解决问题，但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]

蜡笔小新 2023-12-10 17:25:31

keleisibuo

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章