热门标签 | HotTags
当前位置:  开发笔记 > 大数据 > 正文

ORC使用效果

前面我们已经把生产上使用的Hive版本由0.7.0升级到0.12。Hive0.12在存储层做了很大的改进,包括更高的压缩比以及更高的查询效率。ORCFile在hive0.11中被引入进来,这是一个不可思议的压缩格式,下面我们来看看它到底有多神奇。首先,我们看看如何使用ORCFi

前面我们已经把生产上使用的Hive版本由0.7.0升级到0.12。Hive 0.12在存储层做了很大的改进,包括更高的压缩比以及更高的查询效率。ORCFile在hive 0.11中被引入进来,这是一个不可思议的压缩格式,下面我们来看看它到底有多神奇。首先,我们看看如何使用ORCFi

前面我们已经把生产上使用的Hive版本由0.7.0升级到0.12。Hive 0.12在存储层做了很大的改进,包括更高的压缩比以及更高的查询效率。 ORCFile在hive 0.11中被引入进来,这是一个不可思议的压缩格式,下面我们来看看它到底有多神奇。   首先,我们看看如何使用ORCFile。先建立一张以ORCFile为存储格式的表,如下:
CREATE TABLE orc_test(
...
) STORED AS orc;
把存量的数据转换成ORCFile格式存储是超级简单的,我们只需要把存量表oldtable中的数据insert overwrite到新表orc_test里面即可。
INSERT INTO TABLE orc_test SELECT * FROM oldtable;
ORCFile存储格式有几个表属性可以进一步改善效果,这些属性如下:
属性 默认值 说明
orc.compress ZLIB 列压缩格式(NONE, ZLIB, SNAPPY)
orc.compress.size 262,144 (= 256 KiB) 每一个压缩块大小
orc.stripe.size 268,435,456 (= 256 MiB) 每一个stripe大小
orc.row.index.stride 10,000 index间隔行数(必须大于10000)
orc.create.index true 是否创建内联index
  如果想修改默认的列压缩格式,例如修改为SNAPPY:
CREATE TABLE orc_test2(
...
) STORED AS orc tblproperties ("orc.compress"="SNAPPY");
  使用ORC存储格式实验效果展示。 这里使用ubs一小时的数据作为测试用例。先看看测试表的数据文件存储情况:
   63426542  pt=2014.03.02.00/00000
   64508155  pt=2014.03.02.00/00001
   65929482  pt=2014.03.02.00/00002
   63833597  pt=2014.03.02.00/00003
   ..............................
   ..............................
   63850876  pt=2014.03.02.00/00126
   62094988  pt=2014.03.02.00/00127
测试表数据一共有128个文件,每个文件60MB左右。总的数据量为8063408920B=7.5GB。 通过insert overwrite导入到上文中的orc_test表中,默认结果生成4个文件,文件大小如下:
 260485638 2014-03-03 19:15 orc_test/000000_0
 261423217 2014-03-03 19:15 orc_test/000001_0
 253876162 2014-03-03 19:15 orc_test/000002_0
  18124387 2014-03-03 19:14 orc_test/000003_0
总大小为793909404字节=757MB。 增加文件个数,使其生成16个文件,结果如下:
108734630 2014-03-03 15:19 orc_test3/000000_0
108308186 2014-03-03 15:18 orc_test3/000001_0
110069765 2014-03-03 15:18 orc_test3/000002_0
110582145 2014-03-03 15:18 orc_test3/000003_0
109460085 2014-03-03 15:18 orc_test3/000004_0
110110866 2014-03-03 15:18 orc_test3/000005_0
109337311 2014-03-03 15:18 orc_test3/000006_0
108678617 2014-03-03 15:18 orc_test3/000007_0
108587893 2014-03-03 15:18 orc_test3/000008_0
109880571 2014-03-03 15:18 orc_test3/000009_0
108456961 2014-03-03 15:18 orc_test3/000010_0
109082450 2014-03-03 15:18 orc_test3/000011_0
110406471 2014-03-03 15:18 orc_test3/000012_0
110369926 2014-03-03 15:18 orc_test3/000013_0
109480607 2014-03-03 15:18 orc_test3/000014_0
109651103 2014-03-03 15:18 orc_test/000015_0
由结果可见,每个文件大小在100MB左右,表的总大小为1751197587字节=1.63GB。 测试小结:
测试表 存储 压缩比 count(*)时间(秒)
rcfile原始表 7.5GB 100% 48
orc_test(4个文件) 757MB 10% 57
orc_test3(16个文件) 1.63GB 22% 56
由上表可见,orc存储格式对存储的压缩提升了很多,而计算效率损失不大。业务方可以根据自身的计算特点选择使用。    
推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • 仙贝旅行是日本最大的旅游服务平台之一,为广大用户提供优质的日本定制游服务。随着用户数量的增长,仙贝旅行决定与智齿科技合作,全面替换原有客服系统,打造全新的在线客服体系。该体系具备多渠道快速接入的能力,让仙贝旅行轻松与各个渠道的接入用户完成沟通。同时,机器人与人工协同发力,提升客户服务水平。 ... [详细]
  • 本文介绍了一些Java开发项目管理工具及其配置教程,包括团队协同工具worktil,版本管理工具GitLab,自动化构建工具Jenkins,项目管理工具Maven和Maven私服Nexus,以及Mybatis的安装和代码自动生成工具。提供了相关链接供读者参考。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了StartingzookeeperFAILEDTOSTART相关的知识,希望对你有一定的参考价值。下载路径:https://ar ... [详细]
  • ubuntu用sqoop将数据从hive导入mysql时,命令: ... [详细]
  • 本文介绍了在Linux下安装和配置Kafka的方法,包括安装JDK、下载和解压Kafka、配置Kafka的参数,以及配置Kafka的日志目录、服务器IP和日志存放路径等。同时还提供了单机配置部署的方法和zookeeper地址和端口的配置。通过实操成功的案例,帮助读者快速完成Kafka的安装和配置。 ... [详细]
  • SAP羞辱国产软件商:技术停在10年前
    SAP中国研究院总裁芮祥麟表示,国产软件厂商过于热衷概念炒作,技术水平停留在10年前的客户端架构水平。他认为,国内厂商推出基于SOA的产品或转型SAAS模式是不可能的,研发新架构需要时间。当前最热门的概念是云计算,芮祥麟呼吁国产厂商应该潜心研发底层架构。 ... [详细]
  • IT方面的论坛太多了,有综合,有专业,有行业,在各个论坛里混了几年,体会颇深,以前是论坛哪里人多 ... [详细]
  • CEPH LIO iSCSI Gateway及其使用参考文档
    本文介绍了CEPH LIO iSCSI Gateway以及使用该网关的参考文档,包括Ceph Block Device、CEPH ISCSI GATEWAY、USING AN ISCSI GATEWAY等。同时提供了多个参考链接,详细介绍了CEPH LIO iSCSI Gateway的配置和使用方法。 ... [详细]
  • 本文讲述了孙悟空写给白骨精的信件引发的思考和反省。孙悟空在信中对自己的行为进行了反思,认识到自己胡闹的行为并没有给他带来实际的收获。他也揭示了西天取经的真相,认为这是玉皇、菩萨设下的一场陷阱。他还提到了师傅的虚伪和对自己的实心话,以及自己作为师傅准备提拔的对象而被派下来锻炼的经历。他认为路上的九九八十一难也都是菩萨算计好的,唐僧并没有真正的危险。最后,他提到了观音菩萨在关键时刻的指导。这封信件引发了孙悟空对自己行为的思考和反省,对西天取经的目的和自己的角色有了更深入的认识。 ... [详细]
  • Windows2003 IIS上设置301定向,实现不带www域名跳转带www域名的方法
    打开IIS,建一个网站,主机头用不带www的域名,随便指向一个目录。然后在这个网站上点右键,属性--主目录--重定向到URL如图ÿ ... [详细]
  • Postgresql备份和恢复的方法及命令行操作步骤
    本文介绍了使用Postgresql进行备份和恢复的方法及命令行操作步骤。通过使用pg_dump命令进行备份,pg_restore命令进行恢复,并设置-h localhost选项,可以完成数据的备份和恢复操作。此外,本文还提供了参考链接以获取更多详细信息。 ... [详细]
  • 本文介绍了在Ubuntu下制作deb安装包及离线安装包的方法,通过备份/var/cache/apt/archives文件夹中的安装包,并建立包列表及依赖信息文件,添加本地源,更新源列表,可以在没有网络的情况下更新系统。同时提供了命令示例和资源下载链接。 ... [详细]
author-avatar
mobiledu2502861463
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有