热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hive改表结构的两个坑|避坑指南

公众号后台回复“图书“,了解更多号主新书内容作者:数据社来源:数据社Hive在大数据中可能是数据工程师使用的最多的组件,常见的数据仓库一般都是基于Hive搭建的

公众号后台回复“图书“,了解更多号主新书内容

作者:数据社

来源:数据社


Hive在大数据中可能是数据工程师使用的最多的组件,常见的数据仓库一般都是基于Hive搭建的,在使用Hive时候,遇到了两个奇怪的现象,今天给大家聊一下,以后遇到此类问题知道如何避坑!

坑一:改变字段类型后更新数据不成功 

关于hive插入数据的一个小坑,今天插入一个表中数据,插入时写的是常数,比如0.01 ,表中的字段也是DECIMAL(5,2),按照常理插入的应该是0.01,但是插入后查询是0,为甚!

 

 遇到问题,咱也不能退缩!就分析呀,看语句没问题啊!还是上网查查有没有坑友。查了一圈发现还是观望最靠谱!上hive官网查,呀~ 发现了原因!

 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types#LanguageManualTypes-Decimals

 根据官网描述,发现在插入分区表时会出现这种情况,此时需要对之前的分区处理下~:

那就测试一下 按照官网的说法:

先建表:

    CREATE TABLE `tb_dw_test`(


    `a` int COMMENT '微信服务量')


    PARTITIONED BY (


    `statis_date` varchar(8))


    ROW FORMAT DELIMITED


    FIELDS TERMINATED BY '|' ;

    然后插入数据: 

      insert overwrite table tb_dw_test partition (statis_date=20160501values(1.02);

      然后查询: 

        hive> select * from tb_dw_test;


        OK


        1 20160501

        发现结果跟想象中的一样~ 

        然后修改表字段:

          ALTER TABLE tb_dw_test REPLACE COLUMNS (a DECIMAL(5,2))

          然后再次插入数据: 

            insert overwrite table tb_dw_test partition (statis_date=20160501values(1.02);

            查询: 

              hive> select * from tb_dw_test;


              OK


              1 20160501

              发现有问题啦! 

              那么按照官网处理:

              Determine what precision/scale you would like to set for the decimal column in the table.
              For each decimal column in the table, update the column definition to the desired precision/scale using the ALTER TABLE command:

                ALTER TABLE foo CHANGE COLUMN dec_column_name dec_column_name DECIMAL(38,18);


                If the table is a partitioned table, then find the list of partitions for the table:If the table is not a partitioned table, then you are done.  If the table has partitions, then go on to step 3

                  SHOW PARTITIONS foo;





                  ds=2008-04-08/hr=11


                  ds=2008-04-08/hr=12


                  ...

                  This can be done with a single ALTER TABLE CHANGE COLUMN by using dynamic partitioning (available for ALTER TABLE CHANGE COLUMN in Hive 0.14 or later, with HIVE-8411):Each existing partition in the table must also have its DECIMAL column changed to add the desired precision/scale.

                    SET hive.exec.dynamic.partition = true;

                    -- hive.exec.dynamic.partition needs to be set to true to enable dynamic partitioning with ALTER PARTITION
                    -- This will alter all existing partitions of the table - be sure you know what you are doing!
                    ALTER TABLE foo PARTITION (ds, hr) CHANGE COLUMN dec_column_name dec_column_name DECIMAL(38,18);


                    所以参照官网,这里对表作如下处理:


                      ALTER TABLE tb_dw_test PARTITION (statis_date) CHANGE COLUMN a a DECIMAL(5,2);

                        

                      再次插入数据:

                        insert overwrite table tb_dw_test partition (statis_date=20160501) values(1.02);

                        然后查询: 

                          hive> select * from tb_dw_test;


                          OK


                          1.02 20160501


                          Time taken: 0.066 seconds, Fetched: 1 row(s)

                          发现结果跟想象中的一样了。这个坑算是过去了~ 

                          坑二:增加字段后更新数据不成功

                          还是上面的例子那张表,再增加一个字段:

                            alter table tb_dw_test add COLUMNS (b varchar(5))

                            然后查询 

                              hive> select * from tb_dw_test;


                              OK


                              1.02 NULL 20160501


                              Time taken: 0.082 seconds, Fetched: 1 row(s)

                              发现新增的字段默认的值是NULL,现在我重新覆盖一下元数据,给增加的字段一个值: 

                                insert overwrite table tb_dw_test partition(statis_date=20160501) values (2.01,0371);

                                然后查询: 

                                  hive> select * from tb_dw_test;


                                  OK


                                  2.01 NULL 20160501

                                  不是我们想象的结果,查看一下官方文档说明发现了问题的所在:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Add/ReplaceColumns


                                  靠谱的官网用红色框框提示我们!那就这样处理: 

                                    alter table tb_dw_test replace COLUMNS (a  decimal(5,2),b varchar(5)) CASCADE;

                                    直接查询,发现数据显示的数据已经发生了变化了~ 

                                      hive> select * from tb_dw_etst;


                                      OK


                                      2.01 0371 20160501

                                      ◆ ◆ ◆  ◆ 

                                      麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:


                                      点击下方小程序即可进入购买页面:





                                      数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。


                                      管理员二维码:

                                      猜你喜欢

                                       麟哥拼了!!!亲自出镜推荐自己新书《数据分析师求职面试指南》

                                       厉害了!麟哥新书登顶京东销量排行榜!

                                       笑死人不偿命的知乎沙雕问题排行榜

                                       用Python扒出B站那些“惊为天人”的阿婆主!

                                      ● 你相信逛B站也能学编程吗



                                      推荐阅读
                                      • 本文详细介绍了在ASP.NET中获取插入记录的ID的几种方法,包括使用SCOPE_IDENTITY()和IDENT_CURRENT()函数,以及通过ExecuteReader方法执行SQL语句获取ID的步骤。同时,还提供了使用这些方法的示例代码和注意事项。对于需要获取表中最后一个插入操作所产生的ID或马上使用刚插入的新记录ID的开发者来说,本文提供了一些有用的技巧和建议。 ... [详细]
                                      • 微软头条实习生分享深度学习自学指南
                                        本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
                                      • ALTERTABLE通过更改、添加、除去列和约束,或者通过启用或禁用约束和触发器来更改表的定义。语法ALTERTABLEtable{[ALTERCOLUMNcolu ... [详细]
                                      • 本文介绍了一些Java开发项目管理工具及其配置教程,包括团队协同工具worktil,版本管理工具GitLab,自动化构建工具Jenkins,项目管理工具Maven和Maven私服Nexus,以及Mybatis的安装和代码自动生成工具。提供了相关链接供读者参考。 ... [详细]
                                      • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
                                      • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
                                      • 云原生边缘计算之KubeEdge简介及功能特点
                                        本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
                                      • 向QTextEdit拖放文件的方法及实现步骤
                                        本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
                                      • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
                                      • CSS3选择器的使用方法详解,提高Web开发效率和精准度
                                        本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
                                      • 本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程,将每个考题分配给3个独立的专家,如果他们的评分不一致,则需要请一位裁判做出最终决定。文章详细描述了评分规则,并给出了解决该问题的程序。 ... [详细]
                                      • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
                                      • 本文讨论了使用差分约束系统求解House Man跳跃问题的思路与方法。给定一组不同高度,要求从最低点跳跃到最高点,每次跳跃的距离不超过D,并且不能改变给定的顺序。通过建立差分约束系统,将问题转化为图的建立和查询距离的问题。文章详细介绍了建立约束条件的方法,并使用SPFA算法判环并输出结果。同时还讨论了建边方向和跳跃顺序的关系。 ... [详细]
                                      • 本文详细介绍了Java中vector的使用方法和相关知识,包括vector类的功能、构造方法和使用注意事项。通过使用vector类,可以方便地实现动态数组的功能,并且可以随意插入不同类型的对象,进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下,使用vector类是一个很好的选择。 ... [详细]
                                      • MyBatis多表查询与动态SQL使用
                                        本文介绍了MyBatis多表查询与动态SQL的使用方法,包括一对一查询和一对多查询。同时还介绍了动态SQL的使用,包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]
                                      author-avatar
                                      敏佳的晴__丶天
                                      这个家伙很懒,什么也没留下!
                                      PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
                                      Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有