当前位置: 开发笔记 > 编程语言 > 正文

Hive的使用2

作者：陈俊英围脖_687 | 来源：互联网 | 2023-10-12 18:37

Hive常识Hive中没有定义专门的数据格式不需要从用户数据格式到Hive定义的数据格式的转换不会对数据本身进行任何修改，甚至不会对数据进行扫描不会对数据中的

Hive常识

Hive中没有定义专门的数据格式不需要从用户数据格式到 Hive 定义的数据格式的转换不会对数据本身进行任何修改&＃xff0c;甚至不会对数据进行扫描不会对数据中的某些 Key 建立索引 Hive 不适合在线数据查询

Hive数据库、表在HDFS上存储的路径

/user/hive/wearhouse

Hive 的数据库、数据表、分区在HDFS上的存在形式是什么

文件夹

Hive和传统数据库的区别

在这里插入图片描述

Hive延迟较高的原因

Hive内部解析、编译等流程需要时间。提交任务后&＃xff0c;提交到Yarn,Yarn内部调度机制需要时间。Hive内的数据较大&＃xff0c;比较耗时。

where 与having的区别

Where可以作用在表中所有的字段上 Having可以只能作用在结果字段上&＃xff08;select 后面的字段&＃xff09;

order by与sort by的区别

order by 全局排序&＃xff0c;只有一个reduce,数据量大时效率较慢 sort by 一个reduce内部排序&＃xff0c;不是全局排序。

LIKE和RLIKE区别

Like 后面不能加正则表达式 Rlike 后面能加正则表达式

GROUP BY用法

group by的字段&＃xff0c;必须是select后面的字段&＃xff0c;select后面的字段不能比group by的字段多,若有多的字段&＃xff0c;必须使用聚和函数。

distribute by&＃43;sort by(相同字段) 与Cluster by的区别

DISTRIBUTE BY的字段与SORT BY的字段相同时&＃xff0c;可以使用CLUSTER BY进行替换&＃xff0c;但CLUSTER BY不能指定排序规则&＃xff08;只能是升序&＃xff09;&＃xff0c;DISTRIBUTE BY&＃43;SORT BY可以指定排序规则&＃xff08;可升可降&＃xff09;

Hive的参数设置

配置文件&＃xff1a;Hive的配置文件包括用户自定义配置文件&＃xff1a;$HIVE_CONF_DIR/hive-site.xml 默认配置文件&＃xff1a;$HIVE_CONF_DIR/hive-default.xml 用户自定义配置会覆盖默认配置。另外&＃xff0c;Hive也会读入Hadoop的配置&＃xff0c;因为Hive是作为Hadoop的客户端启动的&＃xff0c;Hive的配置会覆盖 Hadoop的配置。配置文件的设定对本机启动的所有Hive进程都有效。命令行参数&＃xff1a;启动Hive&＃xff08;客户端或Server方式&＃xff09;时&＃xff0c;可以在命令行添加-hiveconf param&＃61;value来设定参数&＃xff0c;例如&＃xff1a; bin/hive -hiveconf hive.root.logger&＃61;INFO,console 这一设定对本次启动的Session&＃xff08;对于Server方式启动&＃xff0c;则是所有请求的Sessions&＃xff09;有效。参数声明&＃xff1a;可以在HQL中使用SET关键字设定参数&＃xff0c;例如&＃xff1a; set mapred.reduce.tasks&＃61;100; 参数声明 > 命令行参数 > 配置文件参数&＃xff08;hive&＃xff09;

Hive自定义函数的类型

UDF : 一进一出 UDAF: 多进一出 UDTF:一进多出

自定义函数实现过程

1、创建项目&＃xff0c;编写自定义函数代码继承 UDF&＃xff0c;在UDF内编写 evaluate方法&＃xff08;有参&＃xff1a;有输入。有返回&＃xff1a;有输出&＃xff09; 2、将自定义UDF代码打包并上传到“本地”系统&＃xff08;linux&＃xff09; 3、在hive shell窗口添加jar。add jar UDFjar文件的路径和文件名 4、创建函数并指定调用的方法‘’create temporary function tolowercase as &＃39;cn.itcast.udf.ItcastUDF&＃39; 5、调用函数

Hive 常用的数据压缩算法

Gzip、Bzip2、Snappy、LZO、LZ4

常用的数据存储格式

1、ORC 2、Parquet3、textFile 压缩比ORC > Parquet > textFile hive表的数据存储格式一般选择&＃xff1a;orc或parquet。压缩方式一般选择snappy。

什么是MR本地计算

任务提交后&＃xff0c;移动计算到数据端&＃xff0c;数据在哪个节点&＃xff0c;计算任务优先发送到哪个节点上。

什么是MR本地模式

任务不提交到集群&＃xff0c;直接在提交任务的节点上运行。

推荐阅读

io
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
io
Linux 正则表达式基础及使用注意事项

本文介绍了Linux系统中正则表达式的基础知识，包括正则表达式的简介、字符分类、普通字符和元字符的区别，以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别，并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式，并提供了学习的参考资料。 ... [详细]

蜡笔小新 2023-12-13 14:24:45
io
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
c语言
Linux Shell中的括号和整数扩展使用方法

本文介绍了Linux Shell中括号和整数扩展的使用方法，包括命令组、命令替换、初始化数组以及算术表达式和逻辑判断的相关内容。括号中的命令将会在新开的子shell中顺序执行，括号中的变量不能被脚本余下的部分使用。命令替换可以用于将命令的标准输出作为另一个命令的输入。括号中的运算符和表达式符合C语言运算规则，可以用在整数扩展中进行算术计算和逻辑判断。 ... [详细]

蜡笔小新 2023-12-12 20:48:58
require
oracle11g 过程,oracle11g 安装过程

安装oracle软件1创建用户组、用户和目录bjdb节点下：[rootnode1]#groupadd-g200oinstall[rootnode1]#groupad ... [详细]

蜡笔小新 2023-12-09 08:41:56
require
LINUX学习之centos7营救模式

今天卸载软件的时候，不小心把GNOME的一些组件给卸了，导致桌面无法正常开启，会卡在启动过程中，而我的开机启动模式又是设置为图形界面，所以一开LINUX就卡住了，进入不了命令行界面 ... [详细]

蜡笔小新 2023-10-17 22:00:10
io
ESX 3.5 使用

在单位的一台4cpu的服务器上部署了esxserver，挂载了6个虚拟机，目前运行正常。在安装部署过程中，得到了cnvz.net论坛精华区 ... [详细]

蜡笔小新 2023-10-17 17:20:29
io
Hadoop 源码学习笔记(4)Hdfs 数据读写流程分析

Hdfs的数据模型在对读写流程进行分析之前，我们需要先对Hdfs的数据模型有一个简单的认知。数据模型如上图所示，在NameNode中有一个唯一的FSDirectory类负责维护文件 ... [详细]

蜡笔小新 2023-10-17 11:27:29
io
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
io
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
io
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
io
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
text
Hadoop框架之HDFS的shell操作

既然HDFS是存取数据的分布式文件系统，那么对HDFS的操作，就是文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的she ... [详细]

蜡笔小新 2023-10-15 16:12:13
text
Zookeeper 总结与面试题汇总

Zookeeper总结与面试题汇总,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-15 12:51:19
io
深入浅出Linux设备驱动编程的重要性与方法

本文介绍了深入浅出Linux设备驱动编程的重要性，以及两种加载和删除Linux内核模块的方法。通过一个内核模块的例子，展示了模块的编译和加载过程，并讨论了模块对内核大小的控制。深入理解Linux设备驱动编程对于开发者来说非常重要。 ... [详细]

蜡笔小新 2023-12-12 15:28:09