当前位置: 开发笔记 > 后端 > 正文

Hive安装简介

作者：zhaojiapin_313 | 来源：互联网 | 2018-06-02 00:03

Hive是基于Hadoop的数据仓库平台。Hive提供了类SQL查询语言。Hive的数据存储于HDFS中。一般情况下，用户提交的查询将被Hive转换为MapReduce作业并提交给Hadoop运行。我们从Hive的安装开始，逐步学习Hive的方方面面。安装Hive安装前提lJava6lHadoop

Hive是基于Hadoop的数据仓库平台。 Hive提供了类SQL查询语言。Hive的数据存储于HDFS中。一般情况下，用户提交的查询将被Hive转换为MapReduce作业并提交给Hadoop运行。我们从Hive的安装开始，逐步学习Hive的方方面面。安装Hive 安装前提 l Java 6 l Hadoop

Hive是基于Hadoop的数据仓库平台。

Hive提供了类SQL查询语言。Hive的数据存储于HDFS中。一般情况下，用户提交的查询将被Hive转换为MapReduce作业并提交给Hadoop运行。

我们从Hive的安装开始，逐步学习Hive的方方面面。

安装Hive

安装前提

l Java 6

l Hadoop

选择哪一个版本请参照Hive官方文档。安装Have是不需要特别设置关于Hadoop的信息，只要保证HADOOP_HOME环境变量正确设置就可以了。

安装

我们选择下载0.11.1稳定版本。下载地址:

http://mirrors.hust.edu.cn/apache/hive/stable/

1) 解压安装包到指定的目录：

tar xzf hive-0.11.0.tar.gz

2) 设置环境变量

export HIVE_INSTALL=/opt/Hive-0.11.0

export PATH=$PATH:$HIVE_INSTALL/bin

3）输入以下命令进入Shell

Hive

Hive交互环境（ Shell）

Shell是我们和Hive交互的主要工具。

Hive的查询语言我们称为HiveQL。HiveQL的设计受到了MySQL的很多影响，所以如果你熟悉MySQL的话，你会发现使用HiveQL是同样的方便。

进入Shell后，输入以下命令看看Hive是否工作正常：

SHOW TABLES;

输出结果为：

Time taken: 8.207seconds

如果输出结果显示有错误，可能是Hadoop没有运行，或者HADOOP_HOME变量没有真确设置。

和SQL一样，HiveQL一般是大小写无关的（字符串比较除外）。

输入命令是按Tab键，Hive将提示所有可用的输入。（命令自动完成）

第一次使用该命令可能会花上好几秒中甚至更长，因为Hive将创建metastore数据库（存储于metastore_db目录，此目录在你运行hive时所在目录之下，所以第一次运行Hive时，请先进入到合适的目录下）。

我们也可以直接从命令行运行hive脚本，比如：

hive –f /home/user/ hive.q

其中，-f 后面跟上脚本文件名（包括路径）。

无论是在交互模式还是非交互模式下，hive一般都会输出一些辅助信息，比如执行命令的时间等。如果你不需要输出这些消息，可以在进入hive时加上-s选项，比如：

hive –S

注意：S为大写

简单示例

我们以以下数据作为测试数据，结构为（班级号，学号，成绩）。

C01,N0101,82

C01,N0102,59

C01,N0103,65

C02,N0201,81

C02,N0202,82

C02,N0203,79

C03,N0301,56

C03,N0302,92

C03,N0306,72

执行以下命令：

create table student(classNostring, stuNo string, score int) row format delimited fields terminated by ',';

其中，定义表结构和SQL类&＃20284;.。其它设置表示字段间以逗号分隔，一行为一个记录。

load data local inpath '/home/user/input/student.txt'overwrite into table student;

输出结果如下：

Copying data fromfile:/home/user/input/student.txt

Copying file:file:/home/user/input/student.txt

Loading data to tabledefault.student

rmr: DEPRECATED: Please use 'rm-r' instead.

Deleted/user/hive/warehouse/student

Table default.student stats:[num_partitions: 0, num_files: 1, num_rows: 0, total_size: 117, raw_data_size:0]

这个命令将student.txt文件内容加载到表student中。这个加载操作将直接把student.txt文件复制到hive的warehouse目录中，这个目录由hive.metastore.warehouse.dir配置项设置，默认&＃20540;为/user/hive/warehouse。Overwrite选项将导致Hive事先删除student目录下所有的文件。

Hive不会对student.txt做任何&＃26684;式处理，因为Hive本身并不强调数据的存储&＃26684;式。

此例中，Hive将数据存储于HDFS系统中。当然，Hive也可以将数据存储于本地。

如果不加overwrite选项，且加载的文件在Hive中已经存在，则Hive会为文件重新命名。比如不加overwrite选项将以上命令执行两次，则第二次加载后，hive中新产生的文件名将会是“student_copy_1.txt”。（和Hadoop权威教程中描述的不一致，读者请慎重验证）

接下来，我们执行以下命令：

select * from student;

输出如下：

C01 N0101 82

C01 N0102 59

C01 N0103 65

C02 N0201 81

C02 N0202 82

C02 N0203 79

C03 N0301 56

C03 N0302 92

C03 N0306 72

执行以下命令：

Select classNo,count(score) fromstudent where score>=60 group by classNo;

输出如下：

C01 2

C02 3

C03 2

由此看见，HiveQL的使用和SQL及其类&＃20284;。我们用到了group和count，其实在后台Hive将这些操作都转换成了MapReduce操作提交给Hadoop执行，并最终输出结果。

推荐阅读

mysql
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
漏洞
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
php
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
mysql
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37
mysql
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
mysql
Hadoop与大数据技术大会将于11月30日开幕

11月26日，由中国计算机协会（CCF）主办，CCF大数据专家委员会协办，CSDN承办的Hadoop与大数据技术大会（Hadoop&BigDataTechnology ... [详细]

蜡笔小新 2023-10-17 17:47:11
package
hadoop学习；block数据块；mapreduce实现样例；UnsupportedClassVersionError异常；关联项目源代码...

对于开源的东东，尤其是刚出来不久，我认为最好的学习方式就是能够看源代码和doc，測试它的样例为了方便查看源代码，关联导入源代 ... [详细]

蜡笔小新 2023-10-17 09:49:38
php
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
php
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
php
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
php
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
php
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
redis
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
redis
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
redis
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27

zhaojiapin_313

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章