基于Hadoop集群的Hive安装配置（Derby数据库）

Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据&＃xff0c;提供简单的sql查询功能&＃xff0c;可以将sql语句转换为MapReduce任务进行运行&＃xff08;具体的Hive架构大家自行搜索&＃xff09;。接下来主要讲下Hadoop集群下Hive的安装配置&＃xff0c;并搭载Derby数据库&＃xff08;一款小巧的数据库&＃xff0c;用于测试&＃xff0c;不推荐开发使用&＃xff0c;具体大家自行百度&＃xff09;&＃xff0c;进行一些基本的数据库操作&＃xff0c;好了&＃xff0c;让我们开始吧。

一、环境&＃xff1a;同样的启用三个节点&＃xff0c;分别是虚拟机slave01&＃xff0c;slave02&＃xff0c;slave03&＃xff0c;基于之前已经搭建好的环境&＃xff0c;包括JDK、Zookeeper、Hadoop二、Hive、Derby配置&＃xff08;自行解压&＃xff09;

这里推荐下载版本较低的Hive&＃xff0c;本人经验教训告诉大家&＃xff1a;高版本易出现问题&＃xff0c;比如说我的Hadoop 2.7.6&＃xff0c;下载Hive 2.2.0 安装配置后就出现了很多问题&＃xff0c;体验极差&＃xff0c;像报错为&＃xff1a;

Unabletoinstantiateorg.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

就属于版本过高导致的&＃xff0c;所以&＃xff0c;大家尽量下载低版本的。

&＃xff08;1&＃xff09;设置Hive、Derby环境变量

vim/etc/profile

添加HIVE_HOME、DERBY_HOME&＃xff0c;如下&＃xff1a;

JAVA_HOME&＃61;/usr/java/jdk1.8.0_161

JRE_HOME&＃61;/usr/java/jdk1.8.0_161/jre

SCALA_HOME&＃61;/usr/local/scala

HADOOP_HOME&＃61;/usr/local/hadoop

SPARK_HOME&＃61;/usr/local/spark

ZOOKEEPER_HOME&＃61;/usr/local/zookeeper

HBASE_HOME&＃61;/usr/local/hbase

KAFKA_HOME&＃61;/usr/local/kafka

HIVE_HOME&＃61;/usr/local/hive

DERBY_HOME&＃61;/usr/local/derby

PATH&＃61; $PATH:$ JAVA_HOME/bin: $JRE_HOME/bin:$ SCALA_HOME/bin: $HADOOP_HOME/bin:$ HADOOP_HOME/sbin: $SPARK_HOME/bin:$ SPARK_HOME/sbin: $ZOOKEEPER_HOME/bin:$ HBASE_HOME/bin: $KAFKA_HOME/bin:$ HIVE_HOME/bin: $DERBY_HOME/binCLASSPATH&＃61;.:$ JAVA_HOME/lib/dt.jar: $JAVA_HOME/lib/tools.jar:$ JRE_HOME/lib: $DERBY_HOME/lib/derby.jar:$ DERBY_HOME/lib/derbyclient.jar: $DERBY_HOME/lib/derbytools.jar:$ DERBY_HOME/lib/derbynet.jarexportJAVA_HOME JRE_HOME SCALA_HOME HADOOP_HOME SPARK_HOME ZOOKEEPER_HOME HBASE_HOME KAFKA_HOME HIVE_HOME DERBY_HOME PATH CLASSPATH

使文件生效&＃xff0c;运行命令&＃xff1a;

source/etc/profile

&＃xff08;2&＃xff09;修改Hive文件夹conf目录下配置文件 hive-env.sh 复制一份 hive-env.sh.template 重命名为 hive-env.sh&＃xff1a;

cphive-env.sh.templatehive-env.sh

修改 hive-env.sh 内容&＃xff1a;

exportHIVE_CONF_DIR&＃61;/usr/local/hive/confexportHADOOP_HOME&＃61;/usr/local/hadoop

&＃xff08;3&＃xff09;配置Hive的Metastore配置Metastore意味着&＃xff0c;指定要Hive的数据库存储&＃xff0c;同样&＃xff0c;Hive/conf目录下&＃xff0c;复制一份 hive-default.xml.template重命名为 hive-site.xml&＃xff1a;

cphive-default.xml.templatehive-site.xml

修改 hive-site.xml 内容&＃xff0c;由于里面原内容较多&＃xff0c;可通过命令gedit以编辑器模式打开&＃xff1a;

gedithive-site.xml

删除所有的配置&＃xff0c;替换为&＃xff1a;

javax.jdo.option.ConnectionURLjdbc:derby:;databaseName&＃61;metastore_db;create&＃61;truejavax.jdo.option.ConnectionDriverNameorg.apache.derby.jdbc.EmbeddedDriverhive.metastore.warehouse.dir/usr/local/hive/warehouse

其中&＃xff0c;jdbc:derby:;databaseName&＃61;metastore_db;create&＃61;true 表示使用嵌入式的derby&＃xff0c;create为true表示自动创建数据库&＃xff0c;数据库名为metastore_db&＃xff0c;另一种客服模式大家感兴趣的可以自己看下&＃xff1b;org.apache.derby.jdbc.EmbeddedDriver 表示使用嵌入式的derby&＃xff1b;warehouse文件夹手动创建。三、验证Hive运行Hive之前&＃xff0c;需要创建/tmp文件夹在HDFS独立的Hive文件夹&＃xff0c;并给这些新创建的文件夹写权限&＃xff1a;

[hadoop&＃64;slave01 bin]$ hadoop fs -mkdir /tmp

[hadoop&＃64;slave01 bin]$ hadoop fs -chmod g&＃43;w /tmp

启动Hive前&＃xff0c;先启动Hadoop集群&＃xff0c;注意关闭防火墙&＃xff0c;再然后启动Hive&＃xff0c;首次启动可能会出现一个报错提示&＃xff1a;

无法访问/usr/local/spark/lib/spark-assembly-*.jar: 没有那个文件或目录

虽然过了几秒后Hive仍然成功启动&＃xff0c;但这个报错信息是怎么回事呢&＃xff1f;原因&＃xff1a;spark2以后&＃xff0c;原有lib目录下的大JAR包被分散成多个小JAR包&＃xff0c;原来的spark-assembly-*.jar已经不存在&＃xff0c;所以hive没有办法找到这个JAR包。解决办法&＃xff1a;进入hive安装路径下的bin目录下&＃xff0c;编辑hive&＃xff0c;如通过编辑器打开&＃xff1a;gedit hive&＃xff0c;找到下面的Shell脚本命令&＃xff1a;

sparkAssemblyPath&＃61;ls${SPARK_HOME}/lib/spark-assembly-*.jar

修改为&＃xff1a;

sparkAssemblyPath&＃61;ls${SPARK_HOME}/jars/*.jar

好了&＃xff0c;让我们再次启动Hive&＃xff0c;成功启动如下&＃xff1a;

[hadoop&＃64;slave01 bin]$ hiveLogging initializedusingconfigurationinjar:file:/usr/local/hive/lib/hive-common-1.2.2.jar!/hive-log4j.propertieshive>

以上就是基于Hadoop集群Hive&＃43;derby的安装配置过程&＃xff0c;当然对于数据库的选择比如mysql配置过程类似&＃xff0c;大家自行参考资料。要了解学习大数据的可以加群&＃xff0c;群号&＃xff1a; 834325294&＃xff0c;群里有免费的学习资料和视频。希望可以帮助到大家哦。