当前位置: 开发笔记 > 编程语言 > 正文

HBase和Hive的区别和适用场景

作者：无梗啦_671 | 来源：互联网 | 2023-09-23 07:58

一、区别：Hbase：Hadoopdatabase的简称，也就是基于Hadoop数据库，是一种NoSQL数据库࿰

一、区别&＃xff1a;

Hbase&＃xff1a; Hadoop database 的简称&＃xff0c;也就是基于Hadoop数据库&＃xff0c;是一种NoSQL数据库&＃xff0c;主要适用于海量明细数据&＃xff08;十亿、百亿&＃xff09;的随机实时查询&＃xff0c;如日志明细、交易清单、轨迹行为等。
Hive&＃xff1a;Hive是Hadoop数据仓库&＃xff0c;严格来说&＃xff0c;不是数据库&＃xff0c;主要是让开发人员能够通过SQL来计算和处理HDFS上的结构化数据&＃xff0c;适用于离线的批量数据计算。

通过元数据来描述Hdfs上的结构化文本数据&＃xff0c;通俗点来说&＃xff0c;就是定义一张表来描述HDFS上的结构化文本&＃xff0c;包括各列数据名称&＃xff0c;数据类型是什么等&＃xff0c;方便我们处理数据&＃xff0c;当前很多SQL ON Hadoop的计算引擎均用的是hive的元数据&＃xff0c;如Spark SQL、Impala等&＃xff1b;
基于第一点&＃xff0c;通过SQL来处理和计算HDFS的数据&＃xff0c;Hive会将SQL翻译为Mapreduce来处理数据&＃xff1b;

二、关系

在大数据架构中&＃xff0c;Hive和HBase是协作关系&＃xff0c;数据流一般如下图&＃xff1a;

通过ETL工具将数据源抽取到HDFS存储&＃xff1b;
通过Hive清洗、处理和计算原始数据&＃xff1b;
HIve清洗处理后的结果&＃xff0c;如果是面向海量数据随机查询场景的可存入Hbase
数据应用从HBase查询数据&＃xff1b;

更为细致的区别如下&＃xff1a;

Hive中的表是纯逻辑表&＃xff0c;就只是表的定义等&＃xff0c;即表的元数据。Hive本身不存储数据&＃xff0c;它完全依赖HDFS和MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表&＃xff0c;并提供完整的SQL查询功能&＃xff0c;并将SQL语句最终转换为MapReduce任务进行运行。而HBase表是物理表&＃xff0c;适合存放非结构化的数据。
Hive是基于MapReduce来处理数据,而MapReduce处理数据是基于行的模式&＃xff1b;HBase处理数据是基于列的而不是基于行的模式&＃xff0c;适合海量数据的随机访问。
HBase的表是疏松的存储的&＃xff0c;因此用户可以给行定义各种不同的列&＃xff1b;而Hive表是稠密型&＃xff0c;即定义多少列&＃xff0c;每一行有存储固定列数的数据。
Hive使用Hadoop来分析处理数据&＃xff0c;而Hadoop系统是批处理系统&＃xff0c;因此不能保证处理的低迟延问题&＃xff1b;而HBase是近实时系统&＃xff0c;支持实时查询。
Hive不提供row-level的更新&＃xff0c;它适用于大量append-only数据集&＃xff08;如日志&＃xff09;的批任务处理。而基于HBase的查询&＃xff0c;支持和row-level的更新。
Hive提供完整的SQL实现&＃xff0c;通常被用来做一些基于历史数据的挖掘、分析。而HBase不适用与有join&＃xff0c;多级索引&＃xff0c;表关系复杂的应用场景。

推荐阅读

python
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
int
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
int
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
python
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
int
MyBatis多表查询与动态SQL使用

本文介绍了MyBatis多表查询与动态SQL的使用方法，包括一对一查询和一对多查询。同时还介绍了动态SQL的使用，包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]

蜡笔小新 2023-12-12 17:12:51
int
MySQL多表数据库操作方法及子查询详解

本文详细介绍了MySQL数据库的多表操作方法，包括增删改和单表查询，同时还解释了子查询的概念和用法。文章通过示例和步骤说明了如何进行数据的插入、删除和更新操作，以及如何执行单表查询和使用聚合函数进行统计。对于需要对MySQL数据库进行操作的读者来说，本文是一个非常实用的参考资料。 ... [详细]

蜡笔小新 2023-12-09 22:17:43
list
oracle恢复失败,RMAN数据库恢复失败解决一例

问题：这是一个从RAC环境的数据库的RAMN备份恢复到一个单机数据库的操作。当恢复数据文件和恢复正常，但在open数据库时出报下面的错误。--rman备 ... [详细]

蜡笔小新 2023-10-17 21:12:23
search
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
search
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
ip
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
ip
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
ip
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
text
如何限制php数据库链接数和连接超时时间？

本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目，以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数，以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]

蜡笔小新 2023-12-14 14:06:10
main
7.4 基本输入源

一、文件流1.在spark-shell中创建文件流进入spark-shell创建文件流。另外打开一个终端窗口，启动进入spark-shell上面在spark-shell中执行的程序 ... [详细]

蜡笔小新 2023-10-16 21:14:54
ip
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30

无梗啦_671

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章