hbase表存储位置(hbase元数据存储在哪里)

作者：行者05965 | 来源：互联网 | 2023-09-23 08:20

本帖最后由非鱼于2015-4-2912:23编辑方案1：HBase自身的大对象存储方案由于HBase底层数据都是以Bytes数组来存储,对于非结构化数据的大对象可以很容易的

这帖最后由非鱼在2015-4-29 12:23编辑

方案1:HBase自己的大型对象存储方案

由于HBase的所有基本数据都以Bytes数组存储，因此对于非结构化数据的大对象，可以简单地将其转换为Bytes数组存储在HBase中。另一方面，由于HBase是按列存储的数据库，因此在大表中，大对象数据可以单独存储在HBase表的单个列family中，以免大对象影响其他结构化数据的读取性能

这个方案的优势是：

优点之一：很容易实现。充分利用HBase自身的特点，逐列保存，将大对象数据单独作为一个列族保存。不需要引入额外的代码或功能。

优点：数据管理方便。将大对象数据的管理完全交给HBase自身的结构与其他数据一样，以StoreFile形式存储在Region中，根据HBase对Region的管理方式统一进行迁移、合并、删除等操作。

优势三：保证一致性。继续HBase自身的强一致性和管理方式，保证其大对象数据的一致性。

这个方案的缺点显然也是：

缺陷一：无法避免冲刺和复制，写入性能差。如上所述，HBase受大对象的影响，写入时容易频繁启动Split和Compaction，Split对写入操作的阻止和Compaction对集群I/O的占用会直接影响写入性能Compaction操作缓慢会导致Flush延迟，并阻止客户端更新。

缺陷二：不稳定的延迟。由于Split和Compaction的影响，Flush进程延迟，MemStore增加，客户端插入被锁定。一方面该延迟难以满足实时系统的低延迟要求，另一方面不稳定的延迟可能引起超时异常，引起不必要的重试。

基于方案HDFS的HBase大对象存储方案

由于大型对象数据的容量太大，Split和Compaction频繁启动，阻止客户端写入，因此如果将大型对象数据排除在HBase本身的写入过程之外，则可以将HBase Split和Compaction与

由于HBase本身依赖于分布式文件系统HDFS，因此如果直接将大型对象数据存储在HDFS中，并将结构化数据和大型对象文件索引存储在HBase中，则可以将容量小的结构化数据和大型对象的文件索引存储在Split和Compaction触发器大幅减少，确保HBase大型对象存储的写入性能得到提高。

在HDFS中保存大对象的形式也主要分为两种：

方案a将各大对象的数据作为一个文件直接保存在HDFS中，HBase保存各大对象的文件地址即可。

QQ截图20150428203430.png(135.26kb，下载次数： 8) )。

2015-4-28上传20:49

这个方案的优点是实现起来比较简单。客户端可以直接利用HDFS的API接口实现数据的put，大型对象数据以最简单的方式避免了HBase的flush机制。但是，其主要缺点是生成了大量的小文件，大量的小文件在一定程度上影响了HDFS的整体性能。

方案b是将多个大对象数据存储在一个序列文件中。

2.png(116.57kb，下载次数： 7)。

2015-4-28上传20:49

在a方案中，将单个大对象数据作为单个文件写入HDFS会产生大量小文件，给Namenode带来巨大负担，因此业界很快就会使用HDFS自己的文件格式SequenceFile 将多个大对象数据存储在一个Sequence File中，HBase存储结构化数据和Sequence File的文件链接目标及其偏移。

序列文件是Hadoop为存储二进制格式的关键值对而设计的平面文件(平面文件)。现在有几个人根据这个文件提出来

HDFS中小型文件存储解决方案的基本思想是将小文件合并为一个大文件，并对这些小文件的位置信息进行索引。但是，这类解决方案还包括另一种Hadoop文件格式--MapFile文件。 SequenceRle文件并不保证保存的key-value数据是按照key的顺序保存的。

该方案的优点是：易于实现，直接使用HDFS的序列文件的API接口；同时，避免了a方案中出现大量小文件的问题。这个方案的主要缺点是不能保证一致性。其主要原因是，当HBase成功写入包含结构化和大对象数据的SequenceFile文件的链接目标后，Sequencenie本身由于某些外部因素导致写入失败，导致该SequenceFile无法成功生成

综合a、b两种方案，总结了将大对象数据直接写入HDFS方案的优缺点，

它的好处是：

优点1，的实现比较简单。总体实现方案只基于h

Base机制和HDFS本身的文件格式及其API接口,对于有一点Hadoop及HBase经验的工程师都能完成。

优势二:让大对象数据回避了 HBase的Split和Compaction机制,确实可以提升其写性能。

但是其缺陷也很明显:

缺陷一:需要客户端编写额外的代码。客户端在原本的HBase插入程序的基础上需要引入HDFS的文件插入接口,获取其HDFS文件链接并写入HBase中,在编程方面并不是特别友好。

缺陷二:大对象数据管理的困难。对于已经不再被引用的大对象数据和过时的大对象数据,由于其存在于HDFS上,若无其他人工干预将没有办法清理这些超时文件,长此以往将严重影响整个集群的性能。

方案3：基于列族(ColumnFamily,CF)定制的HBase自身方案

由于大对象的影响,在写入时HBase将频繁Compaction从而占用过高的集群j/0,导致其写性能降低的,而把大对象数据绕过HBase直接写成HDFS文件格式不方便管理,那我们接下来可能考虑的方向是在HBase机制内怎样才能回避掉 Region 的 Split 和 Compaction 阶段。

而其中的一个方向就是对存储大对象数据的ColumnFamily定制其Compaction机制,让其在插入过程中不执行Compaction操作HBase有多个参数来控制其Compaction的触发,其中一个比较关键的参数如下:

hbase.hstore.compaction.min ,这个参数的作用是控制最小MinorCompaction的文件个数。当一个Region中StoreFile的数量超过这个值时会幵始检查是否需要Compaction,同时该参数也是指可以被Compaction的最小文件个数,如果选取的文件数目小于它,则不会做Compaction。

所以,若仅针对存储大对象数据的CloumnFamily设置该Compaction参数,将其值调大,如计算机的无限大值(Long.MAX_VALUE),那么该CloumnFamily在写入过程中将不会有机会触发Minor Compaction,从而集群不会被大对象数据引发的频繁Compaction影响I/O性能,从而能在一定程度上提高写入性能而又不影响HBase对大对象数据的管理。

而该方案对于存储结构化数据的Column Family并不干扰,其存储结构化数据的ColumnFamily依然按照HBase的Compaction机制进行其MinorCompation。

此方案的优势在于:

优势一:实现方便。仅需要针对存储大对象数据的ColumnFamily设置其compaction参数即可。

优势二:数据管理方便。仍然将大对象数据存储在HBase自己的数据格式中,其大对象数据的管理依然交由HBase自身机制完成,利于数据的管理维护。

优势三:回避了 Minor Compaction对于写入性能的影响。单独禁用存储大对象的Column Family,减少因大对象频繁触发Compaction对于集群丨/〇性能的影响,提高其写入性能。

而其缺陷在于:

缺陷一:未解决Split带来的影响。该方案仅仅将大对象数据的Compaction机制给省略掉了,但是另一个影响写入性能的因素Split并没有在该方案中被考

虑到,由于大对象频繁触发Split引起客户端写入阻塞的影响仍未解决。

缺陷二:大量大对象的StoreFiles影响读性能。由于为大对象数据定制了无compaction机制,所以HBase的Region中会存储着大量的大对象Storefiles,这导致HBase的scan (顺序读多条数据)操作和随机读操作极慢,并且大量的StoreFiles会增加HBase的Block indexes (块索引)在内存中的存储负担,影

响其插入性能。

推荐阅读

instance
MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太 ... [详细]

蜡笔小新 2023-10-16 14:14:27
instance
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
instance
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
copy
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
copy
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04
stream
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
stream
LVS-DR直接路由实现负载均衡示例

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2023-10-17 10:27:04
stream
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
shell
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
int
Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法

本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数，可以设置密码的有效期、最小间隔时间、最小长度，并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]

蜡笔小新 2023-12-14 17:57:01
hook
使用在线工具jsonschema2pojo根据json生成java对象

本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具，用户只需将json字符串复制到输入框中，即可自动将其转换成java对象。该工具还能解析列表式的json数据，并将嵌套在内层的对象也解析出来。本文以请求github的api为例，展示了使用该工具的步骤和效果。 ... [详细]

蜡笔小新 2023-12-13 21:23:45
hook
Web学习历程记录（七）——Tomcat基本概念和配置

本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念，以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器，包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实，适合初学者了解Tomcat的基础知识。 ... [详细]

蜡笔小新 2023-12-13 17:08:24
select
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
php
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
php
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13

行者05965

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章