热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hbase表存储位置(hbase元数据存储在哪里)

本帖最后由非鱼于2015-4-2912:23编辑方案1:HBase自身的大对象存储方案由于HBase底层数据都是以Bytes数组来存储,对于非结构化数据的大对象可以很容易的


这帖最后由非鱼在2015-4-29 12:23编辑


方案1:HBase自己的大型对象存储方案


由于HBase的所有基本数据都以Bytes数组存储,因此对于非结构化数据的大对象,可以简单地将其转换为Bytes数组存储在HBase中。 另一方面,由于HBase是按列存储的数据库,因此在大表中,大对象数据可以单独存储在HBase表的单个列family中,以免大对象影响其他结构化数据的读取性能


这个方案的优势是:


优点之一:很容易实现。 充分利用HBase自身的特点,逐列保存,将大对象数据单独作为一个列族保存。 不需要引入额外的代码或功能。


优点:数据管理方便。 将大对象数据的管理完全交给HBase自身的结构与其他数据一样,以StoreFile形式存储在Region中,根据HBase对Region的管理方式统一进行迁移、合并、删除等操作。


优势三:保证一致性。 继续HBase自身的强一致性和管理方式,保证其大对象数据的一致性。


这个方案的缺点显然也是:


缺陷一:无法避免冲刺和复制,写入性能差。 如上所述,HBase受大对象的影响,写入时容易频繁启动Split和Compaction,Split对写入操作的阻止和Compaction对集群I/O的占用会直接影响写入性能Compaction操作缓慢会导致Flush延迟,并阻止客户端更新。


缺陷二:不稳定的延迟。 由于Split和Compaction的影响,Flush进程延迟,MemStore增加,客户端插入被锁定。 一方面该延迟难以满足实时系统的低延迟要求,另一方面不稳定的延迟可能引起超时异常,引起不必要的重试。


基于方案HDFS的HBase大对象存储方案


由于大型对象数据的容量太大,Split和Compaction频繁启动,阻止客户端写入,因此如果将大型对象数据排除在HBase本身的写入过程之外,则可以将HBase Split和Compaction与


由于HBase本身依赖于分布式文件系统HDFS,因此如果直接将大型对象数据存储在HDFS中,并将结构化数据和大型对象文件索引存储在HBase中,则可以将容量小的结构化数据和大型对象的文件索引存储在Split和Compaction触发器大幅减少,确保HBase大型对象存储的写入性能得到提高。


在HDFS中保存大对象的形式也主要分为两种:


方案a将各大对象的数据作为一个文件直接保存在HDFS中,HBase保存各大对象的文件地址即可。


QQ截图20150428203430.png(135.26kb,下载次数: 8) )。


2015-4-28上传20:49


这个方案的优点是实现起来比较简单。 客户端可以直接利用HDFS的API接口实现数据的put,大型对象数据以最简单的方式避免了HBase的flush机制。 但是,其主要缺点是生成了大量的小文件,大量的小文件在一定程度上影响了HDFS的整体性能。


方案b是将多个大对象数据存储在一个序列文件中。


2.png(116.57kb,下载次数: 7)。


2015-4-28上传20:49


在a方案中,将单个大对象数据作为单个文件写入HDFS会产生大量小文件,给Namenode带来巨大负担,因此业界很快就会使用HDFS自己的文件格式SequenceFile 将多个大对象数据存储在一个Sequence File中,HBase存储结构化数据和Sequence File的文件链接目标及其偏移。


序列文件是Hadoop为存储二进制格式的关键值对而设计的平面文件(平面文件)。 现在有几个人根据这个文件提出来


HDFS中小型文件存储解决方案的基本思想是将小文件合并为一个大文件,并对这些小文件的位置信息进行索引。 但是,这类解决方案还包括另一种Hadoop文件格式--MapFile文件。 SequenceRle文件并不保证保存的key-value数据是按照key的顺序保存的。


该方案的优点是:易于实现,直接使用HDFS的序列文件的API接口; 同时,避免了a方案中出现大量小文件的问题。 这个方案的主要缺点是不能保证一致性。 其主要原因是,当HBase成功写入包含结构化和大对象数据的SequenceFile文件的链接目标后,Sequencenie本身由于某些外部因素导致写入失败,导致该SequenceFile无法成功生成


综合a、b两种方案,总结了将大对象数据直接写入HDFS方案的优缺点,


它的好处是:


优点1,的实现比较简单。 总体实现方案只基于h

Base机制和HDFS本身的文件格式及其API接口,对于有一点Hadoop及HBase经验的工程师都能完成。

优势二:让大对象数据回避了 HBase的Split和Compaction机制,确实可以提升其写性能。

但是其缺陷也很明显:

缺陷一:需要客户端编写额外的代码。客户端在原本的HBase插入程序的基础上需要引入HDFS的文件插入接口,获取其HDFS文件链接并写入HBase中,在编程方面并不是特别友好。

缺陷二:大对象数据管理的困难。对于已经不再被引用的大对象数据和过时的大对象数据,由于其存在于HDFS上,若无其他人工干预将没有办法清理这些超时文件,长此以往将严重影响整个集群的性能。

方案3:基于列族(ColumnFamily,CF)定制的HBase自身方案

由于大对象的影响,在写入时HBase将频繁Compaction从而占用过高的集群j/0,导致其写性能降低的,而把大对象数据绕过HBase直接写成HDFS文件格式不方便管理,那我们接下来可能考虑的方向是在HBase机制内怎样才能回避掉 Region 的 Split 和 Compaction 阶段。

而其中的一个方向就是对存储大对象数据的ColumnFamily定制其Compaction机制,让其在插入过程中不执行Compaction操作HBase有多个参数来控制其Compaction的触发,其中一个比较关键的参数如下:

hbase.hstore.compaction.min ,这个参数的作用是控制最小MinorCompaction的文件个数。当一个Region中StoreFile的数量超过这个值时会幵始检查是否需要Compaction,同时该参数也是指可以被Compaction的最小文件个数,如果选取的文件数目小于它,则不会做Compaction。

所以,若仅针对存储大对象数据的CloumnFamily设置该Compaction参数,将其值调大,如计算机的无限大值(Long.MAX_VALUE),那么该CloumnFamily在写入过程中将不会有机会触发Minor Compaction,从而集群不会被大对象数据引发的频繁Compaction影响I/O性能,从而能在一定程度上提高写入性能而又不影响HBase对大对象数据的管理。

而该方案对于存储结构化数据的Column Family并不干扰,其存储结构化数据的ColumnFamily依然按照HBase的Compaction机制进行其MinorCompation。

此方案的优势在于:

优势一:实现方便。仅需要针对存储大对象数据的ColumnFamily设置其compaction参数即可。

优势二:数据管理方便。仍然将大对象数据存储在HBase自己的数据格式中,其大对象数据的管理依然交由HBase自身机制完成,利于数据的管理维护。

优势三:回避了 Minor Compaction对于写入性能的影响。单独禁用存储大对象的Column Family,减少因大对象频繁触发Compaction对于集群丨/〇性能的影响,提高其写入性能。

而其缺陷在于:

缺陷一:未解决Split带来的影响。该方案仅仅将大对象数据的Compaction机制给省略掉了,但是另一个影响写入性能的因素Split并没有在该方案中被考

虑到,由于大对象频繁触发Split引起客户端写入阻塞的影响仍未解决。

缺陷二:大量大对象的StoreFiles影响读性能。由于为大对象数据定制了无compaction机制,所以HBase的Region中会存储着大量的大对象Storefiles,这导致HBase的scan (顺序读多条数据)操作和随机读操作极慢,并且大量的StoreFiles会增加HBase的Block indexes (块索引)在内存中的存储负担,影

响其插入性能。


推荐阅读
  • MapReduce工作流程最详细解释
    MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数,所以对其整体的计算过程不是太 ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • LVS-DR直接路由实现负载均衡示例
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • Azkaban(三)Azkaban的使用
    界面介绍首页有四个菜单projects:最重要的部分,创建一个工程,所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 使用在线工具jsonschema2pojo根据json生成java对象
    本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具,用户只需将json字符串复制到输入框中,即可自动将其转换成java对象。该工具还能解析列表式的json数据,并将嵌套在内层的对象也解析出来。本文以请求github的api为例,展示了使用该工具的步骤和效果。 ... [详细]
  • 本文介绍了Web学习历程记录中关于Tomcat的基本概念和配置。首先解释了Web静态Web资源和动态Web资源的概念,以及C/S架构和B/S架构的区别。然后介绍了常见的Web服务器,包括Weblogic、WebSphere和Tomcat。接着详细讲解了Tomcat的虚拟主机、web应用和虚拟路径映射的概念和配置过程。最后简要介绍了http协议的作用。本文内容详实,适合初学者了解Tomcat的基础知识。 ... [详细]
  • 在本教程中,我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后,我们将看到使用Flask创建AP ... [详细]
  •        在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下:       1、CentOS6.7下安装JDK,地址:http:b ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
author-avatar
行者05965
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有