Hbase进阶

作者：aofeng12_313 | 来源：互联网 | 2023-10-13 13:50

一、RegionServer架构1）StoreFile保存实际数据的物理文件，StoreFile以Hfile的形式存储在HDFS上。每个Store会有一

一、RegionServer 架构

在这里插入图片描述
1&＃xff09;StoreFile
保存实际数据的物理文件&＃xff0c;StoreFile以Hfile的形式存储在HDFS上。每个Store会有一个或多个StoreFile&＃xff08;HFile&＃xff09;&＃xff0c;数据在每个StoreFile中都是有序的。
2&＃xff09;MemStore
写缓存&＃xff0c;由于HFile中的数据要求是有序的&＃xff0c;所以数据是先存储在MemStore中&＃xff0c;排好序后&＃xff0c;等到达刷写时机才会刷写到HFile&＃xff0c;每次刷写都会形成一个新的HFile。
3&＃xff09;WAL
由于数据要经MemStore排序后才能刷写到HFile&＃xff0c;但把数据保存在内存中会有很高的概率导致数据丢失&＃xff0c;为了解决这个问题&＃xff0c;数据会先写在一个叫做Write-Ahead logfile的文件中&＃xff0c;然后再写入MemStore中。所以在系统出现故障的时候&＃xff0c;数据可以通过这个日志文件重建。
4&＃xff09;BlockCache
读缓存&＃xff0c;每次查询出的数据会缓存在BlockCache中&＃xff0c;方便下次查询。

二、写流程

在这里插入图片描述
写流程&＃xff1a;
1&＃xff09;Client先访问zookeeper&＃xff0c;获取hbase:meta表位于哪个Region Server。
2&＃xff09;访问对应的Region Server&＃xff0c;获取hbase:meta表&＃xff0c;根据读请求的namespace:table/rowkey&＃xff0c;查询出目标数据位于哪个Region Server中的哪个Region中。并将该table的region信息以及meta表的位置信息缓存在客户端的meta cache&＃xff0c;方便下次访问。
3&＃xff09;与目标Region Server进行通讯&＃xff1b;
4&＃xff09;将数据顺序写入&＃xff08;追加&＃xff09;到WAL&＃xff1b;
5&＃xff09;将数据写入对应的MemStore&＃xff0c;数据会在MemStore进行排序&＃xff1b;
6&＃xff09;向客户端发送ack&＃xff1b;
7&＃xff09;等达到MemStore的刷写时机后&＃xff0c;将数据刷写到HFile。

三、MemStore Flush

在这里插入图片描述
MemStore刷写时机&＃xff1a;
1.当某个memstore的大小达到了hbase.hregion.memstore.flush.size&＃xff08;默认值128M&＃xff09;&＃xff0c;其所在region的所有memstore都会刷写。
当memstore的大小达到了
hbase.hregion.memstore.flush.size&＃xff08;默认值128M&＃xff09;
hbase.hregion.memstore.block.multiplier&＃xff08;默认值4&＃xff09;
时&＃xff0c;会阻止继续往该memstore写数据。

2.当region server中memstore的总大小达到
java_heapsize
*hbase.regionserver.global.memstore.size&＃xff08;默认值0.4&＃xff09;
*hbase.regionserver.global.memstore.size.lower.limit&＃xff08;默认值0.95&＃xff09;&＃xff0c;
region会按照其所有memstore的大小顺序&＃xff08;由大到小&＃xff09;依次进行刷写。直到region server中所有memstore的总大小减小到上述值以下。
当region server中memstore的总大小达到
java_heapsize
*hbase.regionserver.global.memstore.size&＃xff08;默认值0.4&＃xff09;
时&＃xff0c;会阻止继续往所有的memstore写数据。

3.到达自动刷写的时间&＃xff0c;也会触发memstore flush。自动刷新的时间间隔由该属性进行配置hbase.regionserver.optionalcacheflushinterval&＃xff08;默认1小时&＃xff09;。

4.当WAL文件的数量超过hbase.regionserver.max.logs&＃xff0c;region会按照时间顺序依次进行刷写&＃xff0c;直到WAL文件数量减小到hbase.regionserver.max.logs以下&＃xff08;该属性名已经废弃&＃xff0c;现无需手动设置&＃xff0c;最大值为32&＃xff09;。

四、读流程

1&＃xff09;整体流程
在这里插入图片描述
2&＃xff09;Merge细节

五、读流程

1&＃xff09;Client先访问zookeeper&＃xff0c;获取hbase:meta表位于哪个Region Server。
2&＃xff09;访问对应的Region Server&＃xff0c;获取hbase:meta表&＃xff0c;根据读请求的namespace:table/rowkey&＃xff0c;查询出目标数据位于哪个Region Server中的哪个Region中。并将该table的region信息以及meta表的位置信息缓存在客户端的meta cache&＃xff0c;方便下次访问。
3&＃xff09;与目标Region Server进行通讯&＃xff1b;
4&＃xff09;分别在MemStore和Store File&＃xff08;HFile&＃xff09;中查询目标数据&＃xff0c;并将查到的所有数据进行合并。此处所有数据是指同一条数据的不同版本&＃xff08;time stamp&＃xff09;或者不同的类型&＃xff08;Put/Delete&＃xff09;。
5&＃xff09;将查询到的新的数据块&＃xff08;Block&＃xff0c;HFile数据存储单元&＃xff0c;默认大小为64KB&＃xff09;缓存到Block Cache。
6&＃xff09;将合并后的最终结果返回给客户端。
StoreFile Compaction
由于memstore每次刷写都会生成一个新的HFile&＃xff0c;且同一个字段的不同版本&＃xff08;timestamp&＃xff09;和不同类型&＃xff08;Put/Delete&＃xff09;有可能会分布在不同的HFile中&＃xff0c;因此查询时需要遍历所有的HFile。为了减少HFile的个数&＃xff0c;以及清理掉过期和删除的数据&＃xff0c;会进行StoreFile Compaction。
Compaction分为两种&＃xff0c;分别是Minor Compaction和Major Compaction。Minor Compaction会将临近的若干个较小的HFile合并成一个较大的HFile&＃xff0c;并清理掉部分过期和删除的数据。Major Compaction会将一个Store下的所有的HFile合并成一个大HFile&＃xff0c;并且会清理掉所有过期和删除的数据。
在这里插入图片描述

六、Region Split

默认情况下&＃xff0c;每个Table起初只有一个Region&＃xff0c;随着数据的不断写入&＃xff0c;Region会自动进行拆分。刚拆分时&＃xff0c;两个子Region都位于当前的Region Server&＃xff0c;但处于负载均衡的考虑&＃xff0c;HMaster有可能会将某个Region转移给其他的Region Server。
Region Split时机&＃xff1a;
1.当1个region中的某个Store下所有StoreFile的总大小超过hbase.hregion.max.filesize&＃xff0c;该Region就会进行拆分&＃xff08;0.94版本之前&＃xff09;。
2.当1个region中的某个Store下所有StoreFile的总大小超过Min(initialSizeR^3 ,hbase.hregion.max.filesize")&＃xff0c;该Region就会进行拆分。其中initialSize的默认值为2hbase.hregion.memstore.flush.size&＃xff0c;R为当前Region Server中属于该Table的Region个数&＃xff08;0.94版本之后&＃xff09;。
具体的切分策略为&＃xff1a;
第一次split&＃xff1a;1^3 * 256 &＃61; 256MB
第二次split&＃xff1a;2^3 * 256 &＃61; 2048MB
第三次split&＃xff1a;3^3 * 256 &＃61; 6912MB
第四次split&＃xff1a;4^3 * 256 &＃61; 16384MB > 10GB&＃xff0c;因此取较小的值10GB
后面每次split的size都是10GB了。
3.Hbase 2.0引入了新的split策略&＃xff1a;如果当前RegionServer上该表只有一个Region&＃xff0c;按照2 * hbase.hregion.memstore.flush.size分裂&＃xff0c;否则按照hbase.hregion.max.filesize分裂。
在这里插入图片描述

推荐阅读

version
伸缩性|发生_分布式文件系统设计，该从哪些方面考虑？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了分布式文件系统设计，该从哪些方面考虑？相关的知识，希望对你有一定的参考价值。点击上方关注“ ... [详细]

蜡笔小新 2023-10-16 17:43:40
timestamp
生产环境下JVM调优参数的设置实例

正文前先来一波福利推荐：福利一：百万年薪架构师视频，该视频可以学到很多东西，是本人花钱买的VIP课程，学习消化了一年，为了支持一下女朋友公众号也方便大家学习，共享给大家。福利二 ... [详细]

蜡笔小新 2023-10-17 14:08:49
timestamp
JVM：33 如何查看JVM的Full GC日志

1.示例代码packagecom.webcode;publicclassDemo4{publicstaticvoidmain(String[]args){byte[]arr ... [详细]

蜡笔小新 2023-10-17 19:51:59
java
在虚拟服务器上安装oracle 10g客户端的问题及解决方法

本文讨论了在VMWARE5.1的虚拟服务器Windows Server 2008R2上安装oracle 10g客户端时出现的问题，并提供了解决方法。错误日志显示了异常访问违例，通过分析日志中的问题帧，找到了解决问题的线索。文章详细介绍了解决方法，帮助读者顺利安装oracle 10g客户端。 ... [详细]

蜡笔小新 2023-12-11 13:08:10
heap
LeetCode笔记：剑指Offer 41. 数据流中的中位数（Java、堆、优先队列、知识点）

本文介绍了LeetCode剑指Offer 41题的解题思路和代码实现，主要涉及了Java中的优先队列和堆排序的知识点。优先队列是Queue接口的实现，可以对其中的元素进行排序，采用小顶堆的方式进行排序。本文还介绍了Java中queue的offer、poll、add、remove、element、peek等方法的区别和用法。 ... [详细]

蜡笔小新 2023-12-14 13:34:58
java
高校天文共享平台开发过程中的思考与规划

本文介绍了高校天文共享平台的开发过程中的思考和规划。该平台旨在为高校学生提供天象预报、科普知识、观测活动、图片分享等功能。文章分析了项目的技术栈选择、网站前端布局、业务流程、数据库结构等方面，并总结了项目存在的问题，如前后端未分离、代码混乱等。作者表示希望通过记录和规划，能够理清思路，进一步完善该平台。 ... [详细]

蜡笔小新 2023-12-13 18:08:58
netty
一次上线事故，30岁+的程序员踩坑经验之谈

本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间，作为一个在线医疗项目，他们进行了优惠折扣活动的升级改造。然而，在上线前的最后一天，由于大量数据请求，导致部分接口出现问题。作者通过部署两台opentsdb来解决问题，但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]

蜡笔小新 2023-12-10 17:25:31
heap
H5游戏性能优化，调试技巧

本文介绍了H5游戏性能优化和调试技巧，包括从问题表象出发进行优化、排除外部问题导致的卡顿、帧率设定、减少drawcall的方法、UI优化和图集渲染等八个理念。对于游戏程序员来说，解决游戏性能问题是一个关键的任务，本文提供了一些有用的参考价值。摘要长度为183字。 ... [详细]

蜡笔小新 2023-12-10 15:40:37
heap
剑指offer 63.数据流中的中位数题目如何得到一个数据流中的中位数？

本文介绍了如何通过维持两个堆来获取一个数据流中的中位数。通过使用最大堆和最小堆，分别保存数据流中较小的一半和较大的一半数值，可以保证两个堆的大小差距为1或0。如果数据流中的数量为奇数，则中位数为较大堆的最大值；如果数量为偶数，则中位数为较大堆的最大值和较小堆的最小值的平均值。可以使用优先队列来实现堆的功能。本文还提供了相应的Java代码实现。 ... [详细]

蜡笔小新 2023-12-09 01:41:07
heap
初识java关于JDK、JRE、JVM 了解一下

初识java关于JDK、JRE、JVM 了解一下 ... [详细]

蜡笔小新 2023-10-17 17:17:17
java
Flink使用java实现读取csv文件简单实例

Flink使用java实现读取csv文件简单实例首先我们来看官方文档中给出的几种方法：首先我们来看官方文档中给出的几种方法：第一种：Da ... [详细]

蜡笔小新 2023-10-17 10:21:46
heap
尾部|柜台_Java并发线程池篇附场景分析

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Java并发-线程池篇-附场景分析相关的知识，希望对你有一定的参考价值。作者：汤圆个人博客 ... [详细]

蜡笔小新 2023-10-16 13:33:01
heap
32位ubuntu编译android studio,32位Ubuntu编译Android 4.0.4问题

问题一：在32位Ubuntu12.04上编译Android4.0.4源码时，出现了关于emulator的错误，关键是其Makefile里的 ... [详细]

蜡笔小新 2023-10-16 13:19:01
java
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
jsp
Java Performance Tuning笔记

pdf在这里:http:mfinocchiaro.files.wordpress.com200807java-virtual-machine-neutral.pdf以及关于gc的 ... [详细]

蜡笔小新 2023-10-15 17:38:35

aofeng12_313

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章