hbase源码系列（十）HLog与日志恢复

作者：阮琳芷信玲俊岳 | 来源：互联网 | 2023-05-17 12:02

HLog概述hbase在写入数据之前会先写入MemStore，成功了再写入HLog，当MemStore的数据丢失的时候，还可以用HLog的数据来进行恢复，下面先看看HLog的图。旧版的HLog是实际上

HLog概述

hbase在写入数据之前会先写入MemStore，成功了再写入HLog，当MemStore的数据丢失的时候，还可以用HLog的数据来进行恢复，下面先看看HLog的图。

旧版的HLog是实际上是一个SequceneFile，0.96的已经使用Protobuf来进行序列化了。从Writer和Reader上来看HLog的都是Entry的，换句话说就是，它的每一条记录就是一个Entry。

class Entry implements Writable {
    private WALEdit edit;
    private HLogKey key;
}

所以上面那个图已经不准确了，HLogKey没变，但是Value缺不是KeyValue，而是WALEdit。

下面我们看看HLogKey的五要素，region、tableName、log的顺序、写入时间戳、集群id。

public HLogKey(final byte [] encodedRegionName, final TableName tablename,
      long logSeqNum, final long now, List clusterIds){
    init(encodedRegionName, tablename, logSeqNum, now, clusterIds);
 }

protected void init(final byte [] encodedRegionName, final TableName tablename,
      long logSeqNum, final long now, List clusterIds) {
    this.logSeqNum = logSeqNum;
    this.writeTime = now;
    this.clusterIds = clusterIds;
    this.encodedRegiOnName= encodedRegionName;
    this.tablename = tablename;
 }

下面看看WALEdit的属性, 这里只列出来一个重要的，它是内部持有的一群KeyValue。。

public class WALEdit implements Writable, HeapSize {
  ......private final ArrayList kvs = new ArrayList();

HLog的具体实现类是FSHLog，一个Region Server有两个FSHLog，一个负责RS上面所有的用户region的日志，一个负责RS上面的META表的region的日志。

对于日志来说，我们关心的是它如何保证一致性和准确性，在需要它的时候可以发挥救命作用。

HLog同步

对于meta region的HLog写入之后，它会立即同步到硬盘，非meta表的region，它会先把Entry添加到一个队列里面等待同步。

while(!this.isInterrupted() && !closeLogSyncer.get()) {
          try {
            if (unflushedEntries.get() <= syncedTillHere) {
              synchronized (closeLogSyncer) {
                closeLogSyncer.wait(this.optionalFlushInterval);
              }
            }// 同步已经添加的entry
            sync();          } catch (IOException e) {
            LOG.error("Error while syncing, requesting close of hlog ", e);
            requestLogRoll();
            Threads.sleep(this.optionalFlushInterval);
          }
}

它这里是有一个判断条件的，如果判断条件不成立就立即同步，等待this.optionalFlushInterval时间，默认的同步间隔是1000，它是通过参数hbase.regionserver.optionallogflushinterval设置。unflushedEntries是一个AtomicLong在写入entry的时候递增，syncedTillHere是一个volatile long，同步完成之后也是变大，因为可能被多个线程调用同步操作，所以它是volatile的，从条件上来看，如果没有日志需要同步就等待一秒再进行判断，如果有日志需要同步，也是立马就写入硬盘的，如果发生错误，就是调用requestLogRoll方法，进行回滚，这个回滚比较有意思，它是跑过去flush掉MemStore中的数据，把他们写入硬盘。

下面是回滚的方法。中间我忽略了几步，然后找到LogRoller中的这段代码。

byte [][] regiOnsToFlush= getWAL().rollWriter(rollLog.get());
        if (regionsToFlush != null) {
          for (byte [] r: regionsToFlush) scheduleFlush(r);
}

找出来需要flush的region，然后计划flush。

regiOns= findMemstoresWithEditsEqualOrOlderThan(this.outputfiles.firstKey(),
          this.oldestUnflushedSeqNums);

static byte[][] findMemstoresWithEditsEqualOrOlderThan(
      final long walSeqNum, final Map<byte[], Long> regionsToSeqNums) {
    List<byte[]> regiOns= null;
    for (Map.Entry<byte[], Long> e : regionsToSeqNums.entrySet()) {
      //逐个对比，找出小于已输出为文件的最小的seq id的region
      if (e.getValue().longValue() <= walSeqNum) {
        if (regiOns== null) regiOns= new ArrayList<byte[]>();
        regions.add(e.getKey());
      }
    }
    return regiOns== null ? null : regions
        .toArray(new byte[][] { HConstants.EMPTY_BYTE_ARRAY });
}

逐个对比，找出来未flush MemStore的比输出的文件的HLog流水号还小的region，当它准备flush MemStore之前会调用startCacheFlush方法来把region从oldestUnflushedSeqNums这个map当中去除，添加到已经flush的map当中。

从日志恢复

看过《HMaster启动过程》的童鞋都知道，如果之前有region失败的话，在启动之前会把之前的HLog进行split，把属于该region的为flush过的日志提取出来，然后生成一个新的HLog到recovered.edits目录下，中间的过程控制那块有点儿类似于snapshot的那种，在zk里面建立一个splitWAL节点，在这个节点下面建立任务，不一样的是，snapshot那块是自己处理自己的，这里是别人的闲事它也管，处理完了之后就更新这个任务的状态了，没有snapshot那么复杂的交互过程。

那啥时候会用到这个呢，在region打开的时候，我们从HRegionServer的openRegion方法一路跟踪，中间历经OpenMetaHandler，再到HRegion.openHRegion方法，终于在initializeRegionStores方法里面找到了那么一句话。

    // 如果recovered.edits有日志的话，就恢复日志
    maxSeqId = Math.max(maxSeqId, replayRecoveredEditsIfAny(
        this.fs.getRegionDir(), maxSeqIdInStores, reporter, status));

高潮来了！！！

    HLog.Reader reader = null;
    try {
      //创建reader读取hlog
      reader = HLogFactory.createReader(fs, edits, conf);
      long currentEditSeqId = -1;
      long firstSeqIdInLog = -1;
      long skippedEdits = 0;
      long editsCount = 0;
      long intervalEdits = 0;
      HLog.Entry entry;
      Store store = null;
      boolean reported_Once= false;

      try {//逐个读取
        while ((entry = reader.next()) != null) {
          HLogKey key = entry.getKey();
          WALEdit val = entry.getEdit();
          //实例化firstSeqIdInLog
          if (firstSeqIdInLog == -1) {
            firstSeqIdInLog = key.getLogSeqNum();
          }
          boolean flush = false;
          for (KeyValue kv: val.getKeyValues()) {
            // 从WALEdits里面取出kvs
            if (kv.matchingFamily(WALEdit.METAFAMILY) ||
                !Bytes.equals(key.getEncodedRegionName(),
                  this.getRegionInfo().getEncodedNameAsBytes())) {//是meta表的kv就有compaction
              CompactionDescriptor compaction = WALEdit.getCompaction(kv);
              if (compaction != null) {
                //完成compaction未完成的事情，校验输入输出文件，完成文件替换等操作
                completeCompactionMarker(compaction);
              }

              skippedEdits++;
              continue;
            }
            // 获得kv对应的store
            if (store == null || !kv.matchingFamily(store.getFamily().getName())) {
              store = this.stores.get(kv.getFamily());
            }
            if (store == null) {
              // 应该不会发生，缺少它对应的列族
              skippedEdits++;
              continue;
            }
            // seq id小，呵呵，说明已经被处理过了这个日志
            if (key.getLogSeqNum() <= maxSeqIdInStores.get(store.getFamily().getName())) {
              skippedEdits++;
              continue;
            }
            currentEditSeqId = key.getLogSeqNum();
            // 这个就是我们要处理的日志，添加到MemStore里面就ok了            flush = restoreEdit(store, kv);
            editsCount++;
          }
          //MemStore太大了，需要flush掉
          if (flush) internalFlushcache(null, currentEditSeqId, status);

         }
      } catch (IOException ioe) {
        // 就是把名字改了，然后在后面加上".时间戳"，这个有毛意思？
        if (ioe.getCause() instanceof ParseException) {          Path p = HLogUtil.moveAsideBadEditsFile(fs, edits);
          msg = "File corruption encountered!  " +
              "Continuing, but renaming " + edits + " as " + p;
        } else {// 不知道是啥错误，抛错误吧，处理不了
          throw ioe;
        }
      }
      status.markComplete(msg);
      return currentEditSeqId;
    } finally {
      status.cleanup();
      if (reader != null) {
         reader.close();
      }
    }

呵呵，读取recovered.edits下面的日志，符合条件的就加到MemStore里面去，完成之后，就把这些文件删掉。大家也看到了，这里通篇讲到一个logSeqNum，哪里都有它的身影，它实际上是FSHLog当中的一个递增的AtomicLong，每当往FSLog里面写入一条日志的时候，它都会加一，然后MemStore请求flush的时候，会调用FSLog的startCacheFlush方法，获取(logSeqNum+1)回来，然后写入到StoreFile的sequenceid字段，再次拿出来的时候，就遍历这个HStore下面的StoreFile的logSeqNum，取出来最大的跟它比较，小于它的都已经写过了，没必要再写了。

好了，HLog结束了，累死我了，要睡了。

推荐阅读

text
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
ip
Oracle中tnsnames.ora的作用和配置方法

本文介绍了Oracle数据库中tnsnames.ora文件的作用和配置方法。tnsnames.ora文件在数据库启动过程中会被读取，用于解析LOCAL_LISTENER，并且与侦听无关。文章还提供了配置LOCAL_LISTENER和1522端口的示例，并展示了listener.ora文件的内容。 ... [详细]

蜡笔小新 2023-12-14 07:44:06
regex
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
default
Java学习笔记之面向对象编程（OOP）

本文介绍了Java学习笔记中的面向对象编程（OOP）内容，包括OOP的三大特性（封装、继承、多态）和五大原则（单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则）。通过学习OOP，可以提高代码复用性、拓展性和安全性。 ... [详细]

蜡笔小新 2023-12-13 08:44:30
ip
基于PgpoolII的PostgreSQL集群安装与配置教程

本文介绍了基于PgpoolII的PostgreSQL集群的安装与配置教程。Pgpool-II是一个位于PostgreSQL服务器和PostgreSQL数据库客户端之间的中间件，提供了连接池、复制、负载均衡、缓存、看门狗、限制链接等功能，可以用于搭建高可用的PostgreSQL集群。文章详细介绍了通过yum安装Pgpool-II的步骤，并提供了相关的官方参考地址。 ... [详细]

蜡笔小新 2023-12-14 19:10:25
ip
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新 2023-12-14 18:16:27
ip
Nginx使用（server参数配置）

本文介绍了Nginx的使用，重点讲解了server参数配置，包括端口号、主机名、根目录等内容。同时，还介绍了Nginx的反向代理功能。 ... [详细]

蜡笔小新 2023-12-14 17:08:34
text
C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享

本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]

蜡笔小新 2023-12-14 15:56:00
text
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
command
如何找到并终止在8080端口上运行的进程？

本文介绍了如何找到并终止在8080端口上运行的进程的方法，通过使用终端命令lsof -i :8080可以获取在该端口上运行的所有进程的输出，并使用kill命令终止指定进程的运行。 ... [详细]

蜡笔小新 2023-12-14 13:45:13
ip
使用多进程实现TCP服务端的优势和注意事项

本文介绍了为什么要使用多进程处理TCP服务端，多进程的好处包括可靠性高和处理大量数据时速度快。然而，多进程不能共享进程空间，因此有一些变量不能共享。文章还提供了使用多进程实现TCP服务端的代码，并对代码进行了详细注释。 ... [详细]

蜡笔小新 2023-12-13 18:25:30
ip
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
ip
如何在CentOS 7.x上进行端口映射配置

本文介绍了在CentOS 7.x上进行端口映射配置的方法，通过修改内核和配置防火墙实现端口映射。作者分享了自己使用华为服务器进行端口映射的经验，发现网速比直连还快且稳定。详细的配置过程包括开启系统路由模式功能、设置IP地址伪装、设置端口映射等。同时，还介绍了如何监听本地端口的tcp请求，以及删除规则和开放的端口的方法。 ... [详细]

蜡笔小新 2023-12-13 10:22:21
schema
Android开发实现的计时器功能示例

本文分享了Android开发实现的计时器功能示例，包括效果图、布局和按钮的使用。通过使用Chronometer控件，可以实现计时器功能。该示例适用于Android平台，供开发者参考。 ... [详细]

蜡笔小新 2023-12-12 22:51:19
export
Linux如何安装Mongodb的详细步骤和注意事项

本文介绍了Linux如何安装Mongodb的详细步骤和注意事项，同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库，适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作，能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]

蜡笔小新 2023-12-12 21:54:15

阮琳芷信玲俊岳

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章