热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

SystemServer的WatchDog

SystemServer的WatchDog-引言SystemServer对整个系统来说很重要,因此内部使用WatchDog监听各种服务的状态,一旦出问题就会重启。WatchDo
引言

SystemServer 对整个系统来说很重要,因此内部使用 WatchDog 监听各种服务的状态,一旦出问题就会重启。

WatchDog 继承 Thread,因此看门狗在单独的线程中执行监听。看门狗内部会监听两种类型:

一种是:Watchdog.Monitor 类,监听其 monitor() 方法耗时。使用该方法可以监听死锁。如 ams 的实现:

public void monitor() {
    // 就简简单单是地一个 sync,能拿到说明 this 上不存在死锁,否则就存在
    synchronized (this) { }
}

另一种是:Handler 消息列表,检查它的消息队列是否阻塞。

构造函数

逻辑很简单,创建一堆的 HandlerChecker 对象,然后添加到看门狗的 mHandlerCheckers 中,它是一个 ArrayList 对象。其中有一个最重要的 HandlerChecker mMonitorChecker,它用来处理所有的 Monitor

// 构造函数节选

mMOnitorChecker= new HandlerChecker(FgThread.getHandler(),
        "foreground thread", DEFAULT_TIMEOUT);

// 将参数添加到 mMonitorChecker 中,最终会添加到 HandlerChecker#mMonitorQueue
addMonitor(new BinderThreadMonitor());
run

看门狗本身继承 Thread,因此它启动后就会执行它的 run() 方法

public void run() {
    boolean waitedHalf = false;
    // 死循环,不断监听
    while (true) {
        final List blockedCheckers;
        final String subject;
        final boolean allowRestart;
        int debuggerWasCOnnected= 0;
        synchronized (this) {
            long timeout = CHECK_INTERVAL; // 30s
            for (int i=0; i 0) {
                try {
                    wait(timeout);
                } catch (InterruptedException e) {
                    // 被唤醒后接着 wait,最终会强制 wait 30s
                }
                timeout = CHECK_INTERVAL - (SystemClock.uptimeMillis() - start);
            }
            boolean fdLimitTriggered = false;
            if (mOpenFdMonitor != null) {
                fdLimitTriggered = mOpenFdMonitor.monitor();
            }
            // 【代码一】
            if (!fdLimitTriggered) {
                // 评估所有 checkers 的最终结果
                // 依次调用每一个 HandlerChecker#getCompletionStateLocked
                // 然后取最大值返回
                final int waitState = evaluateCheckerCompletionLocked();
                if (waitState == COMPLETED) {
                    // 所有 checker 都已完成,直接 continue 进行下一次循环
                    // 将 waitedHalf 设置为 false,重新记录有没有 checker 超过最大时间的一半
                    waitedHalf = false;
                    continue;
                } else if (waitState == WAITING) {
                    // 所有 checker 都没有到最大等待时间的一半,也进行下一次循环
                    continue;
                } else if (waitState == WAITED_HALF) {
                    // 到这里也就是说至少有一个 checker 已经超过最大等待时间的一半
                    if (!waitedHalf) {
                        // 如果是第一次,那就先 dump 一下系统信息
                        // 如果 if 判断不成立,说明不是第一次有 checker 超过一半时间。
                        // 这有可能的情况是:第一次 A 超过一半,然后 dump 信息再次循环
                        // 循环的时间等待 30s,然后 B 超过一半,但 A 已经结束
                        ArrayList pids = new ArrayList<>(mInterestingJavaPids);
                        ActivityManagerService.dumpStackTraces(pids, null, null,
                                getInterestingNativePids(), null);
                        waitedHalf = true;
                    }
                    continue;
                }
                // 剩余一下状态就是 OVERDEU,也就是有 checker 已经超过最大等待时间
                // something is overdue!
                blockedCheckers = getBlockedCheckersLocked();
                subject = describeCheckersLocked(blockedCheckers);
            } else {
                blockedCheckers = Collections.emptyList();
                subject = "Open FD high water mark reached";
            }
            allowRestart = mAllowRestart;
        }
        // 根据注释,如果执行到这里说明系统已经被阻塞了。在【代码一】中也已说明了各种情况

        EventLog.writeEvent(EventLogTags.WATCHDOG, subject);
        ArrayList pids = new ArrayList<>(mInterestingJavaPids);
        long anrTime = SystemClock.uptimeMillis();
        StringBuilder report = new StringBuilder();
        report.append(MemoryPressureUtil.currentPsiState());
        ProcessCpuTracker processCpuTracker = new ProcessCpuTracker(false);
        StringWriter tracesFileException = new StringWriter();
        // 再 dump 一次
        final File stack = ActivityManagerService.dumpStackTraces(
                pids, processCpuTracker, new SparseArray<>(), getInterestingNativePids(),
                tracesFileException);

        // 等待 5s,保证 dump 完。已经阻塞 1min 中了,不在乎这多余的 5s
        SystemClock.sleep(5000);

        // 省略关于 dropbox 的处理

        // 正常情况下,到这里应该 kill 掉 system server,但有可能是 debug 时,所以加个判断
        if (Debug.isDebuggerConnected()) {
            debuggerWasCOnnected= 2;
        }

        if (debuggerWasConnected >= 2) {
            Slog.w(TAG, "Debugger connected: Watchdog is *not* killing the system process");
        } else if (debuggerWasConnected > 0) {
            Slog.w(TAG, "Debugger was connected: Watchdog is *not* killing the system process");
        } else if (!allowRestart) {
            Slog.w(TAG, "Restart not allowed: Watchdog is *not* killing the system process");
        } else {
            // 杀掉进程,然后 systerm_server 退出
            Process.killProcess(Process.myPid());
            System.exit(10);
        }
        waitedHalf = false;
    }
}

这里面最难理解的就是 waitedHalf,它的理解必须依赖于 HandlerChecker#getCompletionStateLocked()

private static final int COMPLETED = 0;
private static final int WAITING = 1;
private static final int WAITED_HALF = 2;
private static final int OVERDUE = 3;

public int getCompletionStateLocked() {
    if (mCompleted) {
        // 已完成
        return COMPLETED;
    } else {
        long latency = SystemClock.uptimeMillis() - mStartTime;
        if (latency 

结合上面的代码以及【代码一】中的注释就很好理解了:看门狗主要想在有 checker 超过最大等待时间一半时 dump 一下系统信息。如果最后出现超时,再 dump 一份,两份信息更容易判断出问题出现点。

检测思路

在上面代码中,有一个很重要的方法没有说明:Checker#scheduleCheckLocked(),它包含看门狗检测各种情况的主要逻辑

public void scheduleCheckLocked() {
    if (mCompleted) {
        // 将 monitor 移植到 mMonitors 中
        mMonitors.addAll(mMonitorQueue);
        mMonitorQueue.clear();
    }
    // mHandler 是构造函数中赋值,指的是要检测的 Handler 
    if ((mMonitors.size() == 0 && mHandler.getLooper().getQueue().isPolling())
            || (mPauseCount > 0)) {
        // 没必要进行检测。要么正处于暂停,要么没有 monitor 而且 handler 正在执行
        mCompleted = true;
        return;
    }
    if (!mCompleted) {
        // 已经在检测了,所以不重复提交
        return;
    }
    mCompleted = false;
    mCurrentMOnitor= null;
    mStartTime = SystemClock.uptimeMillis();
    // 跟普通的卡顿思路一样,都是 handler#post 一个消息,只不过 post 到消息队列的头部。见下面的 run 方法
    mHandler.postAtFrontOfQueue(this);
}

public void run() {
    // 执行 monitor 的 monitor() 方法
    final int size = mMonitors.size();
    for (int i = 0 ; i 

上面代码可以看出死锁的检测思路:un 中执行 monitor()。如果 monitor() 中等待某一个锁必须会导致 run() 方法被阻塞中调用 monitor() 处

如果阻塞的时候过长,看门狗又是一个独立的线程,在调用 checker#getCompletionStateLocked() 就会返回 overdue,就会被看门狗嗅探到。

这里只是以死锁检测举例,monitor 中可以执行各种检测,不一定非得是死锁。比如看门狗中还有一个检测 binder 线程的 BinderThreadMonitor,具体的思路也不分析了。

总结
  1. 死锁检测:自己通过 sync 尝试获取某个对象锁,如果长时间获取不到,就说明持有该锁的线程执行时间过长,有可能就是死锁

推荐阅读
  • 如何查询zone下的表的信息
    本文介绍了如何通过TcaplusDB知识库查询zone下的表的信息。包括请求地址、GET请求参数说明、返回参数说明等内容。通过curl方法发起请求,并提供了请求示例。 ... [详细]
  • Android系统源码分析Zygote和SystemServer启动过程详解
    本文详细解析了Android系统源码中Zygote和SystemServer的启动过程。首先介绍了系统framework层启动的内容,帮助理解四大组件的启动和管理过程。接着介绍了AMS、PMS等系统服务的作用和调用方式。然后详细分析了Zygote的启动过程,解释了Zygote在Android启动过程中的决定作用。最后通过时序图展示了整个过程。 ... [详细]
  • 基于Socket的多个客户端之间的聊天功能实现方法
    本文介绍了基于Socket的多个客户端之间实现聊天功能的方法,包括服务器端的实现和客户端的实现。服务器端通过每个用户的输出流向特定用户发送消息,而客户端通过输入流接收消息。同时,还介绍了相关的实体类和Socket的基本概念。 ... [详细]
  • 如何自行分析定位SAP BSP错误
    The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]
  • SpringBoot uri统一权限管理的实现方法及步骤详解
    本文详细介绍了SpringBoot中实现uri统一权限管理的方法,包括表结构定义、自动统计URI并自动删除脏数据、程序启动加载等步骤。通过该方法可以提高系统的安全性,实现对系统任意接口的权限拦截验证。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 本文分享了一个关于在C#中使用异步代码的问题,作者在控制台中运行时代码正常工作,但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机,但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ... [详细]
  • 本文介绍了Redis的基础数据结构string的应用场景,并以面试的形式进行问答讲解,帮助读者更好地理解和应用Redis。同时,描述了一位面试者的心理状态和面试官的行为。 ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • JavaSE笔试题-接口、抽象类、多态等问题解答
    本文解答了JavaSE笔试题中关于接口、抽象类、多态等问题。包括Math类的取整数方法、接口是否可继承、抽象类是否可实现接口、抽象类是否可继承具体类、抽象类中是否可以有静态main方法等问题。同时介绍了面向对象的特征,以及Java中实现多态的机制。 ... [详细]
  • Spring特性实现接口多类的动态调用详解
    本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍,以及getBeansOfType方法的应用,解决了在实际工作中遇到的接口及多个实现类的问题。同时,文章还提到了SPI使用的不便之处,并介绍了借助ApplicationContext实现需求的方法。阅读本文,你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]
  • Spring学习(4):Spring管理对象之间的关联关系
    本文是关于Spring学习的第四篇文章,讲述了Spring框架中管理对象之间的关联关系。文章介绍了MessageService类和MessagePrinter类的实现,并解释了它们之间的关联关系。通过学习本文,读者可以了解Spring框架中对象之间的关联关系的概念和实现方式。 ... [详细]
  • 本文讨论了使用差分约束系统求解House Man跳跃问题的思路与方法。给定一组不同高度,要求从最低点跳跃到最高点,每次跳跃的距离不超过D,并且不能改变给定的顺序。通过建立差分约束系统,将问题转化为图的建立和查询距离的问题。文章详细介绍了建立约束条件的方法,并使用SPFA算法判环并输出结果。同时还讨论了建边方向和跳跃顺序的关系。 ... [详细]
author-avatar
Chickny的造梦空间
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有