SystemServer的WatchDog

作者：Chickny的造梦空间 | 来源：互联网 | 2023-05-17 14:20

SystemServer的WatchDog-引言SystemServer对整个系统来说很重要，因此内部使用WatchDog监听各种服务的状态，一旦出问题就会重启。WatchDo

引言

SystemServer 对整个系统来说很重要，因此内部使用 WatchDog 监听各种服务的状态，一旦出问题就会重启。

WatchDog 继承 Thread，因此看门狗在单独的线程中执行监听。看门狗内部会监听两种类型：

一种是：Watchdog.Monitor 类，监听其 monitor() 方法耗时。使用该方法可以监听死锁。如 ams 的实现：

public void monitor() {
    // 就简简单单是地一个 sync，能拿到说明 this 上不存在死锁，否则就存在
    synchronized (this) { }
}

另一种是：Handler 消息列表，检查它的消息队列是否阻塞。

构造函数

逻辑很简单，创建一堆的 HandlerChecker 对象，然后添加到看门狗的 mHandlerCheckers 中，它是一个 ArrayList 对象。其中有一个最重要的 HandlerChecker mMonitorChecker，它用来处理所有的 Monitor

// 构造函数节选

mMOnitorChecker= new HandlerChecker(FgThread.getHandler(),
        "foreground thread", DEFAULT_TIMEOUT);

// 将参数添加到 mMonitorChecker 中，最终会添加到 HandlerChecker#mMonitorQueue
addMonitor(new BinderThreadMonitor());

run

看门狗本身继承 Thread，因此它启动后就会执行它的 run() 方法

public void run() {
    boolean waitedHalf = false;
    // 死循环，不断监听
    while (true) {
        final List blockedCheckers;
        final String subject;
        final boolean allowRestart;
        int debuggerWasCOnnected= 0;
        synchronized (this) {
            long timeout = CHECK_INTERVAL; // 30s
            for (int i=0; i 0) {
                try {
                    wait(timeout);
                } catch (InterruptedException e) {
                    // 被唤醒后接着 wait，最终会强制 wait 30s
                }
                timeout = CHECK_INTERVAL - (SystemClock.uptimeMillis() - start);
            }
            boolean fdLimitTriggered = false;
            if (mOpenFdMonitor != null) {
                fdLimitTriggered = mOpenFdMonitor.monitor();
            }
            // 【代码一】
            if (!fdLimitTriggered) {
                // 评估所有 checkers 的最终结果
                // 依次调用每一个 HandlerChecker#getCompletionStateLocked
                // 然后取最大值返回
                final int waitState = evaluateCheckerCompletionLocked();
                if (waitState == COMPLETED) {
                    // 所有 checker 都已完成，直接 continue 进行下一次循环
                    // 将 waitedHalf 设置为 false，重新记录有没有 checker 超过最大时间的一半
                    waitedHalf = false;
                    continue;
                } else if (waitState == WAITING) {
                    // 所有 checker 都没有到最大等待时间的一半，也进行下一次循环
                    continue;
                } else if (waitState == WAITED_HALF) {
                    // 到这里也就是说至少有一个 checker 已经超过最大等待时间的一半
                    if (!waitedHalf) {
                        // 如果是第一次，那就先 dump 一下系统信息
                        // 如果 if 判断不成立，说明不是第一次有 checker 超过一半时间。
                        // 这有可能的情况是：第一次 A 超过一半，然后 dump 信息再次循环
                        // 循环的时间等待 30s，然后 B 超过一半，但 A 已经结束
                        ArrayList pids = new ArrayList<>(mInterestingJavaPids);
                        ActivityManagerService.dumpStackTraces(pids, null, null,
                                getInterestingNativePids(), null);
                        waitedHalf = true;
                    }
                    continue;
                }
                // 剩余一下状态就是 OVERDEU，也就是有 checker 已经超过最大等待时间
                // something is overdue!
                blockedCheckers = getBlockedCheckersLocked();
                subject = describeCheckersLocked(blockedCheckers);
            } else {
                blockedCheckers = Collections.emptyList();
                subject = "Open FD high water mark reached";
            }
            allowRestart = mAllowRestart;
        }
        // 根据注释，如果执行到这里说明系统已经被阻塞了。在【代码一】中也已说明了各种情况

        EventLog.writeEvent(EventLogTags.WATCHDOG, subject);
        ArrayList pids = new ArrayList<>(mInterestingJavaPids);
        long anrTime = SystemClock.uptimeMillis();
        StringBuilder report = new StringBuilder();
        report.append(MemoryPressureUtil.currentPsiState());
        ProcessCpuTracker processCpuTracker = new ProcessCpuTracker(false);
        StringWriter tracesFileException = new StringWriter();
        // 再 dump 一次
        final File stack = ActivityManagerService.dumpStackTraces(
                pids, processCpuTracker, new SparseArray<>(), getInterestingNativePids(),
                tracesFileException);

        // 等待 5s，保证 dump 完。已经阻塞 1min 中了，不在乎这多余的 5s
        SystemClock.sleep(5000);

        // 省略关于 dropbox 的处理

        // 正常情况下，到这里应该 kill 掉 system server，但有可能是 debug 时，所以加个判断
        if (Debug.isDebuggerConnected()) {
            debuggerWasCOnnected= 2;
        }

        if (debuggerWasConnected >= 2) {
            Slog.w(TAG, "Debugger connected: Watchdog is *not* killing the system process");
        } else if (debuggerWasConnected > 0) {
            Slog.w(TAG, "Debugger was connected: Watchdog is *not* killing the system process");
        } else if (!allowRestart) {
            Slog.w(TAG, "Restart not allowed: Watchdog is *not* killing the system process");
        } else {
            // 杀掉进程，然后 systerm_server 退出
            Process.killProcess(Process.myPid());
            System.exit(10);
        }
        waitedHalf = false;
    }
}

这里面最难理解的就是 waitedHalf，它的理解必须依赖于 HandlerChecker#getCompletionStateLocked()

private static final int COMPLETED = 0;
private static final int WAITING = 1;
private static final int WAITED_HALF = 2;
private static final int OVERDUE = 3;

public int getCompletionStateLocked() {
    if (mCompleted) {
        // 已完成
        return COMPLETED;
    } else {
        long latency = SystemClock.uptimeMillis() - mStartTime;
        if (latency


结合上面的代码以及【代码一】中的注释就很好理解了：看门狗主要想在有 checker 超过最大等待时间一半时 dump 一下系统信息。如果最后出现超时，再 dump 一份，两份信息更容易判断出问题出现点。
检测思路
在上面代码中，有一个很重要的方法没有说明：Checker#scheduleCheckLocked()，它包含看门狗检测各种情况的主要逻辑
public void scheduleCheckLocked() {
    if (mCompleted) {
        // 将 monitor 移植到 mMonitors 中
        mMonitors.addAll(mMonitorQueue);
        mMonitorQueue.clear();
    }
    // mHandler 是构造函数中赋值，指的是要检测的 Handler 
    if ((mMonitors.size() == 0 && mHandler.getLooper().getQueue().isPolling())
            || (mPauseCount > 0)) {
        // 没必要进行检测。要么正处于暂停，要么没有 monitor 而且 handler 正在执行
        mCompleted = true;
        return;
    }
    if (!mCompleted) {
        // 已经在检测了，所以不重复提交
        return;
    }
    mCompleted = false;
    mCurrentMOnitor= null;
    mStartTime = SystemClock.uptimeMillis();
    // 跟普通的卡顿思路一样，都是 handler#post 一个消息，只不过 post 到消息队列的头部。见下面的 run 方法
    mHandler.postAtFrontOfQueue(this);
}

public void run() {
    // 执行 monitor 的 monitor() 方法
    final int size = mMonitors.size();
    for (int i = 0 ; i 

上面代码可以看出死锁的检测思路：un 中执行 monitor()。如果 monitor() 中等待某一个锁必须会导致 run() 方法被阻塞中调用 monitor() 处。
如果阻塞的时候过长，看门狗又是一个独立的线程，在调用 checker#getCompletionStateLocked() 就会返回 overdue，就会被看门狗嗅探到。
这里只是以死锁检测举例，monitor 中可以执行各种检测，不一定非得是死锁。比如看门狗中还有一个检测 binder 线程的 BinderThreadMonitor，具体的思路也不分析了。
总结

死锁检测：自己通过 sync 尝试获取某个对象锁，如果长时间获取不到，就说明持有该锁的线程执行时间过长，有可能就是死锁




    
        
                        server
                        队列
                        list
                        get
                        default
                        timeout
                        queue
                        final
                        string
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        string
                        如何查询zone下的表的信息
                    

                    
                                                
                            
                        
                                                
                        本文介绍了如何通过TcaplusDB知识库查询zone下的表的信息。包括请求地址、GET请求参数说明、返回参数说明等内容。通过curl方法发起请求，并提供了请求示例。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 08:26:32
                    

                

                
                                
                    
                        main
                        Android系统源码分析Zygote和SystemServer启动过程详解
                    

                    
                                                
                            
                        
                                                
                        本文详细解析了Android系统源码中Zygote和SystemServer的启动过程。首先介绍了系统framework层启动的内容，帮助理解四大组件的启动和管理过程。接着介绍了AMS、PMS等系统服务的作用和调用方式。然后详细分析了Zygote的启动过程，解释了Zygote在Android启动过程中的决定作用。最后通过时序图展示了整个过程。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 17:46:46
                    

                

                                
                    
                    
                
                
                                
                    
                        string
                        基于Socket的多个客户端之间的聊天功能实现方法
                    

                    
                                                
                            
                        
                                                
                        本文介绍了基于Socket的多个客户端之间实现聊天功能的方法，包括服务器端的实现和客户端的实现。服务器端通过每个用户的输出流向特定用户发送消息，而客户端通过输入流接收消息。同时，还介绍了相关的实体类和Socket的基本概念。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-11 15:55:40
                    

                

                
                                
                    
                        string
                        如何自行分析定位SAP BSP错误
                    

                    
                                                
                            
                        
                                                
                        The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 19:58:05
                    

                

                
                                
                    
                        string
                        SpringBoot uri统一权限管理的实现方法及步骤详解
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了SpringBoot中实现uri统一权限管理的方法，包括表结构定义、自动统计URI并自动删除脏数据、程序启动加载等步骤。通过该方法可以提高系统的安全性，实现对系统任意接口的权限拦截验证。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 16:11:30
                    

                

                
                                
                    
                        string
                        向QTextEdit拖放文件的方法及实现步骤
                    

                    
                                                
                            
                        
                                                
                        本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 16:06:38
                    

                

                
                                
                    
                        string
                        C#学习教程：在Console中工作但在Windows窗体中不工作的异步代码分享
                    

                    
                                                
                        本文分享了一个关于在C#中使用异步代码的问题，作者在控制台中运行时代码正常工作，但在Windows窗体中却无法正常工作。作者尝试搜索局域网上的主机，但在窗体中计数器没有减少。文章提供了相关的代码和解决思路。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 15:56:00
                    

                

                
                                
                    
                        string
                        Redis数据结构之string应用场景解析
                    

                    
                                                
                        本文介绍了Redis的基础数据结构string的应用场景，并以面试的形式进行问答讲解，帮助读者更好地理解和应用Redis。同时，描述了一位面试者的心理状态和面试官的行为。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 14:02:42
                    

                

                
                                
                    
                        main
                        Java容器中的compareto方法排序原理解析
                    

                    
                                                
                            
                        
                                                
                        本文从源码解析Java容器中的compareto方法的排序原理，讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点，回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录，展示了整个讲解过程。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 13:53:31
                    

                

                
                                
                    
                        main
                        JavaSE笔试题-接口、抽象类、多态等问题解答
                    

                    
                                                
                            
                        
                                                
                        本文解答了JavaSE笔试题中关于接口、抽象类、多态等问题。包括Math类的取整数方法、接口是否可继承、抽象类是否可实现接口、抽象类是否可继承具体类、抽象类中是否可以有静态main方法等问题。同时介绍了面向对象的特征，以及Java中实现多态的机制。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 10:01:13
                    

                

                
                                
                    
                        string
                        Spring特性实现接口多类的动态调用详解
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍，以及getBeansOfType方法的应用，解决了在实际工作中遇到的接口及多个实现类的问题。同时，文章还提到了SPI使用的不便之处，并介绍了借助ApplicationContext实现需求的方法。阅读本文，你将了解到Spring特性的实现原理和实际应用方式。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 03:24:19
                    

                

                
                                
                    
                        main
                        关于cuowu类的错误提示和使用AdjustmentListener的问题
                    

                    
                                                
                        本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-13 22:09:56
                    

                

                
                                
                    
                        string
                        通过Go SDK（Amazon S3）从Bucket生成Torrent - Generate Torrent from Bucket via Go SDK (Amazon S3)
                    

                    
                                                
                        Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 14:13:01
                    

                

                
                                
                    
                        main
                        Spring学习（4）：Spring管理对象之间的关联关系
                    

                    
                                                
                            
                        
                                                
                        本文是关于Spring学习的第四篇文章，讲述了Spring框架中管理对象之间的关联关系。文章介绍了MessageService类和MessagePrinter类的实现，并解释了它们之间的关联关系。通过学习本文，读者可以了解Spring框架中对象之间的关联关系的概念和实现方式。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-12 13:44:30
                    

                

                
                                
                    
                        main
                        差分约束系统求解House Man跳跃问题的思路与方法
                    

                    
                                                
                        本文讨论了使用差分约束系统求解House Man跳跃问题的思路与方法。给定一组不同高度，要求从最低点跳跃到最高点，每次跳跃的距离不超过D，并且不能改变给定的顺序。通过建立差分约束系统，将问题转化为图的建立和查询距离的问题。文章详细介绍了建立约束条件的方法，并使用SPFA算法判环并输出结果。同时还讨论了建边方向和跳跃顺序的关系。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2023-12-14 11:49:51

















    

    
        
            
            
                
                
            

            
                Chickny的造梦空间            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    perl
                
                                
                    match
                
                                
                    email
                
                                
                    list
                
                                
                    php7
                
                                
                    request
                
                                
                    node.js
                
                                
                    command
                
                                
                    input
                
                                
                    callback
                
                                
                    post
                
                                
                    buffer
                
                                
                    testing
                
                                
                    javascript
                
                                
                    httprequest
                
                                
                    get
                
                                
                    typescript
                
                                
                    hash
                
                                
                    web
                
                                
                    chat
                
                                
                    default
                
                                
                    plugins
                
                                
                    flutter
                
                                
                    httpclient
                
                                
                    less
                
                                
                    cSharp
                
                                
                    require
                
                                
                    string
                
                                
                    main
                
                                
                    vba
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1python3 操作配置文件
                
                                
                    2閜字意思 在新华字典的读音解释笔画常用组词起名
                
                                
                    3【为自己写的】如何提升自信
                
                                
                    4gridview数据导出到word和excel以及excel的导入
                
                                
                    5NSTextField / NSTextFieldCel上的文本内部阴影 - Shadow inside text on NSTextField/NSTextFieldCel
                
                                
                    6MySQL教程(基础篇)
                
                                
                    7用 3 个“鸽子”，告诉你闪电网络是怎样改变加密消息传递方式的！
                
                                
                    8STL：模板类手写数组
                
                                
                    9真正的线性可伸缩性需要新的模式和中间件架构吗？
                
                                
                    10js实现点击循环变色问题
                
                                
                    11高可用架构_MySQL高可用架构设计
                
                                
                    12python dict.fromkeys()研究
                
                                
                    13java通用日志工具类,java的日志类
                
                                
                    14samsung pay怎么绑定公交卡?samsung pay支持公交乘车卡
                
                                
                    15【正点原子FPGA连载】第十四章 串口通信实验摘自【正点原子】新起点之FPGA开发指南_V2.1