热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

解决P2级故障:CMSGC太频繁,你知道这是什么?

原标题:解决P2级故障:CMSGC太频繁,你知道这是什么?大家好,我是陶朱公Boy。背景今天跟大家分享一个前几天在线上碰到的一个GC故障— "CMSGC太频繁"。不知道大家看到这条告警内容后

原标题:解决P2级故障:CMSGC太频繁,你知道这是什么?

大家好,我是陶朱公Boy。

背景

今天跟大家分享一个前几天在线上碰到的一个GC故障— "CMSGC太频繁"。

不知道大家看到这条告警内容后,是什么感触?我当时是一脸懵逼的,一万个为什么萦绕心头。

什么是Cm文章来源站点https://www.yii666.com/sGc?CmsGc太频繁又是什么意思?什么情况下会触发CMSGC太频繁这种告警?要怎么样去找到那个被频繁创建的对象?最后又需要怎么规避?

接下来这篇文章我会来回答一下:什么是CMSGC太频繁;整个排查过程与你分享;最后我们一起探讨一下一些规避手段。

什么是CMSGC太频繁

首先我觉得还是有必要解释清楚什么是CMSGC太频繁这个术语,相信不少小伙伴也是比较关心的。

如果你听过垃圾搜集器中有一款名为CMS垃圾搜集器,那就好理解了,所谓的CMSGC太频繁意思是说CMS垃圾搜集器在当下时间窗口垃圾收集的动作频次太快(平时老半天才回收一次或几次垃圾对象,现在可能一分钟就需要回收多次),大致就是这个意思。

关于CMS垃圾收集器的说明:

上述这张图中共有7种不同的垃圾搜集器,用连线表示它们彼此之间的搭配使用。
分割线上面部分是年轻代区域,像Serial、ParNew、Parallel Scavenge这三款垃圾收集器是用来搜集年轻代内存区域的垃圾收集器。
分割线下面部分是老年代区域,像CMS、Serial Old、Parallel Old这三款垃圾收集器用来收集老年代区域的垃圾收集器。
在实际线上配置场景中,我们一般通过CMS+ParNew,采用分代收集(parNew垃圾收集器用来收集年轻代区域,Cms垃圾收集器用来收集老年代区域)来进行配置。

所以说CMS垃圾收集器是一款作用于老年代区域的垃圾收集器。

关于CMS+ParNew垃圾搜集器的配置说明:大家如果在VM启动配置参数中做如下配置:-XX:+UseConcMarkSweepGC.该配置项首先是激活CMS收集器(作用于老年代)。之后-XX:UseParNewGC会自动开启,意味着年轻代将使用多线程并行垃圾收集器parNew进行回收。

 

原因分析

上文中,我给大家解释了CMSGC太频繁的意思。其实就是CMS垃圾搜集器对作用于老年代的垃圾对象进行回收,但频次太高,所以才触发了告警。
接下来给大家介绍一下引起对象进入老年代的几种场景,然后再给大家介绍一下几种触发CMSGC的情况。大家需要先搞明白有哪些情况对象会进入老年代,又达到什么标准作用于老年代的垃圾收集线程开始会对垃圾对象进行回收。
▲对象进入老年代的几种情况
  • 新生代因为垃圾回收之后,因为存活对象太多,导致Survivor空间放不下,部分对象会进入老年代
  • 大对象直接进入老年代
这里的大对象是指那些需要大量连续空间的JAVA对象,比如那种很长的字符串或数组对象。
  • 长期存活的对象文章来源地址1.html将进入老年代
对象在Eden出生,并经过第一次YGC后任然存活,并且能被Survivor空间容纳,将被移动到Survivor空间中,并且对象年龄设为1。对象在Survivor空间每熬过一次YGC,年龄就增加一岁,如果达到15(默认)岁,对象就会进入老年代。
  • 动态对象年龄判断
这点是对长期存活的对象进入老年代的补充。
其实不一定要必须满足所谓的存活对象年龄达到15岁才能进入老年代。如果一次YGC后,尽管Survivor区域有空间能容纳存活对象,但这批存活对象恰好存活的年龄相同,且加起来的大小总和大于Survivor空间的一半,这些对象照样会进入老年代。
▲触发CMS垃圾收集动作的几个时机
CMS垃圾收集动作不可能实时发生,只有满足了相应条件,才会被触发。以下几点供你参考:
  • 老年代可用的连续空间小于年轻代历次YGC后升入老年代的对象总和的平均大小,说文章来源地址1.html明YGC后升入老年代的对象大小很可能超过了老年底当期可用的内存空间;触发cmsgc后再进行ygc

  • ygc之后有一批对象需要放入老年代,但老年代没有足够的空间存放了,需要触发一次cmsgc

  • 老年代的内存使用率超过92%,也要触发OLD 过程(通过参数控制-xx:+CMSInitiatingOccupancyFraction)

排查过程

这个章节详细也是不少小伙伴关心的内容,一旦发生了这种告警,那你肯定第一时间比较关心的内容是:到底老年代内存区域里面,什么对象会占据那么大的空间,找到它才是当下之急。
大家其实只要记住两个步骤,就能轻松找出问题对象。
步骤一:获取堆文件
获取堆文件,我总结了如下三个方式,供大家参考
  1. 配置VM参数
    -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=${LOGDIR}/ 虚拟机在OOM异常之后会自动生成一份dump文件在本地 
  2. 执行jmap(Java内存映像工具)命令

    jdk提供的命令行工具jmap能生成堆存储快照,jmap -dump:format=b,file=heapdump.hprof {进程ID}

  3. 阿里开源性能诊断工具:Arthas
阿里开源的性能诊断工具Arthas通过命令heapdump[类似jmap命令的heap dump功能]能生成堆快照文件。
详情大家可以参考官方说明文档:https://arthas.gitee.io/doc/heapdump.html

▲步骤二:分析堆文件
分析步骤一生成的堆文件,一般需要借助一些工具常见的有MAT、Jvisualvm等。

接下来作者用本次告警dump下来的堆文件,用MAT工具给大家演示一下具体查找问题对象的全过程。

MAT是Memory Analyzer tool的缩写,是一种快速,功能丰富的Java堆分析工具,能帮助你查找内存泄漏和减少内存消耗。
很多情况下,我们需要处理测试提供的hprof文件,分析内存相关问题,那么MAT也绝对是不二之选。Eclipse可以下载插件结合使用,也可以作为一个独立分析工具使用。
下载地址:eclipse.org/mat/downloa。如果安装过程中可能会碰到版本过低的问题,需要安装一下高版本JDK 比如11,最后设置一下安装路径即可。

 

打开堆文件

如果你已经成功安装完MAT。进入首页后就可以打开本地hprof文件了。

打开文件后,进入分析页

底部有三个功能块:Action、Reports、Step By Step。简单给大家介绍一下相应内容:
  • Actions

    Histogram 列出每个类所对应的对象个数,以及所占用的内存大小;Dominator Tree 以占用总内存的百分比的方式来列举出所有的实例对象,注意这个地方是直接列举出的对应的对象而不是类,这个视图是用来发现大内存对象的Top Consumers:按照类和包分组的方式展示出占用内存最大的一个对象Duplicate Classes:检测由多个类加载器所加载的类信息(用来查找重复的类)

  • Reports

    Leak Suspects:通过MAT自动分析当前内存泄露的主要原因
    Top Components:Top组件,列出大于总堆1%的组件的报告

  • Step By Step
    Component Report:组件报告,分析属于公共根包或类加载器的对象
Histogram选项
这里大家重点关注Histogram选项(列出每个类所对应的对象个数,以及所占用的内存大小)

DomainTree选项(以占用总内存的百分比的方式来列举出所有的实例对象)

关注上述两个选项基本就能找到问题对象了。

解决方案

要避免发生CMSGC太频繁这种情况,我总结了以下2种方案:
  1. 如果你的程序代码书写正常,纯粹是真的应用流量太大,你部署的机器没办法抗住这波流量,这种情况发生CMSGC太频繁概率就很大了,甚至最终会导致OOM异常。对这种情况也只能横向扩充机器了,以均衡流量。
  2. 如果你的机器足够,线上流量也正常,但也发生了cmsgc太频繁,甚至OOM异常。那大概率是你的程序代码有问题,导致老年代区域聚集了大量垃圾对象,垃圾回收线程频繁回收那些无用的垃圾对象,最终可能还达不到回收的理想效果,那么这个时候你不得不分析堆里面被大量占据的对象,看看是不是程序代码问题导致老年代被堆满。
    像作者文章开始出的这个案例,作者经过上述步骤分析后,发现是程序代码问题导致有大量对象进入老年代。(作者在应用中引入了一个java8的Nashorn组件,该组件的构建过程极其复杂,内部会创建很多个对象实例,因为作者的业务流量还是比较大的,每秒2000+QPS),机器也是够的大概10台(每台4C8G),分析发现内存中大量充斥着Nashorn相关代码,经过深入分析,其实这个Nashorn实例全局单例就可以了,不需要每次方法执行都构建一个实例,因为构建过程复杂且多对象,流量一高势必最终导致应用发生内存溢出等异常。

总结

OK,文章即将进入尾声,让我们一起来做个总结:
首先作者以一个自己亲身经历的GC故障为背景,跟大家介绍了一下什么是CMSGC太频繁这个术语,相信小伙伴如果下次自己碰到类似这种告警,能明白其含义。
其次作者也介绍了CMSGC太频繁一般作用的区域是老年代内存区域,有几种情况对象会从年轻代或直接进入老年代,以及老年代什么情况下会触发其垃圾回收动作。
然后作者也给大家介绍了该如何一步一步通过工具MAT去排查在堆文件里的问题对象。

最后我也总结了应该如何避免发生GC太频繁甚至OOM这类异常。如果程序代码一切正常,纯粹是瞬时流量太高才导致的GC动作加快,可以考虑临时增加服务器实例,分摊流量。不过很多问题可www.yii666.com能都是程序员代码书写不正确才导致的,这个时候你应该首先找出问题对象,然后找出频繁创建对象的代码块。

本文完!


写到最后

作为996的程序员,写这篇文章基本都是利用工作日下班时间和周六周日双休的时间才最终成稿,比较不易。

 

如果你看了文章之后但凡对你有所帮助或启发,真诚恳请帮忙关注一下作者,点赞、在看此文。你的肯定与赞美是我未来创作最强大的动力,我也将继续前行,创作出更加优秀好的作品回馈给大家,在此先谢谢大家了!

关注我

如果这篇文章你看了对你有帮助或启发,麻烦点赞、关注一下作者。你的肯定是作者创作源源不断的动力。

公众号

里面不仅汇集了硬核的干货技术、还汇集了像左耳朵耗子、张朝阳总结的高效学习方法论、职场升迁窍门、软技能。希望能辅助你达到你想梦想之地!

公众号内回复关键字“电子书”下载pdf格式的电子书籍(JAVAEE、Spring、JVM、并发编程、Mysql、Linuwww.yii666.comx、kafka、分布式等)、“开发手册”获取阿里开发手册2本、"面试"获取面试PDF资料。

来源于:解决P2级故障:CMSGC太频繁,你知道这是什么?


推荐阅读
  • baresip android编译、运行教程1语音通话
    本文介绍了如何在安卓平台上编译和运行baresip android,包括下载相关的sdk和ndk,修改ndk路径和输出目录,以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • Nginx使用AWStats日志分析的步骤及注意事项
    本文介绍了在Centos7操作系统上使用Nginx和AWStats进行日志分析的步骤和注意事项。通过AWStats可以统计网站的访问量、IP地址、操作系统、浏览器等信息,并提供精确到每月、每日、每小时的数据。在部署AWStats之前需要确认服务器上已经安装了Perl环境,并进行DNS解析。 ... [详细]
  • 禁止程序接收鼠标事件的工具_VNC Viewer for Mac(远程桌面工具)免费版
    VNCViewerforMac是一款运行在Mac平台上的远程桌面工具,vncviewermac版可以帮助您使用Mac的键盘和鼠标来控制远程计算机,操作简 ... [详细]
  • 本文介绍了使用PHP实现断点续传乱序合并文件的方法和源码。由于网络原因,文件需要分割成多个部分发送,因此无法按顺序接收。文章中提供了merge2.php的源码,通过使用shuffle函数打乱文件读取顺序,实现了乱序合并文件的功能。同时,还介绍了filesize、glob、unlink、fopen等相关函数的使用。阅读本文可以了解如何使用PHP实现断点续传乱序合并文件的具体步骤。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现
    本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法,包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ... [详细]
  • 本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下,定义扩展函数没有意义,但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法,并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑,并给出了自己的反驳。最后,文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]
  • 解决github访问慢的问题的方法集锦
    本文总结了国内用户在访问github网站时可能遇到的加载慢的问题,并提供了解决方法,其中包括修改hosts文件来加速访问。 ... [详细]
  • SpringMVC接收请求参数的方式总结
    本文总结了在SpringMVC开发中处理控制器参数的各种方式,包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver,处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor,以及PathVariableMapMethodArgumentResol等子类。 ... [详细]
  • 本文介绍了使用Python编写购物程序的实现步骤和代码示例。程序启动后,用户需要输入工资,并打印商品列表。用户可以根据商品编号选择购买商品,程序会检测余额是否充足,如果充足则直接扣款,否则提醒用户。用户可以随时退出程序,在退出时打印已购买商品的数量和余额。附带了完整的代码示例。 ... [详细]
  • 上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的,并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中,由于CPU速度 ... [详细]
  • Linux下安装免费杀毒软件ClamAV及使用方法
    本文介绍了在Linux系统下安装免费杀毒软件ClamAV的方法,并提供了使用该软件更新病毒库和进行病毒扫描的指令参数。同时还提供了官方安装文档和下载地址。 ... [详细]
  • 开发笔记:spring boot项目打成war包部署到服务器的步骤与注意事项
    本文介绍了将spring boot项目打成war包并部署到服务器的步骤与注意事项。通过本文的学习,读者可以了解到如何将spring boot项目打包成war包,并成功地部署到服务器上。 ... [详细]
  • 初探PLC 的ST 语言转换成C++ 的方法
    自动控制软件绕不开ST(StructureText)语言。它是IEC61131-3标准中唯一的一个高级语言。目前,大多数PLC产品支持ST ... [详细]
author-avatar
牛粪不插花88
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有