热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

浅析正则表达式性能问题

2019 年七月初,Cloudflare 曾经全球中断服务,原因是为了改进内联 Javascript 屏蔽,部署了一条正则表达式组成的 WAF 防御规则,耗尽了 CPU 资源。Cloudflare W

2019 年七月初,Cloudflare 曾经全球中断服务,原因是为了改进内联 Javascript 屏蔽,部署了一条正则表达式组成的 WAF 防御规则,耗尽了 CPU 资源。

Cloudflare WAF 的引擎还是 backtraking,所以导致错误的正则写法产生回溯问题,最终 ReDos(正则表达式拒绝服务攻击)。它会导致计算量急剧的放大,使大量网站访问出现了 502。

 

正则引擎原理

提到正则表达式引擎,首先需要涉及到一个概念:有限状态自动机

有限状态自动机(FSM “finite state machine” 或者FSA “finite state automaton” )是为研究有限内存的计算过程和某些语言类而抽象出的一种计算模型。有限状态自动机拥有有限数量的状态,每个状态可以迁移到零个或多个状态,输入字串决定执行哪个状态的迁移。

传统正则表达式引擎分为两类,分别是 NFA(非确定性有限状态自动机)和 DFA(确定性有限状态自动机)。

最直观的区别就是 NFA 在语法解析的时候,构造出的一个有向图。然后通过深搜的方式,去一条路径一条路径的递归尝试,因此速度较慢,不过实现的功能更丰富,对正则编写功底较高,否则容易因为回溯造成性能问题。DFA 会把正则表达式转换成一个图的邻接表,然后通过跳表的形式判断一个字符串是否匹配该正则,因此匹配速度较快,但是不支持捕获组和断言等功能。

 

Cloudflare 的正则分析

(?:(?:\"|'|\]|\}|\\|\d|(?:nan|infinity|true|false|null|undefined|symbol|math)|\`|\-|\+)+[)]*;?((?:\s|-|~|!|{}|\|\||\+)*.*(?:.*=.*)))

Cloudflare WAF 简化正则之后的出问题的其实是 .*.*=.* 这个模式。这个模式看起来并不是很复杂,要求正则引擎匹配任何值 = 任何值,但是这会导致非常严重的回溯问题。

在正则表达式中 . 表示匹配单个字符,而 .* 表示尽可能多的匹配字符(贪婪匹配,可以是零个字符),在使用贪婪匹配或者惰性匹配或者或匹配进入到匹配路径选择的时候,遇到失败的匹配路径,尝试走另外一个匹配路径的这种行为,称作回溯。因此 .*.*=.* 表示匹配零个或多个字符,然后匹配零个或多个字符,然后匹配一个 = 字符,然后匹配零个或多个字符。

我们使用 a=b 来作为测试文本,正则引擎为 PCRE2(PHP>=7.3)


  1. 第一个 .* 贪婪匹配 0 个字符

  2. 第二个 .* 贪婪匹配剩余全部字符

  3. = 尝试匹配,由于没有更多字符可以匹配了,匹配失败

  4. 引擎向前回溯

  5. 第二个 .* 贪婪匹配到字符 a=

  6. = 尝试匹配字符 b,匹配失败

  7. 引擎向前回溯

  8. 第二个 .* 贪婪匹配到字符 a

  9. = 尝试匹配字符 b, 匹配失败

  10. = 尝试向前匹配 =,匹配成功

  11. 第三个 .* 贪婪匹配 0 个字符

  12. 第三个 .* 贪婪匹配剩余全部字符,正则完成全部字符匹配

12 次匹配只为了匹配三个字符的字符串(Cloudflare 使用的正则引擎为 backtraking,匹配次数为 23 次),如果测试字符串从 a=b 变为 a=bb,完全匹配需要 17 次,a=bbb 需要 23 次,当 b 的个数为 20 时,次数达到了 278 次。如果 a= 缺少了,那需要匹配次数会增加到 2023 才能得到匹配失败的结果。

随着字符数量的增加,匹配需要的时间也相应的增加

PCRE2 为 a(n) = (n^2 - 3\*n + 6)/2,n = b + 5
backtraking 为 a(n) = n^2 + n + 3,n = b + 3

图为 b = 15 时的匹配动画

如果稍微修改一下正则表达式,情况就会更糟,比如修改它为 .*.*=.*;(在表达式末尾增加一个分号),PCRE2 引擎的匹配次数会小幅增加到 304 次, 而 backtraking 则会暴涨至 5353 次。更极端的情况下,使用 X(.+)+X 去匹配字符串 ==XX==================== 会引发回溯失控,正则引擎会在第 119989 步终止,并返回匹配失败。

 

不同语言自带的正则性能比较

避免此类问题的方法就是尽可能使用高效的正则表达式引擎,比如 RE2、Rust、PCRE 等,不同的引擎之间有着较大的性能差异,这里使用 Regex 进行测试,测试仅供横向对比参考,不同的表达式在不同的引擎上各有优劣,实际速度与计算机性能相关。

正则表达式为 .*.*=.*;,测试文本为 a=bb…bb(100 个 b),进行多次测试。

PHP(PCRE),耗时 0.7ms-1ms

Javascript 速度较快,0.4ms-0.6ms

Python 耗时 0.7ms-0.8ms

Golang 最慢,耗时大于 165ms

Java 耗时大于 5ms

注:Javascript 在 Chrome Console 中使用表达式 X(.+)+X 的测试耗时超过 20s,而在 Regex 的测试中耗时约为 200ms ,可能是对 Javascript 的实现不同导致的。从 Chrome 88 开始,Chrome 新增了一项实验性非回溯 RegExp 引擎,它可以保证在字符串长度变大的情况下保持线性的时间变化,可以在添加启动参数 --enable-experimental-regexp_engine-on-excessive-backtracks 在过多的回溯上启用对非回溯引擎的回退(NFA 与 DFA 混用)。

 

优化建议

某些格式的正则表达式可能涉及大量查找最佳匹配工作,会导致性能的降低,甚至产生预期之外的结果。正则表达式的很多优化技巧都是围绕着减少回溯这样一个原则进行优化的。

例如要匹配 ; 之前并且包括该字符的文本,不要使用模式 .*;,此模式将匹配文本中最后一个 ; 字符之前的文本,其中包括匹配的文本中前面的所有 ;,使用 [^;]*; 则可以避免很多无效的匹配。

同样的,.* 模式会强制匹配到文本的末端并开始查找最佳匹配导致性能较差,除非要匹配到所有剩余数据。

具有冗余嵌套重复的表达式,如 ([a-z0-9]+)* 会导致查找最佳匹配时进行多次搜索,尽可能使用精准匹配条件来使表达式保持简单。

使用取反 ^ 代替 . 进行精准匹配也是不错的选择,如匹配字符串

123456
,表达式 ]+>[^<]+<\/div> 只用了 14 次匹配,而表达式.*?<\/div> 的匹配次数达到了 39 次。

 

总结

造成 Cloudflare 这次事件的原因是使用了性能较差的正则引擎以及有问题的正则表达式,造成了灾难性的回溯(然而大部分语言的正则引擎都是使用NFA)。使用 DFA 或许是个好办法,但是不支持断言等功能使会易用性降低。平时写正则的时候尽可能少用模糊匹配可以有效缓解回溯问题。关于 NFA 与 DFA 原理更详细的解释可以参考这篇文章 DFA和NFA。


推荐阅读
  • Voicewo在线语音识别转换jQuery插件的特点和示例
    本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件,该插件具有快速、架构、风格、扩展和兼容等特点,适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]
  • 2016 linux发行版排行_灵越7590 安装 linux (manjarognome)
    RT之前做了一次灵越7590黑苹果炒作业的文章,希望能够分享给更多不想折腾的人。kawauso:教你如何给灵越7590黑苹果抄作业​zhuanlan.z ... [详细]
  • 本文介绍了brain的意思、读音、翻译、用法、发音、词组、同反义词等内容,以及脑新东方在线英语词典的相关信息。还包括了brain的词汇搭配、形容词和名词的用法,以及与brain相关的短语和词组。此外,还介绍了与brain相关的医学术语和智囊团等相关内容。 ... [详细]
  • Google Play推出全新的应用内评价API,帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论,这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论,以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论,提升用户体验。 ... [详细]
  • 服务器上的操作系统有哪些,如何选择适合的操作系统?
    本文介绍了服务器上常见的操作系统,包括系统盘镜像、数据盘镜像和整机镜像的数量。同时,还介绍了共享镜像的限制和使用方法。此外,还提供了关于华为云服务的帮助中心,其中包括产品简介、价格说明、购买指南、用户指南、API参考、最佳实践、常见问题和视频帮助等技术文档。对于裸金属服务器的远程登录,本文介绍了使用密钥对登录的方法,并提供了部分操作系统配置示例。最后,还提到了SUSE云耀云服务器的特点和快速搭建方法。 ... [详细]
  • 本文由编程笔记小编整理,主要介绍了使用Junit和黄瓜进行自动化测试中步骤缺失的问题。文章首先介绍了使用cucumber和Junit创建Runner类的代码,然后详细说明了黄瓜功能中的步骤和Steps类的实现。本文对于需要使用Junit和黄瓜进行自动化测试的开发者具有一定的参考价值。摘要长度:187字。 ... [详细]
  • 本文介绍了操作系统的定义和功能,包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别,包括进程和线程的定义和作用。 ... [详细]
  • Java 11相对于Java 8,OptaPlanner性能提升有多大?
    本文通过基准测试比较了Java 11和Java 8对OptaPlanner的性能提升。测试结果表明,在相同的硬件环境下,Java 11相对于Java 8在垃圾回收方面表现更好,从而提升了OptaPlanner的性能。 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • 关于CMS收集器的知识介绍和优缺点分析
    本文介绍了CMS收集器的概念、运行过程和优缺点,并解释了垃圾回收器的作用和实践。CMS收集器是一种基于标记-清除算法的垃圾回收器,适用于互联网站和B/S系统等对响应速度和停顿时间有较高要求的应用。同时,还提供了其他垃圾回收器的参考资料。 ... [详细]
  • RouterOS 5.16软路由安装图解教程
    本文介绍了如何安装RouterOS 5.16软路由系统,包括系统要求、安装步骤和登录方式。同时提供了详细的图解教程,方便读者进行操作。 ... [详细]
  • 本文讨论了编写可保护的代码的重要性,包括提高代码的可读性、可调试性和直观性。同时介绍了优化代码的方法,如代码格式化、解释函数和提炼函数等。还提到了一些常见的坏代码味道,如不规范的命名、重复代码、过长的函数和参数列表等。最后,介绍了如何处理数据泥团和进行函数重构,以提高代码质量和可维护性。 ... [详细]
  • Android工程师面试准备及设计模式使用场景
    本文介绍了Android工程师面试准备的经验,包括面试流程和重点准备内容。同时,还介绍了建造者模式的使用场景,以及在Android开发中的具体应用。 ... [详细]
  • ECMA262规定typeof操作符的返回值和instanceof的使用方法
    本文介绍了ECMA262规定的typeof操作符对不同类型的变量的返回值,以及instanceof操作符的使用方法。同时还提到了在不同浏览器中对正则表达式应用typeof操作符的返回值的差异。 ... [详细]
  • 使用chrome编辑器实现网页截图功能的方法
    本文介绍了在chrome浏览器中使用编辑器实现网页截图功能的方法。通过在地址栏中输入特定命令,打开控制台并调用命令面板,用户可以方便地进行网页截图操作。 ... [详细]
author-avatar
物之美者,招摇之桂
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有