揭秘阿里云WAF背后神秘的AI智能防御体系

作者：羽书uv吧 | 来源：互联网 | 2023-12-11 01:30

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在

背景

应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在，也正是这些针对Web应用的安全威胁促使了WAF这个产品的不断发展和进化。同时，各种机器学习算法和模型也被不断提出和应用在WAF等安全产品中，以期望解决这些风险。

然而这些算法大多都以监督学习为主，通过标注的正负样本数据，构建针对特定攻击类型的分类模型。安全领域通常面临着「问题空间不闭合」、「正负样本空间严重不对称」等通用问题，只是利用机器学习算法做攻击检测同传统安全检测技术一样，并不能解决「漏误报难平衡」、「覆盖规模与检测性能难平衡」等问题。

那阿里云WAF智能防御体系AI内核是如何突破这些问题的？本文就来一探究竟。

阿里云WAF 已入选Gartner 2019 WAF魔力象限，且是亚太唯一入围的厂商，同时阿里云WAF算法能力被Gartner评为强势功能。云WAF AI内核为云WAF提供核心机器智能能力，为客户提供精细化个性化智能化的防护，最大程度降低安全风险。AI驱动的智能安全系统趋势明显，所带来的收益也会越来越大。

揭秘阿里云WAF背后神秘的AI智能防御体系

阿里云WAF-AI内核技术简介

在阿里云WAF的智能防御体系中，内嵌一颗AI内核，不同于以往的只关注攻击检测的算法或规则。阿里云WAF-AI内核采用「流量分层治理」与「千站千面防护」的智能安全思想，将流量整体分为白、灰、黑三大层，在每一层中部署不同类型的机器智能模型（主动防御模型、异常检测模型、LTD攻击检测模型、故障预警模型、漏报感知模型、误报感知模型等），各层之间的各个智能模型各司其职、各体自洽、各级联动，共同协同形成一套对抗应用层基础威胁的决策智能体。同时，对不同的站点利用机器智能自主生成自适应与该站点业务的防护规则或模型，即一千个站点有着一千套不同的定制化的防御体系，相当于增加了成千上万的安全专家与黑客攻击进行对抗，总体形成精细化个性化的智能安全系统。

主动防御模型

主动防御采用阿里云自研的流量模式学习算法自动学习域名的合法流量，利用无监督的方式，对每个站点合法访问流量进行学习和刻画，机器自主生成对白流量的安全白规则。同时在线上生成数百万条规则，相当于增加了成千上万的安全专家。

异常检测模型

异常检测模型同样利用「千站千面」的思想，采用多种异常检测器从请求片段、时序序列等各种维度识别每个站点的灰流量，机器自主生成对灰流量的数百万个检测模型；

攻击检测模型

LTD攻击检测模型（Locate-Then-Detect）是基于机器视觉方法的深度学习攻击检测模型，由两个深度神经网络组成，分别为PLN（Payload Locating Network 攻击载荷靶向定位网络）与PCN（Payload Classification Network 攻击载荷分类网络）。通过两个深度神经网络的结合，可以准确的定位恶意Payload所在的位置，并对其类型进行精准识别。LTD一方面借助深度学习强大的特征提取能力，增强了对威胁检测的泛化，能够发现更多变种攻击，另一方面LTD模型结合了Object Detection和注意力机制的思想，首次解决了深度学习在网络攻击检测领域的可解释性问题。该成果已入选人工智能***学术会议IJCAI 2019。

其他模型

除此之外，阿里云WAF AI内核还具备故障预警模型、漏报主动感知模型、误报主动感知模型等。

阿里云WAF AI内核的整体思想「分层治理」和「千站千面」属于较大的技术创新变革，不仅仅可以应用在应用层的安全检测中，在其他安全场景下也能适用，是通用的智能安全系统的核心范式。

阿里云WAF简介

阿里云Web应用防火墙（Web Application Firewall，简称WAF）基于云安全大数据和智能计算能力，通过防御SQL注入、XSS跨站脚本、常见Web服务器插件漏洞、木马上传、非授权核心资源访问等OWASP常见Web攻击，对网站或者App的业务流量进行恶意特征识别和防护，将正常、安全的流量回源到服务器。避免网站或App业务服务器遭恶意入侵、保障业务核心数据安全、解决因恶意攻击导致的服务器性能异常问题。

值得一提的是，Web应用防火墙依托阿里云强大的计算和数据处理能力，通过业界领先的AI深度学习方法，在降低误报率的同时有效地提高了检出率。同时，Web应用防火墙可以基于用户业务访问端上的模型收集和大数据分析能力准实时处理高危请求。另外，Web应用防火墙还提供自动报警和全局响应规则的同步下发和升级功能。

阿里云Web应用防火墙适用于金融、电商、o2o、互联网+、游戏、***、保险等行业各类网站或App业务的Web应用安全防护。

Web应用防火墙可以帮助用户解决以下业务应用安全问题：

防数据泄密：避免因黑客的注入入侵攻击，导致网站核心数据被拖库泄露。

防御恶意CC攻击：通过阻断海量的恶意请求，保障网站可用性。

阻止木马上传、网页篡改，保障网站的公信力。

提供虚拟补丁：针对网站被曝光的最新安全漏洞，最大可能地提供快速修复规则。

Web应用防火墙部署在网络出入口位置，通过智能防护引擎、专家防护规则、主动防御检测引擎并结合云端威胁情报能力，实时识别Web攻击以及恶意Web请求，根据预先配置的防护策略实时防御，从而保障网站应用的安全性与可用性。

阿里云WAF应用的主要技术

正则 + AI双引擎检测技术
Antibot实时模型算法反爬技术
大数据威胁情报 + 百万级IP爬虫/黑名单一键封禁
数据泄露防护技术
海量日志存储及智能检索技术

阿里云WAF技术特点和优势：

阿里云WAF服务于对Web安全、CC攻击、应用层负载均衡与限速、业务安全、数据风控有需求的云上云下用户，经过多年的技术积累，在传统Web应用防火墙的基础技术架构之上进行了多项技术创新：

业务功能拓展：

阿里云WAF除传统WAF产品所支持的基础Web攻击类防护功能、CC防护、页面防篡改以外，额外拓展了如下功能特性：
1) 业务安全防护: 线上票务系统恶意查询/占座、论坛垃圾帖、恶意注册、高风险支付等

2) 客户端SDK安全联动，无需修改服务器端逻辑

3) 基于神经网络深度学习和语义分析的攻击检测技术

4) 基于请求内容类型特征概率分析的异常检测技术

5) 指向性黑客威胁情报分析与溯源

6) 恶意爬虫防护

7) 敏感信息泄露检测与防护

8) 千万级海量恶意IP库联动

9) 手机号、银行卡、身份证信息数据风控

10) 用户网站业务性能分析

11) 海量访问日志、攻击日志存储与自定义分析

12) 支持安全应用商店：用户可以直接通过云盾Web应用防火墙中的生态商店一键开启第三方合作方SaaS安全服务商提供的安全功能特性

13) 采用云方式接入，跨多云环境统一管控：云盾Web应用防火墙基于云SaaS模式提供给用户，接入节点遍布全球，国际版配置支持全球同步和任意国家节点智能就近接入。

威胁检测/拦截方法创新：

1) 基于深度学习的实时分析与拦截：

将HTTP请求中的文本图像化表示，使用深度卷积神经网络对不同攻击类型的样本进行训练，避免人工提取和维护特征，通过添加样本提升模型的检测能力。

分离式GPU处理平台，通过模型调优和推理引擎优化，时延<1.5ms (一般平台时延在5ms以上)

2) 数据风控与业务安全防御技术：

流式回应注入采集脚本，用户接入无需改造自身服务逻辑。

云端直接集成大数据风控、人机识别能力。

3) 智能CC防护技术：

对全量用户正常流量基线建模，对比基线数据模型实时检测用户流量异常发现cc攻击事件，并自动产生正则表达式规则，生成并下发决策动作。

解决了传统CC防护规则配置繁琐，用户学习门槛高，配置项只能基于经验进行配置，容易误杀漏杀的问题。

4) 基于隐性马尔科夫过程的异常请求分析技术：

对用户正常流量中的请求参数进行文本归一化映射，对字符分布、字串长度进行隐马序列概率模型建模，实时对于用户流量中偏移正常概率的异常请求进行异常拦截、进一步攻击识别等后续工作。

5) 语义分析拦截引擎：

传统基于关键字正则表达式的SQL注入攻击检测、XSS攻击检测方法容易误杀，且对于注释变形、字符串语法变形等高级攻击规避方法的检测效果差。

语义分析拦截引擎基于实际SQL语句、XSS语句词法、语法分析结合威胁等级综合判断攻击行为，解决了对于高级黑客变形手段的攻击检测、拦截问题。

6) 行为分析引擎：

传统WAF检测引擎基于特定的攻击特征进行攻击识别，无法检测业务层的异常，例如刷票、抢红包、恶意占座等场景。

云盾WAF的行为分析引擎对请求中的关键行为进行定义、识别。通过分析行为分布、个体行为历史特征、行为跳转概率、停留时长、时间和地区分布特征等行为上下文信息，分析识别业务层异常。

线上业务实测可以降低99.8%的验证码、滑块弹出场景，提升用户体验。

7) 全球分布式限流：

传统的令牌桶机制可以较好的解决单机限流问题，但是在云上业务应用场景下常见跨单机、跨集群、跨地域的分布式限流场景，使用传统单机技术难以解决。

本系统通过分布式协议, 结合预估-租约-动作执行的整体方案, 达到了可伸缩，低延时的资源全球统一管理效果。

通过实现本系统的匹配接口和动作执行接口，可在限流的同时减少对用户体验的影响。如基于用户流量价值的限流，或基于等待时间的限流。

8) 云+SDK整合拦截技术：

传统WAF部署在网关端，无法直接获取用户客户端环境的信息执行强安全身份校验，云盾WAF通过与安全SDK联动，结合终端指纹、云上威胁判断和人机交互识别滑块/验证码提供传统网关型WAF无法实现的强身份校验和通信隧道加密的功能。

9) 无缓存检测技术：

传统WAF需要对需要检测的数据进行缓存，在高并发场景下会存在大量的内存消耗，云盾WAF通过缓存检测过程中检测状态机的快照状态，不需要对具体的被检测数据进行缓存，可以支持超过1Gb的数据检测深度(当前市面上的商业化WAF普遍在100Mb以内)。

10）回应修改与脚本插入技术：

云盾WAF基于自研检测引擎支持对所处理流量进行HTML标签粒度的内容修改，可以动态插入新元素、替换现有流量数据，做到在不修改用户服务器端代码的情况下做到修改业务逻辑、插入执行代码等工作。

11）主动防御模型

云盾WAF通过主动对用户的域名流量学习，定义出哪些是“白”，以达到最佳的防护效果的一种思路，目前主要采用归一化的技术来将用户流量中的合法的URL，参数通过模型自动生成正则表达式来表示。

安全事件分析方法创新：

1) 黑客溯源技术：

通过对攻击者的攻击会话进行追踪，持久化的跟踪黑客攻击路径，云盾WAF可以分析单个黑客的攻击链条、并捕获真人黑客的定向web攻击。

2) 大数据系统联动与恶意IP情报系统：

通过对流量日志特征分析挖掘恶意IP，如代理IP、各类爬虫IP、肉鸡IP等多种情报信息。通过将恶意IP情报系统与云防护引擎联动实现协同防御。

3) 全量日志存储与分析检索：

基于飞天大数据基础设施，所有经过云WAF处理的数据在经过用户同意后可以做到PB级别全量数据存储，并进行基于自定义统计语句的快速自定义实时分析和报表定义，并可以作为数据源与用户自有的安全数据分析系统进行数据对接。

4) 客户业务质量分析：

云盾WAF的数据分析系统可以基于用户业务返回值、延迟时间、访问分布分析客户业务的实际运行情况与运行质量，为用户提供性能优化建议。

5) 实况数据大屏

基于实时大数据分析技术和三维数据呈现渲染，云盾WAF提供实时的拦截报警大屏，可以通过WEB端或者YUNOS终端智能设备作为投屏源，帮助用户实时感知安全威胁。

技术架构创新：

1) 大规模分布式应用层转发集群

2) 纵深应用层防御体系

3) 线上线下统一安全管理

4) OpenAPI管控接口

5) 安全与转发平面分离、业务沙箱

阿里云WAF获奖情况：

作为国内唯一厂商入选2019 Gartner WAF魔力象限，2018年进入Gartner亚太地区报告
连续两年获得Frost&Sullivan 大中华区云WAF市场占有率第一
获得CNCERT 2018年网络安全创新产品一等奖
产品的Antibot能力进入到Forrester全球技术评测第一阵营
荣获Freebuf 2016年互联网安全创新大会”年度云安全产品及服务”
2017、2018年两次获得阿里云产品飞天奖、云鼎奖

评委点评

金湘宇 Sec-UN网站创始人/威胁情报推进联盟发起人：

人工智能技术已经进入了新的应用阶段，比起早年对于基础技术、平台的关注，当前业界更加关注于落地的业务场景、实际效果。阿里云将AI技术与其早已成熟的WAF产品结合，将传统的基于规则、特征的WAF防护产品，利用AI技术实现了异常检测、攻击检测、故障预警、漏洞主动感知和误报主动感知，将传统的WAF产品从之前的被动防御逐渐过渡至主动防御，并且在阿里云的众多用户中成功进行了运用。阿里云WAF AI驱动的智能防御体系是近年网络安全领域真正的实质创新之一，也是我今年WitAwards我最推荐的项目之一。

惠志斌上海社会科学院互联网研究中心主任/赛博研究院首席研究员

阿里云WAF-AI内核采用「流量分层治理」与「千站千面防护」的智能安全思想，对不同的站点利用机器智能自主生成自适应与该站点业务的防护规则或模型，并作为国内唯一厂商入选2019 Gartner WAF魔力象限，2018年进入Gartner亚太地区报告，在一定程度上体现出技术创新性。此外，阿里云在国内云计算市场占有率领先，外部攻击场景最为丰富，阿里云WAF-AI系统连续两年获得Frost&Sullivan 大中华区云WAF市场占有率第一，因此强大的场景有时可以推动阿里云WAF-AI系统持续学习演进，具有良好的技术应用前景，值得业界重点关注。

本文作者：云安全专家

原文链接

本文为云栖社区原创内容，未经允许不得转载。

推荐阅读

ip
绕过WAF的XSS检测机制及构建XSS payload的方法

本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ... [详细]

蜡笔小新 2023-12-11 19:42:30
ip
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
ip
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
ip
用友深耕烟草行业25年，提出数字化转型建议

本文介绍了用友在烟草行业深耕25年的经验，提出了数字化转型的建议，包括总体要求、主要任务、发展阶段和六位一体推进举措。通过数字化转型，烟草行业将注入新动能，实现高质量发展。 ... [详细]

蜡笔小新 2023-12-14 18:01:37
php
如何使用Java获取服务器硬件信息和磁盘负载率

本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务，并获取服务器的磁盘信息，并将结果输出。然后在本地使用JS编写一个AJAX脚本，远程请求服务端的程序，得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]

蜡笔小新 2023-12-14 13:56:20
php
adg架构设置及其在企业数据治理中的应用

本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展，企业IT系统的快速发展使得数据成为企业业务增长的新动力，但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题，并提出了解决方案，包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外，本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍，读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]

蜡笔小新 2023-12-14 13:05:22
request
postman测试登录后的接口_使用postman进行接口测试的方法(测试用户管理模块)

本文介绍了使用postman进行接口测试的方法，以测试用户管理模块为例。首先需要下载并安装postman，然后创建基本的请求并填写用户名密码进行登录测试。接下来可以进行用户查询和新增的测试。在新增时，可以进行异常测试，包括用户名超长和输入特殊字符的情况。通过测试发现后台没有对参数长度和特殊字符进行检查和过滤。 ... [详细]

蜡笔小新 2023-12-14 10:29:45
command
Webmin远程命令执行漏洞复现及防护方法

本文介绍了Webmin远程命令执行漏洞CVE-2019-15107的漏洞详情和复现方法，同时提供了防护方法。漏洞存在于Webmin的找回密码页面中，攻击者无需权限即可注入命令并执行任意系统命令。文章还提供了相关参考链接和搭建靶场的步骤。此外，还指出了参考链接中的数据包不准确的问题，并解释了漏洞触发的条件。最后，给出了防护方法以避免受到该漏洞的攻击。 ... [详细]

蜡笔小新 2023-12-13 16:14:53
ip
如何在服务器主机上实现文件共享的方法和工具

本文介绍了在服务器主机上实现文件共享的方法和工具，包括Linux主机和Windows主机的文件传输方式，Web运维和FTP/SFTP客户端运维两种方式，以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外，还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK，以及主机迁移服务会收集的源端服务器信息。 ... [详细]

蜡笔小新 2023-12-13 13:23:48
ip
分享2款网站程序源码/主题等后门检测工具

本文介绍了2款用于检测网站程序源码和主题中是否存在后门的工具，分别是WebShellkiller和D盾_Web查杀。WebShellkiller是一款支持webshell和暗链扫描的工具，采用多重检测引擎和智能检测模型，能够更精准地检测出已知和未知的后门文件。D盾_Web查杀则使用自行研发的代码分析引擎，能够分析更为隐藏的WebShell后门行为。 ... [详细]

蜡笔小新 2023-12-13 09:10:23
ip
Oracle seg,V$TEMPSEG_USAGE与Oracle排序的关系及使用方法

本文介绍了Oracle seg,V$TEMPSEG_USAGE与Oracle排序之间的关系，V$TEMPSEG_USAGE是V_$SORT_USAGE的同义词，通过查询dba_objects和dba_synonyms视图可以了解到它们的详细信息。同时，还探讨了V$TEMPSEG_USAGE的使用方法。 ... [详细]

蜡笔小新 2023-12-12 17:57:15
import
Python爬虫中使用正则表达式的方法和注意事项

本文介绍了在Python爬虫中使用正则表达式的方法和注意事项。首先解释了爬虫的四个主要步骤，并强调了正则表达式在数据处理中的重要性。然后详细介绍了正则表达式的概念和用法，包括检索、替换和过滤文本的功能。同时提到了re模块是Python内置的用于处理正则表达式的模块，并给出了使用正则表达式时需要注意的特殊字符转义和原始字符串的用法。通过本文的学习，读者可以掌握在Python爬虫中使用正则表达式的技巧和方法。 ... [详细]

蜡笔小新 2023-12-12 11:51:07
const
Spring常用注解（绝对经典），全靠这份Java知识点PDF大全

本文介绍了Spring常用注解和注入bean的注解，包括@Bean、@Autowired、@Inject等，同时提供了一个Java知识点PDF大全的资源链接。其中详细介绍了ColorFactoryBean的使用，以及@Autowired和@Inject的区别和用法。此外，还提到了@Required属性的配置和使用。 ... [详细]

蜡笔小新 2023-12-12 10:15:07
php
介绍一个免费的具备数据显示/录入/更新/删除功能的asp.net控件

本文介绍了一个免费的asp.net控件，该控件具备数据显示、录入、更新、删除等功能。它比datagrid更易用、更实用，同时具备多种功能，例如属性设置、数据排序、字段类型格式化显示、密码字段支持、图像字段上传和生成缩略图等。此外，它还提供了数据验证、日期选择器、数字选择器等功能，以及防止注入攻击、非本页提交和自动分页技术等安全性和性能优化功能。最后，该控件还支持字段值合计和数据导出功能。总之，该控件功能强大且免费，适用于asp.net开发。 ... [详细]

蜡笔小新 2023-12-11 09:41:26
php
互联网思维中的3个段子，9大分类和19条法则

本文介绍了互联网思维中的三个段子，涵盖了餐饮行业、淘品牌和创业企业的案例。通过这些案例，探讨了互联网思维的九大分类和十九条法则。其中包括雕爷牛腩餐厅的成功经验，三只松鼠淘品牌的包装策略以及一家创业企业的销售额增长情况。这些案例展示了互联网思维在不同领域的应用和成功之道。 ... [详细]

蜡笔小新 2023-12-10 14:58:10