热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

基于边缘云的机器流量管理技术实战

企业边缘应用面临的挑战CDN是通过在全球范围内分布式地部署边缘服务器将各类互联网内容缓存到靠近用户的边缘服务器上,从而降低用户访问时延并大幅减少穿越互联网核心网的流

企业边缘应用面临的挑战

CDN是通过在全球范围内分布式地部署边缘服务器将各类互联网内容缓存到靠近用户的边缘服务器上,从而降低用户访问时延并大幅减少穿越互联网核心网的流量。互联网业务使用CDN已经成为一种必然的选择。传统网站防护基本上都是保护源站,客户购买防火墙、WAF等产品就可以保护自己核心业务的内容不被恶意窃取。但传统防护方式并不能完全满足业务流量通过CDN分发的场景:

  1. 部署位置在源站前,主要为了保护源站。在CDN架构中,页面基本都缓存在CDN上,爬虫可以直接从CDN上直接爬走用户敏感业务数据。
  2. 识别手段主要依靠在用户页面中嵌入JS,这种方式本质上修改了用户的页面,有很强的侵入性,并且只能适配web业务,针对api业务不生效。
  3. 处置手段一般通过频次控制,对高频的IP等特征进行限制,这种方式容易被绕过,现在爬虫基本都会采用IP代理池的方式,随机修改请求的header字端,这样很难找到特征进行频次控制。

CDN当前承接了主站大量业务,也必然要保证业务浏览和交易体验,防止内容不被恶意窃取。越来越多的业务数据缓存在CDN的边缘服务器上,边缘安全的权重越来越高。而基于边缘云的机器流量管理应运而生,应对CDN边缘安全隐患,实现用户应用数据安全保护。

边缘云的机器流量管理的实现及优势

基于CDN边缘节点的机器流量管理分析及处理流程如下图所示:

互联网访问一般分为用户正常,商业搜索引擎访问,恶意爬虫访问等,机器流量管理通过在边缘提取请求报文特征,基于报文特征识别请求类型,在边缘阻断恶意爬虫访问,保护CDN上缓存资源不被恶意爬取。

机器流量管理的优势如下:

  1. 基于CDN边缘网络架构实现机器流量管理能力,通过请求报文特征识别域名的请求类型,区分是正常的请求还是恶意的机器请求,帮助用户管理自己的请求,阻断恶意请求。
  2. 通过识别域名的请求类型,实时标记出请求的报文类型,非常直观的展示出当前的业务请求中的报文类型,客户可以直观的感知到自己的网站的访问类型分布情况,针对异常的报文类型进行处置。
  3. 通过处置报文类型而不是处置IP,只要恶意请求的报文类型不变,攻击者随机头部字段或者使用秒拨代理IP池都无法绕过。

机器流量管理实际结果验证

在双11业务场景,机器流量管理针对访问主站详情页的全部流量做识别,并对 Bot 流量进行细化分类。核心策略是放行搜索引擎等正规商业爬虫,限制或拦截恶意爬虫。

通过分析详情页的流量以及请求的行为特征,分析出近40%的请求都是恶意访问。在双11前,通过开启了处置策略,成功帮助主站某业务拦截了超过70%的爬虫流量。下图为开启处置前后的流量对比情况,蓝线为未开启处置策略是的流量趋势,绿线为开启处置策略后的流量趋势,拦截效果非常明显,并且不影响实际业务运行。

双11当日,基本上请求的访问特征没有变化,最终拦截数亿次恶意请求、上百万恶意IP及数千万恶意爬取商品ID

CDN机器流量管理承担更多主站业务的防护,并且发现部分爬取主站内容的请求可以透过防护策略,即爬取的请求行为发生了变化。通过对线上突增qps分析,定位出变异爬虫主要使用的是IE的浏览器引擎,源IP大量使用秒拨代理IP,具有明显的商业爬虫特征。经上报,快速形成了应急预案,快速对异常类型进行处置。

原文链接

本文为阿里云原创内容,未经允许不得转载。


推荐阅读
  • 一句话解决高并发的核心原则
    本文介绍了解决高并发的核心原则,即将用户访问请求尽量往前推,避免访问CDN、静态服务器、动态服务器、数据库和存储,从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例,以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文总结了初学者在使用dubbo设计架构过程中遇到的问题,并提供了相应的解决方法。问题包括传输字节流限制、分布式事务、序列化、多点部署、zk端口冲突、服务失败请求3次机制以及启动时检查。通过解决这些问题,初学者能够更好地理解和应用dubbo设计架构。 ... [详细]
  • {moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文介绍了使用AJAX的POST请求实现数据修改功能的方法。通过ajax-post技术,可以实现在输入某个id后,通过ajax技术调用post.jsp修改具有该id记录的姓名的值。文章还提到了AJAX的概念和作用,以及使用async参数和open()方法的注意事项。同时强调了不推荐使用async=false的情况,并解释了JavaScript等待服务器响应的机制。 ... [详细]
  • Voicewo在线语音识别转换jQuery插件的特点和示例
    本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件,该插件具有快速、架构、风格、扩展和兼容等特点,适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]
  • 开发笔记:计网局域网:NAT 是如何工作的?
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了计网-局域网:NAT是如何工作的?相关的知识,希望对你有一定的参考价值。 ... [详细]
  • MySQL语句大全:创建、授权、查询、修改等【MySQL】的使用方法详解
    本文详细介绍了MySQL语句的使用方法,包括创建用户、授权、查询、修改等操作。通过连接MySQL数据库,可以使用命令创建用户,并指定该用户在哪个主机上可以登录。同时,还可以设置用户的登录密码。通过本文,您可以全面了解MySQL语句的使用方法。 ... [详细]
  • 如何使用代理服务器进行网页抓取?
    本文介绍了如何使用代理服务器进行网页抓取,并探讨了数据驱动对竞争优势的重要性。通过网页抓取,企业可以快速获取并分析大量与需求相关的数据,从而制定营销战略。同时,网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据,提高销售增长和毛利率。 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • Linux下部署Symfoy2对app/cache和app/logs目录的权限设置,symfoy2logs
    php教程|php手册xml文件php教程-php手册Linux下部署Symfoy2对appcache和applogs目录的权限设置,symfoy2logs黑色记事本源码,vsco ... [详细]
  • 【爬虫】关于企业信用信息公示系统加速乐最新反爬虫机制
    ( ̄▽ ̄)~又得半夜修仙了,作为一个爬虫小白,花了3天时间写好的程序,才跑了一个月目标网站就更新了,是有点悲催,还是要只有一天的时间重构。升级后网站的层次结构并没有太多变化,表面上 ... [详细]
  • 基于分布式锁的防止重复请求解决方案
    一、前言关于重复请求,指的是我们服务端接收到很短的时间内的多个相同内容的重复请求。而这样的重复请求如果是幂等的(每次请求的结果都相同,如查 ... [详细]
author-avatar
向陽阿莫_545
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有