热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

马蜂窝事件背后暴露出的数据风险

近日,针对马蜂窝“数据造假”的文章刷屏网络。文章指出,马蜂窝2100万条真实点评中,有1800万条是通过机器人从点评、携程等其他平台抄袭而来。作者表示,在马蜂窝上发现了7454个抄袭账号,平均每个账号从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评,1221万条酒店点评。其实,不仅旅游网站遭到网络爬虫的恶意抓取,航空、视频等平台被恶意爬取的重灾区。今年2月,视频弹幕网站哔哩哔哩(bilibili)大量用户的视频、昵称、头像及用户评论,出现在某新

近日,针对马蜂窝“数据造假”的文章刷屏网络。文章指出,马蜂窝2100万条真实点评中,有1800万条是通过机器人从点评、携程等其他平台抄袭而来。作者表示,在马蜂窝上发现了7454个抄袭账号,平均每个账号从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评,1221万条酒店点评。

马蜂窝事件背后暴露出的数据风险

其实,不仅旅游网站遭到网络爬虫的恶意抓取,航空、视频等平台被恶意爬取的重灾区。

今年2月,视频弹幕网站哔哩哔哩(bilibili)大量用户的视频、昵称、头像及用户评论,出现在某新成立的视频网站上,就是非法网络爬虫的盗取;而航空公司的官网上的机票、订座等信息,长期被代理公司将机票信息爬取、占座,然后在其他网站上加价销售。

网络爬虫:数据造假背后的“恶人”

网络爬虫,又被称为网页蜘蛛、网络机器人,是按照一定的规则,自动地抓取网络信息的程序或者脚本。

网络爬虫分为两类:一类是搜索引擎爬虫,一类是其他爬虫。前者是为搜索引擎从广域网下载网页,便于搜索检索,后者则是在指定目标下载信息,用于存储或其他用途。

网络爬虫不仅能够抓取网页商品、服务、文字、图片等关键的静态网页信息,还能够爬取用户评价、价格和账户等动态信息等。在知识产权日益受到重视的今天,数据是互联网平台的重要资产。网络爬虫的非法操作不仅窃取了平台的数据资产,更消耗了平台的服务和带宽资源。

被网络爬虫窃取的信息不仅可以用于同类型平台制作,还可能被转售或者可能用于钓鱼网站制作等其他违法行为。这不但会给平台带来重大损失,更可能导致平台上的用户敏感信息泄露,进而使用户遭遇各类网络和电信诈骗。

如何识别搜索引擎爬虫和恶意爬虫?

针对网络爬虫的识别一般是通过用户HTTP请求中的UA(UserAgent)、IP地址字段以及以及浏览器COOKIE。

首先,很多的恶意爬虫程序头或者UA中默认含有类似python-requests/2.18.4等固定字符串,很容易被系统辨别出来;其次,爬虫经常使用某些固定IP,当某一个IP访问量特别特别大、某一段时间内访问了多次的网页等,也可以被快速识别。

常规防御是拒绝访问,或直接封杀IP。但是,UA可以伪造装成搜索爬虫或者其他浏览器,而IP地址可以通过频繁变更代理IP绕过。此外,通过模拟登录或者手动登录COOKIE 也能绕过系统监测。所以,这三类方式均不完善。

验证码是比较有效的一种方式,当某一用户访问次数过多后,就自动让请求跳转到一个验证码页面,只有在输入正确的验证码之后才能继续访问网站。而验证码不仅可以检测访问者行为,还集合设备指纹和风控等多种因素综合判断。

顶象数据反爬解决方案就是基于验证码和风控。该方案在登录端部署顶象的智能无感验证,直接拦截爬虫对重点数据的爬取。同时,结合顶象设备指纹和实时风险决策系统,实现对于爬虫的总体拦截。再基于对抗过程中的数据积累,利用智能分析平台对数据进行分析,建立基于符合业务场景和需求的风控策略,实时优化风控效果,良好防范数据遭恶意爬取的风险。

验证码后面的技术

在用户访问方面,无感验证通过人机交互行为进行防护。如鼠标在页面内的滑动轨迹、键盘的敲击速率、滑动验证码的滑动轨迹、速率、按钮点击等行为轨迹模型检测来进行防护。

基于顶象机器学习模型平台创建优化相关模型,用于验证码机器模拟轨迹防护。这里面包含轨迹耗时检测、异常轨迹检测(包括直线、匀速、聚合曲线等常规信号发生器生成的轨迹和通过异常检测算法发现的离群行为)。

在异常检测方面,顶象技术使用的其中一种异常检测算法为孤立森林(Isolation Forest),Isolation Forest 中提出Isolation概念,即将异常数据从既有数据分布中孤立,用以实现异常检测的目的,这种算法较基于正常数据点创建profile进行异常检测的算法,如Replicator Neural Network、one-class SVM有更高的异常识别能力和准确度。

除此外,二分类器还可以根据既有的验证码数据进行训练,对采集到的人机交互行为数据进行预测区分,进一步提升识别恶意行为的精确度。

此为了防止网络爬虫对验证码的防暴力破解,无感验证通过图片乱序切条、图片更新定时加工、图片变异等技术,结合关联性检测进行防护,通过内置规则和策略,判断相关关联性,如同一设备关联性、同一IP关联性、滑动失败关联性、验证次数关联性等,有效识别短时间内异常关联性。

验证码背后的机器学习

顶象技术将深度学习技术应用于验证码的轨迹分析,通过LSTM等深度学习技术,对滑动验证码的滑动轨迹进行特征提取,然后基于LargeVis,对提取的特征进行可视化分析,如下图所示,通过历史数据的可视化对比分析,可以发现一些异常的轨迹数据。

马蜂窝事件背后暴露出的数据风险

LSTM是一种递归神经网络,适合于处理和预测时序及行为数据。基于 LSTM 的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别、图像识别等任务,由于验证码的轨迹是连续的行为数据,因此非常适合使用LSTM来进行特征提取。

除此之外,顶象将深度学习技术应用于点选验证码中,对点选验证码进行“风格迁移”,可大大增加验证码被破解的难度。

马蜂窝事件背后暴露出的数据风险

风格迁移是深度学习领域很有创意的研究成果,通过神经网络,将一张图片的艺术风格应用在另外一张图片上,例如上图中是将梵高的名作“星空”的艺术风格应用于点选验证码图片上。通过风格迁移,可以将点选图片中的内容进行变换,例如文字变得扭曲及模糊,使得机器破解的难度增加。但是又不会完全改变图片的内容,使用户又可以很容易的识别图片中的文字。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 我们


推荐阅读
  • 一.常见基于身份识别进行反爬1通过headers字段来反爬headers中有很多字段,这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫1.1通过headers中的User-A ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 近年来,大数据成为互联网世界的新宠儿,被列入阿里巴巴、谷歌等公司的战略规划中,也在政府报告中频繁提及。据《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年将出现高达150万的人才缺口。根据领英报告,数据剖析人才供应指数最低,且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示,未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中,60%以上的招聘职位都是针对大数据人才的。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
  • 【爬虫】关于企业信用信息公示系统加速乐最新反爬虫机制
    ( ̄▽ ̄)~又得半夜修仙了,作为一个爬虫小白,花了3天时间写好的程序,才跑了一个月目标网站就更新了,是有点悲催,还是要只有一天的时间重构。升级后网站的层次结构并没有太多变化,表面上 ... [详细]
  • 支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度
    介绍在我们学习机器算法的时候,可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器,但你要明白这些兵器是需要在合适的时间合理 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 2017亚马逊人工智能奖公布:他们的AI有什么不同?
    事实上,在我们周围,“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊,我们的世界正在变成一个机器 ... [详细]
  • Stanford机器学习第九讲. 聚类
    原文:http:blog.csdn.netabcjenniferarticledetails7914952本栏目(Machinelearning)包括单参数的线性回归、多参数的线性 ... [详细]
  • PHP输出缓冲控制Output Control系列函数详解【PHP】
    后端开发|php教程PHP,输出缓冲,Output,Control后端开发-php教程概述全景网页源码,vscode如何打开c,ubuntu强制解锁,sts启动tomcat慢,sq ... [详细]
  • Python入门后,想要从事自由职业可以做哪方面工作?1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ... [详细]
  • 使用机器学习的疾病预测原文:https://www.gees ... [详细]
author-avatar
手机用户2602896463
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有