热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

深度解读《互联网信息服务算法推荐管理规定(征求意见稿)》by傅一平

2018年的时候,自己写过一篇文章《谈谈大数据时代的《别被算法困在“信息茧房”》》,提到了推荐算法“投其所好”可能导致的社会问题。3年后的今天ÿ

2018年的时候,自己写过一篇文章《谈谈大数据时代的《别被算法困在“信息茧房”》》,提到了推荐算法“投其所好”可能导致的社会问题。

3年后的今天,国家互联网信息办公室发布《互联网信息服务算法推荐管理规定(征求意见稿)》(以下简称《意见稿》)并公开征求意见,目的是规范互联网信息服务算法推荐活动,维护国家安全和社会公共利益,保护公民、法人和其他组织的合法权益,促进互联网信息服务健康发展。

《意见稿》共30条,自己读完后,有五点思考:

第一、《意见稿》是继《网络安全法》、《数据安全法》及《个人信息保护法》颁布后又一个具有里程碑意义的跟数据相关的法律法规,算法推荐服务被从互联网应用中单独剥离出来,为其单独制定管理规范,这在业界是第一次,国际上也没见过。

第二、《意见稿》是官方针对算法推荐造成的“信息茧房”、“大数据杀熟”、“饭圈文化”、“网络沉溺”、“舆情控制”等诸多不良网络现象的一种正式回应,表明了治理的决心。

第三、《意见稿》中对于算法推荐服务的规定事无巨细,将会对以算法驱动的公司产生很大影响,短视频、新闻、微博、网约车等信息服务领域将被重点监管。

第四、算法推荐服务相对于其他服务,具有标准规范缺失、技术门槛高等特点,监管难度之大可想而知,管理规定之下的操作细则更是重中之重。

第五、《意见稿》将进一步推进实名认证在更多的信息服务领域落地。

下面针对《意见稿》30条规定中的重点条目做一解读,理解了这个规定,用户就可以拿起这个武器,更好的维护自己的权益。

第二条 在中华人民共和国境内应用算法推荐技术提供互联网信息服务(以下简称算法推荐服务),适用本规定。法律、行政法规另有规定的,依照其规定。前款所称应用算法推荐技术,是指应用生成合成类、个性化推送类、排序精选类、检索过滤类、调度决策类等算法技术向用户提供信息内容。

本规定适用的算法推荐技术主要包括五类,简单解释如下:

1、生成合成类:指利用合成技术生成推荐内容,比如AI换脸。

2、个性化推送类:指千人前面的推荐,比如我登录天猫看到的推荐商品跟你看到的不一样。

3、排序精选类:典型的如排行榜。

4、检索过滤类:典型的如你输入一个关键词,检索出的内容会有优先级排序。

5、调度决策类:典型的如滴滴派单。

第四条 算法推荐服务提供者提供算法推荐服务,应当遵守法律法规,尊重社会公德和伦理,遵守商业道德和职业道德,遵循公正公平、公开透明、科学合理和诚实信用的原则。

该规定描述了算法推荐服务要遵循的系列原则,包括:

1、遵守法律法规:比如传播色情淫秽的内容肯定受法律制约。

2、尊重社会公德和伦理:举个例子,“困在算法里”的外卖平台骑手们,面对不断压缩的订单送达时间,他们没有选择,只能遵循算法的设计逻辑,看着手机上一条直线的数字地图,在现实的道路上“与死神赛跑,和交警较劲,和红灯做朋友”,这种算法推荐就有违社会公德和伦理。

3、遵循公正公平:大数据杀熟就是反面典型,消费软件很懂你,时间一长却发现老用户比新用户花的钱更多。

4、遵循公开透明:通过公开算法原理是实现公正公平的一种手段,比如IT领域为了确保应用安全,往往会有代码审核一说。

5、遵循科学合理:算法训练有一套科学方法,比如对样本的合理性要做评估,对算法训练过程中产生的过拟合或欠拟合现象要做纠正,否则算法推荐就不科学,举一个例子,粉丝集中刷榜产生的异常数据对于算法的推荐就有很大影响,因此要对原始数据做清洗过滤。

第五条 鼓励相关行业组织加强行业自律,建立健全自律制度和行业准则,组织制定行业标准,督促指导算法推荐服务提供者建立健全服务规范、依法提供服务并接受社会监督。

国家在制定法规的同时也认识到自身的局限性,因此鼓励各个行业遵循大原则的前提下,制定出符合本行业实际的算法标准和操作细则,同个行业大家知根知底,行业标准的建立也有利行业的健康发展,防止劣币驱逐良币现象的发生。

第六条 算法推荐服务提供者应当坚持主流价值导向,优化算法推荐服务机制,积极传播正能量,促进算法应用向上向善。算法推荐服务提供者不得利用算法推荐服务从事危害国家安全、扰乱经济秩序和社会秩序、侵犯他人合法权益等法律、行政法规禁止的活动,不得利用算法推荐服务传播法律、行政法规禁止的信息。

算法推荐本身不区分善恶,但在法律法规和伦理道德要求向善的约束下,未来算法不能独善其身,也没有中立一说,只要有可能推荐恶的内容,算法推荐服务提供者就有责任去调整算法逻辑,从而抑制恶的内容的产生。

比如一般算法会基于相关关系去做推荐,看了动漫就会推荐动漫,但如果看了色情暴力的,也会推荐偏色情暴力的其他内容,以前这叫算法中立,现在不行了。

第八条 算法推荐服务提供者应当定期审核、评估、验证算法机制机理、模型、数据和应用结果等,不得设置诱导用户沉迷或者高额消费等违背公序良俗的算法模型。

“不得设置诱导用户沉迷或者高额消费等违背公序良俗的算法模型”这句话的力量很大,界定的难度也很大,举个例子大家会有个感性认识:

“7月13日,国家网信办发布通知,宣布为期2个月的“清朗”未成年人暑期网络环境专项整治启动。本次整治行动将在诱导未成年人无底线追星、饭圈互撕等价值导向不良的信息和行为等方面进行重点整治,严厉打击诱导未成年人在社交平台、音视频平台的热搜榜、排行榜、推荐位等重点区域应援打榜、刷量控评、大额消费等行为”

以前整治靠专项行动,有了此规定就属于非法,谁都可以投诉。

第九条 算法推荐服务提供者应当加强信息内容管理,建立健全用于识别违法和不良信息的特征库,完善入库标准、规则和程序。发现未作显著标识的算法生成合成信息的,应当作出显著标识后,方可继续传输。发现违法信息的,应当立即停止传输,采取消除等处置措施,防止信息扩散,保存有关记录,并向网信部门报告。发现不良信息的,应当按照网络信息内容生态治理有关规定予以处置。 

算法推荐的基础是数据(信息内容),基于这些数据可以构建出特征库,而用什么样的特征库就会训练出什么样的算法推荐模型,比如用一堆暴力特征的视频数据去训练视频推荐算法,训练出来的算法更可能推荐暴力的视频。

原来的算法推荐服务提供者采用什么样的数据来构建特征库是不受监管的,现在对于算法训练的原始信息内容提出了管理要求,这样就堵住了信息源头,没有恶的信息内容的输入,算法就不大可能产生恶的内容输出,这叫治本。

面对海量的信息内容,现在基于AI鉴别信息内容合规性的手段渐趋成熟,使得非法信息的智能化识别和拦截有了可能。

但这还不够,因为现在很多信息内容可以用机器生成,不需要现实中真实存在,因此这里对基于算法(比如对抗算法)合成信息内容(比如AI换脸)也做了规范,即合成内容的这个算法也要接受监管,杜绝不合规的算法自己创造垃圾内容。

第十条 算法推荐服务提供者应当加强用户模型和用户标签管理,完善记入用户模型的兴趣点规则,不得将违法和不良信息关键词记入用户兴趣点或者作为用户标签并据以推送信息内容,不得设置歧视性或者偏见性用户标签。

第十条是第九条的加强,一般在做推荐算法的时候,首先需要针对原始内容信息进行处理、建模,建模的结果往往是客户标签,比如年龄、性别、是否有车、是否高收入等等,然后基于这些标签提供推荐服务,这里对客户标签做了规范,要求标签不能带有违法、不良信息关键词,不得设置歧视性标签等等。

比如常见的电商、外卖等场景的“大数据杀熟”,属于算法歧视,对新老用户打不同标签,并进行价格上的区别对待,这种就可以算是歧视性或者偏见性用户标签了,但如果这些标签只是用于客户特征分析目的,则不能算作歧视性标签,实际还是要结合标签应用场景来判断的,这对于未来的监管挑战很大。

第十一条 算法推荐服务提供者应当加强算法推荐服务版面页面生态管理,建立完善人工干预和用户自主选择机制,在首页首屏、热搜、精选、榜单类、弹窗等重点环节积极呈现符合主流价值导向的信息内容。

该条规定用于加强推荐页面内容的配置能力,使得推荐内容的管理更加快捷方便,比如一旦发现重大推荐信息内容问题,可以一键关闭,而不要去做修改、下线等耗时的操作;

同时给予了用户关闭推荐服务的权利,这对于用户是巨大的利好,现在很多网站会推荐不良信息,但用户不得不忍受。

第十二条 算法推荐服务提供者应当综合运用内容去重、打散干预等策略,并优化检索、排序、选择、推送、展示等规则的透明度和可解释性,避免对用户产生不良影响、引发争议纠纷。

该条规定是从推荐服务体验的角度来讲的:

一是不要重复推荐和集中推荐,比如有时候打开一个网页,会发现广告推荐的内容比正式内容都多,喧宾夺主,体验极差,所谓的信息流广告有时成了信息流内容了。

二是对于推荐的规则要有透明性和可解释性,比如我观看了某网站后转到另一网站就有原网站的推荐内容,显然两个网站达成了某种默契,但这种信息交换是否符合法律法规,是否要经过个人授权,也要经得起检验。

第十三条 算法推荐服务提供者不得利用算法虚假注册账号、非法交易账号、操纵用户账号,或者虚假点赞、评论、转发、网页导航等,实施流量造假、流量劫持;不得利用算法屏蔽信息、过度推荐、操纵榜单或者检索结果排序、控制热搜或者精选等干预信息呈现,实施自我优待、不正当竞争、影响网络舆论或者规避监管。

算法推荐服务提供者往往是作为第三方为广告客户提供精准投放服务,但有些算法推荐服务者为了获取收益,会通过各种流量造假的手段虚构流量,严重损坏客户利益,扰乱流量市场,劣币驱逐良币的事情很多了。

如果说前面几条规定都侧重于对于算法推荐服务进行一定程度的“干预”,从而确保推荐服务合法合规,那么这条规定就反过来了,要求算法推荐服务者不能为了自身利益对于算法进行人为干预,控制算法推荐的结果,从而导致不正当竞争、影响网络舆论或者规避监管。

第十四条 算法推荐服务提供者应当以显著方式告知用户其提供算法推荐服务的情况,并以适当方式公示算法推荐服务的基本原理、目的意图、运行机制等。

为了监督必须要让算法推荐具备透明性,但算法跟其他的服务还有所不同,因为算法大多时候是个黑盒,很多不具备可解释性,对于非专业背景的用户要理解算法更是挑战,这样就失去了公示算法的意义,同时公示算法也涉及到知识产权问题。

第十五条 算法推荐服务提供者应当向用户提供不针对其个人特征的选项,或者向用户提供便捷的关闭算法推荐服务的选项。用户选择关闭算法推荐服务的,算法推荐服务提供者应当立即停止提供相关服务。(1)算法推荐服务提供者应当向用户提供选择、修改或者删除用于算法推荐服务的用户标签的功能。(2)用户认为算法推荐服务提供者应用算法对其权益造成重大影响的,有权要求算法推荐服务提供者予以说明并采取相应改进或者补救措施。

这一条在第十四条的基础上更进一步,不仅算法推荐要透明化,还要允许客户能干预算法推荐服务,就拿允许用户关闭算法推荐服务来说,这的确是个巨大的进步,但也会对算法推荐服务者的商业模式造成冲击,当然算法服务提供者可以规避这条规定,比如将关闭选项藏的很深,因此实操层面远不是那么简单。

算法推荐服务者允许用户选择、修改或者删除用户标签,看似简单,实际操作也是非常困难,因为推荐服务采用的标签跟最终的推荐结果之间没有直接关系,用户以为把某个标签关闭就可以提升推荐服务体验,实际情况可能更糟;一个推荐服务涉及的标签变量可能成百上千,业务解释非常复杂,放给用户选择不一定合适。

用户有权要求算法推荐服务提供者改进算法,想法挺好,但算法推荐服务相对于其他的服务,存在算法评判规则缺失、算法服务数量巨大、算法服务好坏判定复杂及服务提供者水平参差不齐等系列问题,用户投诉电话打不通可以描述清楚,但算法怎么个不好法用户可能说不清楚,算法服务提供者也可能理解不了,改进算法更是成本巨大,远不是投诉一就能解决一那么简单。

第十六条 算法推荐服务提供者向未成年人提供服务的,应当依法履行未成年人网络保护义务,并通过开发适合未成年人使用的模式、提供适合未成年人特点的服务等方式,便利未成年人获取有益身心健康的信息内容。算法推荐服务提供者不得向未成年人用户推送可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好等可能影响未成年人身心健康的信息内容,不得利用算法推荐服务诱导未成年人沉迷网络。

2019年14岁女孩模仿“办公室小野”用易拉罐做爆米花的短视频导致意外身亡,当初关于此事件的责任归属存在争议,本条规定就是用来保护未成年人的。

“不得向未成年推送不良信息内容”意味着算法推荐服务提供者要对推荐的内容进行分层分级;“不得利用算法推荐服务诱导未成年人沉迷网络”则直指短视频等信息服务,自己以前为了防止沉迷短视频直接卸载了事,更不用说对未成年人的诱惑了。

为了实现该条,估计后续对于主流推荐服务应用会提出实名注册要求,就好比对未成年人限制游戏一样,力度可能非常大。

第十七条 算法推荐服务提供者向劳动者提供工作调度服务的,应当建立完善平台订单分配、报酬构成及支付、工作时间、奖惩等相关算法,履行劳动者权益保障义务。

本条显然是为了规范网约车平台的算法推荐服务的,自己多次听到网约车司机对平台调度不合理,分成不合理等的抱怨,不管描述是否属实,但司机在面对平台算法时还是处于弱势地位,这一条可以让网约车司机的投诉有据可循。

第十八条 算法推荐服务提供者向消费者销售商品或者提供服务的,应当保护消费者合法权益,不得根据消费者的偏好、交易习惯等特征,利用算法在交易价格等交易条件上实行不合理的差别待遇等违法行为。

这条规定明确不允许大数据杀熟,如果前面众多关于算法透明化、可解释性的要求能够落地,那判定算法是否属于大数据杀熟也多了些依据。

从第十九条至第二十六条,《意见稿》主要针对具有舆论属性或者社会动员能力的算法推荐服务提供者给出了管理要求,包括报备、公示、安全评估、整改配合等等。第二十七条至第二十九条则给出了违反规定的惩罚措施。

在解读《意见稿》的时候,自己还是发现了一些偏理想化的管理规定,究其根本,还是因为算法推荐服务相对其他一般服务有些差别,比如不可解释性,这样就不能完全套用统一的服务管理办法,希望《意见稿》能更多的吸收各方意见和建议,早日完成修订,从而为互联网信息服务健康发展保驾护航。

    1. 企业数字化转型与运营策略(120页PPT)

      企业数字化转型战略完整指南

      研究了半天,终于把数字孪生内涵搞清楚了 by 傅一平

      企业数字化市场:产品向左,服务向右

      点击左下角“阅读原文”查看更多精彩文章,公众号推送规则变了,如果您想及时收到推送,麻烦右下角点个在看或者把本号置顶! 



    推荐阅读
    • macOS Big Sur全新设计大版本更新,10+个值得关注的新功能
      本文介绍了Apple发布的新一代操作系统macOS Big Sur,该系统采用全新的界面设计,包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出,macOS Big Sur的设计与iPadOS越来越接近,结合了去年iPadOS对鼠标的完善等功能。 ... [详细]
    • 浏览器中的异常检测算法及其在深度学习中的应用
      本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
    • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
    • Android中高级面试必知必会,积累总结
      本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
    • 本文介绍了新款奇骏的两个让人上瘾的功能,分别是智能互联系统和BOSE音响。通过对新款奇骏的配置和功能进行评测,探讨了这两个新增功能的使用体验和优势。此外,还介绍了新款奇骏的其他配置和改进,如增加的座椅和驾驶辅助系统,以及内饰的舒适性提升。对于喜欢音响的消费者来说,BOSE音响的升级也是一个亮点。最后,文章提到了BOSE音响的数字还原能力,以及7座版无法配备BOSE音响的原因。 ... [详细]
    • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
      本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
    • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
    • [译]技术公司十年经验的职场生涯回顾
      本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
    • 无线认证设置故障排除方法及注意事项
      本文介绍了解决无线认证设置故障的方法和注意事项,包括检查无线路由器工作状态、关闭手机休眠状态下的网络设置、重启路由器、更改认证类型、恢复出厂设置和手机网络设置等。通过这些方法,可以解决无线认证设置可能出现的问题,确保无线网络正常连接和上网。同时,还提供了一些注意事项,以便用户在进行无线认证设置时能够正确操作。 ... [详细]
    • 本文详细介绍了相机防抖的设置方法和使用技巧,包括索尼防抖设置、VR和Stabilizer档位的选择、机身菜单设置等。同时解释了相机防抖的原理,包括电子防抖和光学防抖的区别,以及它们对画质细节的影响。此外,还提到了一些运动相机的防抖方法,如大疆的Osmo Action的Rock Steady技术。通过本文,你将更好地理解相机防抖的重要性和使用技巧,提高拍摄体验。 ... [详细]
    • 无损压缩算法专题——LZSS算法实现
      本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程,以及代码中的注释。 ... [详细]
    • HTML学习02 图像标签的使用和属性
      本文介绍了HTML中图像标签的使用和属性,包括定义图像、定义图像地图、使用源属性和替换文本属性。同时提供了相关实例和注意事项,帮助读者更好地理解和应用图像标签。 ... [详细]
    • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
    • 第四章高阶函数(参数传递、高阶函数、lambda表达式)(python进阶)的讲解和应用
      本文主要讲解了第四章高阶函数(参数传递、高阶函数、lambda表达式)的相关知识,包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念,并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说,本文将是一个不错的学习资料。 ... [详细]
    • 本文介绍了Redis中RDB文件和AOF文件的保存和还原机制。RDB文件用于保存和还原Redis服务器所有数据库中的键值对数据,SAVE命令和BGSAVE命令分别用于阻塞服务器和由子进程执行保存操作。同时执行SAVE命令和BGSAVE命令,以及同时执行两个BGSAVE命令都会产生竞争条件。服务器会保存所有用save选项设置的保存条件,当满足任意一个保存条件时,服务器会自动执行BGSAVE命令。此外,还介绍了RDB文件和AOF文件在操作方面的冲突以及同时执行大量磁盘写入操作的不良影响。 ... [详细]
    author-avatar
    愤怒的黑皮_165
    这个家伙很懒,什么也没留下!
    PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有