热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

​《2021联邦学习全球研究与应用趋势报告》发布,中美为最大领跑者|附下载链接...

撰文:XT编审:寇建超排版:李雪薇7月31日,美国亚马逊公司(Amazon)被卢森堡数据保护委员

撰文:XT

编审:寇建超

排版:李雪薇

7 月 31 日,美国亚马逊公司(Amazon)被卢森堡数据保护委员会处以 7.46 亿欧元(约合 57.2 亿元人民币)的罚款,原因是 Amazon 违反了欧盟的《通用数据保护条例》。

事实上,Amazon 并非是首次遭遇数据隐私巨额罚款的公司,此前 Facebook 和 Google 也因违反相关数据隐私保护规定而被处以巨额罚款。

如今,随着人们越来越重视个人隐私权、政策法规愈发严格、数据协作和隐私保护矛盾日益凸出,隐私计算已然成为全球新兴的一大产业。

而联邦学习(Federated Learning)作为一种隐私保护的重要解决方案之一,近年来也得到了飞速的发展和足够多的关注。

在今年 7 月发布的 2021 年度Gartner 技术成熟度曲线中,联邦学习被首次纳入“隐私计算的技术成熟度曲线 — 2021”,根据此次 Gartner 预测内容,在 2021-2025 年这一周期中,联邦学习将发挥主流作用,引导该领域的商业化大潮。

近日,清华大学人工智能研究院知识智能中心和清华—中国工程院知识智能联合研究中心和智谱 AI 联合发布了《2021 联邦学习全球研究与应用趋势报告》(以下简称“报告”),报告从科研论文、专利、书籍、行业应用、学者地图与画像、技术发展趋势等多个角度,全景展示和分析了联邦学习技术自从 2016 年被提出以来至 2020 年的重要进展,并展望了该技术的未来发展方向与前景。

主要核心要点如下:

  • 联邦学习科研发展呈现出整体热度逐年上升态势。研究论文产出量以及专利申请受理量均以中美两国为领先主导;全球该领域学者也主要聚集在这两个国家;

  • 联邦学习高被引论文半数以上来自中美两国,两国间的合作论文数量也是全球最多;

  • 联邦学习论文研究和专利申请的热点主要聚焦在机器学习方法、模型训练、隐私保护三方面;

  • 企业比学术机构更积极地开展联邦学习相关研究,不仅在专利申请量前十机构之中占八席,而且引领论文量前十机构,也是联邦学习系统框架的主要推出者;

  • 行业应用研究方向呈现出不断与区块链、物联网、车辆交互、5G等技术融合的态势。

0ecf47fc08aa2db7d2a0602cfc581218.png

联邦学习科研成果情况

联邦学习是在进行分布式机器学习的过程中,各参与方可借助其他参与方数据进行联合建模和使用模型。参与各方无需传递和共享原始数据资源,同时保护模型参数,即在数据不出本地的情况下,进行数据联合训练、联合应用,建立合法合规的机器学习模型。

2016 年,“联邦学习”的概念首次由 Google 提出,当时 Google 为了解决 Android 系统的更新问题,提出让用户在自己的系统中训练模型,以上传模型参数取代直接上传数据,一定程度上保护了个人数据的私密性。2018 年,“联邦学习”概念由微众银行引入国内,并率先在 B 端进行创新应用。

如今,“联邦学习”逐渐成为一种解决合作中数据隐私与数据共享矛盾的新路径,被大量应用于金融、安防、医疗、在线推荐系统等领域。

那么,当前联邦学习的技术发展现状如何?报告从全球论文发表情况、学者人才地图与画像、专利申请等方面做了全面、系统的阐述。

基于 AMiner 系统,通过在论文标题和摘要中检索关键词组,报告团队对 2016 年至 2020 年发表的“联邦学习”相关论文进行分析发现,联邦学习领域论文年度发表量呈现出不断增长的趋势,在 2020 年进入迅速增长阶段。就论文作者所在机构所属国家进行排序分析发现,论文量较为突出的国家为中国(666 篇)和美国(659 篇)。

dc8a5de301407c1b606924cc2df4e8fa.png

图|联邦学习研究论文趋势(来源:《2021 联邦学全球研究与应用趋势报告》)

但在高被引论文方面,美国占比高达 40.2%,中国占比为 16.6%,两者间还存在一定差距。论文的被引用次数是文献计量学中测量论文的影响力或者质量的基本指标,高被引论文可以被视为具有重大学术影响的成果。

美国的论文总引用量明显居全球显著领先地位。

在国内,香港科技大学计算机科学与工程学系教授杨强为第一作者、与微众银行 AI 部门、北京航空航天大学计算机学院的研究人员联合发表的论文“FederatedMachine Learning: Concept and Applications”引用量最高。

edf3a7ce8e5d1e41ccd435294d7eea84.png

图|联邦学习论文引用量 TOP10 国家(来源:《2021 联邦学全球研究与应用趋势报告》)

从全球范围来看,联邦学习领域近 5 年(2016-2020 年)论文发布量 TOP 10 机构来自美、中、韩、澳、新五国,其中美国的谷歌公司位居首位。

同时,报告还给出了联邦学习的十大算法,并对联邦学习领域高被引论文 TOP 10 进行了解读。

1dd2bf01b11e631dd794df5bcb273533.png

图|联邦学习十大算法(来源:《2021 联邦学全球研究与应用趋势报告》)

联邦学习这一新兴技术成为当前国内外学者的研究重点,跨国合作的情况如何?报告指出,约四成的高被引论文研究都发生过国际之间科研合作,而中美两国论文合作数量全球最多,高达 10 篇。在中国的高被引论文之中,有 67.9% 存在国际之间科研合作。

21904051109d0edcc548fab7b39a5155.png

图|联邦学习高被论文中外合作情况(2016-2020 年)(来源:《2021 联邦学全球研究与应用趋势报告》)

在各个国家之间合作发表的高被引论文之中,美国与英国、美国与中国,以及新加坡与中国的合作论文引用量居于前三。国内高被引论文中七成论文存在跨机构合作现象。从发布渠道看,2016-2020 年期间联邦学习的高被引论文发表在共计 41 个期刊会议等渠道上,而预印本平台 ArXiv 是高被引论文的最多发布渠道。

热衷于联邦学习的学者们一定很关注联邦学习的特刊、书籍和综述,报告指出目前关于联邦学习主题的特刊只有一份,即美国出版的双月刊 IEEE INTELLIGENT SYSTEMS,主要书籍有包括杨强,刘洋等撰写的《联邦学习=Federated Learning》在内的 4 本书。

报告对联邦学习的学者人才地图与画像进行了分析,并指出全球联邦学习学者主要聚集在美国(29.56%)和中国(29.52%),明显多于其他国家的学者数量。

从机构上看,联邦学习领域学者总量 TOP 10 机构之中,八成席位被中国机构占据。

从学术水平上看,学者数量 TOP 10 国家之间的学者在学术水平H指数上并没有显著差别。尽管联邦学习领域的全球学者有 2764 名,但目前高端研究人才比较稀缺,高学术水平(H 指数大于 30)学者占比不足 5%。

1cd5aacd95424d56209bb24c3d13a120.png

图|联邦学习领域学者学术水平 H 指数分布(来源:《2021 联邦学全球研究与应用趋势报告》)

对于联邦学习,学者最关注的技术又有哪些?报告团队通过对 AMiner 系统论文的热词分析发现,近 5 年联邦学习领域的研究热点 TOP 10 热度榜前三位的分别为边缘计算、区块链和物联网。

3e22e91c11f6733f149470b50e63b092.png

图|2020 年联邦学习领域研究热点词云图(来源:《2021 联邦学全球研究与应用趋势报告》)

在对联邦学习的应用、系统和模型设计和安全隐私三个主题领域的研究趋势进行分析发现,近 5 年联邦学习在边缘计算、无线通信、医疗保健、数据库以及推荐方面的应用研究热度也呈现出逐年上升的趋势。

d9389abcdcd635e99e8a3aff53be2c1f.png

图|联邦学习在应用方面的研究热点趋势(来源:《2021 联邦学全球研究与应用趋势报告》)

在系统和模型设计方面,异构、通信效率、聚合、优化、资源效率、鲁棒性、激励机制和公平性成为近 5 年联邦学习在系统和模型设计方面研究热度领先的热点词。从热度持续性看,通信效率、聚合、优化、鲁棒性的相关研究在研究时段内一直保持着不同程度的热度上扬。

e958007613a77c046a6ea0e6625f8645.png

图|联邦学习系统和模型设计方面的研究热点趋势(来源:《2021 联邦学全球研究与应用趋势报告》)

在安全隐私方面,差分隐私、多方计算、恶意攻击、同态加密和容错一直是研究热点并且其热度总体逐年上涨。

e65404f30b5dfb967ece8a9122891f18.png

图|联邦学习安全隐私方面的研究热点趋势(来源:《2021 联邦学全球研究与应用趋势报告》)

专利在一定程度上能够反映出某项技术的发展方向和潜在前景。报告对全球联邦学习专利申请现状进行了分析,指出全球专利申请呈现出逐年攀升的趋势,中国在近 5 年的相关专利申请受理量上处于全球领先地位。

56915f0946365308465cd34dead619fe.png

图 | 联邦学习专利申请全球受理局分布(2016-2020 年)(来自《2021 联邦学全球研究与应用趋势报告》)

一个值得注意的现象是,从专利第一申请人的所属机构类型来看,联邦学习专利第一申请人涵盖了企业、高校、研究所等不同类型,但专利申请量前十机构全部为企业。

获得联邦学习相关专利申请关键词最多聚焦于机器学习,目前的专利布局主要聚焦机器学习方法、模型训练、隐私保护三大方面。

6689be6c20eef29df97d52e269fb4cc7.png

图|联邦学习相关专利申请涉及的关键词云(来源:《2021 联邦学全球研究与应用趋势报告》)

23f787394ebd98a19c92319fe90caf95.png

联邦学习主要应用

当前,联邦学习在各行业各领域都开始了广泛的落地探索,获得了较广泛关注。报告列举了在 IT 科技、安全防护、金融、智慧城市、医疗健康、智慧零售、电信、教育等领域,2016-2020 年度已经开始应用联邦学习技术的主要行业和公司。


IT行业应用场景

标题

年-月

来源

1

用户数据保护

腾讯云发布数据安全解决方案数盾

2018-05

腾讯

2

隐私数据安全流转

ARPA测试网1.0 版本ASTRAEA正式发布

2019-03

金色财经

3

可扩展分布式数据协作

趣链科技自主研发BitXMesh正式发布

2019-05

太平洋电脑

4

联合学习、联合计算、数据共享、模型训练

光之树发布天机可信计算框架和云间联邦学习平台

2019-08

搜狐

5

跨行业数据融合、隐私保护

富数科技结合联邦学习和安全多方计算技术推出了富数安全计算平台

2019-08

凤凰网

6

面向产业应用的工具组件

百度发布3项深度学习前沿技术工具组件:联邦学习PaddleFL、图神经网络PGL和多任务学习PALM 等

2019-11

钱江晚报

7

提出知识联邦框架

同盾科技人工智能研究院深度学习实验室发布成果:“面向联邦学习的加密神经网路”

2019-09

极客网

8

扩大光大联邦学习生态圈

光大科技加入FATE联邦学习社区技术指导委员会(TSC)并贡献关键算法源码

2020-01

新华网

9

数据脱敏及去标识化、加密算法支持、DMZ区建设

同盾科技联邦学习技术加持  让数据“可用不可见”

2020-03

网易

10

大数据安全

平安科技联邦智能平台“蜂巢”落地

2020-09

搜狐

 表|2016-2020 年度联邦学习技术在 IT 行业应用动态(来自《2021 联邦学全球研究与应用趋势报告》)

f6fb8e64d4757aaab9415dcffa7ea47b.png

联邦学习框架与系统

同时,报告还对联邦学习框架与系统进行了详细分析。

目前,市面上有许多来自于科研机构或企业的关于联邦学习的开源工程。报告通过 AMiner 数据库中的新闻数据,按照开源与非开源两类,分析梳理了国内外主要的联邦学习相关系统框架,并列出了 10 个国内外开源联邦学习框架。

按照 Github 上的热度排序,开源联邦学习框架排在前三位的分别是 OpenMined 推出的 Pysyft 、微众银行的 FATE 和谷歌的 TFF 框架。

ee4f640aafedd3665c62953e03c96471.png

图|开源的联邦学习框架(来源:《2021 联邦学全球研究与应用趋势报告》)

微众银行 AI 部门研发的 FATE(FederatedAI Technology Enabler)联邦学习开源项目,是首个开源的联邦学习工业级框架。FATE 目前支持三种类型联邦学习算法:横向联邦学习、纵向联邦学习以及联邦迁移学习。

07a913b8381ea09e586524828b6fa443.png

图|微众银行 FATE 系统架构(来源:《2021 联邦学全球研究与应用趋势报告》)

非开源的联邦学习框架基本上都是由企业推出的,主要集中发布于 2019 至 2020 年期间,目前主要有腾讯的 AngelFL 联邦学习平台、京东数科 Fedlearn 平台、平安科技研发的蜂巢联邦智能平台等。

2d62849ef0cee83467cd49225ce6a64b.png

图|非开源的联邦学习系统一览(来源:《2021 联邦学全球研究与应用趋势报告》)

b821202f1f1b0699f99e379bc78c2a11.png

竞争激烈,机遇空前

联邦学习的发展恰好契合了新数字时代规避隐私风险的需求,联邦学习技术的发展趋势如何?又将怎么改变我们的生活?

报告对联邦学习发展趋势进行了分析。在研究趋势方面,通过对 AMiner 数据库中联邦学习相关论文的分析,生成技术发展趋势河流图。基于边缘计算、数据异质性的联邦学习研究以及在物联网应用方面的研究热度在 2019 年左右上升明显,并且之后一直居于领先位置。

2020 年研究热度前十的主题大多与算法模型或安全隐私技术相关,依次分别是:

  • Edge Computing(边缘计算)

  • Data Heterogeneity(数据异质性)

  • Internet Of Things(物联网)

  • Blockchain(区块链)

  • Wireless Communication(无线通信)

  • Communication Efficiency(沟通效率)

  • Aggregation(聚合)

  • Optimization(优化)

  • Healthcare(医疗保健)

  • Malicious Attack(恶意攻击)

61bb3691729e4edcf144e42c15f6fcca.png

图|联邦学习技术发展趋势(来源:《2021 联邦学全球研究与应用趋势报告》)

从技术成熟度方面来看,联邦学习正处于“创新触发期”(Innovation Trigger),效益评级均为“高”,属于“新兴”技术,到达生产高峰期(the Plateau of Productivity)的时间预计为 5-10 年,且市场渗透率(Market Penetration)依然低于 1%。

而且,随着隐私法规的激增、对数据隐私保护的需求增加,以及集中收集和存储大数据难度的增加等多个驱动因素影响,联邦学习被采用的范围和程度逐年增加。在 2020 年之后的技术成熟度曲线之中,虽然联邦学习技术仍然都处于“创新触发期”,但相比 2019 年,联邦学习在 2020 年距离“期望膨胀期”(Peak of Inflated Expectations)又更近一步,已经度过了公司初创和第一轮风投的发展阶段,正处于“第一代产品期、价格高、大量客户化定制”(First-generation products,high price, lots of customization needed)的阶段。

在未来发展中,相关标准的实施与执行将是联邦学习领域的发展重点,影响着该技术作为下一代人工智能协作网络基础的能力。

报告还指出,未来将有更多行业的更多企业机构加入和布局该技术的应用,亟需建立一个联邦学习生态联盟。在良好的联邦学习生态联盟中,联邦学习参与方,不仅可以获得相关的技术支持等服务与产品,快速便捷地完成相关应用的开发部署工作,而且可以在良好的开源环境下,更加高效、准确地自建模型、联合建模、共享模型、共建联邦学习生态。

如今,联邦学习从技术维度上解决了人工智能发展过程中的安全问题,被学术界和产业界寄予厚望。中国已经成为联邦学习技术的深度参与方,国内企业和科研机构积极参与联邦学习的技术研发和应用,以及标准制定。

未来,随着人工智能技术和应用的不断升级,联邦学习的技术研发和落地应用还将进一步扩大和深入。



推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 本文介绍了OpenStack的逻辑概念以及其构成简介,包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]
  • 本文由编程笔记#小编整理,主要介绍了关于数论相关的知识,包括数论的算法和百度百科的链接。文章还介绍了欧几里得算法、辗转相除法、gcd、lcm和扩展欧几里得算法的使用方法。此外,文章还提到了数论在求解不定方程、模线性方程和乘法逆元方面的应用。摘要长度:184字。 ... [详细]
  • Java 11相对于Java 8,OptaPlanner性能提升有多大?
    本文通过基准测试比较了Java 11和Java 8对OptaPlanner的性能提升。测试结果表明,在相同的硬件环境下,Java 11相对于Java 8在垃圾回收方面表现更好,从而提升了OptaPlanner的性能。 ... [详细]
  • 本文介绍了如何使用python从列表中删除所有的零,并将结果以列表形式输出,同时提供了示例格式。 ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • CentOS 7部署KVM虚拟化环境之一架构介绍
    本文介绍了CentOS 7部署KVM虚拟化环境的架构,详细解释了虚拟化技术的概念和原理,包括全虚拟化和半虚拟化。同时介绍了虚拟机的概念和虚拟化软件的作用。 ... [详细]
  • 区块链为什么是不可篡改的
    不可篡改是区块链最为重要的特性和应用之一。其是由区块链本身的结构、共识机制、网络拓扑和加 ... [详细]
  • 四月份NFT优质榜单
    四月份NFT优质榜单 ... [详细]
  • 有了中值联区块链证书我们对钓鱼网站说“不”
    区块链钓鱼网站、木马区块链程序、区块链病毒……对个人用户而言,来自区块链网络安全的威胁仅仅停留在这个层面。然而,随着“互联网”战略的持续推进࿰ ... [详细]
author-avatar
糖猫
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有