联邦学习笔记（三）

作者：手机用户2602909207 | 来源：互联网 | 2023-09-15 18:07

本文首发于FengYu的空间写在前面参考文献《FederatedLearning:Challenges,methods,andfuture,2020》，较为详细

本文首发于Feng Yu的空间

写在前面

参考文献《Federated Learning: Challenges, methods, and future, 2020》，较为详细的介绍当前FL的挑战和解决方法以及未来可能的研究方向或切入点。

Federated Learning: Challenges, methods, and future

摘要

联邦学习在保持数据本地化的同时涉及在远程设备或孤立的数据中心（例如手机或医院）上训练统计模型。在异构网络和潜在大规模网络中进行训练带来了新的挑战，这些挑战要求从根本上区别于大规模机器学习，分布式优化和隐私保护数据分析的标准方法。在本文中，我们讨论了联邦学习的独特特征和挑战，提供了当前方法的广泛概述，并概述了未来的几个方向

因为设备（智能手机、可穿戴设备和自动驾驶车辆）计算力的上升以及对隐私信息转移的担忧，所以将数据保存于本地和网络计算边缘化变得更加有吸引力。 ==>> 边缘计算

正因为在分布式网络下这些设备的存储和计算能力使得利用每台设备上的增强(enhanced)本地资源成为可能，此外，用户隐私信息保存于本地避免了隐私担忧。 ==>> 联邦学习

FL的应用

智能手机
- 单词联想《A. Hard, K. Rao, R. Mathews, F. Beaufays, S. Augenstein, H. Eichner, C. Kiddon, and D. Ramage, Federated learning for mobile keyboard prediction. 2018. [Online]. Available: arXiv:1811.03604》
- 挑战：用户为了保护个人隐私可能不愿意分享数据或者节省手机有限的带宽/电量
- FL有潜力在不损害用户体验或泄露隐私信息前提下在智能手机上启用预测功能
组织机构 --医疗机构
- L. Huang, Y. Yin, Z. Fu, S. Zhang, H. Deng, and D. Liu, LoAdaBoost: Loss-based adaboost federated machine learning on medical data. 2018. [Online]. Available: arXiv:1811.12629
物联网-- 可穿戴设备、自动驾驶车辆、智能家居

FL方法在公司的应用

K. Bonawitz, H. Eichner, W. Grieskamp, D. Huba, A. Ingerman, V. Ivanov, C. Kiddon, J. Konecnyet al., “Towards federated learning at scale: System design,” in Proc. Conf. Machine Learning and Systems, 2019.
M. J. Sheller, G. A. Reina, B. Edwards, J. Martin, and S. Bakas, “Multi-institutional deep learning modeling without sharing patient data: A feasibility study on brain tumor segmentation,” in Proc. Int. MICCAI Brainlesion Workshop, 2018, pp. 92–104. doi: 10.1007/978-3-030 -11723-8_9.

隐私敏感应用

T. S. Brisimi, R. Chen, T. Mela, A. Olshevsky, I. C. Paschalidis, and W. Shi, “Federated learning of predictive models from federated electronic health records,” Int. J. Medical Informatics, vol. 112, Apr. 2018, pp. 59–67. doi: 10.1016/j.ijmedinf.2018.01.007
L. Huang, Y. Yin, Z. Fu, S. Zhang, H. Deng, and D. Liu, LoAdaBoost: Loss-based adaboost federated machine learning on medical data. 2018. [Online]. Available: arXiv:1811.12629

挑战

目标:

m表示总设备数量，p_k>=0 且 SUM(p_k)=1，F_k为第k个设别的本地目标函数

昂贵的通信费用
- 为了使模型适用于联邦网络中设备产生的数据，需要开发通信效率高的方法，该方法可以迭代地发送small message或者将模型更新作为训练过程的一部分，而不是通过网络发送整个数据集
- 进一步减少这种设置下的通信，需要考虑两个关键方面
  - 减少通信回合总数量
  - 减少每个回合发送信息的大小
系统异质性

由于硬件（CPU和内存）、网络连接（3G、4G、5G、WiFi）、能量（电池等级）的差异，因此联邦网络中每个设备的存储、计算和通信能力都各不相同
- 系统级别的特性极大地加剧了诸如straggler mitigation和容错（fault tolerance）之类的挑战；
- 已进行的FL方法有
  - 预计参与人数少
  - 容忍异质的硬件
  - 通信网络中足够坚固以防设备掉落
统计异质性

设备经常以高度不相同的方式在网络上生成和收集数据
- [42]《V. Smith, C.-K. Chiang, M. Sanjabi, and A. Talwalkar, “Federated multi-task learning,” in Proc. Advances in Neural Information Processing Systems, 2017, pp. 4424–4434》数据生成范例违反了分布式优化中经常使用的独立且均匀分布（i.i.d.）的假设，可能会增加问题建模，理论分析和解决方案的经验评估方面的复杂性
- 多任务学习和元学习都支持个性化或特定于设备的建模，这通常是一种更自然的方法来处理数据的统计异构性，以实现更好的个性化
隐私问题
- 安全多方计算SMC
- 差分隐私DP
- 以上方法通常以减少模型表现或系统高效性为代价换取隐私保护，因此平衡两者关系是一个挑战

未来研究方向

极致的通信方案
- 尽管在传统的数据中心环境中已经探索了单次或分而治之的通信方案[29]，但是在大规模和统计异构网络中，这些方法的行为还没得到很好的理解
通信减少与the Pareto frontier
- 联邦训练中减少通信的方法有本地更新和模型压缩，了解这些技术之间的相互关系以及系统分析每种方法的准确性和通信之间的权衡很重要
- 有效的神经网络推理对于FL通信减少技术中是有必要的
新颖的异步模型
- 批量同步方法
- 异步方法（假定延迟有限）
异质性诊断

开放性问题：
- 是否有简单的诊断方法可以快速地预先确定联邦网络中的异质性水平？
- 是否可以开发类似的诊断方法来量化与系统相关的异质性数量？
- 是否可以利用当前或新的异质性定义来设计新的经验和理论上具有改进收敛性的联邦优化方法？
细颗粒隐私限制

在实践中，隐私约束可能在设备之间甚至单个设备的数据点之间都不同，因此有必要将隐私问题细分
- sample-specific privacy[24]《J. Li, M. Khodak, S. Caldas, and A. Talwalkar, “Differentially private meta-learning,” in Proc. Int. Conf. Learning Representations, 2020》
- device-specifiv privacy
超越监督学习之外的
生产化联邦学习

除了本文讨论的主要挑战之外，在生产环境中运行联合学习时还存在许多实际问题。尤其是诸如概念漂移（当基础数据生成模型随时间变化时），昼夜变化（当设备在一天或一周的不同时间表现出不同的行为）之类的问题[14]，以及冷启动问题（当新设备进入网络时）必须小心处理。

[5]《K. Bonawitz, H. Eichner, W. Grieskamp, D. Huba, A. Ingerman, V. Ivanov, C. Kiddon, J. Konecnyet al., “Towards federated learning at scale: System design,” in Proc. Conf. Machine Learning and Systems, 2019.》讨论了生产联邦学习系统中存在的一些与系统相关的实用问题

总结

与传统的分布式数据中心计算和经典的隐私保护学习相比，讨论了联邦学习的独特性质和相关挑战。提供了关于经典结果的广泛调查以及针对联邦环境的最新工作。最后，概述了一些有待进一步研究的未解决问题。提供这些问题的解决方案将需要众多研究社区的跨学科研究。

参考文献

[1] Federated Learning: Challenges, methods, and future, 2020

–fzhiy.更新于2020年9月2日16点51分

推荐阅读

text
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
text
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
process
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
process
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新 2023-12-14 18:16:27
process
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
process
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
cmd
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
bash
Hyperledger Fabric外部链码构建与运行的开发笔记

本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识，包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性，外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍，读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行，并且不再受限于特定的语言和部署环境。 ... [详细]

蜡笔小新 2023-12-13 21:47:39
process
大量研发销售产品设计市场岗位！

关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商，服务新产业周期的IoT&5G、边缘计算与云计算市场，交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]

蜡笔小新 2023-12-13 21:02:32
client
页面请求方法参数最长_关于 HTTP GET/POST 请求参数长度最大值的一个理解误区

http:my.oschina.netleejun2005blog136820刚看到群里又有同学在说HTTP协议下的Get请求参数长度是有大小限制的，最大不能超过XX ... [详细]

蜡笔小新 2023-12-13 19:20:03
go
Linux 正则表达式基础及使用注意事项

本文介绍了Linux系统中正则表达式的基础知识，包括正则表达式的简介、字符分类、普通字符和元字符的区别，以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别，并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式，并提供了学习的参考资料。 ... [详细]

蜡笔小新 2023-12-13 14:24:45
go
分享2款网站程序源码/主题等后门检测工具

本文介绍了2款用于检测网站程序源码和主题中是否存在后门的工具，分别是WebShellkiller和D盾_Web查杀。WebShellkiller是一款支持webshell和暗链扫描的工具，采用多重检测引擎和智能检测模型，能够更精准地检测出已知和未知的后门文件。D盾_Web查杀则使用自行研发的代码分析引擎，能够分析更为隐藏的WebShell后门行为。 ... [详细]

蜡笔小新 2023-12-13 09:10:23
version
Java学习笔记之面向对象编程（OOP）

本文介绍了Java学习笔记中的面向对象编程（OOP）内容，包括OOP的三大特性（封装、继承、多态）和五大原则（单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则）。通过学习OOP，可以提高代码复用性、拓展性和安全性。 ... [详细]

蜡笔小新 2023-12-13 08:44:30
client
java命令运行

Java在运行已编译完成的类时，是通过java虚拟机来装载和执行的，java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]

蜡笔小新 2023-12-12 19:26:55
go
如何更高效地使用IF函数来获取输出列表

本文讨论了如何使用IF函数从基于有限输入列表的有限输出列表中获取输出，并提出了是否有更快/更有效的执行代码的方法。作者希望了解是否有办法缩短代码，并从自我开发的角度来看是否有更好的方法。提供的代码可以按原样工作，但作者想知道是否有更好的方法来执行这样的任务。 ... [详细]

蜡笔小新 2023-12-12 17:32:28