选自:IEEE Transactions on Knowledge and Data Engineering,2021
本文主要从数据分布、机器学习模型、隐私机制、通信架构、联邦规模和联邦动机六个方面对联邦学习系统(FLSs)进行了全面的分类,通过系统的总结现有的联邦学习系统,提出了设计因素、给出了案例以及未来的研究方向。作者试图利用这些现有的Federated system中的两个性质:Heterogeneity和Autonomy,来从一个新的角度看待FL system。主要工作如下:
联邦学习系统(federated learning systems,FLSs)目标是在限制用户隐私的情况下,在不同组织之间进行协作式机器学习技术
Heterogeneity
联邦学习的异质性指的是参与联邦学习的不同设备或实体之间存在的差异性。这种差异性可以从多个方面来理解:
为了解决联邦学习的异质性,可以采取一些策略:
Autonomy
联邦学习的自治性指的是在联邦学习框架下,参与方(例如设备或实体)具有一定程度的自主性和自治性。这意味着每个参与方能够在一定程度上自主地决定参与联邦学习、模型训练和模型推理的方式。
在联邦学习中的自治性表现在以下几个方面:
数据自治性:每个参与方保持对其本地数据的控制,可以自主地决定是否共享其数据。这使得联邦学习能够在保护个体隐私的同时,允许参与方控制自己的数据,并决定是否将其用于模型训练和推理。
模型自治性:每个参与方可以自主地选择和训练自己的模型。虽然联邦学习的目标是通过模型聚合来获得最终的联合模型,但是每个参与方可以根据自己的需求和特定情况选择适合自己的模型结构和训练策略。
参与自治性:每个参与方可以自主地选择是否参与联邦学习。这可以基于多种因素,包括计算资源、网络带宽、数据隐私和安全要求等。参与方有权决定是否将自己的设备或实体纳入联邦学习环境,并在一定程度上控制自己的参与程度。
效果自治性:每个参与方可以自主地根据自己的需求和目标评估和决策模型的效果。虽然联邦学习的目标是提升整体模型的性能,但每个参与方可以根据自己的指标和需求,评估并决策是否接受联邦学习所得模型的使用。
协商自治性:在联邦学习中,参与方之间可以通过协商和合作来共同决策有关联邦学习的规则和流程。这包括数据共享策略、模型聚合方式、训练轮数等。通过参与方之间的协商,可以确保联邦学习过程中的公平性和平衡性。
隐私自治性:参与方拥有保护自身数据隐私的权利和自治性。他们可以自主决定如何对本地数据进行隐私保护,例如采用差分隐私技术、加密手段或数据脱敏等。参与方之间需要遵守隐私协议和政策,确保数据隐私得到有效保护。
模型训练自治性:参与方可以自主决定模型的本地训练方式和优化策略。他们可以根据本地数据的特点和需求,自主选择训练算法、超参数设置和优化目标,以最大程度地提升本地模型性能。
资源管理自治性:参与方在联邦学习中可以自主管理和分配自身的计算资源、存储资源和带宽资源。他们可以根据自身需求和资源限制,灵活调整和优化资源分配策略,以实现高效的联邦学习过程。
模型权衡自治性:每个参与方可以自行权衡模型的复杂性和性能。他们可以根据计算和存储资源的限制,自主地选择模型的规模和复杂度,以平衡模型的性能和资源消耗。
算法选择自治性:参与方可以自主选择合适的联邦学习算法来适应自身需求。这包括基于梯度的方法、可微分的方法、优化解算法等。参与方可以根据自己的数据特点和计算能力选择适合的算法,以满足其特定的学习任务。
模型访问控制自治性:参与方对于其本地模型的访问有一定的自治权。他们可以自主决定允许其他参与方访问其模型的程度,包括读取、写入和执行。这样的控制权可以帮助实现联邦学习中的安全和隐私保护。
然后给出了联邦学习系统的定义,以及与传统联邦系统相比的优缺点,FDBSs(federated database systems)关注的是分布式数据的管理,FC(federated cloud)关注的是资源的调度,而FLSs更关注的是多方之间的安全计算
在联邦学习系统中,多方协作训练机器学习模型,而不交换原始数据。系统的输出是每一方的机器学习模型(可以是相同的也可以是不同的)。一个实际的联邦学习系统具有以下约束:给定一个评估指标,例如测试精度,通过联邦学习学习的模型的性能应该优于具有相同模型体系结构的本地训练学习的模型。
FLS系统组成
联邦学习框架
对现有的工作进行了分类总结,介绍了两个具体的application场景
联邦学习系统分类
根据不同的特征来区分分布式学习、跨设备联邦学习和跨竖井联邦学习,包括设置、数据分布、通信等。我们的分类法用于从部署视图区分不同的联邦学习系统,并且在中没有考虑机器学习模型和联邦动机等方面。
Data Partitioning
水平
垂直
混合
机器学习模型
Privacy Mechanisms
一个FLS可以采用多种方法来增强隐私保障[64,205,86]。还有其他保护用户隐私的方法
Communication Architecture
Scale of Federation
Motivation of Federation
总结现有的流行和最先进的研究工作
效率的改进
应用
基准测试框架
开源系统
框架对比
System Design
Evaluation
案例