《Advances and Open Problems in Federated Learning 》
选题:Published 10 December 2019-Computer Science-Found. Trends Mach. Learn.
联邦学习定义
联邦学习是一种机器学习设置,其中多个客户端 在中央服务器或服务提供商的协调下协作解决机器学习问题。客户端的数据不动,让模型动。从而实现数据保护,并且实现模型的训练。
第一种分类
第二种分类
过程定义
客户端的选择:服务器从符合条件中的客户端进行抽取。 传播:将选定的模型下发到客户端 客户端计算:选定的客户端进行模型的训练和本地模型的更新 聚合:客户端将训练结果传送到服务器端,服务器更新汇总,根据具体算法思想进行聚合。 模型选择:服务器根据客户端的聚合的结果计算出聚合更新后的模型。 重复2~4步
联邦学习所面临的挑战
非独立同分布的数据
什么是非独立同分布数据(Non-IID)
非独立同分布数据(Non-Independent and Identically Distributed, Non-IID)是指在数据集中,样本之间不满足独立同分布的特性。独立同分布是指样本之间独立且具有相同的概率分布。
在非独立同分布数据中,样本之间可能存在相关性或者具有不同的概率分布。这种情况常见于某些特定的数据场景,例如时间序列数据、空间数据或者群体数据。对非独立同分布数据进行建模和分析时,需要考虑样本之间的相关性或者概率分布差异,以确保模型的准确性和可靠性。
在机器学习和统计分析中,非独立同分布数据的存在可能会影响模型的选择和结果的解释。因此,在处理非独立同分布数据时,需要采用特定的建模方法和统计推断技术,以适应数据的特点和需求。
当数据集中的样本不独立同分布时,通常会出现以下一些情况:
相关性:样本之间存在相关性,即一个样本的出现可能会影响其他样本的出现。例如,时间序列数据中的前一时刻的观测结果可能会对后一时刻的观测结果产生影响。
异方差性:样本的概率分布可能不相同,即样本的方差可能存在差异。例如,某项测量在不同场景下可能具有不同的方差,导致数据不满足同方差性的要求。
非平稳性:样本的概率分布可能随着时间、空间或其他因素的改变而发生变化。例如,金融市场中的股票价格可能随着时间的推移而呈现出非平稳性的特征。
处理非独立同分布数据的方法取决于具体的数据特点和分析目的。通常可以采用以下方法: 建立适当的模型:根据数据的特点选择适当的模型,例如时间序列模型、混合模型或因子模型等,以捕捉数据的相关性和非均匀性。
引入随机效应:对于群体数据或者面板数据,可以引入随机效应模型或混合效应模型,以考虑不同样本之间的相关性。
数据转换:通过对数据进行差分、标准化或者变换等方法,使数据满足独立同分布的假设,从而适用于传统的统计方法。
常见的方式
特征分布倾斜(协变量飘移):即使共享P ( y ∣ x ) ,不同客户端上的边缘分布P i ( x )也可能不同。 标签分布倾斜(先验概率飘移):即使P ( x ∣ y )是相同的,对于不同客户端上的边缘分布P i ( y ) 也可能不同。 标签相同,特征不同(概念飘移):即使共享P ( y ) ,不同客户端上的条件分布P i ( x ∣ y ) 也可能是不同。由于文化差异,天气影响,生活水平等因素,对于相同的标签y yy,对于不同的客户端可能对应着差异非常大的特征x。 特征相同,标签不同(概念飘移):即使P ( X ) 是相同的,对于不同客户端上的条件分布P i ( y ∣ x )也可能不同。由于个人偏好,训练数据项中的相同特征向量可能具有不同的标签。 数量倾斜或者不平衡 :不同的客户可以拥有着样本数量差异很大的数据。 通信带宽
不可靠的设备
研究方向
Non-IID数据的处理
非独立同分布数据的处理方法,包括可用客户端的数据分布i ∼ Q (针对客户端采样分布不均匀)和客户端的数据分布( x , y ) ∼ P i ( x , y )都是Non-IID的,现在已经有了一些解决方法,例如通过全局共享的数据集给客户端补足数据;或者是专门设计针对Non-IID的优化算法,或者为不同客户端提供不同的模型。 IID和Non-IID在FL中收敛率的研究
研究IID和Non-IID数据集的收敛率,不管联邦学习的数据是否为IID,目前FedAvg都已经被证明是收敛的。 其他优化
个性化 :增加输入特征。多任务学习 :在所有任务中共享一些参数(一般底层),在特定任务层(顶层)使用自己独有参数,可以考虑将任务作为客户端的子集然后与FL结合。元学习 :Meta Learning(元学习)希望使得模型获取一种“学会学习”的能力,使其可以在获取已有“知识”的基础上快速学习新的任务,目前已经有模型不可知元学习算法(MAML)可以与FL结合,但领域较新,还存在诸多问题。改进FL的训练机制 :可以考虑是否能以全局模型为每个客户端定制化自己的模型。 传统机器学习在FL中存在的问题
神经网络结构设计 :对于non-IID数据分布,可能会有更好的网络体系结构设计。训练过程中的调试 :在传统机器学习中,经验丰富的建模人员可以直接检查子数据集的任务,比如调试错误分类\发现异常值\手动标记样本或检测训练集中的偏差。然而这在联邦学习中是行不通的,开发隐私保护技术来解决此类去中心的问题是主要的开放性问题上。中心服务器分发初始模型时参数的设置 :在资源有限的移动设备上使用不同的超参数进行多轮培训可能会受到限制。对于小型设备,这可能导致过度使用有限的通信和计算资源。 提高通信效率
梯度压缩,减少从客户端到服务器通信的对象的大小,该对象用于更新全局模型; 模型广播压缩,减小从服务器向客户端广播的模型的大小,客户端从该模型开始本地训练; 减少本地计算(其实也是一种算法压缩),修改整体训练算法,使本地训练过程在计算上更加高效。 常见的压缩方法
量化方法:降低更新参数的分辨率 知识蒸馏:将大模型知识迁移到小模型 低秩矩阵:将通信内容结构化,低秩分解。 稀疏化:只传递足够重要的信息
隐私计算
抵御的威胁
涉及研究方向
安全计算
可信执行环境 安全多方计算 安全聚合、安全shuffle等
安全shuffle是一种密码学概念,用于在计算机安全领域中实现数据的随机化和保护。它主要用来加密敏感数据,确保数据在传输过程中不容易被破解和分析。安全shuffle的基本原理是通过对数据进行混淆和重新排列来隐藏数据的原始顺序。通常使用密码学中的随机数生成算法来生成随机化的数据顺序,从而实现对数据的保护。安全shuffle可以应用在多个领域,如加密通信、数据库安全和隐私保护等。通过安全shuffle,可以增加数据的难以猜测性,降低敏感信息泄露和数据被攻击者窃取的风险。它在保护数据隐私和确保数据传输安全方面发挥着重要的作用。 隐私保护
本地差分隐私 分布式差分隐私
通过安全聚合实现分布式差分隐私 通过安全shuffling实现分布式差分隐私 混合差分隐私
通过允许多种模型共存,与纯本地DP或纯中央DP机制相比,混合模型机制可以在给定用户群中实现更高的实用性 可验证性
零知识证明(ZKPs)
零知识证明(Zero-Knowledge Proof)是一种密码学协议,用于验证某个陈述的真实性,而不需要向验证方透露除必要信息之外的任何额外知识。在零知识证明中,证明者能够向验证者证明某个陈述为真,但无需向验证者透露关于该陈述如何成立的任何具体信息。零知识证明的目标是确保证明的有效性,同时最大限度地保护证明所涉及的隐私和机密信息。它通过利用一系列巧妙的互动过程,在不透露实际的解决方案或答案的情况下,向验证者证明陈述的正确性。零知识证明的基本思想是,证明者可以通过进行一系列互动来向验证者证明某个陈述的真实性。这些互动通常会涉及一些具有特定性质的数学计算,使得验证者能够在互动的过程中逐步确信陈述的真实性,而无需获得陈述的具体解决方案。使用零知识证明可以实现一系列应用,如身份验证、密码学协议、匿名交易等。其中的关键点是确保在证明过程中保护个人隐私和敏感信息,同时能够有效证明某个陈述的真实性。总之,零知识证明是一种在证明某个陈述的真实性时最大限度保护隐私和机密信息的密码学协议。通过巧妙的互动过程,证明者能够让验证者相信陈述的真实性,而无需透露陈述的解决方案或答案。 可信执行环境中的远程证明
主要作用:
证明服务器已经进行了聚合,shuffle或者添加差分隐私的操作。 证明client输入的数据符合某项规范
针对客户端恶意操作的保护
量化联邦学习模型对特定攻击的效果
最常用的量化方法是使用特定数据集模拟对模型的攻击,然后评估模型的效果(该数据集与实际中预期的数据集类似)。如果代理数据集确实与最终用户数据相似,那么这就可以量化模型的攻击敏感性。通过这种方法可以确定数据集对模型的影响效果。 中心式差分隐私
中心式差分隐私(Centralized Differential Privacy)是一种隐私保护技术,主要应用于中心化的数据收集和分析场景中。它的目标是在保护用户隐私的前提下,对数据进行统计分析。中心式差分隐私通过在数据发布之前对原始数据进行噪声添加,以保护个体的隐私信息。具体来说,中心式差分隐私会对数据添加一定的噪声,使得在数据集中的个体的隐私信息不易被恢复或追溯。同时,通过在多次查询中添加不同的噪声,可以进一步加强隐私保护。在中心式差分隐私中,数据的收集和分析是由数据中心或第三方服务提供商进行的。这些服务提供商负责对用户数据进行汇总和分析,并确保隐私数据的安全性和保密性。中心式差分隐私技术可以应用于各种场景,如健康数据分析、社交网络分析、市场调查等。通过采用中心式差分隐私技术,可以在保护用户隐私的同时,为数据分析提供可信的统计结果。 非均匀抽样对隐私保护的影响 客户端随机数的来源安全 如何评估差分隐私的实现效果 模型迭代过程中的安全问题
模型迭代(即每轮训练后模型的更新版本)被假定为对系统中的多个参与者可见,包括选择参与该轮的服务器和客户端。为了向客户端隐藏迭代,每个客户端都可以在提供保密特性的TEE中运行其联邦学习的本地部分,服务器将验证预期的联邦学习代码是否在TEE中运行(依赖于TEE的认证和完整性功能),然后将加密的模型迭代结果传输到设备,以便它只能在TEE中解密。最后,模型更新将在返回到服务器之前在TEE内部加密,使用仅在安全环境内部和服务器上已知的密钥。 使用TEE来进行训练/发布(发布是指服务器的操作也在TEE环境中运行),不过目前终端算力较弱,TEE成本过高。 使用MPC技术,密钥由分析师和客户端持有,或者可信第三方,采用同态加密加密模型,但是MPC需要较高的硬件条件。 动态数据库或时间序列数据的差分隐私
随时间变化的收集到的一系列数据也存在隐私泄露的风险。 防止模型被滥用
针对服务器恶意操作的保护
分布式差分隐私
可以使用本节刚开始介绍的分布式差分隐私来保证FL的安全性,在安全聚合协议、差分隐私的实现方法、用户掉线等问题还存在诸多研究的空间。 保证用户在训练子模型时的选择隐私性
客户将在参与时下载完整模型,使用与他们相关的子模型,然后提交涵盖整个模型参数的集合的模型更新(即,除了与相关子模型相对应的条目中,其余所有地方都为零)。这样我们需要,在保持客户的子模型选择私密性的同时,实现沟通效率高的子模型联合学习,即,不能让服务器观察到客户端选择了哪个子模型。
用户体验
用户隐私需求
行为研究
鲁棒性
·对模型的攻击
模型更新中毒
拜占庭攻击
拜占庭用户可以给服务器发送任意值,而非发送本地更新后的模型。这会导致全局模型在局部最优处收敛,甚至会导致模型发散。可以采用基于中值的,或者其他的等更加健壮的聚合方法来减弱这类攻击。另一种模型更新中毒防御机制使用冗余和洗牌数据来减轻拜占庭式攻击。
针对性模型更新攻击
攻击者控制一小部分客户端,比如10%,通过将毒药数据发送给服务器从而给模型留下后门。中毒模型更新的外观和行为(在很大程度上)类似于没有受到目标攻击的模型,这使得单单是检测后门的存在就十分困难。此外,由于对手的目标是只影响少量数据点的分类结果,同时保持全局学习模型的整体准确性,因此针对非目标攻击的防御通常无法解决目标攻击。现有的针对后门攻击的防御要么需要仔细检查训练数据、访问一组类似分布式数据的保留集,要么需要完全控制服务器上的训练过程,而在联邦学习设置中这些都不可能实现。未来工作可以尝试的一个有趣途径是探索使用零知识证明来确保用户提交的更新属性是预先确定的属性。基于硬件认证的解决方案也可以考虑。例如,用户的手机可能有能力证明共享的模型更新是使用手机摄像头生成的图像正确计算的。
数据中毒
数据中毒是一种比模型更新中毒更具潜在限制性的攻击类型。在这种模式下,对手不能直接损坏到发送到中心节点的信息。相反,对手只能通过替换数据的标签或特定特征来操作客户端数据。与模型更新中毒一样,数据中毒可以分为针对攻击和非针对攻击。数据中毒会导致模型更新中毒,在联邦学习中,即便只是检测有毒数据的存在(不要求对其纠正或用有毒数据标识被入侵的客户端)也是一项挑战。当该数据中毒攻击企图安装后门时,该困难还将进一步增大,因为就算是全局训练精度或单用户训练精度这些性能指标也不足以探测出后门的存在。相比模型更新中毒,数据中毒可能实现起来非常简单,可以执行数据中毒攻击的客户端的最大数量可能比能执行模型更新中毒攻击的数量高得多。
推理阶段的攻击
攻击者可以通过观察模型(黑盒模型)或者直接获取模型参数(白盒模型)来定制化数据,使得模型输出错误的结果,对抗性训练(adversarial training)被证明应对这种攻击是有效的。但是,将对抗性学习方法引入到联邦学习环境中的需求引发了许多新的问题。例如,对抗训练在获得显著的稳健性之前可能需要许多时间。然而,在联邦式学习,尤其是跨设备的联邦式学习中,每一种训练样本的学习次数是有限的。一般来说,对抗性训练主要是针对IID数据开发的,尚不清楚它在非IID环境下的表现。其次生成对抗性样本相对昂贵。虽然一些对抗性训练框架试图通过重用对抗性样本来最小化这一成本,但这些方法仍然需要大量客户端计算资源。这在算力较弱的客户端中可能存在问题,在这种情况下,对抗性样本生成可能会加剧内存或电量的使用。目前想要同时解决推理阶段的攻击和训练阶段的攻击,更复杂的解决方案可能是将训练时间防御(如健壮聚合或差异隐私)与对抗训练结合起来
非恶意的意外错误
客户端的不稳定性
客户端在训练过程中出现故障,目前看来,使用安全聚合的方式实现FL时,当大量设备掉线时可能存在影响隐私风险。这其中降低故障的方法就是提高安全聚合的效率,这样可以降低时间窗口。另一种方法是开发一种异步的安全聚合方法,还有一种想法是每次采用多轮训练的参数,这样掉队的客户端可能会在后续聚合中。
数据管道故障
数据管道存在于客户端,主要用于将原始数据处理为适应FL训练的训练数据,此管道中的错误或意外操作可能会极大地改变联邦学习过程。
保护隐私和鲁棒性之间存在矛盾关系
模型参数带噪(失真,由于网络不稳定或其他原因)
即使不存在攻击者,发送到服务器的模型更新也可能由于网络和体系结构因素而失真。这在跨客户端设置中尤其可能,在这些设置中,单独的实体控制服务器、客户端和网络。由于客户端数据可能会发生类似的失真。即使客户端上的数据不是故意恶意的,它也可能具有噪声特征。无论是由于网络因素还是噪声数据,上述的污染都可能损害联邦学习过程的收敛性。一种缓解策略将是使用防御措施来对抗模型更新和数据中毒攻击。鉴于目前在联邦环境下缺乏明显的健壮训练方法,这可能不是一个实际的选择。即使存在这样的技术,它们对于许多联邦学习应用 来说可能过于计算密集。这里的开放性工作涉及开发对小到中等水平的噪声具有鲁棒性的训练方法。例如,标准联邦训练方法,如联邦平均法对少量噪声具有内在的鲁棒性。
公平性
机器学习模型 通常会表现出令人惊讶和意想不到的行为。 当此类行为导致对用户产生不良影响的模式时,我们可能会根据一些标准将模型归类为“不公平”。
训练数据存在偏差
机器学习模型中不公平的一个驱动因素是训练数据中的偏差,包括认知,抽样,报告和确认偏差。一种常见的场景是训练数据中少数民族或边缘化社会群体的代表不足,因此学习者在训练期间对这些群体的加权较小[222],导致对这些群体成员的预测质量较差,这可能会引发一些种族歧视或者其他的问题。由于联邦学习中的数据是非独立同分布的,那么这种类型的偏差存在十分普遍。对于联邦学习研究和机器学习研究而言,调查可识别或减轻数据生成过程中偏差的程度是一个关键问题。同样,尽管有限的先前研究已经证明了在联邦环境中识别和纠正已经收集的数据中的偏差的方法,但仍需要在这一领域进行进一步的研究。 确保模型部署的公平性
明确地使用属性无关的方法来确保公平的模型性能对于未来的联邦学习研究是一个开放的机会,尤其重要的是,随着联邦学习达到成熟,当看到更多的采用真实的用户群进行部署,过程中不需要了解用户的敏感身份。 其他
利用联邦学习来提高模型多样性。 联邦学习为公平研究者提供了独特的机会和挑战。
总结
联邦学习使分布式客户端设备可以协作学习共享的预测模型,同时将所有训练数据保留在设备上,去除了进行机器学习的能力与数据需要存储在云中的条件。 近年来,无论是在工业界还是在学术界,该主题的兴趣都呈爆炸性增长。大型技术公司已经在生产中部署了联邦学习,并且成立了许多初创公司,目的是使用联邦学习来解决各个行业中的隐私和数据收集挑战。此外,在这项工作中调查的论文的广泛性表明,联邦学习正在广泛的跨学科领域中获得关注:从机器学习到优化到信息理论和统计再到密码学,公平性和隐私性。