Feature Distribution skew:同一类别有不同的表现形式,比如在手写体识别的数据集中,同样的数字,不同的人写法不同
Label distribution skew:不同的数据标签有不同的表现形式,比如疾病案例数据,一些医院在几种特定的疾病上更加专业,便会有更多相关患者的记录。
Same label,different features,对于不同的客户,相同的标签y可能有不同的特征,比如不同地区的建筑物存在很大差别
Same features,different label:由于个人喜好,训练数据中相同的特征向量可以有不同的标签,比如反映情绪的标签具有个人和区域差异。
Quantity skew or unbalancedness :不同的客户端可以拥有非常不同的数据量。 不管是那种情况的非独立同分布,每个客户端中的数据分布不能代表全局数据分布,这会影响联邦学习的收敛性。
针对 Non-IID数据的研究
文章《Federated Learning with Non-IID Data》测试了IID数据和Non-IID数据之间模型性能的差异,发现性能大幅下降
为了找到原因,文章通过定义一个Weight divergence来衡量Non-IID的偏差程度
许多研究对模型更新和模型聚合做了改进,如何使得模型更加Robust和Efficient成为了Non-IID数据研究的一大热点《Federated Learning on Non-IID Data Silos: An Experimental Study》对一些解决Non-IID问题的方法进行了实验研究