BYOL依赖于两个神经网络,称为在线和目标网络,它们相互作用并相互学习。
虽然最先进的方法依赖于负样本对,但BYOL不用负样本对就达到了先进水平。
BYOL对图像增强的选择比对比法更稳健;我们怀疑不依赖负对是其鲁棒性提高的主要原因之一。
生成方法 直接在像素成本操作,计算成本高。
对比方法 通过使同一图像的不同视图的表示更接近(“正对”)并使来自不同图像的视图的表示分开(“负对”)来避免像素空间中的高成本生成步骤[39,40]。
DeepCluster 虽然避免使用负对,但这需要 高成本的聚类阶段 和特定的预防措施,以避免崩溃到微不足道的解决方案。
与PBL不同,BYOL使用其代表的移动平均来提供其目标,并且不需要第二个网络。
虽然大多数RL方法使用固定目标网络,但BYOL使用之前网络的加权移动平均值(如[54])以便在目标表示中提供更平滑的变化。
相比Mean Teacher之下,BYOL在在线网络之上引入了一个额外的预测器,防止崩溃。
MoCo [9]使用慢速移动平均网络(动量编码器)来保持从memory bank中提取的负样本的一致表示。相反,BYOL使用移动平均网络来产生预测目标,作为稳定自举步骤的一种手段。
对比方法通过将预测问题重新表述为辨别问题来避开这个问题:从增强视图的表示中,它们学习在同一图像的另一增强视图的表示和不同图像的增强视图的表示之间进行辨别。
找出这些负样本是否是在保持高性能的同时防止崩溃所不可或缺的。
这个实验发现是BYOL的核心动机:从一个 给定的表征,称为目标,我们可以通过预测目标表征来训练一个新的,潜在增强的表征,称为在线。从那里,我们可以通过迭代这个过程,使用随后的在线网络作为进一步训练的新的目标网络,期望建立一系列质量增加的表示。在实践中,BYOL通过迭代改进其表示来推广这种自举过程,但使用在线网络的缓慢移动指数平均值作为目标网络,而不是固定的checkpoints。
BYOL的目标是学习到一个可以用作下游任务的表征yθ。
目标网络提供回归目标来训练在线网络,其参数ξ是在线参数θ的指数移动平均值。
在线分支和目标分支不对称,在线分支有预测器。
我们通过分别向在线网络和目标网络馈送v(视图)来将损失函数L对称化。
训练结束后只保留编码器fθ。
BYOL与GAN类似,不是说联合地根据参数θ和ε最小化损失函数。所以没有先验式的理由说明为什么BYOL会收敛到最小值。
虽然我们可以直接预测表示y,而不是投影z,但之前的工作[8]已经根据经验表明,使用这种投影可以提高性能。
由于Var(X|Y,Z)≤Var(X|Y),纯粹从在线投影中丢弃信息不能减少条件方差。
特别是,BYOL避免了zθ中的不变特征。因为Var(zε'|zθ)≤Var(zε'|c)。所以我们关于这些崩溃的常数平衡的假设是不稳定的。
如果通过参数ε训练,会得到崩溃的zε',相反,BYOL使ξ更接近θ,将在线投影捕捉到的可变性来源并入目标投影。此外,请注意,将在线参数θ硬复制hard-copy到目标参数ξ足以传播新的可变性来源。
我们假设BYOL移动平均目标网络的主要作用是确保预测器在训练时接近最优。
网络架构:我们使用具有50层和后激活(ResNet-50(1×) v1)的卷积残差网络[22]作为我们的基本参数编码器fθ和fξ。表征y对应于最终平均池化层的输出,其特征尺寸为2048(宽度乘数为1倍)。通过多层感知器(MLP) gθ将表征y投影到更小的空间,并且类似地用于目标投影gξ。预测器qθ采用与gθ相同的架构。
同样,我们通过使用Faster R-CNN架构[82]复制[9]中的设置来评估目标检测,详见附录D.5。我们对trainval2007进行微调,并使用标准AP50指标报告test2007的结果;BYOL明显好于监督基线(+3.1 AP50)和SimCLR (+2.3 AP50)。
深度预测衡量了网络在多大程度上表征了几何图形,以及该信息在多大程度上可以定位到像素精度[40]。
batch size:在对比方法中,从小批量中抽取负样本的方法随着批量的减少而性能下降。所以,我们期望BYOL能够对更小的batch size有着更高的鲁棒性。SimCLR的性能随着批量的减少而迅速恶化,这可能是由于负样本的数量减少。相比之下,BYOL的性能在从256到4096的较大批量范围内保持稳定,并且由于编码器中的批量标准化层,仅在较小的值时下降。在线网络更新后,每N步更新一次目标网络;我们在运行中并行累积N步。
图像增强:对比方法对图像增强的选择很敏感。例如,当从图像增强中消除颜色失真时,SimCLR不能很好地工作。SimCLR显示同一幅图像的切割crops大多共享它们的颜色直方图。结果,这种表征没有被激励去保留颜色直方图之外的信息。为了防止这种情况,SimCLR将颜色失真添加到其图像增强集中。取而代之的是,BYOL受到激励,将目标表征捕捉到的任何信息保存在其在线网络中,以改进其预测。因此,即使同一图像的增强视图共享相同的颜色直方图,BYOL仍然被激励在其表示中保留额外的特征。出于这个原因,我们认为BYOL比起对比方法,是更强大的选择图像增强。
BYOL使用目标网络的投影表示作为其预测的目标,其权重是在线网络权重的指数移动平均值。当目标衰减率为1时,目标网络从不更新,并保持与其初始化相对应的恒定值。当目标衰减率为0时,目标网络会在每一步即时更新为在线网络。在过于频繁地更新目标和过于缓慢地更新目标之间有一个折衷。
我们注意到,消除BYOL或SimCLR中的权重衰减会导致网络发散,强调了在自我监督设置中权重正则化weight regularization的需要。
这表明额外的预测器对于在无监督的情况下防止塌陷是至关重要的。我们进一步发现,通过使预测器接近最优,我们可以在不崩溃的情况下移除目标网络,或者通过(I)在通过网络反向传播误差之前使用最优线性预测器(通过对当前批次的线性回归获得)(52.5% top-1准确度),或者(ii)增加预测器的学习速率(66.5% top-1)。这似乎表明,始终保持预测器接近最优对于防止崩溃是重要的,这可能是BYOL目标网络的作用之一。
Conclusion:BYOL通过预测其输出的先前版本来学习其表示(我认为这就是Bootstrap的意思),而不使用负样本对。然而,BYOL仍然依赖于现有的视觉应用专用的增强装置。此外,由于视觉数据集可能有偏差,BYOL学习的表征可能容易复制这些偏差