SimSiam 的主要创新点在于它在无监督表征学习中使用了极简的 Siamese 网络结构,不需要负样本对、大批量训练或动量编码器来防止模型崩溃。以下是 SimSiam 的几个关键创新点:
无需负样本对:传统的对比学习方法,如 SimCLR,依赖负样本对来防止模型输出趋于常量(即“崩溃”)。SimSiam 则完全不使用负样本对,而是通过其他方式保持表征学习的稳定性。这大大简化了模型设计,并减少了对大批量数据的需求。
无需动量编码器:与 BYOL 等方法不同,SimSiam 不依赖动量编码器来获得稳定的训练效果。BYOL 中的动量编码器用于减少不同批次之间的波动,从而防止模型崩溃。而 SimSiam 通过引入 stop-gradient 操作来代替动量编码器,从而进一步简化了模型。
使用 stop-gradient 操作:SimSiam 中的 stop-gradient 操作是防止模型崩溃的核心。具体来说,模型在更新参数时,将一个视图的梯度计算阻止到另一个视图的输出,从而实现“分离式”优化。作者提出,stop-gradient 操作有效地分离了模型的优化过程,从而避免了输出崩溃到常量。
极简的模型架构:SimSiam 的架构仅由编码器和预测头部组成,不使用额外的对比损失(contrastive loss)或聚类机制。尽管架构简单,但在实验中展示了与更复杂的无监督学习方法相媲美的效果,特别是在 ImageNet 等大规模数据集上的表现。
推广能力强:SimSiam 能够在无需大批量训练的情况下取得良好效果,与 SimCLR 和 SwAV 等需要大批量的模型相比,在资源有限的环境下表现出优势。实验还表明,该方法的迁移学习性能强,在多个下游任务中(如对象检测和分割任务)表现出色。
通过这些创新点,SimSiam 成为一个易于实现且性能良好的无监督表征学习基线模型。它的成功展示了在无监督学习中,Siamese 网络架构本身可能是实现有效表征学习的关键因素。SimSiam 提供了一个重新思考复杂对比学习方法的机会,特别是在模型设计简化和计算效率方面的贡献。
无负样本对的自监督学习:与现有的对比学习方法不同,BYOL在训练过程中不依赖于负样本对。传统的对比学习方法需要正样本对和负样本对来学习表示,而BYOL通过引导网络本身的输出来构建目标表示,避免了对负样本的依赖。
双网络结构的协同学习:BYOL使用两个神经网络——在线网络(online network)和目标网络(target network)。在线网络通过预测目标网络在不同增强视图下的表示来进行学习,而目标网络的参数是在线网络的慢速移动平均。这种双网络的设置使得模型在学习过程中可以相互强化,避免了崩塌解(即所有图像输出相同的表示)的出现。
对图像增强选择的鲁棒性:相比于其他对比方法,BYOL对图像增强的选择更具鲁棒性。它在不同的图像增强设置下,特别是在仅使用随机裁剪的情况下,表现出更少的性能下降。这表明BYOL在图像增强策略的变化下更加稳定。
高效的表示学习效果:BYOL在ImageNet的线性评估协议下达到了最先进的结果,并且在半监督和迁移学习基准测试中表现优异。即使在没有负样本对的情况下,BYOL仍然实现了与对比学习方法相媲美甚至更好的性能。
避免崩塌解的策略:BYOL通过在在线网络中增加一个预测器(predictor)和使用在线网络参数的慢速移动平均作为目标网络,有效地避免了崩塌解的发生。这种策略使得在线网络能够逐步学习到更丰富的表示,从而提高了模型的学习效率和效果。
总体而言,BYOL的创新之处在于突破了对比学习方法对负样本的依赖,并通过独特的双网络架构和崩塌解规避策略实现了更稳健且高效的自监督表示学习。