• 【论文阅读】MixMatch: A Holistic Approach to Semi-Supervised Learning


    推荐阅读:
    Pseudo-Label:深度学习中一种简单有效的半监督方法
    伪标记,只是选取具有最大预测概率的类,就像它们是真实的标签一样使用。
    熵正则化和熵最小化:Entropy Minimization & Regularization

    GitHub的官方源码:google-research/mixmatch

    摘要

    MixMatch统一了目前半监督学习的主流方法,产生了一种新的算法,它为数据增强的未标记的例子猜测低熵标签,并使用MixUp混合标记和未标记的数据。


    1. Introduction

    许多半监督学习方法是在未标记的数据上,计算一个损失项,损失项属于下列三类之一:
    (1)熵最小化:它鼓励模型在未标记的数据上输出有信心的预测;
    (2)一致性正则化:它鼓励模型在其输入被扰动时产生相同的输出分布;
    (3)通用正则化:它鼓励模型进行良好的泛化并避免对训练数据的过度适应。

    MixMatch,一种SSL算法,它引入了一个单一的损失,优雅地统一了这些半监督学习的主流方法。
    在这里插入图片描述
    图1:MixMatch中使用的标签猜测过程示意图。随机数据增强被应用于一个无标签的图像上K次,每个增强的图像都被送入分类器。然后,通过调整分布的temperature,对这K个预测的平均值进行 “锐化”。

    2. Related work

    超强半监督学习 MixMatch

    2.1 Consistency Regularization 自洽正则化

    监督学习中常见的正则化技术是数据增强,它应用了假定不影响类语义的输入变换。例如,在图像分类中,常见的是对输入图像进行弹性变形或添加噪声,这可以极大地改变图像的像素内容而不改变其标签

    自洽正则化对未标记数据进行数据增强,产生的新数据输入分类器,预测结果应保持自洽。即同一个数据增强产生的样本,模型预测结果应保持一致。此规则被加入到损失函数中
    在这里插入图片描述
    请注意,Augment(x)是一个随机变换,所以公式(1)中的两个项并不完全相同。
    MixMatch 通过对图像使用标准数据增强(随机水平翻转和裁剪)来利用自洽正则化形式。

    2.2 Entropy Minimization

    许多半监督学习方法的一个共同基本假设是,分类器的决策边界不应经过边际数据分布的高密度区域。 强制执行的一种方法是要求分类器在未标记的数据上输出低熵预测。有一个损失项,它使模型预测无标签数据的熵最小。

    "Pseudo-Label"通过从对无标签数据的高置信度预测中构建硬(1-hot)标签,并将其作为标准交叉熵损失的训练目标,隐性地实现了熵的最小化。MixMatch也通过对无标签数据的目标分布使用 "锐化 "函数隐含地实现了熵最小化。

    2.3 Traditional Regularization

    在这里插入图片描述
    我们使用权重衰减,对模型参数的L2准则进行惩罚。我们还在MixMatch中使用MixUp。我们利用MixUp作为正则器(应用于标记的数据点)和半监督学习方法(应用于未标记的数据点)。MixUp之前已经被应用于半监督学习;


    3. MixMatch

    在这里插入图片描述

    MixMatch - 超强的半监督学习方法

    X是带标签的数据,U是不带数据的标签,X_hat是增强数据并且是带标签的,U_hat是增强数据并且不带标签。
    在这里插入图片描述在这里插入图片描述

    3.1 Data augmentation

    在有标签和无标签数据上都使用数据增强功能。对于标签数据X批次中的每个xb,我们生成一个转换版本xˆb = Augment(xb)。对于一批无标签数据U中的每个ub,我们生成K个增强版本uˆb,k = Augment(ub), k∈ (1, …, K)。

    3.2 Label Guessing

    对于U中的每一个未标记的例子,MixMatch使用模型的预测结果对该例子的标签产生一个 “猜测”。这个猜测后来被用于无监督的损失项中。为此,我们通过以下方式计算模型在ub的所有K个增量中预测的类别分布的平均值。

    在这里插入图片描述

    Sharpening锐化: 使得概率分布的方差更小,预测结果更加自洽,系统熵更小。换句人话就是:概率越高的会被拉的更高,低的会更低。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    伪代码: 结合图1进行阅读
    在这里插入图片描述

    3.3 3.3 MixUp


    4. Experiments

    不同方法的比较:
    在这里插入图片描述


    在这里插入图片描述

    解剖各部分贡献 (Ablation Test ):在这里插入图片描述
    半监督算法结果的对比:
    在这里插入图片描述
    在这里插入图片描述


    5. Conclusion

    MixMatch :创新点总结
    ( 1 ) MixMatch集成了自洽正则化,在数据增强时使用了对图像进行随机左右翻转和剪切
    ( 2 ) MixMatch利用Sharpening函数,最小化无标签数据的分类熵。
    ( 3 ) MixMatch在使用Adam作为优化器,并使用了L2正则化进行权重衰减。
    ( 4 ) MixMatch使用了Mixup作为数据增强的思想。

  • 相关阅读:
    优化Java中XML和JSON序列化
    微信小程序设置动态变量设值
    基于STM32的智能小车--舵机云台设计
    Flutter 直接调用so动态库,或调用C/C++源文件内函数
    生物素叠氮化物中的(CAS:1527486-16-3TAMRA-azide-PEG3-Biotin)反应的特点!
    学成在线第一天
    记一次Redis Cluster Pipeline导致的死锁问题
    sql中的排序函数dense_rank(),RANK()和row_number()
    1308. 不同性别每日分数总计
    交易中最佳的建仓时机,fpmarkets一个指标搞定
  • 原文地址:https://blog.csdn.net/weixin_45751396/article/details/127630249