• 半监督学习理解


    半监督

    少量有标注,大量无标注

    1.三个假设:

    (1)连续性/平滑性假设:相近的数据点可能有相同的标签

    (2)集群假设:在分类问题中,数据往往被组织成高密度的集群,同一集群的数据点可能具有相同的标签。因此,决策边界不应该位于密集的数据点区域;相反,它应该位于高密度区域之间,将它们分离成不连续的群组。

    (3)流形假设:高纬数据分布可以在一个嵌入式的低纬空间中表示。这个低纬空间被称为数据流形。

    2.方法:
    (1)一致性正则化:

    核心动机:利用连续性和集群假设

    具体操作:对于一个给定的特征x,我们的模型应该对潜在Augment(x)半径内的所有数据点做出类似的预测。即加扰动不影响输出。(我们选中x。那么x和x周围的类别是一致的)

    实现方法:

    正规全监督+ x i x_i xi x i x_i xi附近 的数据点的差距(差距不大)
    l o s s = { C r o s s E n t r o p y ( x i , y i ) + ∥ f θ ( x i ) − f θ ( A u g m e n t ( x i ) ) ∥ 2 2 , x i ∈ X l a b e l e d ∥ f θ ( x i ) − f θ ( A u g m e n t ( x i ) ) ∥ 2 2 , x i ∈ X u n l a b l e d \left.loss=\left\{

    CrossEntropy(xi,yi)+fθ(xi)fθ(Augment(xi))22,xiXlabeledfθ(xi)fθ(Augment(xi))22,xiXunlabled" role="presentation" style="position: relative;">CrossEntropy(xi,yi)+fθ(xi)fθ(Augment(xi))22,xiXlabeledfθ(xi)fθ(Augment(xi))22,xiXunlabled
    \right.\right. loss={CrossEntropy(xi,yi)+fθ(xi)fθ(Augment(xi))22,xiXlabeledfθ(xi)fθ(Augment(xi))22,xiXunlabled

    (2)伪标签

    核心动机:把半监督问题转换成全监督

    具体操作:想办法得到伪标签

    (3)生成对抗网络

    核心动机:用鉴别器找到值得信赖的区域

    (4)主动学习

    核心动机:识别哪些未标记的点是最有价值的,由人在循环中进行标记。

  • 相关阅读:
    Lua中如何实现类似gdb的断点调试—09支持动态添加和删除断点
    JavaScript中 对象解构详解
    Vue——消息的订阅与发布
    es6中的let与const关键字及其与var关键字的不同
    网站内的采集的外链该怎么进行本地化处理
    saas化多租户-动态数据源
    JavaScript面向对象学习递归(三)
    PyTorch DataLoader整理函数详解【collate_fn】
    Explore EP965U HDMI 2.0发射机
    Nginx学习笔记07——Nginx负载均衡
  • 原文地址:https://blog.csdn.net/qq_49288362/article/details/136379308