• 刷论文的感觉太棒了!(对比学习 / CLIP改进 / 视频理解)


    😍😍😍更多精彩福利😍😍😍
    在这里插入图片描述

    1. 对比学习论文总结

    学习视频:

    阶段代表工作
    百花齐放(18-19中)Inst Disc: memory Bank, 每张图都是一个类别(个体判别)Inva Spread: end-to-end, 在同一mini-batch中选正负样本CPC V1:用预测未来的代理任务做对比学习CMC:增大同一物体不同视角的互信息Deep cluster
    CV双雄(19-20中)MoCo V1: queue + momentum encoderSimCLR V1: MLP(projection head) + 数据增强CPC V2Infomin
    不用负样本MoCo V2: V1 + MLP + aug + 增大epochSimCLR V2: large, 2层MLP, momentum encoderSwav: multi-crop, 图片一个视角预测另一个视角,和聚类中心比
    TransformerMoCo V3: V2 + SimSiamBYOL(匹配->预测) =》BN Blog =》BYOL V2
    BYOL =》Sim Siam(stop gradient) =》DINO

    2. CLIP改进论文总结

    学习视频:

    领域代表工作
    语义分割Lseg: Language Driven Semantic Segnatation: zero-shot CLIP, dense feature, image encoder: DPT (ViT + decoder), supervise learning(依赖mask手工标注)目标函数非对比学习
    GroupVit: Semantic Segmentation Energes from Text Supervision: ViT + group block + group tokens(hpy聚类中心)
    目标检测Open-Vocabulary ViLD: CLIP的预训练image encoder作为teacher学习image embedding对比
    GLIP:Grounded Language-Image Pre-traing: 伪标签, phrase grounding
    图形学CLIPasso: saliency initial, semantic loss + geometric loss
    视频图文检索 CLIP4Clip: 时序图像文本融合:mean pooling效果最好; Transformer/LSTM; early fusion(tight)效果差
    动作识别 ActionCLIP:temporal shift module
    图像文本CLIP-ViL 用回图像文本下游任务
    语音AudioCLIP
    三维PointCLIP depthCLIP
    CLIP改进工作可以总结为三类:
        1. 直接使用CLIP预训练模型得到更好的特征和现有框架得到特征进行融合(改动最小)
        2. CLIP当做teacher,将其训练得到的特征用来蒸馏,加速现有模型训练(中间)
        3. 借鉴多模态对比学习思想,定义自己任务的正负样本计算对比loss,实现zero-shot

    3. 视频理解论文总结

    学习视频:

    传统手工特征方法:
    (image) SIFT -> (Video) STIP -> (光流) DT/IDT -> (全局特征) IDT + FV

    深度学习方法:

    方法代表工作
    CNNDeepVideo(CVPR2014): Sports 1M Datasets, 失败的尝试
    Two-StreamTwo-Stream(nureons2014): Spatial stream + Temporal stream late fusion
    TDD(CVPR2015): 手工IDT+沿轨迹堆叠光流
    Beyond Short Snippet(CVPR2015): 使用LSTM增强特征,实际上最后一层+LSTM没那么有用(帧短抽到的特征差不多)
    Conv Two-Stream(CVPR2016): early fusion, Spatial fusion(max/concat/stack Conv(效果最好)/sum/bilinear), Temporal fusion(3D Pooling/3D Conv + 3D Pooling)
    王利民TSN(ECCV2016): 长时间视频理解, 给视频分段后结果求共识
        tips1: 使用ImageNet预训练光流, 复制参数为目标channel来初始化
        tips2: partial BN, 第一层使用BN, 其余层freeze BN
        tips3: 数据增强, conner cropping = scale jittering
    TSN+全局建模
    DOVF(CVPR2017): face rencting encoding
    TLE(CVPR2017): end-to-end, bi-linearing encoding
    ActionVLAN: VLAN
    3D ConvC3D(ICCV2015): 3D版VGG, 网络深, 提供一个好特征可以做下游任务
    I3D(CVPR2017): 利用2D预训练模型, 同时使用光流刷爆UCF101, 证明2D向3D迁移的有效性
    Non-local NN: 使用plug and play(即插即用)的non-local block(self-attention)长时间建模,验证了多block效果更好/td>
    R(2+1)D(CVPR2018): 3D拆成空间2D+时间1D(二者利用特征投射融合), 训练简单效果好
    SlowFast: Slow(标准I3D)少帧小输入大网络 + Fast多帧大输入小网络 later connection, Fast时间维度不下采样
    Hidden Two-Stream: 将光流学习融入网络,不需要抽光流
    TSM(ICCV2019): shift 2D网络
    总结: 由于抽光流耗时且占内存,兴起了3D Conv, 从C3D到I3D, 之后的演变主要为四方面:
        1. 改进2D网络: R3D, MFNet, STC
        2. 2D结合3D:S3D, R(2+1)D, ECO, D3D
        3. 长时序处理:LTC, T3D, non-local, V4D
        4. 高效率:CSN, SlowFast, X3D
    Vision TransformerTimesformer: Space-Time Attention降低复杂度: Divided ST A; Sparse Local Global A; Axial A(T+W+H)
    ViViT, VidTr, MViT...
  • 相关阅读:
    使用mingw执行git diff遇到中文乱码的问题
    Spring系列三:Spring Bean生命周期
    微信小程序注册指引
    数据结构初步(六)- 复杂链表的分析与C语言实现
    linux 用户用户组的操作
    单例模式(初学)
    JAVA中国民航酒店分销系统计算机毕业设计Mybatis+系统+数据库+调试部署
    计算机组成原理习题课第三章-2(唐朔飞)
    nginx-vts监控模块
    JOSEF信号继电器 JX-18A/2 电压 220VAC辅助电源 板后接线
  • 原文地址:https://blog.csdn.net/keiven_/article/details/126923967