| Paradigm: Time | Paper |
|---|---|
| 传统到CNN | DeepVideo |
| Two-Stream:2014-2017 | Two-Stream |
| 3D-ConvNet:2017-2020 | I3D |
| ViT-based:2020-present |

| Model | UCF101 (acc, %) |
|---|---|
| Improved Dense Trajactories (IDTF)S | 87.9 |
| Deep Video (Slow Fusion) | 65.4 |
| Two-Stream CNN (Optical Flow + Image Frames, SVM Fusion | 88.0 |
| Beyond Short Snippets (LSTM Fusion) | 88.6 |
| TDD + FV | 90.3 |
| 3DConv + 3DPool | 93.5 |
| TSN | 94.0 |
| TLE | 95.6 |
论文链接:Large-scale Video Classification with Convolutional Neural Networks by Andrej Karpathy, Li Fei-Fei and etc. from Google Research and Computer Science Department, Stanford University.
Part 1:

以上4种方法中,Slow Fusion效果最好,但其实4种方法的效果差别很小。
Part 2: Multisolution CNN Architecture.

如上图所示,
上下两个分支权重共享。
该网络在某种程度上也算是一种双流网络。这其实是早期的一种注意力机制,强制让模型去关注图片中心区域。
由双流网络的启发(效果不一定好,探索):
探究时序信息Fusion的方法,怎么做pooling,主要提出了Conv Pooling和尝试了LSTM。这两者都可以处理非常多的帧,所以叫做beyond short snippets。
论文链接:Beyond Short Snippets: Deep Networks for Video Classification_CVPR’15 by Joe Yue-Hei Ng etc. from University of Maryland, College Park, University of Texas at Austin and Google, Inc.
方法:

实验:
和其他方法做对比:基于双流网络做出的改进,带来的效果提升非常有限。

消融实验:

结论:LSTM这种看似能够很好融合时序信息的方法,其实和ConvPooling的效果差不了多少(因为LSTM学的是更high-level的语义信息,需要一个比较长的序列和比较明显的变化);上表中最好两排相比前面两排的增益,主要来自光流的利用。
即在卷积中做fusion。
探究Early Fusion,非常细致地讲了如何去做信息融合。具体来讲,如何基于双流网络去做时间流和空间流的early fusion。
论文链接:Convolutional Two-Stream Network Fusion for Video Action Recognition_CVPR’16 by Christoph Feichtenhofer and Axel Pinz from Graz University of Technology, Andrew Zisserman from University of Oxford.
Spatial Fusion


Temporal Fusion

实验:
和其他方法做对比:

结论:Early Fusion可能算是一种对网络的变相的约束,在一定程度上弥补了数据集不足的问题。
贡献:
如何处理更长的视频和一些好用的技巧
论文链接:Temporal Segment Networks: Towards Good Practices for Deep Action Recognition_ECCV’16 by Limin Wang etc. from ETH, CUHK, CAS
方法:
给长视频分段,从每个段抽取一帧rgb和对应的光流,喂进权重共享的双流网络。

实验:
和其他方法对比:

