GluonCV 提供计算机视觉领域最先进 (SOTA) 深度学习算法的实现。它旨在帮助工程师、研究人员和学生快速制作产品原型、验证新想法并学习计算机视觉。
同时支持 PyTorch 和 MXNet。
GluonCV 提供了分类、检测、分割、姿势估计、动作识别、深度预测这几类的预训练模型,我们这里主要关注动作识别这个分类。
提供了若干用于视频动作识别任务的预训练模型(在Kinetics400上训练)。
下面是MXNet和PyTorch上分别支持的网络的清单。
MXNet: TSN, C3D, I3D, I3D_slow, P3D, R3D, R2+1D, Non-local, SlowFast
PyTorch: TSN, I3D, I3D_slow, R2+1D, Non-local, CSN, SlowFast, TPN
所有模型均使用输入大小 224x224 进行训练,但R2+1D
模型使用输入大小 112x112 进行训练和评估。
下面介绍的预训练模型,可以看到有几个关键参数
Segment
是训练期间使用的段数。为了进行测试,我们按照惯例对