视频分类
整理一些视频分类(video classification
)相关的文章、论文和实 现
概念
- 视频分类(
video classification
):给定视频片段,判断视频所属类别; - 视频理解(
video understanding
):给定视频片段,分析视频内容; - 动作分类(
action classification
):给定视频片段,判断视频所属动作。
文章
- 综述
- 讨论
- 博客
- 自定义(视频分类):相关论文、实现算法解析
论文
2020
- X3D: Expanding Architectures for Efficient Video Recognition
- 从基础模型
X2D
出发,探索了帧率、帧数、分辨率、深度、宽度、bottleneck
宽度对模型性能的影响,最后构建得到一个新的3D
卷积网络簇 -X3D
2018
- SlowFast Networks for Video Recognition
- 双流架构设计,
SlowNet
捕捉细粒度空间信息,FastNet
捕捉时态动作信息,两者差别在于输入视频数据采样帧率(Fast
需要更多帧) - TSM: Temporal Shift Module for Efficient Video Understanding
- 提出
TSM(temporal shift module, 时间移位模块)
,在2D
卷积网络计算过程中沿着时间维度对通道进行向上/向下移位(移动一位)操作,促进相邻帧之间信息交换,达到3D CNN
的性能
2017
- Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification
- 论文探索了纯
3D
卷积网络对于视频理解任务的应用 - Non-local Neural Networks
- 提出一个通用的注意力模块 -
Non-local
,捕获全局的注意力信息 - Temporal Relational Reasoning in Videos
- 受
Relation Network
以及Temporal Segment Networks
启发,提出时间关系网络(TRN
)
2016
- Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
- 论文提出一个视频动作识别通用框架 -
时间分段网络(TSN)
,通过对视频进行分段采样然后进行融合的方式来建模长时间时态结构
2014
- Learning Spatiotemporal Features with 3D Convolutional Networks
- 首次提出通过
3D
卷积网络(不同于2D
卷积的输出是一维特征图,3D
卷积输出是一个3D
卷,保留了输入信号的时间特征)来同时学习时间和空间特征 - Two-Stream Convolutional Networks for Action Recognition in Videos
- 首次提出设计双流网络(两个网络)分别学习时间信息(输入多帧光流数据)和空间信息(输入正常
RGB
数据)
实现
- 数据集
- 实现
- open-mmlab/mmaction2
2019
年open-mmlab
团队发布的视频理解框架,目前来看是Github
上最全面的视频理解基准框架- facebookresearch/SlowFast
2019
年facebook
发布的视频理解仓库,提供了不少自家发布的视频理解论文(X3D/SlowFast/Multigrid/Non-local/...
)实现- yjxiong/tsn-pytorch
2016
年发布的论文Temporal Segment Network
官方实现- zhoubolei/TRN-pytorch
2017
年发布的论文Temporal Relation Networks
官方实现- mit-han-lab/temporal-shift-module
2018
年发布的论文Temporal Shift Module
官方实现
- 自定义
- ZJCV/X3D
- 复现了论文
X3D: Expanding Architectures for Efficient Video Recognition
- ZJCV/SlowFast
- 复现了论文
SlowFast Networks for Video Recognition
- ZJCV/Non-local
- 复现了论文
Non-local Neural Networks
- ZJCV/TSM
- 复现了论文
TSM: Temporal Shift Module for Efficient Video Understanding
- ZJCV/TRN
- 复现了论文
Temporal Segment Network
- ZJCV/TSN
- 复现了论文
Temporal Segment Network
- ZJCV/C3D
- 复现了论文
Learning Spatiotemporal Features with 3D Convolutional Networks