视频分类

发表于 2022-06-15 更新于 2022-06-18 分类于视频分类/video classification 阅读次数：

本文字数： 2.3k 阅读时长 ≈ 4 分钟

整理一些视频分类（video classification）相关的文章、论文和实现

概念

视频分类（video classification）：给定视频片段，判断视频所属类别；
视频理解（video understanding）：给定视频片段，分析视频内容；
动作分类（action classification）：给定视频片段，判断视频所属动作。

文章

综述
- 综述 | MIT提出视频理解/行为识别：全面调研（2004-2020）
- 万字长文漫谈视频理解
讨论
博客
- 自定义（视频分类）：相关论文、实现算法解析
  - 视频分类/video classification

论文

2020
- X3D: Expanding Architectures for Efficient Video Recognition
- 从基础模型X2D出发，探索了帧率、帧数、分辨率、深度、宽度、bottleneck宽度对模型性能的影响，最后构建得到一个新的3D卷积网络簇 - X3D
2018
- SlowFast Networks for Video Recognition
- 双流架构设计，SlowNet捕捉细粒度空间信息，FastNet捕捉时态动作信息，两者差别在于输入视频数据采样帧率（Fast需要更多帧）
- TSM: Temporal Shift Module for Efficient Video Understanding
- 提出TSM（temporal shift module, 时间移位模块），在2D卷积网络计算过程中沿着时间维度对通道进行向上/向下移位（移动一位）操作，促进相邻帧之间信息交换，达到3D CNN的性能
2017
- Temporal 3D ConvNets: New Architecture and Transfer Learning for Video Classification
- 论文探索了纯3D卷积网络对于视频理解任务的应用
- Non-local Neural Networks
- 提出一个通用的注意力模块 - Non-local，捕获全局的注意力信息
- Temporal Relational Reasoning in Videos
- 受Relation Network以及Temporal Segment Networks启发，提出时间关系网络（TRN）
2016
- Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
- 论文提出一个视频动作识别通用框架 - 时间分段网络（TSN），通过对视频进行分段采样然后进行融合的方式来建模长时间时态结构
2014
- Learning Spatiotemporal Features with 3D Convolutional Networks
- 首次提出通过3D卷积网络（不同于2D卷积的输出是一维特征图，3D卷积输出是一个3D卷，保留了输入信号的时间特征）来同时学习时间和空间特征
- Two-Stream Convolutional Networks for Action Recognition in Videos
- 首次提出设计双流网络（两个网络）分别学习时间信息（输入多帧光流数据）和空间信息（输入正常RGB数据）

实现

数据集
实现
- open-mmlab/mmaction2
- 2019年open-mmlab团队发布的视频理解框架，目前来看是Github上最全面的视频理解基准框架
- facebookresearch/SlowFast
- 2019年facebook发布的视频理解仓库，提供了不少自家发布的视频理解论文（X3D/SlowFast/Multigrid/Non-local/...）实现
- yjxiong/tsn-pytorch
- 2016年发布的论文Temporal Segment Network官方实现
- zhoubolei/TRN-pytorch
- 2017年发布的论文Temporal Relation Networks官方实现
- mit-han-lab/temporal-shift-module
- 2018年发布的论文Temporal Shift Module官方实现
自定义
- ZJCV/X3D
- 复现了论文X3D: Expanding Architectures for Efficient Video Recognition
- ZJCV/SlowFast
- 复现了论文SlowFast Networks for Video Recognition
- ZJCV/Non-local
- 复现了论文Non-local Neural Networks
- ZJCV/TSM
- 复现了论文TSM: Temporal Shift Module for Efficient Video Understanding
- ZJCV/TRN
- 复现了论文Temporal Segment Network
- ZJCV/TSN
- 复现了论文Temporal Segment Network
- ZJCV/C3D
- 复现了论文Learning Spatiotemporal Features with 3D Convolutional Networks