自动分类打标签！飞桨TSM模型帮你做视频理解

作者： | 来源：互联网 | 2023-08-25 10:26

导读：目前互联网视频数据日益增多，用户观看短视频、小视频的时长也迅速增长，如何对海量的视频资源快速准确地分析、处理、归类是一个亟待解决的问

导读&＃xff1a;目前互联网视频数据日益增多&＃xff0c;用户观看短视频、小视频的时长也迅速增长&＃xff0c;如何对海量的视频资源快速准确地分析、处理、归类是一个亟待解决的问题。视频理解技术可以多维度解析视频内容&＃xff0c;理解视频语义&＃xff0c;自动分类打标签&＃xff0c;极大节省人工审核效率&＃xff0c;节约成本&＃xff1b;同时实现精准用户推荐&＃xff0c;提升体验效果。

1. 视频理解之TSM

谈到视频理解&＃xff0c;不得不给大家介绍一下新鲜出炉的视频理解技术之一&＃xff1a;TSM&＃xff08;Temporal Shift Module&＃xff09;。TSM是由MIT和IBM Watson AI Lab的Ji Lin&＃xff0c;Chuang Gan和SongHan等人提出的通过时间位移模拟3D建模达到效果和性能的平衡&＃xff0c;提高视频理解能力的模块。

跟TSM最相关的视频理解模型当属Limin Wang等人在ECCV2016上发表的Temporal Segment Network (TSN)了。TSN模型从视频中采样N帧图像并通过最简单直接地对N帧图像分类结果进行平均的方式进行时序信息融合&＃xff0c;取得了当时State-of-the-art的性能&＃xff0c;并得到大规模的应用。考虑到TSN模型对时序信息的建模不够充分&＃xff0c;以I3D&＃xff0c;S3D, P3D等为代表的一系列工作通过3D卷积进行端到端联合时空建模&＃xff0c;这一系列工作尽管能捕获时空特征&＃xff0c;但是相比TSN&＃xff0c;由2D卷积到3D卷积不可避免地引入了额外计算量。TSM巧妙的通过时间维度特征map移位的想法&＃xff0c;理论上用零额外计算开销达到了不同帧之间特征融合联合建模的目的。

论文: Temporal Shift Module for Efficient VideoUnderstanding&＃xff1a;https://arxiv.org/pdf/1811.08383v2.pdf

先看一下文中给出的测试视频示例&＃xff1a;如果图片分别从左往右播放和从右往左播放&＃xff0c;测试者会给出不同但是正确的理解结果&＃xff0c;说明对视频的理解强依赖于视频的时序关系。

看起来很有意思&＃xff0c;我们继续深入研究一下。

2. TSM关键技术介绍

在传统的图片分析的基础上&＃xff0c;视频分析需要研究者补充关于时间信息&＃xff08;temporal information&＃xff09;的建模结构。目前&＃xff0c;2D CNN和3D CNN是视频理解中最常用的两个方法&＃xff1a;使用2D CNN 模型运算量少但会丧失部分时间信息&＃xff1b;而使用3D CNN虽然效果好但运算量极大。面对这样的情况&＃xff0c;MIT和IBM Watson AI Lab的Ji Lin&＃xff0c;Chuang Gan和Song Han等人提出了Temporal Shift Module (TSM)模块。他们将时间位移模块嵌入2D CNN&＃xff0c;从而可以在不添加任何额外的计算量和参数的情况下&＃xff0c;轻松地达到与3D CNN效果相当的视频理解能力。

上图中矩阵的行和列分别表示特征图中的temporal和channel维度。在TSM模块中&＃xff0c;将一部分的channel在temporal维度上向前位移一步&＃xff0c;一部分的channel在temporal维度上向后位移一步&＃xff0c;位移后的空缺补零。通过这种方式在特征图中引入temporal维度上的上下文交互&＃xff0c;提高了在时间维度上的建模能力。

在此基础上&＃xff0c;MIT和IBM Watson AI Lab的研发人员将模块进一步细分为适合在线视频使用的TSM模块和适合离线视频使用的TSM模块。

双向&＃xff08;bi-direction&＃xff09;的TSM模块可获取过去和未来的时空信息&＃xff0c;适合高吞吐量的离线视频使用&＃xff1b;而单向&＃xff08;uni-direction&＃xff09;的TSM模块仅可比对现在和过去的时空信息&＃xff0c;适用于低延迟在线视频的识别。

好了&＃xff0c;基本原理搞清楚了&＃xff0c;可以找一个项目直接上手分析了。

3. 飞桨TSM快速上手

飞桨&＃xff08;PaddlePaddle&＃xff09;目前实现的版本是以ResNet-50作为主干网络的TSM模型。

3.1.数据准备

TSM的训练数据采用由DeepMind公布的Kinetics-400动作识别数据集。数据下载及准备请参考&＃xff1a;

https://github.com/PaddlePaddle/models/blob/v1.5.1/PaddleCV/PaddleVideo/dataset/README.md

3.2.模型训练

数据准备完毕后&＃xff0c;可以通过如下两种方式启动训练&＃xff1a;

export FLAGS_fast_eager_deletion_mode&＃61;1 export FLAGS_eager_delete_tensor_gb&＃61;0.0 export FLAGS_fraction_of_gpu_memory_to_use&＃61;0.98 python train.py --model_name&＃61;TSM--config&＃61;./configs/tsm.txt--save_dir&＃61;checkpoints--log_interval&＃61;10--valid_interval&＃61;1--pretrain&＃61;${path_to_pretrain_model}bash scripts/train/train_tsm.sh

[1] 从头开始训练&＃xff0c;需要加载在ImageNet上训练的ResNet50权重作为初始化参数&＃xff0c;请下载此模型参数&＃xff08;https://paddlemodels.bj.bcebos.com/video_classification/ResNet50_pretrained.tar.gz&＃xff09;并解压&＃xff0c;将上面启动脚本中的path_to_pretrain_model设置为解压之后的模型参数存放路径。如果没有手动下载并设置path_to_pretrain_model&＃xff0c;则程序会自动下载并将参数保存在~/.paddle/weights/ResNet50_pretrained目录下面。

[2] 可下载已发布模型model&＃xff08;https://paddlemodels.bj.bcebos.com/video_classification/tsm_kinetics.tar.gz&＃xff09;通过--resume指定权重存放路径进行finetune等开发。

数据读取器说明&＃xff1a;

模型读取Kinetics-400数据集中的mp4数据&＃xff0c;每条数据抽取seg_num段&＃xff0c;每段抽取1帧图像&＃xff0c;对每帧图像做随机增强后&＃xff0c;缩放至target_size。

训练策略&＃xff1a;

采用Momentum优化算法训练&＃xff0c;momentum&＃61;0.9
权重衰减系数为1e-4

模型评估

可通过如下两种方式进行模型评估:

python test.py --model_name&＃61;TSM--config&＃61;configs/tsm.txt--log_interval&＃61;1--weights&＃61;$PATH_TO_WEIGHTSbash scripts/test/test_tsm.sh

[1] 使用scripts/test/test_tsm.sh进行评估时&＃xff0c;需要修改脚本中的--weights参数指定需要评估的权重。

[2] 若未指定--weights参数&＃xff0c;脚本会下载已发布模型进行评估。

当取如下参数时&＃xff0c;在Kinetics400的validation数据集的评估精度如下:

seg_num	target_size	Top-1
8	224	0.70

3.3.模型推断

可通过如下命令进行模型推断&＃xff1a;

模型推断结果存储于TSM_infer_result中&＃xff0c;通过pickle格式存储。
若未指定--weights参数&＃xff0c;脚本会下载已发布模型进行推断。

python infer.py --model_name&＃61;TSM--config&＃61;configs/tsm.txt--log_interval&＃61;1--weights&＃61;$PATH_TO_WEIGHTS--filelist&＃61;$FILELIS

3.4.效果实测

TOP5预测结果

分类	概率
Yoga(瑜伽)	0.973069250584
stretching_leg&＃xff08;腿部拉伸&＃xff09;	0.0223769713193
bending_back&＃xff08;向后弯腰&＃xff09;	0.00322460732423
stretching_arm&＃xff08;上臂拉伸&＃xff09;	0.00108245189767
Lunge&＃xff08;猛冲&＃xff09;	0.00108245189767

可以看到&＃xff0c;TSM模型准确的判断出了视频中是瑜伽&＃xff08;yoga&＃xff09;动作&＃xff0c;而且预测概率0.97也是足够高&＃xff0c;完全可以在商业中应用起来。

赶紧来试试吧&＃xff01;

想与更多的深度学习开发者交流&＃xff0c;请加入飞桨官方QQ群&＃xff1a;432676488。

如果您想详细了解更多飞桨PaddlePaddle的相关内容&＃xff0c;请参阅以下文档或点击阅读原文。

官网地址&＃xff1a;https://www.paddlepaddle.org.cn

项目地址&＃xff1a;

https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleCV/PaddleVideo

最后给大家推荐一个GPU福利 - Tesla V100免费算力&＃xff01;配合PaddleHub能让模型原地起飞&＃xff5e; 扫描下方二维码申请&＃xff5e;

推荐阅读

io
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
io
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
io
通过Anaconda安装tensorflow，并安装运行spyder编译器的完整教程

本文提供了一个完整的教程，介绍了如何通过Anaconda安装tensorflow，并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统，并提供了相关的网址供参考。通过本教程，读者可以轻松地安装和配置tensorflow环境，以及运行spyder编译器进行开发。 ... [详细]

蜡笔小新 2023-12-09 09:46:32
io
提升Python编程效率的十点建议

本文介绍了提升Python编程效率的十点建议，包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间，提高编程效率。同时，还提供了相关参考链接供读者深入学习。 ... [详细]

蜡笔小新 2023-12-14 21:51:04
c语言
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
io
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
io
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
io
九度OnlineJudge之1002：Grading问题的解决方法

本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程，将每个考题分配给3个独立的专家，如果他们的评分不一致，则需要请一位裁判做出最终决定。文章详细描述了评分规则，并给出了解决该问题的程序。 ... [详细]

蜡笔小新 2023-12-14 13:00:09
io
生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍

一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks（论文下载链接arxiv：[h ... [详细]

蜡笔小新 2023-12-14 11:39:45
io
PhysioNet生理信号处理（三）WFDB Toolbox for Matlab的安装和使用方法

本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容，即可完成安装。该工具箱提供了一系列函数，可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-13 20:46:48
io
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
io
从零基础到精通的前台学习路线

随着互联网的发展，前台开发工程师成为市场上非常抢手的人才。本文介绍了从零基础到精通前台开发的学习路线，包括学习HTML、CSS、JavaScript等基础知识和常用工具的使用。通过循序渐进的学习，可以掌握前台开发的基本技能，并有能力找到一份月薪8000以上的工作。 ... [详细]

蜡笔小新 2023-12-10 20:05:15
io
利用PyTorch快速实现分类任务

关于如何快速定义自己的数据集，可以参考我的前一篇文章PyTorch中快速加载自定义数据（入门）_晨曦473的博客-CSDN博客刚开始学习P ... [详细]

蜡笔小新 2023-10-17 18:12:24
io
PRML读书会第十四章 Combining Models（committees，Boosting，AdaBoost，决策树，条件混合模型）...

主讲人网神（新浪微博:豆角茄子麻酱凉面）网神(66707180)18:57:18大家好，今天我们讲一下第14章combiningmodel ... [详细]

蜡笔小新 2023-10-17 17:04:24
io
vb6集成ad登录共享文件_SCSP实验2单点登录

01—实验目的掌握单点登陆相关原理和深信服配置02—实验环境1.AC版本v12.0.42AC1地址：https:172.172.1.1AC2地址：htt ... [详细]

蜡笔小新 2023-10-17 15:23:51

Tags | 热门标签

RankList | 热门文章