Pyqt5多标签_看过上百部片子的这个人教你视频标签算法解析

作者：平凡特产小店 | 来源：互联网 | 2023-10-12 11:53

本文由云社区发表随着内容时代的来临，多媒体信息，特别是视频信息的分析和理解需求，如图像分类、图像打标签、视频处理等等，变得越

本文由云&＃43;社区发表

随着内容时代的来临&＃xff0c;多媒体信息&＃xff0c;特别是视频信息的分析和理解需求&＃xff0c;如图像分类、图像打标签、视频处理等等&＃xff0c;变得越发迫切。目前图像分类已经发展了多年&＃xff0c;在一定条件下已经取得了很好的效果。本文因实际产品需求&＃xff0c;主要探讨一下视频打标签的问题。

查阅了部分资料&＃xff0c;笔者拙见&＃xff0c;打标签问题无论是文本、图像和视频&＃xff0c;涉及到较多对内容的“理解”&＃xff0c;目前没有解决得很好。主要原因有以下一些方面&＃xff0c;标签具有多样性&＃xff0c;有背景内容标签&＃xff0c;细节内容标签&＃xff0c;内容属性标签&＃xff0c;风格标签等等&＃xff1b;一些标签的样本的实际表现方式多种多样&＃xff0c;样本的规律不明显则不利于模型学习&＃xff1b;标签问题没有唯一的标准答案&＃xff0c;也存在一定的主观性&＃xff0c;不好评估的问题则更不利于模型学习。

依然笔者拙见&＃xff0c;视频打标签问题目前还没有很好的解决办法&＃xff0c;也处于探索阶段。方法上主要有以下一些思路&＃xff1a;可以从视频角度出发&＃xff0c;可以从图像角度出发&＃xff1b;可以利用caption生成的思路&＃xff0c;可以转化为多分类问题。

直接从视频角度出发&＃xff0c;即从视频整体的角度出发&＃xff0c;提取图像帧&＃xff0c;甚至字幕或者语音信息&＃xff0c;进一步处理得出视频标签的结果。Deep Learning YouTube Video Tags&＃xff0c;这篇文章提出一个hybrid CNN-RNN结构&＃xff0c;将视频的图像特征&＃xff0c;以及利用LSTM模型对标签考虑标签相关性和依赖性的word embeddings&＃xff0c;联合起来&＃xff0c;网络结构如下图。

Large-scale Video Classification with Convolutional Neural Networks提出了几种应用于视频分类的卷积神经网络结构&＃xff0c;在网络中体现时空信息。single frame&＃xff1a;就是把一帧帧的图像分别输入到CNN中去&＃xff0c;和普通的处理图像的CNN没有区别&＃xff1b;late fution&＃xff1a;把相聚L的两帧图像分别输入到两个CNN中去&＃xff0c;然后在最后一层连接到同一个full connect的softmax层上去&＃xff1b;early fution&＃xff1a;把连续L帧的图像叠在一起输入到一个CNN中去&＃xff1b;

slow fution&＃xff1a;通过在时间和空间维度增加卷积层&＃xff0c;从而提供更多的时空全局信息。如下图所示&＃xff1a;

另一方面&＃xff0c;为了提高训练速度&＃xff0c;这篇文章还提出Multiresolution CNNs&＃xff0c;分别将截取中间部分的图像和缩放的图像作为网络的输入&＃xff0c;如下图所示&＃xff1a;

这篇文章主要研究了卷积神经网络在大规模视频分类中的应用和表现。通过实验&＃xff0c;文章总结网络细节对于卷积神经网络的效果并不非常敏感。但总的来说&＃xff0c;slow fusion网络结构的效果更好。

从图像角度出发&＃xff0c;即从视频中提取一些帧&＃xff0c;通过对帧图像的分析&＃xff0c;进一步得出视频标签的结果。对图像的分析&＃xff0c;也可以转化为图像打标签或者图像描述问题。Visual-Tex: Video Tagging using Frame Captions&＃xff0c;先从视频中提取固定数量的帧&＃xff0c;用训练好的image to caption模型对图像生成描述。然后将文本描述组合起来&＃xff0c;提取文本特征并用分类方法进行分类&＃xff0c;得到tag结果。这篇文章对生成的描述&＃xff0c;对比了多种不同的特征和多种不同的分类方法。可见&＃xff0c;图像打标签对视频打标签有较大的借鉴意义。另一种思路&＃xff0c;CNN-RNN: A Unified Framework for Multi-label Image Classification可以看作将图像打标签问题转化为多分类问题。将卷积神经网络应用到多标签分类问题中的一个常用方法是转化为多个单标签的分类问题&＃xff0c;利用ranking loss或者cross-entropy loss进行训练。但这种方法往往忽略了标签之间的联系或者标签之间语义重复的问题。这篇文章设计了CNN-RNN的网络结构里&＃xff0c;并利用attention机制&＃xff0c;更好地体现标签间的相关性、标签间的冗余信息、图像中的物体细节等。网络结构主要如下图所示&＃xff0c;主要包括两个部分&＃xff1a;CNN部分提取图像的语义表达&＃xff0c;RNN部分主要获取图像和标签之间的关系和标签之间的依赖信息。

针对空间部分短视频数据&＃xff0c;笔者设计了一个简单的视频打标签的方案&＃xff0c;并进行了实验。由于预处理和算法细节的很多进一步改进和完善工作还没有进行&＃xff0c;在此只是提出一种思路和把实验结果简单地做个分享。

方法介绍&＃xff1a;

整体思路&＃xff1a;图片打标签 &＃61;> 视频打标签

也就是说&＃xff0c;对视频提取帧&＃xff0c;得到视频中的图片&＃xff1b;然后对图片进行打标签&＃xff1b;最后将视频中帧图片的标签进行整合&＃xff0c;得到视频标签。

1、从图片描述说起&＃xff1a;

图片描述典型框架&＃xff1a;利用deep convolutional neural network来encode 输入图像&＃xff0c;然后利用Long Short Term Memory(LSTM) RNN decoder来生成输出文本描述。

2、在打标签任务中&＃xff0c;我们把标签或类别组合&＃xff0c;构造成“描述”:

一级类别&＃43;二级类别&＃43;标签&＃xff08;重复的词语进行去重&＃xff09;

3、利用预训练和强化学习&＃xff0c;对训练样本图片和标签构造模型映射。

《Self-critical Sequence Training for Image Captioning》

网络模型有三种&＃xff1a;fc model&＃xff1b;topdown model&＃xff1b;att2in model&＃xff1b;模型细节见论文。

一般地&＃xff0c;给定输入图像和输出文本target&＃xff0c;,模型训练的过程为最小化cross entropy loss&＃xff08;maximum-likelihood training objective&＃xff09;:

利用self-critical policy gradient training algorithm&＃xff1a;

其中&＃xff0c;是reward funtion

通过根据每一个decoding time step的概率分布进行采样获得&＃xff0c;是baseline output&＃xff0c;通过最大化每一个decoding time step的概率分布输出获得&＃xff0c;也就是a greedy search。论文里提到&＃xff0c;利用CIDEr metric作为reward function&＃xff0c;效果最好。

4、根据视频帧图片的标签&＃xff0c;对视频打标签。具体有两种思路&＃xff1a;

记录视频提取的所有帧图片中每一个出现的标签&＃xff0c;以及标签出现的次数&＃xff08;有多少帧图片

被打上了这个标签&＃xff09;。按照出现次数排序。

1.将帧图片的最多前n个标签&＃xff0c;输出为视频标签。

2.将帧图片中&＃xff0c;出现次数大于阈值c的标签&＃xff0c;&＃xff0c;输出为视频标签。

数据示例&＃xff1a;

其中1class表示一级类别&＃xff0c;2class表示二级类别。

实验结果示例&＃xff1a;

截取一些实验结果展示如下&＃xff0c;其中output指模型输出的结果&＃xff0c;reference指人工标定的参考结果。

总的来说&＃xff0c;游戏类视频的数据量最大&＃xff0c;效果较好&＃xff1b;但具体不同英雄的视频数据如果不平衡&＃xff0c;也会影响算法结果。其他类型视频数据不算太稀疏的效果也不错&＃xff0c;长尾视频的效果不行。

总结&＃xff1a;

数据预处理、模型结构、损失函数、优化方法等各方面&＃xff0c;都还有很多值得根据视频打标签应用的实际情况进行调整的地方。后续再不断优化。方法和实验都还粗糙&＃xff0c;希望大家多批评指导。

此文已由作者授权腾讯云&＃43;社区在各渠道发布

获取更多新鲜技术干货&＃xff0c;可以关注我们腾讯云技术社区-云加社区官方号及知乎机构号

推荐阅读

io
Swing组件及其用法，图标接口的定义和创建方法

本文介绍了Swing组件的用法，重点讲解了图标接口的定义和创建方法。图标接口用来将图标与各种组件相关联，可以是简单的绘画或使用磁盘上的GIF格式图像。文章详细介绍了图标接口的属性和绘制方法，并给出了一个菱形图标的实现示例。该示例可以配置图标的尺寸、颜色和填充状态。 ... [详细]

蜡笔小新 2023-12-11 21:03:59
io
如何自行分析定位SAP BSP错误

The“BSPtag”Imentionedintheblogtitlemeansforexamplethetagchtmlb:configCelleratorbelowwhichi ... [详细]

蜡笔小新 2023-12-14 19:58:05
copy
PHP图片截取方法及应用实例

本文介绍了使用PHP动态切割JPEG图片的方法，并提供了应用实例，包括截取视频图、提取文章内容中的图片地址、裁切图片等问题。详细介绍了相关的PHP函数和参数的使用，以及图片切割的具体步骤。同时，还提供了一些注意事项和优化建议。通过本文的学习，读者可以掌握PHP图片截取的技巧，实现自己的需求。 ... [详细]

蜡笔小新 2023-12-14 16:44:09
io
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
io
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
io
ImagetoImage Translation with Conditional Adversarial Networks论文研究及应用

本文研究了使用条件对抗网络进行图片到图片翻译的方法，并提出了一种通用的解决方案。通过学习输入图像到输出图像的映射和训练相应的损失函数，我们可以解决需要不同损失函数公式的问题。实验证明该方法在合成图片、重构目标和给图片着色等多个问题上都很有效。这项工作的重要发现是不再需要人为构建映射函数和损失函数，同时能够得出合理的结果。本文的研究对于图片处理、计算机图片合成和计算机视觉等领域具有重要意义。 ... [详细]

蜡笔小新 2023-12-13 14:13:28
io
Html5-Canvas实现简易的抽奖转盘效果

本文介绍了如何使用Html5和Canvas标签来实现简易的抽奖转盘效果，同时使用了jQueryRotate.js旋转插件。文章中给出了主要的html和css代码，并展示了实现的基本效果。 ... [详细]

蜡笔小新 2023-12-13 06:02:20
io
C# WPF自定义按钮的方法

本文介绍了在C# WPF中实现自定义按钮的方法，包括使用图片作为按钮背景、自定义鼠标进入效果、自定义按压效果和自定义禁用效果。通过创建CustomButton.cs类和ButtonStyles.xaml资源文件，设计按钮的Style并添加所需的依赖属性，可以实现自定义按钮的效果。示例代码在ButtonStyles.xaml中给出。 ... [详细]

蜡笔小新 2023-12-13 04:22:57
filter
web.py开发web 第八章 Formalchemy 服务端验证方法

本文介绍了在web.py开发中使用Formalchemy进行服务端表单数据验证的方法。以User表单为例，详细说明了对各字段的验证要求，包括必填、长度限制、唯一性等。同时介绍了如何自定义验证方法来实现验证唯一性和两个密码是否相等的功能。该文提供了相关代码示例。 ... [详细]

蜡笔小新 2023-12-12 16:36:00
io
OpenMap教程4 – 图层概述

本文介绍了OpenMap教程4中关于地图图层的内容，包括将ShapeLayer添加到MapBean中的方法，OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外，还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]

蜡笔小新 2023-12-09 19:26:56
io
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新 2023-12-09 08:30:08
io
顾客信息表mysql_客户基本信息数据库表

{moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]

蜡笔小新 2023-10-17 23:09:27
io
IT十八掌作业_java基础第21天_mysql

感谢大家对IT十八掌大数据的支持，今天的作业如下：1.实践PreparedStament的CRUD操作。2.对比Statement和PreparedStatement的大批量操作耗时?(1 ... [详细]

蜡笔小新 2023-10-17 17:53:34
io
Docker系列七. Docker 安装Jenkins

Docker系列七.Docker安装JenkinsJenkins是一个开源软件项目，是基于Java开发的一种持续集成工具，用于监控持续重复的工作 ... [详细]

蜡笔小新 2023-10-15 14:14:47
copy
【用JS自制表格软件玩数据】8. 设计单元格中的右键菜单

右键菜单选项的设计效果图基本数据分析功能菜单的渲染模块右键菜单的样式最终结果当写完本系列后，我会把源代码分享出来给大家。本课程也会持续更新与矫正。欢迎留言指正 ... [详细]

蜡笔小新 2023-10-14 10:53:50

平凡特产小店

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章