当前位置: 开发笔记 > 编程语言 > 正文

深度神经网络自监督视觉特征综述

作者：batman@zhou | 来源：互联网 | 2023-10-10 05:04

点上方人工智能算法与Python大数据获取更多干货在右上方设为星标★，第一时间获取资源仅做学术分享，如有侵权，联系删除转载于：

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★，第一时间获取资源

仅做学术分享，如有侵权，联系删除

转载于：专知

自监督学习是关注的热点问题之一，来自TPAMI最新的综述论文《深度神经网络自监督视觉特征学习》对自监督视觉特征学习做了全面调研概述，值的关注!

摘要：

为了在计算机视觉应用中学习得到更好的图像和视频特征，通常需要大规模的标记数据来训练深度神经网络。为了避免收集和标注大量的数据所需的巨大开销，作为无监督学习方法的一个子方法——自监督学习方法，可以在不使用任何人类标注的标签的情况下，从大规模无标记数据中学习图像和视频的一般性特征。本文对基于深度学习的自监督一般性视觉特征学习方法做了综述。首先，描述了该领域的动机和一些专业性术语。在此基础上，总结了常用的用于自监督学习的深度神经网络体系结构。接下来，回顾了自监督学习方法的模式和评价指标，并介绍了常用的图像和视频数据集以及现有的自监督视觉特征学习方法。最后，总结和讨论了基于标准数据集的性能比较方法在图像和视频特征学习中的应用。

https://ieeexplore.ieee.org/document/9086055

https://www.zhuanzhi.ai/paper/0e9852bb57c7fe00cc59723fc0ee899f

引言

由于深度神经网络具有学习不同层次一般视觉特征的强大能力，它已被作为基本结构应用于许多计算机视觉应用，如目标检测[1]、[2]、[3]、语义分割[4]、[5]、[6]、图像描述[7]等。从像ImageNet这样的大规模图像数据集训练出来的模型被广泛地用作预训练模型和用于其他任务的微调模型，主要有两个原因:(2)在大规模数据集上训练的网络已经学习了层次特征，有助于减少在训练其他任务时的过拟合问题;特别是当其他任务的数据集很小或者训练标签很少的时候。

深度卷积神经网络(ConvNets)的性能在很大程度上取决于其能力和训练数据量。为了增加网络模型的容量，人们开发了不同类型的网络架构，收集的数据集也越来越大。各种网络，包括AlexNet [9]， VGG [10]， GoogLeNet [11]， ResNet [12]， DenseNet[13]和大规模数据集，如ImageNet [14]， OpenImage[15]已经被提出训练非常深的ConvNets。通过复杂的架构和大规模的数据集，ConvNets的性能在许多计算机视觉任务[1]，[4]，[7]，[16]，[17]，[18]方面不断突破先进水平。

然而，大规模数据集的收集和标注是费时和昂贵的。ImageNet[14]是pre-training very deep 2D convolutional neural networks (2DConvNets)中应用最广泛的数据集之一，包含约130万张已标记的图像，覆盖1000个类，而每一幅图像由人工使用一个类标签进行标记。与图像数据集相比，视频数据集由于时间维度的原因，其采集和标注成本较高。Kinetics数据集[19]主要用于训练ConvNets进行视频人体动作识别，该数据集由50万个视频组成，共600个类别，每个视频时长约10秒。许多Amazon Turk工作人员花了大量时间来收集和注释如此大规模的数据集。

为了避免费时和昂贵的数据标注，提出了许多自监督方法来学习大规模无标记图像或视频的视觉特征，而不需要任何人工标注。一种流行的解决方案是提出各种各样的前置任务让网络来解决，通过学习前置任务的目标函数来训练网络，通过这个过程来学习特征。人们提出了各种各样的自监督学习任务，包括灰度图像着色[20]、图像填充[21]、玩图像拼图[22]等。藉口任务有两个共同的特性:(1)图像或视频的视觉特征需要被ConvNets捕捉来解决前置任务;(2)监控信号是利用数据本身的结构(自我监控)产生的。

自监督学习的一般流程如图1所示。在自监督训练阶段，为ConvNets设计预定义的前置任务，并根据数据的某些属性自动生成前置任务的伪标签。然后训练卷积神经网络学习任务的目标函数。当使用前置任务进行训练时，ConvNet的较浅的块集中于低级的一般特征，如角、边和纹理，而较深的块集中于高级任务特定的特征，如对象、场景和对象部分[23]。因此，通过藉由任务训练的ConvNets可以学习内核来捕获低级特征和高级特征，这对其他下游任务是有帮助的。在自监督训练结束后，学习到的视觉特征可以作为预训练的模型进一步转移到下游任务中(特别是在数据相对较少的情况下)，以提高性能和克服过拟合。通常，在有监督的下游任务训练阶段，仅从前几层传递视觉特征。

自监督学习的前置任务可以分为四类：

（1）Generation-based Methods（基于生成的）

Image Generation（图像生成）：图像着色、图像超分辨率（指由一幅低分辨率图像或图像序列恢复出高分辨率图像）、图像修复、用GANs生成图像

Video Generation（视频生成）：利用GANs进行视频的生成及预测

（2）Context-based pretext tasks（基于上下文的）

Context Similarity（上下文相似度）：根据图像补丁之间的上下文相似性设计前置任务，包括基于图像聚类的方法（image clustering-based methods）和基于图像约束的方法（ graph constraint-based methods）。

Spatial Context Structure（空间上下文结构）：基于图像补丁之间的空间关系，包括图像拼图（image jigsaw puzzle）、上下文预测（context prediction）、几何变换识别（geometric transformation recognition）。

Temporal Context Structure（时间上下文结构）：来自视频的时间顺序用作监视信号。对ConvNet进行训练，以验证输入帧序列是否以正确的顺寻或识别帧序列的顺序。

（3）Free semantic label-based（基于自动生成语义标签的方法）

使用自动生成的语义标签来训练网络，标签是由传统的硬编码算法或游戏引擎生成的。包括运动对象分割（moving object segmentation）、轮廓检测（contour detection）、相对深度预测（relative depth prediction）。

（4）Cross modal-based（基于跨模态的方法）

这种前置任务训练ConvNet验证两个不同的输入数据通道是否彼此对应。包括视觉-音频对应验证（Visual-Audio Correspondence Verification）、RGB流对应验证（RGB-Flow Correspondence Verification）、自我感应（egomotion）。

---------♥---------

声明：本内容来源网络，版权属于原作者

图片来源网络，不代表本公众号立场。如有侵权，联系删除

AI博士私人微信，还有少量空位

如何画出漂亮的深度学习模型图？

如何画出漂亮的神经网络图？

一文读懂深度学习中的各种卷积

点个在看支持一下吧

推荐阅读

java
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
int
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
java
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
java
Java学习笔记之面向对象编程（OOP）

本文介绍了Java学习笔记中的面向对象编程（OOP）内容，包括OOP的三大特性（封装、继承、多态）和五大原则（单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则）。通过学习OOP，可以提高代码复用性、拓展性和安全性。 ... [详细]

蜡笔小新 2023-12-13 08:44:30
java
Java太阳系小游戏分析和源码详解

本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践，作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构，包括工具类、常量、图片加载、面板等。通过这个小游戏的制作，读者可以巩固和应用所学的知识，如类的继承、方法的重载与重写、多态和封装等。 ... [详细]

蜡笔小新 2023-12-14 19:53:34
java
Java序列化对象传给PHP的方法及原理解析

本文介绍了Java序列化对象传给PHP的方法及原理，包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用，以及代码执行序列化所需要的权限。最后指出，序列化会将对象实例的所有字段都进行序列化，使得数据能够被表示为实例的序列化数据，但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]

蜡笔小新 2023-12-14 15:25:15
int
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
java
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
int
SpringJdbcTemplate的使用详解

本文详细介绍了Spring的JdbcTemplate的使用方法，包括执行存储过程、存储函数的call()方法，执行任何SQL语句的execute()方法，单个更新和批量更新的update()和batchUpdate()方法，以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]

蜡笔小新 2023-12-13 14:27:11
int
UVALive6575 Odd and Even Zeroes 数位dp+找规律

本文介绍了UVALive6575题目Odd and Even Zeroes的解法，使用了数位dp和找规律的方法。阶乘的定义和性质被介绍，并给出了一些例子。其中，部分阶乘的尾零个数为奇数，部分为偶数。 ... [详细]

蜡笔小新 2023-12-13 14:19:28
int
用SQL语句怎么把已存在的列加上IDENTITY(1,1)属性

ALTERTABLE通过更改、添加、除去列和约束，或者通过启用或禁用约束和触发器来更改表的定义。语法ALTERTABLEtable{[ALTERCOLUMNcolu ... [详细]

蜡笔小新 2023-12-13 09:49:28
int
clone的fork与pthread_create创建线程有何不同

本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境，其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时，子进程只是完全复制父进程的资源，这样得到的子进程独立于父进程，具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制，另外通过fork创建子进程系统开销很大。因此，在某些情况下，使用clone或pthread_create创建线程可能更加高效。 ... [详细]

蜡笔小新 2023-12-12 20:00:06
int
通过Go SDK（Amazon S3）从Bucket生成Torrent - Generate Torrent from Bucket via Go SDK (Amazon S3)

Imtryingtofigureoutawaytogeneratetorrentfilesfromabucket,usingtheAWSSDKforGo.我正 ... [详细]

蜡笔小新 2023-12-12 14:13:01
int
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
java
OpenMap教程4 – 图层概述

本文介绍了OpenMap教程4中关于地图图层的内容，包括将ShapeLayer添加到MapBean中的方法，OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外，还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]

蜡笔小新 2023-12-09 19:26:56

batman@zhou

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章