当前位置: 开发笔记 > 后端 > 正文

重新标注ImageNet：多标签，全面提升模型性能

作者：无梗啦_671 | 来源：互联网 | 2023-07-06 08:13

本文转载自机器之心。作者：杜伟、魔王自发布以来，ImageNet数据集逐渐成为机器学习社区最流行的图像分类基准，但ImageNet自身存在

本文转载自机器之心。

作者&＃xff1a;杜伟、魔王

自发布以来&＃xff0c;ImageNet 数据集逐渐成为机器学习社区最流行的图像分类基准&＃xff0c;但 ImageNet 自身存在着标签噪声&＃xff0c;以及单标签标注属性与多类别样本之间的不匹配。所以在本文中&＃xff0c;韩国 Naver AI 实验室提出了一种新颖的重新标注策略以及一个基于额外源数据的强大图像分类器&＃xff0c;通过该策略训练的 ResNet 等多种架构都实现了性能提升。

ImageNet 是机器学习社区最流行的图像分类基准数据集&＃xff0c;包含超过 1400 万张标注图像。该数据集由斯坦福教授李飞飞等人于 2006 年开始创建&＃xff0c;后成为评估计算机视觉模型在下游视觉任务中能力的试金石。

然而 ImageNet 并不完美&＃xff0c;其标签存在大量噪声。近期多项研究表明&＃xff0c;该数据集中许多样本包含多个类别&＃xff0c;而 ImageNet 本身是一个单标签基准数据集。一些研究者提出将 ImageNet 转换为多标签任务评估基准&＃xff0c;但是可能是由于标注成本过高&＃xff0c;他们并未修复训练集。

在近日发布的一篇论文中&＃xff0c;来自韩国 NAVER AI LAB 的研究者认为&＃xff0c;在应用了随机剪裁的训练设置下&＃xff0c;单标签标注和高效多标签图像之间的不匹配带来了同等问题。在使用单标签标注时&＃xff0c;图像随机剪裁可能包含与真值完全不同的对象&＃xff0c;为训练带来噪声甚至不准确的监督信号。

为此&＃xff0c;这些研究者决定使用多标签对 ImageNet 训练集进行重新标注&＃xff1a;他们在额外的数据源上训练了一个强大的图像分类器&＃xff0c;使用其生成多标签&＃xff0c;解决了标注成本问题&＃xff1b;在最终池化层之前使用像素级多标签预测&＃xff0c;以充分利用额外的位置特定监督信号。

原始 ImageNet 标签&＃xff08;左上&＃xff09;与本文 ReLabel 标注器的效果对比。

基于重新标注样本的训练可以全面提升模型性能。例如&＃xff0c;使用该研究提出的局部多标签后&＃xff0c;ResNet-50 在 ImageNet 上的 top-1 分类准确率达到 78.9%&＃xff0c;使用 CutMix 正则化后还可以进一步提升至 80.2%。实验表明&＃xff0c;使用局部多标签训练的模型在迁移至目标检测和实例分割任务以及多种稳健性基准时&＃xff0c;性能优于基线方法。

此外&＃xff0c;研究者还开源了重新标注的 ImageNet 训练集、预训练权重和源代码。

论文地址&＃xff1a;https://arxiv.org/pdf/2101.05022.pdf
GitHub 地址&＃xff1a;https://github.com/naver-ai/relabel_imagenet

方法

这项研究提出了一种重新标注&＃xff08;re-labelling&＃xff09;策略 ReLabel&＃xff0c;以在 ImageNet 训练集上获得像素级真值标签。标签映射&＃xff08;&＃xff08;label map&＃xff09;&＃xff09;具有两个特征&＃xff1a;多类别标签和局部标签。研究者使用机器标注器&＃xff08;machine annotator&＃xff09;获得标签映射&＃xff0c;该标注器是在额外源数据上训练的 SOTA 图像分类器。研究者介绍了如何获得标签映射&＃xff0c;并提出了一个新颖的训练框架 LabelPooling&＃xff0c;以使用这类局部多标签训练图像分类器。

重新标注 ImageNet

研究者从机器标注器中获得密集真值标签&＃xff0c;从这类模型中获得的预测可能接近于人类预测。由于训练机器标注器需要访问专有训练数据并在 GPU 或 TPU 上训练数百天&＃xff0c;所以研究者采用开源训练权重作为机器标注器。

机器标注器如下图 4 所示&＃xff1a;

研究者注意到&＃xff0c;尽管机器标注器在 ImageNet 上使用单标签监督&＃xff08;softmax 交叉熵损失&＃xff09;进行训练&＃xff0c;但它们仍然倾向于对多类别图像进行多标签预测。所以&＃xff0c;如果数据集中存在大量的标签噪声&＃xff0c;则利用单标签交叉熵损失训练的模型倾向于预测多标签输出。

此外&＃xff0c;利用分类器获取标签还有一个好处&＃xff1a;提取位置特定的标签。研究者移除了分类器的全局平均池化层&＃xff0c;并将接下来的线性层转化为 1×1 的卷积层&＃xff0c;从而将该分类器转化为一个全卷积网络。然后&＃xff0c;模型的输出成为 f(x) ∈ R^W×H×C。研究者将该输出 f(x) 作为标签映射标注 L ∈ R^W×H×C。

利用密集多标签训练分类器

在获得上述密集多标签 L ∈ R^W×H×C 之后&＃xff0c;接下来需要考虑如何利用它们训练分类器。对此&＃xff0c;研究者提出了一种新颖的训练方案 LabelPooling&＃xff0c;它将局部真值考虑了进来。下图 3 展示了 LabelPooling 和原始 ImageNet 训练之间的区别&＃xff1a;

在标准 ImageNet 训练设置下&＃xff0c;随机剪裁的监督信号来自于每张图像的单标签真值。另一方面&＃xff0c;LabelPooling 会加载预计算的标签映射&＃xff0c;并在标签映射上执行与随机剪裁坐标相对应的区域池化操作。研究者采用了 RoIAlign 区域池化方法。

此外&＃xff0c;研究者在池化预测图上执行全局平均池化和 softmax 操作&＃xff0c;以获得多标签真值向量。最后&＃xff0c;研究者使用了交叉熵损失。

ReLabel 的伪代码。

实验

ImageNet 分类

为了验证 ReLabel 的效果&＃xff0c;研究者使用不同的网络架构和评估指标&＃xff08;包括近期提出的多标签评估指标&＃xff09;执行 ImageNet 分类任务。他们在包含 128 万训练图像和 5 万验证图像的 ImageNet-1K 基准上评估 ReLabel 策略。对于所有模型&＃xff0c;他们均使用标准数据增强技术&＃xff0c;如随机剪裁、翻转、色彩抖动。

与其他标签操纵方法的对比&＃xff1a;研究者对比了 ReLabel 与之前那些直接调整 ImageNet 标签的方法&＃xff0c;使用的模型是 ResNet50。结果参见下表 3&＃xff1a;

在不同网络架构上的结果&＃xff1a;研究者使用 ReLabel 训练了多个不同架构&＃xff08;包括 ResNet-18、ResNet101、EfficientNet-{B0,B1,B2,B3}、ReXNet&＃xff09;&＃xff0c;表明 ReLabel 可用于具备不同训练机制的多种网络。下表 4 展示了实验结果&＃xff0c;从中可以看出&＃xff0c;ReLabel 持续提升不同网络架构的性能&＃xff0c;例如将 EfficientNet-B3 的准确率从 81.7% 提升至 82.5%。

SOTA 性能&＃xff1a;ReLabel 对实现最优性能的其他训练技巧起到补充作用&＃xff0c;例如将 CutMix 正则化与 ReLabel 结合起来。研究者在随机剪裁图像上执行 CutMix&＃xff0c;然后根据 CutMix 算法将池化标签进行混合。实验结果参见下表 5&＃xff1a;ReLabel &＃43; CutMix 在以 ResNet-50 和 ResNet-101 作为主干模型的情况下&＃xff0c;均取得了 SOTA ImageNet top-1 准确率。

迁移学习

研究者还检验了 ReLabel 带来的 ImageNet 性能改进能否迁移至不同的下游任务&＃xff0c;展示了在五个细粒度分类任务、目标检测与实例分割任务上的结果。

细粒度分类任务&＃xff1a;研究者在五个细粒度分类任务&＃xff08;Food-101、Stanford Cars、DTD、FGVC Aircraft 和 Oxford Pets&＃xff09;上评估了使用 ReLabel 预训练的 ResNet-50 的性能。实验结果参见下表 8&＃xff1a;

目标检测与实例分割&＃xff1a;研究者分别使用具备特征金字塔网络的 Faster-RCNN 和 Mask-RCNN 作为目标检测和实例分割任务的 base 模型。Faster-RCNN 和 Mask-RCNN 的主干网络基于 ReLabel 预训练的 ResNet-50 模型进行初始化&＃xff0c;然后使用原始训练策略在 COCO 数据集上进行微调。实验结果参见下表 9&＃xff1a;

多标签分类

多标签训练常用随机剪裁作为数据增强方式&＃xff0c;在这种情况下&＃xff0c;ReLabel 和 LabelPooling 可以提供额外的局部监督信号&＃xff0c;帮助改善原始多标签训练集。研究者使用多标签分类数据集 COCO 进行实验&＃xff0c;然后使用基于标签映射的 LabelPooling 训练多标签分类器。

下表 10 展示了实验结果&＃xff1a;使用 ReLabel 和机器生成的标签地图后&＃xff0c;ResNet-50 和 ResNet-101 的 mAP 分别增长了 3.7 pp 和 2.4 pp&＃xff1b;使用 oracle 标签地图后&＃xff0c;二者的 mAP 分别增长了 4.2 pp 和 4.3 pp。

END

注明&＃xff1a;数据

数据标注与增广交流群

研究数据&＃xff0c;就是挖掘富矿&＃xff01;这里讨论标注与增广的一切。

我爱计算机视觉

微信号 : aicvml

QQ群&＃xff1a;805388940

微博/知乎&＃xff1a;&＃64;我爱计算机视觉

投稿&＃xff1a;amos&＃64;52cv.net

网站&＃xff1a;www.52cv.net

在看&＃xff0c;让更多人看到

推荐阅读

transform
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
transform
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
storage
大量研发销售产品设计市场岗位！

关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商，服务新产业周期的IoT&5G、边缘计算与云计算市场，交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]

蜡笔小新 2023-12-13 21:02:32
storage
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
storage
Support Paged.JS for automatic hugo resume> PDF conversion.

FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]

蜡笔小新 2023-12-13 11:52:05
java
Java项目管理工具及配置教程推荐

本文介绍了一些Java开发项目管理工具及其配置教程，包括团队协同工具worktil，版本管理工具GitLab，自动化构建工具Jenkins，项目管理工具Maven和Maven私服Nexus，以及Mybatis的安装和代码自动生成工具。提供了相关链接供读者参考。 ... [详细]

蜡笔小新 2023-12-13 06:45:16
http
Linux Shell中的括号和整数扩展使用方法

本文介绍了Linux Shell中括号和整数扩展的使用方法，包括命令组、命令替换、初始化数组以及算术表达式和逻辑判断的相关内容。括号中的命令将会在新开的子shell中顺序执行，括号中的变量不能被脚本余下的部分使用。命令替换可以用于将命令的标准输出作为另一个命令的输入。括号中的运算符和表达式符合C语言运算规则，可以用在整数扩展中进行算术计算和逻辑判断。 ... [详细]

蜡笔小新 2023-12-12 20:48:58
http
如何利用 Myflash 解析 binlog ?

本文主要介绍了对Myflash的测试，从准备测试环境到利用Myflash解析binl ... [详细]

蜡笔小新 2023-12-11 09:13:37
http
2016 linux发行版排行_灵越7590 安装 linux (manjarognome)

RT之前做了一次灵越7590黑苹果炒作业的文章，希望能够分享给更多不想折腾的人。kawauso：教你如何给灵越7590黑苹果抄作业zhuanlan.z ... [详细]

蜡笔小新 2023-12-10 19:11:07
http
手把手教你使用GraphPad Prism和Excel绘制回归分析结果的森林图

本文介绍了使用GraphPad Prism和Excel绘制回归分析结果的森林图的方法。通过展示森林图，可以更加直观地将回归分析结果可视化。GraphPad Prism是一款专门为医学专业人士设计的绘图软件，同时也兼顾统计分析的功能，操作便捷，可以帮助科研人员轻松绘制出高质量的专业图形。文章以一篇发表在JACC杂志上的研究为例，利用其中的多因素回归分析结果来绘制森林图。通过本文的指导，读者可以学会如何使用GraphPad Prism和Excel绘制回归分析结果的森林图。 ... [详细]

蜡笔小新 2023-12-10 18:32:57
python
通过Anaconda安装tensorflow，并安装运行spyder编译器的完整教程

本文提供了一个完整的教程，介绍了如何通过Anaconda安装tensorflow，并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统，并提供了相关的网址供参考。通过本教程，读者可以轻松地安装和配置tensorflow环境，以及运行spyder编译器进行开发。 ... [详细]

蜡笔小新 2023-12-09 09:46:32
python
imx6ull开发板驱动MT7601U无线网卡的方法和步骤详解

本文详细介绍了在imx6ull开发板上驱动MT7601U无线网卡的方法和步骤。首先介绍了开发环境和硬件平台，然后说明了MT7601U驱动已经集成在linux内核的linux-4.x.x/drivers/net/wireless/mediatek/mt7601u文件中。接着介绍了移植mt7601u驱动的过程，包括编译内核和配置设备驱动。最后，列举了关键词和相关信息供读者参考。 ... [详细]

蜡笔小新 2023-12-13 12:34:44
ruby
Java中闭包的争论以及闭包的定义和特性

闭包一直是Java社区中争论不断的话题，很多语言都支持闭包这个语言特性，闭包定义了一个依赖于外部环境的自由变量的函数，这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例，介绍了闭包的定义和特性。 ... [详细]

蜡笔小新 2023-12-13 10:46:54
ruby
华为鸿蒙系统官网2.0报名方法及适用设备

本文介绍了华为鸿蒙系统官网2.0报名的适用设备、报名方法以及三种方式，包括在应用商店下载开发者联盟app、在官网中进行报名、在微信公众号中申请体验HarmonyOS 2.0 手机开发者Beta版本。同时提醒错过测试机会的用户可以等待后续的正式版发布。 ... [详细]

蜡笔小新 2023-12-11 17:17:32
java
Java 11相对于Java 8，OptaPlanner性能提升有多大？

本文通过基准测试比较了Java 11和Java 8对OptaPlanner的性能提升。测试结果表明，在相同的硬件环境下，Java 11相对于Java 8在垃圾回收方面表现更好，从而提升了OptaPlanner的性能。 ... [详细]

蜡笔小新 2023-12-11 10:59:22

无梗啦_671

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章