热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

重新标注ImageNet:多标签,全面提升模型性能

本文转载自机器之心。作者:杜伟、魔王自发布以来,ImageNet数据集逐渐成为机器学习社区最流行的图像分类基准,但ImageNet自身存在

本文转载自机器之心。

作者:杜伟、魔王

自发布以来,ImageNet 数据集逐渐成为机器学习社区最流行的图像分类基准,但 ImageNet 自身存在着标签噪声,以及单标签标注属性与多类别样本之间的不匹配。所以在本文中,韩国 Naver AI 实验室提出了一种新颖的重新标注策略以及一个基于额外源数据的强大图像分类器,通过该策略训练的 ResNet 等多种架构都实现了性能提升。

ImageNet 是机器学习社区最流行的图像分类基准数据集,包含超过 1400 万张标注图像。该数据集由斯坦福教授李飞飞等人于 2006 年开始创建,后成为评估计算机视觉模型在下游视觉任务中能力的试金石。

然而 ImageNet 并不完美,其标签存在大量噪声。近期多项研究表明,该数据集中许多样本包含多个类别,而 ImageNet 本身是一个单标签基准数据集。一些研究者提出将 ImageNet 转换为多标签任务评估基准,但是可能是由于标注成本过高,他们并未修复训练集

在近日发布的一篇论文中,来自韩国 NAVER AI LAB 的研究者认为,在应用了随机剪裁的训练设置下,单标签标注和高效多标签图像之间的不匹配带来了同等问题。在使用单标签标注时,图像随机剪裁可能包含与真值完全不同的对象,为训练带来噪声甚至不准确的监督信号。

为此,这些研究者决定使用多标签对 ImageNet 训练集进行重新标注:他们在额外的数据源上训练了一个强大的图像分类器,使用其生成多标签,解决了标注成本问题;在最终池化层之前使用像素级多标签预测,以充分利用额外的位置特定监督信号。

原始 ImageNet 标签(左上)与本文 ReLabel 标注器的效果对比。

基于重新标注样本的训练可以全面提升模型性能。例如,使用该研究提出的局部多标签后,ResNet-50 在 ImageNet 上的 top-1 分类准确率达到 78.9%,使用 CutMix 正则化后还可以进一步提升至 80.2%。实验表明,使用局部多标签训练的模型在迁移至目标检测和实例分割任务以及多种稳健性基准时,性能优于基线方法。

此外,研究者还开源了重新标注的 ImageNet 训练集、预训练权重和源代码。

  • 论文地址:https://arxiv.org/pdf/2101.05022.pdf

  • GitHub 地址:https://github.com/naver-ai/relabel_imagenet

方法

这项研究提出了一种重新标注(re-labelling)策略 ReLabel,以在 ImageNet 训练集上获得像素级真值标签。标签映射((label map))具有两个特征:多类别标签和局部标签。研究者使用机器标注器(machine annotator)获得标签映射,该标注器是在额外源数据上训练的 SOTA 图像分类器。研究者介绍了如何获得标签映射,并提出了一个新颖的训练框架 LabelPooling,以使用这类局部多标签训练图像分类器。

重新标注 ImageNet

研究者从机器标注器中获得密集真值标签,从这类模型中获得的预测可能接近于人类预测。由于训练机器标注器需要访问专有训练数据并在 GPU 或 TPU 上训练数百天,所以研究者采用开源训练权重作为机器标注器。

机器标注器如下图 4 所示:

研究者注意到,尽管机器标注器在 ImageNet 上使用单标签监督(softmax 交叉熵损失)进行训练,但它们仍然倾向于对多类别图像进行多标签预测。所以,如果数据集中存在大量的标签噪声,则利用单标签交叉熵损失训练的模型倾向于预测多标签输出。

此外,利用分类器获取标签还有一个好处:提取位置特定的标签。研究者移除了分类器的全局平均池化层,并将接下来的线性层转化为 1×1 的卷积层,从而将该分类器转化为一个全卷积网络。然后,模型的输出成为 f(x) ∈ R^W×H×C。研究者将该输出 f(x) 作为标签映射标注 L ∈ R^W×H×C。

利用密集多标签训练分类器

在获得上述密集多标签 L ∈ R^W×H×C 之后,接下来需要考虑如何利用它们训练分类器。对此,研究者提出了一种新颖的训练方案 LabelPooling,它将局部真值考虑了进来。下图 3 展示了 LabelPooling 和原始 ImageNet 训练之间的区别:

在标准 ImageNet 训练设置下,随机剪裁的监督信号来自于每张图像的单标签真值。另一方面,LabelPooling 会加载预计算的标签映射,并在标签映射上执行与随机剪裁坐标相对应的区域池化操作。研究者采用了 RoIAlign 区域池化方法。

此外,研究者在池化预测图上执行全局平均池化和 softmax 操作,以获得多标签真值向量。最后,研究者使用了交叉熵损失。

ReLabel 的伪代码。

实验

ImageNet 分类

为了验证 ReLabel 的效果,研究者使用不同的网络架构和评估指标(包括近期提出的多标签评估指标)执行 ImageNet 分类任务。他们在包含 128 万训练图像和 5 万验证图像的 ImageNet-1K 基准上评估 ReLabel 策略。对于所有模型,他们均使用标准数据增强技术,如随机剪裁、翻转、色彩抖动。

与其他标签操纵方法的对比:研究者对比了 ReLabel 与之前那些直接调整 ImageNet 标签的方法,使用的模型是 ResNet50。结果参见下表 3:

在不同网络架构上的结果:研究者使用 ReLabel 训练了多个不同架构(包括 ResNet-18、ResNet101、EfficientNet-{B0,B1,B2,B3}、ReXNet),表明 ReLabel 可用于具备不同训练机制的多种网络。下表 4 展示了实验结果,从中可以看出,ReLabel 持续提升不同网络架构的性能,例如将 EfficientNet-B3 的准确率从 81.7% 提升至 82.5%。

SOTA 性能:ReLabel 对实现最优性能的其他训练技巧起到补充作用,例如将 CutMix 正则化与 ReLabel 结合起来。研究者在随机剪裁图像上执行 CutMix,然后根据 CutMix 算法将池化标签进行混合。实验结果参见下表 5:ReLabel + CutMix 在以 ResNet-50 和 ResNet-101 作为主干模型的情况下,均取得了 SOTA ImageNet top-1 准确率。

迁移学习

研究者还检验了 ReLabel 带来的 ImageNet 性能改进能否迁移至不同的下游任务,展示了在五个细粒度分类任务、目标检测与实例分割任务上的结果。

细粒度分类任务:研究者在五个细粒度分类任务(Food-101、Stanford Cars、DTD、FGVC Aircraft 和 Oxford Pets)上评估了使用 ReLabel 预训练的 ResNet-50 的性能。实验结果参见下表 8:

目标检测与实例分割:研究者分别使用具备特征金字塔网络的 Faster-RCNN 和 Mask-RCNN 作为目标检测和实例分割任务的 base 模型。Faster-RCNN 和 Mask-RCNN 的主干网络基于 ReLabel 预训练的 ResNet-50 模型进行初始化,然后使用原始训练策略在 COCO 数据集上进行微调。实验结果参见下表 9:

多标签分类

多标签训练常用随机剪裁作为数据增强方式,在这种情况下,ReLabel 和 LabelPooling 可以提供额外的局部监督信号,帮助改善原始多标签训练集。研究者使用多标签分类数据集 COCO 进行实验,然后使用基于标签映射的 LabelPooling 训练多标签分类器。

下表 10 展示了实验结果:使用 ReLabel 和机器生成的标签地图后,ResNet-50 和 ResNet-101 的 mAP 分别增长了 3.7 pp 和 2.4 pp;使用 oracle 标签地图后,二者的 mAP 分别增长了 4.2 pp 和 4.3 pp。

END

注明:数据

数据标注与增广交流群

研究数据,就是挖掘富矿!这里讨论标注与增广的一切。

我爱计算机视觉

微信号 : aicvml

QQ群:805388940

微博/知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  



推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 企业数据应用挑战及元数据管理的重要性
    本文主要介绍了企业在日常经营管理过程中面临的数据应用挑战,包括数据找不到、数据读不懂、数据不可信等问题。针对这些挑战,通过元数据管理可以实现数据的可见、可懂、可用,帮助业务快速获取所需数据。文章提出了“灵魂”三问——元数据是什么、有什么用、又该怎么管,强调了元数据管理在企业数据治理中的基础和前提作用。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 本文介绍了Linux系统中正则表达式的基础知识,包括正则表达式的简介、字符分类、普通字符和元字符的区别,以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别,并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式,并提供了学习的参考资料。 ... [详细]
  • jmeter实践:从csv中获取带引号的数据详情的技巧和运行全部数据的方法
    本文分享了jmeter实践中从csv中获取带引号的数据的解决办法,包括设置CSV Data Set Config和运行脚本获取数据的方法。另外还介绍了循环运行csv中全部数据的解决方法,避免每次修改csv用例都需要修改脚本的麻烦。通过了解和掌握工具的细节点,可以更好地解决问题和提高技术水平。 ... [详细]
  • 分享2款网站程序源码/主题等后门检测工具
    本文介绍了2款用于检测网站程序源码和主题中是否存在后门的工具,分别是WebShellkiller和D盾_Web查杀。WebShellkiller是一款支持webshell和暗链扫描的工具,采用多重检测引擎和智能检测模型,能够更精准地检测出已知和未知的后门文件。D盾_Web查杀则使用自行研发的代码分析引擎,能够分析更为隐藏的WebShell后门行为。 ... [详细]
  • 本文介绍了Linux Shell中括号和整数扩展的使用方法,包括命令组、命令替换、初始化数组以及算术表达式和逻辑判断的相关内容。括号中的命令将会在新开的子shell中顺序执行,括号中的变量不能被脚本余下的部分使用。命令替换可以用于将命令的标准输出作为另一个命令的输入。括号中的运算符和表达式符合C语言运算规则,可以用在整数扩展中进行算术计算和逻辑判断。 ... [详细]
  • 技嘉秀高端B450主板:不再支持第七代APU,性价比高且兼容锐龙一代和二代
    在台北电脑展上,技嘉展示了一款高端的B450主板,型号为“b450 aorus pro wi-fi”。该主板具有10+1相供电、散热片覆盖的供电区域和芯片组,以及两个m.2插槽和背部IO挡板。虽然不支持第七代APU bristol ridge,但它兼容锐龙一代和二代,且具有较高的性价比。该主板还配备了音频声卡、Wi-Fi无线网卡等功能,是一款性能出色且设计精良的主板。 ... [详细]
  • TCL华星成功研制出全球最窄LCD下边框模组产品
    TCL华星成功研制出全球最窄LCD下边框模组产品,该模组下边框较现有规格减小20%。面板技术和工艺的不断演变使得手机屏幕的左、右、上三边边框已达到极致规格,但下边框仍然是影响屏幕屏占比的最大因素。为了突破下边框的技术难题,TCL华星成立了专项技术团队,经过2年的攻关,他们通过创新的IC设计、面板设计、制程工艺等方面的突破,将LCD模组下边框压缩至全球最小2.4mm。 ... [详细]
author-avatar
无梗啦_671
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有