热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

OWOD:开放世界目标检测,更贴近现实的检测场景

不同于以往在固定数据集上测试性能,论文提出了一个更符合实际的全新检测场景OpenWorldObjectDetection,需要同时识别出未知类别和已知类别,并不断地进行增量学

不同于以往在固定数据集上测试性能,论文提出了一个更符合实际的全新检测场景Open World Object Detection,需要同时识别出未知类别和已知类别,并不断地进行增量学习。论文还给出了ORE解决方案,通过对比聚类和基于能量的分类器来进行开放开放世界的检测训练

来源:晓飞的算法工程笔记 公众号

论文: Towards Open World Object Detection


  • 论文地址:https://arxiv.org/abs/2103.02603

  • 论文代码:https://github.com/JosephKJ/OWOD


Introduction

  常见的目标检测算法都针对特定的数据集进行训练,学习固定数量的类别,用于特定的场景。而论文则讨论一个更现实的场景,开放世界目标检测(Open World Object Detection)。在这个场景中,算法需要解决非目标误识别问题以及具备增量学习的能力。

  将检测模型应用到开放世界中,除了识别指定类别的目标,还要将非目标类别区别为Unknow,称为Open Set Learning,这需要很强的泛化能力。而Open World Object Detection场景的要求会比Open Set Learning更进一步,当Unknow样本足够时,可随时将Unknow样本打上标签加入到目标类别中,即增量学习。这样的场景设定更为现实,更有助于算法落地,比如机器人、自动驾驶以及监控等需要在运行中不断进行优化的应用。
  论文的主要贡献如下:


  • 定义了Open World Object Detection问题,更贴近现实生活。

  • 提出ORE算法,基于对比聚类(contrastive clustering)、可框出未知类别的检测网络(unknown-aware proposal network)、能量分类器(energy based unknown identification)来解决Open World Object Detection上的问题。

  • 设计了完备的实验,用于衡量算法在Open World Object Detection上的性能。

  • 作为论文的副产品,ORE在增量学习任务上达到了SOTA,而且还有很大的提升空间。


Open World Object Detection

  首先定义Open World Object Detection的环境,在\(t\)时刻,已知的目标类别为\(\mathcal{K}^t=\{1,2,\cdots,C\} \subset{\mathbb{N}^{+}}\),其中\(\mathbb{N}^{+}\)为所有正整数,未知的类别为\(\mathcal{U}=\{C+1,\cdots\}\)\(\mathcal{K}\)的训练集为\(\mathcal{D}^t=\{X^t,Y^t\}\)\(X=\{I_1,\cdots,I_M\}\)\(Y=\{Y_1,\cdots,Y_M\}\)分别为图片和标注信息,其中每张图片的\(Y_i=\{y_1,y_2,\cdots,y_K\}\)包含了多个目标实例,每个实例都有其标签和位置信息。
  在Open World Object Detection的设定中,模型\(M_C\)用于检测所有的\(C\)个已知类别,同时可以将为未知的目标标记为未知(0),未知的实例集合\(U_t\)经过专人筛选后得出\(n\)个样本足够的新类别,然后通过增量学习地获取模型\(M_{C+n}\),已知类别更新为\(\mathcal{K}_{t+1}=\mathcal{K}_t+\{C+1,\cdots,C+n\}\)。不停地循环执行上述的步骤,模型就可以不停地迭代其类别。

ORE: Open World Object Detector

  Open World Object Detection的关键在于能够无监督地识别未知类别,以及加入新类别时不会遗忘先前的类别。为了解决上述问题,论文提出了ORE解决方案。

  图2为ORE的高层抽象,以两阶段检测器Faster R-CNN作为基础检测器。在第一阶段,检测器可通过类不可知的RPN给出可能存在物体的所有区域,而在第二阶段,将上述的每个区域进行分类和位置调整。为了更好的适应Open World Object Detection,ORE对RPN和分类器都进行了相应的改进,适应自动打标签和识别未知类的需求。

Contrastive Clustering

  将Open World中区分未知类问题转化为对比聚类问题是个不错的选择,在特征空间上进行类别分割,同类别的实例会尽量的靠近,而不相似的类别则会尽量的远离。对于每个已知类\(i \in \mathcal{K}^t\),维护一个原型向量\(p_i\),假设\(f_c\in \mathbb{R}^d\)为类别\(c\)的中间层特征,对应图2的ROI Head中的蓝色2048维特征,定义对比损失为:

\(\mathcal{D}\)为距离函数,\(\Delta\)为相似阈值,不同类别实例间的距离要大于该阈值。在训练时,通过最小化对比损失来保证特征空间上的类别分割。需要注意的是,对比聚类的关键步骤是维护各类别的原型向量集合\(\mathcal{P}=\{p_0,\cdots,p_C\}\),一般取该类别的特征向量的均值。但由于整个网络是端到端训练的,特征向量也在不断地变化,原型向量也会跟着不断变化。为了适应这个特性,ORE为每个类维护了一个固定大小的特征队列\(\mathcal{F}_{store}=\{q_0,\cdots,q_C\}\),用来存储最新的特征向量。

  对比损失的计算过程如算法1所示,为了保证原型向量有相对的准确性,仅当超过一定迭代次数\(I_b\)之后才开始计算损失值,之后每\(I_b*n\)次迭代就以动量的形式更新一次原型向量。这样可以避免原型向量变化过大的问题,得到的损失值添加到检测损失值中进行端到端的学习。

Auto-labelling Unknowns with RPN

  在对比聚类中,未知类别也有其对应的原型向量\(p_0\),按正常的流程,需要对图片中的所有未知类别进行标注,以便归类特征,显然这是不现实的。所以论文采用RPN的预测框输出作为一个未知目标标注的折衷选择,将预测框中objectness分数高且与GT无重叠的top-K部分直接归类为未知目标,将其特征加入到未知列表的特征队列\(q_0\)中。

Energy Based Unknown Identifier

  由于Opern World Detection场景包含未知类别的特性,传统的softmax分类器可能会给出不可控的结果,所以论文采用了基于能量的分类器(EBM),能够学习输入特征与标签之间的匹配程度,用来识别未知目标。给定特征\(f \in F\)与标签\(l\in L\),学习一个能量函数\(E(F,L)\),能够通过\(E(f):\mathbb{R}^d\to\mathbb{R}\)得到一个能用于描述特征与标签之间的匹配程度的标量(即能量)。这里,论文采用了Helmholtz free energy公式计算所有标签的结果之和:

\(T\)是温度参数。通过Gibbs分布,可以将各标签的能量转化成类似softmax那样的效果:

\(p(l|f)\)为标签\(l\)的概率密度函数,\(g_l(f)\)为分类头\(g(\cdot)\)的第\(l^{th}\)个分类单元。根据公式3的对应关系,论文得到了用于分类模型的free energy公式:

  由于ORE用了对比聚类对特征进行分割,已知类别的能量值和未知类别的能量值也有明显的差别。对已知类别和未知类别的能量值分布进行shifted Weibull distributions建模,得到\(\xi_{kn}(f)\)\(\xi_{unk}(f)\),如图3所示。当\(\xi_{kn}(f) <\xi_{unk}(f)\)时,可认为该目标属于未知类别。

Alleviating Forgetting

  在对识别出来的未知目标进行标注后,得到了新的数据集,如果将所有数据集混合重新训练会很耗时且不够灵活,所以只能使用新数据集进行增量学习,这就需要解决新类别训练对旧类别识别效果的影响。
  论文参照了增量学习的SOTA方法,使用简单的样本回放策略来保证旧类别的效果,先构造一个小的样本集(exemplar set),包含每个类别的\(N_{ex}\)个样本,每次使用全量新数据集进行增量学习后,都使用小样本集进行一次finetune训练,这样就能很好地保证旧类别的效果而且不耗时。

Experiment


Open World Evaluation Protocol

  由于是一个全新的任务场景,论文也对实验进行了一些描述。

Data split

  将所有类别分成多个任务\(\mathcal{T}=\{T_1, \cdots, T_t, \cdots\}\),具体的类别来源如表1所示。在特定的时间\(t\)将特定的任务\(T_t\)投放到场景中,类别\(\{T_{\tau}: \tau 作为已知类别,而类别\(\{T_{\tau}: \tau > t\}\)则作为未知类别。

Evaluation metrics

  由于未知目标容易识别成已知类别,使用Wilderness Impact(WI)指标来衡量这种表现:

\(P_{\mathcal{K}}\)为在已知类别的验证集上的准确率,\(P_{\mathcal{K}\cup \mathcal{U}}\)为在已知类别和未知类别的验证集上的准确率,上述的准确率都是在0.8召回率下对应的值。理想情况下,WI的值越小越好,表明未知类别对准确率的干扰很少。此外,还使用Absolute Open-Set Error(A-OSE)来表示未知类别识别成已知类别的绝对数量,再加上目标检测常用的map指标。

Open World Object Detection Results

  上述是一个主要的实验结果,论文还有很多对比实验,有兴趣的可以去看看。

Conclusion

  不同于以往在固定数据集上测试性能,论文提出了一个更符合实际的全新检测场景Open World Object Detection,需要同时识别出未知类别和已知类别,并不断地进行增量学习。论文还给出了ORE解决方案,通过对比聚类和基于能量的分类器来进行开放开放世界的检测训练。



如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】


推荐阅读
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 如何用UE4制作2D游戏文档——计算篇
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
  • WPF之Binding初探
      初学wpf,经常被Binding搞晕,以下记录写Binding的基础。首先,盗用张图。这图形象的说明了Binding的机理。对于Binding,意思是数据绑定,基本用法是:1、 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • Java太阳系小游戏分析和源码详解
    本文介绍了一个基于Java的太阳系小游戏的分析和源码详解。通过对面向对象的知识的学习和实践,作者实现了太阳系各行星绕太阳转的效果。文章详细介绍了游戏的设计思路和源码结构,包括工具类、常量、图片加载、面板等。通过这个小游戏的制作,读者可以巩固和应用所学的知识,如类的继承、方法的重载与重写、多态和封装等。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 解决Cydia数据库错误:could not open file /var/lib/dpkg/status 的方法
    本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件,以及ifunbox工具和终端命令,可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中,并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • CF:3D City Model(小思维)问题解析和代码实现
    本文通过解析CF:3D City Model问题,介绍了问题的背景和要求,并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景,每个网格单元可以作为建筑的基础,建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路,并给出了相应的代码实现供读者参考。 ... [详细]
  • github上_idea上传本地项目到github上(图解)
    本文由编程笔记#小编为大家整理,主要介绍了idea上传本地项目到github上(图解)相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 标题: ... [详细]
  • 本文介绍了Android 7的学习笔记总结,包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容,并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同,否则会出现问题。 ... [详细]
  • Python教学练习二Python1-12练习二一、判断季节用户输入月份,判断这个月是哪个季节?3,4,5月----春 ... [详细]
author-avatar
浮夸诗人_219
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有