当前位置: 开发笔记 > 编程语言 > 正文

softanchorpointobjectdetection论文笔记

作者：可爱的嗨-我喜欢你 | 来源：互联网 | 2023-10-10 18:50

前言目前的anchor-free检测器可以分为两种类型：anchor-point检测器和key-point检测器。anchor-point：比如De

前言

目前的anchor-free检测器可以分为两种类型&＃xff1a;anchor-point检测器和key-point检测器。

anchor-point&＃xff1a;比如DenseBox&＃xff0c;UnitBox&＃xff0c;FSAF&＃xff0c;FCOS等。anchor points其实就是特征金字塔中每个特征图上的像素点&＃xff0c;每个像素点所在的位置都有与它相对应的特征&＃xff0c;也就是说将这些像素点当作是anchor box。然后根据这些points和这些points与相应的边界的距离&＃xff0c;编码并解码出目标的bbox。
key-points&＃xff1a;比如CornerNet和CenterNet。它预测出bbox一些关键点的位置&＃xff0c;比如角点&＃xff0c;中心点或极点&＃xff0c;然后将这些关键点分组以形成bbox。

上面这两种anchor-free的方法都有各自的优点和缺点。

对于key-point检测器来说&＃xff0c;它可以在输入图像的大小相对较小的情况下&＃xff0c;达到相对较高的AP&＃xff1b;但它依赖于单个高分辨率的特征图&＃xff0c;以及重复的bottom-up和top-down推理&＃xff0c;因此需要更高的FLOPs、更多的内存、更长的训练时间和测试时间&＃xff0c;同时与一些热门的预训练的backbone的兼容性不是太好&＃xff08;CornerNet的backbone是hourglass&＃xff09;。
对于anchor-point检测器来说&＃xff0c;它的网络结构简单&＃xff0c;训练和inference的速度都更快&＃xff0c;能更好的受益于FPN的增强&＃xff0c;并且特征层级的选择也很灵活。但在测试时输入相同尺度的图像的情况下&＃xff0c;它的检测精度没有key-point的好&＃xff0c;尤其在定位精度上。

作者提出&＃xff1a;一个简单的anchor-point检测器可以达到与key-point检测器相似的检测精度吗&＃xff1f;

于是&＃xff0c;本文提出SAPD&＃xff08;Soft Anchor-Point Detector&＃xff09;&＃xff0c;它是一种简单的单阶段anchor-point检测器&＃xff0c;它的速度和精度都比key-point要好。作者认为&＃xff0c;无效的训练是影响anchor-point检测器的精度的主要因素。当前anchor-point检测器的训练策略存在两个被忽略的问题&＃xff1a;注意力偏差&＃xff08;attention bias&＃xff09;和特征选择(feature selection)&＃xff1a;

注意力偏差&＃xff1a;在训练时由于anchor-points特征没有对齐的影响&＃xff0c;有着良好视野的目标会在检测器中得到更多的注意力&＃xff0c;这使得其它目标容易被忽略&＃xff1b;
特征选择&＃xff1a;在启发式地将目标实例分配给某个特征层级&＃xff0c;或者每个目标实例仅限于一个特征层级的情况下&＃xff0c;会导致无法有效利用特征金字塔。

为了解决这两个问题&＃xff0c;本文提出两种软优化技术&＃xff08;soften optimization techniques&＃xff09;&＃xff1a;soft-weighted anchor points和soft-selected pyramid levels。首先设计了一个和检测器联合训练的meta-selection网络&＃xff0c;它负责为每个目标实例预测每个特征金字塔层级的软选择权重&＃xff08;soft selection weights&＃xff09;&＃xff0c;然后对于正样本anchor-point&＃xff0c;根据它到对应目标的中心点的距离&＃xff0c;以及它所属的特征金字塔层级的软选择权重等两个因素&＃xff0c;来调整该anchor-point对整个网络损失的影响权重。

Soft Anchor-Point Detector

1. anchor-point检测器

在这里插入图片描述
如上图所示&＃xff0c;anchor-point检测器的网络包括backbone&＃xff0c;特征金字塔和detection head&＃xff0c;其中特征金字塔的每个层级都有一个detection head。用 $P_l$ 表示特征金字塔中层级数为 $l$ 的特征图&＃xff0c;它对输入图片做 $2^l$ 倍的下采样。一个detection head包括分类子网和定位子网&＃xff0c;每个子网都有5个3 $×\times$ 3的卷积层。分类子网负责预测每个anchor point位置处的目标属于 $K$ 个类别的概率&＃xff0c;定位子网预测与类别无关的bbox。

输入图像大小为 $\times H$ &＃xff0c;设 $p_{lij}$ 是在特征层级 $P_l$ 上位于 $(i, j)$ 处的像素&＃xff0c;其中 $i&＃61;0,1,...,W/s_l-1$ &＃xff0c; $j&＃61;0,1,...,H/s_l-1$ &＃xff0c; $s_l&＃61;2^l$ 。每个 $p_{lij}$ 在原图上对应的位置为 $X_{lij},Y_{lij})$ &＃xff0c;其中 $X_{lij}&＃61;s_l(i&＃43;0.5)$ &＃xff0c; $Y_{lij}&＃61;s_l(j&＃43;0.5)$ 。设gt box $B &＃61; (c, x, y, w, h)$ &＃xff0c;其中 $c$ 是类别&＃xff0c; $(x, y)$ 是中心点&＃xff0c; $w$ 和 $h$ 分别是宽和高&＃xff0c; $B_v$ 是有效框&＃xff0c;它是 $B$ 的中心收缩框&＃xff0c;即 $Bv&＃61;(c,x,y,ϵw,ϵh)B_v&＃61;(c,x,y,\epsilon w,\epsilon h)$ &＃xff0c; $ϵ\epsilon$ 是收缩因子。当一个 $B$ 被分配到 $P_l$ 时&＃xff0c;只有当 $p_{lij}$ 在原图上相应的位置位于 $B_v$ 内&＃xff0c;这个anchor point才是正样本&＃xff0c;否则就是负样本。

正样本的分类target是 $c$ &＃xff0c;定位target是一个归一化的距离 $d&＃61;(d^l,d^t,d^r,d^b)$ &＃xff0c;分别表示anchor point到 $B$ 的左&＃xff0c;上&＃xff0c;右&＃xff0c;下边界的距离&＃xff1a;
在这里插入图片描述
其中 $z$ 是归一化因子。对于负样本anchor points来说&＃xff0c;它们的分类target是背景&＃xff0c;即 $c &＃61; 0$ &＃xff0c;并且不需要对它们进行定位target的计算。总的来说&＃xff0c;对于每个anchor point $p_{lij}$ &＃xff0c;都有一个分类target $c_{lij}$ 和定位target $d_{lij}$ 。

在训练时&＃xff0c;分类子网的损失函数是focal loss&＃xff0c;以克服正负样本间极端不平衡的问题&＃xff1b;定位子网的损失函数是IoU loss&＃xff0c;因此每个anchor point的损失 $L_{lij}$ 为&＃xff1a;
在这里插入图片描述
其中 $p^&＃43;$ 和 $p^-$ 分别表示正样本和负样本&＃xff0c;整个网络的损失是所有anchor point的损失除以正样本anchor point的数量&＃xff1a;

2. soft-weighted anchor points

首先来说一下什么是注意力偏差&＃xff08;attention bias&＃xff09;。在一个图像中&＃xff0c;目标可能会出现遮挡、背景混乱等问题。在原始的anchor-point检测器中&＃xff0c;在处理遮挡、背景混乱等问题时&＃xff0c;会产生注意力偏差&＃xff0c;即有着清晰明亮的视野的目标会生成过高得分的区域&＃xff0c;而这会抑制周围其它目标的的分区域。下图是对注意力偏差的可视化例子&＃xff1a;
在这里插入图片描述
上图中有5个足球运动员&＃xff0c;图&＃xff08;b&＃xff09;是分类输出的score map&＃xff0c;可以看到&＃xff0c;前景中的两个运动员生成了两个得分很高并且范围很大的dominant region&＃xff0c;并且这个dominant region有朝着其他运动员的underrepresented region扩张的趋势&＃xff0c;在更糟糕的情况下&＃xff0c;dominant region会直接覆盖掉underrepresented region。这就使检测器产生了注意力偏差&＃xff0c;即检测器只会把注意力放在前景的目标上&＃xff0c;从而抑制了背景区域中目标的检测。

那么为什么会出现这种情况呢&＃xff1f;作者认为问题出在特征的不对齐上&＃xff0c;这会导致靠近目标边界的位置会得到不必要的高分。靠近边界处的anchor point的特征并不能与目标很好的对齐&＃xff0c;也就是说如果把该处anchor point所对应的特征映射回原图上&＃xff0c;会与原图产生一定的偏差。由于这些anchor point的感受野包含了太多的背景信息&＃xff0c;因此它们的特征会受到目标外围的背景信息的影响&＃xff0c;从而导致了特征的表示能力变弱。因此不能给予那些靠近目标边界的anchor point与靠近目标中心的anchor point相同的信任权重。

如何解决这个问题呢&＃xff1f; 本文提出soft-weighting机制来处理注意力偏差的问题。基本思想是为每个anchor poing $p_{lij}$ 分配一个权重 $w_{lij}$ 。对于正样本anchor point&＃xff0c;这个权重取决于它对应在原图上的位置与相对应的目标中心点的距离&＃xff0c;距离越大&＃xff0c;权重越低。因此&＃xff0c;远离中心点的anchor point就会被抑制&＃xff0c;检测就会更依赖于靠近目标中心点的anchor point。对于负样本anchor point&＃xff0c;它们的权重都被设为1&＃xff0c;在训练中保持不变。下图是soft-weighted anchor points的实例&＃xff0c;图中的黑色柱说明了正样本anchor point对整个网络损失的贡献的权重&＃xff1a;
在这里插入图片描述
根据以上soft-weighting的思路&＃xff0c;有多种设计方法&＃xff0c;但只要权重是anchor point与目标中心点之间距离的单点递减函数就行。本文提出一个广义的中心点函数&＃xff08;cen- terness function&＃xff09;&＃xff1a;

其中 $η\eta$ 控制递减幅度&＃xff0c;权重值 $w_{lig}$ 在0和1之间&＃xff0c;上式保证了在目标边界上的anchor point的权重为0&＃xff0c;在目标中心处的anchor point的权重为1。

3. soft-selected pyramid levels

在anchor-free检测器中&＃xff0c;在训练时可以将目标分配给任意一个/多个特征金字塔层级&＃xff0c;选择正确的层级会带来很大的收益。在特征金字塔中&＃xff0c;不同层级的特征图在某种程度上是相似的&＃xff0c;尤其是相邻的层级。下图对特征金字塔中所有层级的响应进行了可视化&＃xff0c;可以看到&＃xff0c;如果一个特征层级中的某个区域被激活&＃xff0c;那么相邻层级的相同区域也会以相同的方式被激活。但是也可以看到&＃xff0c;层级相差的越远&＃xff0c;这种相似性越弱。这意味着在检测一个特定的目标时&＃xff0c;多个层级的特征可以共同为检测该目标做出贡献&＃xff0c;但来自不同层级的特征所做的贡献应该有所不同。
在这里插入图片描述
通过以上分析&＃xff0c;本文认为合适的金字塔特征层级的选择应该遵循以下两个原则&＃xff1a;

金字塔特征层级的选择应该遵循特征响应的模式&＃xff0c;而不是一些启发式的方式。与目标有关的损失可以很好的反映一个特征金字塔层级是否适合检测某些目标&＃xff1b;
对每个目标来说&＃xff0c;应该允许来自不同层级的特征参与到训练和测试中&＃xff0c;当然每个层级做出的贡献是不同的。FoveaBox已经证明了将目标分配给不同的特征层级能够提升检测性能&＃xff0c;但如果分配给太多的特征层级&＃xff0c;反过来又会损失检测性能。作者认为这种限制是由金字塔层级的hard selection造成的。对每个目标来说&＃xff0c;FoveaBox中的金字塔层级要么被选择&＃xff0c;要么被丢弃&＃xff0c;这种选择方式不考虑各层级特征响应的差别而一视同仁。

因此&＃xff0c;本文的解决方法是&＃xff0c;对于每个目标&＃xff0c;重新加权各个金字塔层级。也就是说&＃xff0c;根据特征响应&＃xff0c;为每个金字塔层级分配不同的权重&＃xff0c;也就是soft selection&＃xff0c;这也可以被看作是将一个目标的一部分分配给某一层级。

那么对每个目标来说&＃xff0c;如何确定每个金字塔层级的权重呢&＃xff1f;本文提出了meta-selection网络来预测权重&＃xff0c;以进行soft feature selection&＃xff0c;如下图所示。网络的输入是某个目标在所有特征层级上被提取出来的特征响应&＃xff0c;如图中所选择的目标是instance B&＃xff0c;一辆灰色的车。这一过程是怎么实现的呢&＃xff1f; 其实就是对每个特征层级应用RoI Align层&＃xff0c;然后将RoI Align之后的结果连结起来&＃xff0c;这里的RoI是目标在每个特征层级上的gt box&＃xff1b;然后将提取的特征经过meta-selection网络&＃xff0c;输出一个概率分布的向量&＃xff0c;这个概率分布就作为soft feature selection的各层级的权重。
在这里插入图片描述
meta-selection网络是一个轻量级的网络&＃xff0c;它包括3个 $\times 3$ 的卷积层&＃xff0c;没有零填充&＃xff0c;每个卷积层后跟ReLU函数&＃xff0c;和一个soft-max全连接层&＃xff0c;下表说明了meta-selection网络的详细结构。meta-selection网络和检测器是联合训练的&＃xff0c;训练时使用交叉熵损失函数&＃xff0c;gt是一个one-hot向量&＃xff0c;它说明了那个特征层级的损失最小。
在这里插入图片描述

到目前为止&＃xff0c;每个目标 $B$ 通过meta-selection网络与一个层级权重 $wlBw^B_l$ 相关联。如下图所示&＃xff0c;与前面的soft-weighting机制结合起来&＃xff0c;如果 $B$ 被分配给 $P_l$ &＃xff0c;并且anchor-point $p_{lij}$ 位于 $B_v$ 之内&＃xff0c;那么 $p_{lij}$ 要进一步down-weight&＃xff0c;即该 $p_{lij}$ 需要被分配它所属的特征层级的权重。
在这里插入图片描述
为每个 $B$ 分配前 $k$ 个特征层级&＃xff0c;这 $k$ 个是根据训练时最小的 $k$ 个与目标有关的损失确定的。因此&＃xff0c;anchor point的权重可以被进一步表示为&＃xff1a;

整个模型的损失是所有anchor point损失的加权和&＃xff0c;加上meta-selection网络的分类损失&＃xff1a;
在这里插入图片描述

Training

检测网络的初始化参照FSAF&＃xff0c;但backbone是在ImageNet1k上进行预训练的。整个检测网络和meta-selection网络联合起来使用SGD来训练&＃xff0c;除非另有说明&＃xff0c;所有的模型都训练12个epochs&＃xff0c;对于前6个epochs&＃xff0c;不使用meta-selection网络的输出&＃xff0c;而是使用FSAF中在线特征选择的策略来训练检测网络&＃xff0c;比如直接将目标分配给损失最小的特征层级。在第二轮的6个epochs中&＃xff0c;才使用soft selection weights来选择前 $k$ 个特征层级。这是为了先在前期稳定neta-selection网络&＃xff0c;使得学习过程更加平滑。

Inference

在inference时&＃xff0c;不再有meta-selection网络&＃xff0c;因此运行速度不会受到影响。一个图像在网络中向前传播&＃xff0c;为每个anchor point $p_{lij}$ 生成分类预测 $clij^\hat{c_{lij}}$ 和定位预测 $dlij^\hat{d_{lij}}$ &＃xff0c;通过置信度阈值0.05在每个特征层级中选择前1000个anchor point&＃xff0c;然后将来自所有特征层级的预测值融合&＃xff0c;进行阈值为0.5的NMS操作&＃xff0c;得到最终检测结果。

结论

感觉本文是FSAF的改进&＃xff0c;FSAF里正负样本的选择是由有效区域和忽略区域确定的&＃xff0c;而本文的SAPD对正样本加了一个权重&＃xff0c;该权重与anchor point离中心点的距离成反比。两者之间相同的部分是&＃xff0c;都是选择gt box内一定范围的点作为正样本&＃xff0c;而SAPD又对这些正样本做了进一步处理。在特征层级选择方面&＃xff0c;FSAF每个特征层级负责检测一个目标&＃xff0c;SAPD中多个特征层级都可以为同一个目标的检测做出贡献。只是在训练时,前6个epochs还是采用的FSAF中在线特征选择的方式&＃xff0c;后6个epochs才加上SAPD特有的soft selection weight

推荐阅读

split
Html5-Canvas实现简易的抽奖转盘效果

本文介绍了如何使用Html5和Canvas标签来实现简易的抽奖转盘效果，同时使用了jQueryRotate.js旋转插件。文章中给出了主要的html和css代码，并展示了实现的基本效果。 ... [详细]

蜡笔小新 2023-12-13 06:02:20
split
Python字典视图对象的示例和用法

本文介绍了Python字典视图对象的示例和用法。通过对示例代码的解释，展示了字典视图对象的基本操作和特点。字典视图对象可以通过迭代或转换为列表来获取字典的键或值。同时，字典视图对象也是动态的，可以反映字典的变化。通过学习字典视图对象的用法，可以更好地理解和处理字典数据。 ... [详细]

蜡笔小新 2023-12-09 09:14:13
text
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
text
brain是什么意思_brain怎么读_brain翻译_用法_发音_词组_同反义词_脑新东方在线英语词典

本文介绍了brain的意思、读音、翻译、用法、发音、词组、同反义词等内容，以及脑新东方在线英语词典的相关信息。还包括了brain的词汇搭配、形容词和名词的用法，以及与brain相关的短语和词组。此外，还介绍了与brain相关的医学术语和智囊团等相关内容。 ... [详细]

蜡笔小新 2023-12-14 16:52:33
match
PHP图片截取方法及应用实例

本文介绍了使用PHP动态切割JPEG图片的方法，并提供了应用实例，包括截取视频图、提取文章内容中的图片地址、裁切图片等问题。详细介绍了相关的PHP函数和参数的使用，以及图片切割的具体步骤。同时，还提供了一些注意事项和优化建议。通过本文的学习，读者可以掌握PHP图片截取的技巧，实现自己的需求。 ... [详细]

蜡笔小新 2023-12-14 16:44:09
match
Java序列化对象传给PHP的方法及原理解析

本文介绍了Java序列化对象传给PHP的方法及原理，包括Java对象传递的方式、序列化的方式、PHP中的序列化用法介绍、Java是否能反序列化PHP的数据、Java序列化的原理以及解决Java序列化中的问题。同时还解释了序列化的概念和作用，以及代码执行序列化所需要的权限。最后指出，序列化会将对象实例的所有字段都进行序列化，使得数据能够被表示为实例的序列化数据，但只有能够解释该格式的代码才能够确定数据的内容。 ... [详细]

蜡笔小新 2023-12-14 15:25:15
search
如何使用Java获取服务器硬件信息和磁盘负载率

本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务，并获取服务器的磁盘信息，并将结果输出。然后在本地使用JS编写一个AJAX脚本，远程请求服务端的程序，得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]

蜡笔小新 2023-12-14 13:56:20
usb
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
text
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
text
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
usb
利用Visual Basic开发SAP接口程序初探的方法与原理

本文介绍了利用Visual Basic开发SAP接口程序的方法与原理，以及SAP R/3系统的特点和二次开发平台ABAP的使用。通过程序接口自动读取SAP R/3的数据表或视图，在外部进行处理和利用水晶报表等工具生成符合中国人习惯的报表样式。具体介绍了RFC调用的原理和模型，并强调本文主要不讨论SAP R/3函数的开发，而是针对使用SAP的公司的非ABAP开发人员提供了初步的接口程序开发指导。 ... [详细]

蜡笔小新 2023-12-13 10:56:31
text
绕过WAF的XSS检测机制及构建XSS payload的方法

本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ... [详细]

蜡笔小新 2023-12-11 19:42:30
text
android studio生成jks,android studio生成 keystore 以及获取 SHA1值等

合并列值－合并为一列问题需求：createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]

蜡笔小新 2023-12-11 12:32:55
text
Hibernate延迟加载深入分析-集合属性的延迟加载策略

本文深入分析了Hibernate延迟加载的机制，特别是集合属性的延迟加载策略。通过延迟加载，可以降低系统的内存开销，提高Hibernate的运行性能。对于集合属性，推荐使用延迟加载策略，即在系统需要使用集合属性时才从数据库装载关联的数据，避免一次加载所有集合属性导致性能下降。 ... [详细]

蜡笔小新 2023-12-10 14:26:13
text
org.gwtbootstrap3.client.ui.Icon.addDomHandler()方法的使用及代码示例

本文整理了Java中org.gwtbootstrap3.client.ui.Icon.addDomHandler()方法的一些代码示例，展示了Icon.ad ... [详细]

蜡笔小新 2023-10-17 22:46:43

可爱的嗨-我喜欢你

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章