热门标签 | HotTags
当前位置:  开发笔记 > 开发工具 > 正文

SEPC论文阅读

题目:用于目标检测的金字塔尺度均衡卷积(简称SEPC)图像处理基础总结跨尺度相关性尺度不变性:就是我们在描述一个特征之前&

在这里插入图片描述

题目:用于目标检测的金字塔尺度均衡卷积(简称SEPC)

在这里插入图片描述

在这里插入图片描述
图像处理基础总结
跨尺度相关性
在这里插入图片描述

尺度不变性:就是我们在描述一个特征之前,将两张图像都变换到同一个尺度上,然后再在这个统一标准上来描述这个特征。(为了实现尺度不变性,需要给特征加上尺度因子。在进行特征描述的时候,将尺度统一就可以实现尺度不变性了。)
注:尺度不变就是在特征点提取,或者匹配的时候,永远都把握好他就是那么大的存在,不会因为缩放把它变形。SIFT:尺度不变特征转换,用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量深度神经网络中特征金字塔与高斯金字塔的区别:
高斯金字塔可应用在深度神经网络上面,但是由于它需要大量的运算和大量的内存。但是我们的特征金字塔可以在速度和准确率之间进行权衡,可以通过它获得更加鲁棒的语义信息。尺度不变特征变换(SIFT)匹配算法详解:
https://blog.csdn.net/memray/article/details/39234645

在这里插入图片描述
在这里插入图片描述

RetinaNet:2017 CVPR
Subnet:子网络(紧接着第6页PPT下面的话)但是实际使用中,我们经常观察到不同尺度的物体相互竞争,
使得检测器在不同尺度的性能此高彼低的现象,这些情况不太符合尺度等变特性,这是为什么呢?(见P7中的分析)

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

(本页先说)考虑到FPN的不同层的分辨率不同(不同pyramid level的特征图大小是不同的),我们由此提出金字塔卷积(Pconv)的结构(接着改页最下面的那句话)实际上是一个跨越尺度和空间维度的三维卷积。如果将每一层的特征表示为1个点,如图a所示,金字塔卷积可以表示为N个不同的2D卷积。
不同的金字塔水平上存在大小的不匹配,空间大小随着金字塔水平的上升而缩小,为了适应这种不匹配,在不同层卷积时,对K个不同的内核设置了不同的步长。

在这里插入图片描述

(对右上角图的解释)金字塔卷积为3-D卷积。三个卷积核(红色,黄色和青色)用于此3-D卷积。
每个内核的卷积步幅随特征图的大小而缩放。框架颜色相同的要素图(例如 蓝色和粉红色)在相同框架颜色的右侧生成特征图。该图像仅用于显示比例,不表示特征图不同pyramid level的特征图大小是不同的,为了容纳不同的尺寸,在PConv在处理不同的特征图时使用不同的stride,论文采样N=3,首个卷积核的stride为2,最小的的卷积核的stride为0.5。对公式1的解释:PConv可以表示为公式(1),w1,w0,w-13个独立的2-D卷积核,x为输入的特征图,*s2代表stride为2的卷积核。对公式2的解释:stride为0.5的卷积核先对特征图双线性上采样2倍,再用stride为1的卷积核进行处理。PConv也使用zero-padding,对于底层和顶层的pyramid level仅需使用公式2的其中两项即可,PConv的计算量大约为原始FPN的1.5倍。(对上面两张图的一个分析)用特征金字塔相邻三层(P3,P4,P5)举例,在P3上利用stride为2的conv进行卷积,在P4上利用普通conv卷积,P5上普通conv卷积然后upsample,
得到相同大小的特征图然后相加,不难推导,其等效于在特征图上每一点在HW维度卷积后再在尺度空间(P3,P4,P5)进行一次卷积,因此其相当于一个3-D的卷积核。(结合左图的FPN)

在这里插入图片描述

(a)最初的RetinaNet的头部设计;(b)PConv的头部设计。在最终的输出卷积中,
K是锚定框的数量,对于无锚定方法,它是1,而C是分类中的类数。

在这里插入图片描述
在这里插入图片描述

(提出SEPC的原因,可不说)PConv对于不同的level都使用固定的卷积核大小,在高斯金字塔上(模糊程度不严重且高斯核接近特征图缩放比例),PConv能够提取尺度不变的特征。
(提出SEPC的原因,可不说)但实际中,由于多层卷积和非线性操作的存在,特征金字塔的模糊程度比高斯金字塔要严重得多
(特征的缩放程度可能跟特征图大小不成比例),使用固定的卷积核大小很难提取尺度不变的特征。高斯模糊是一种图像滤波器,它使用正态分布(高斯函数)计算模糊模板,并使用该模板与原图像做卷积运算,达到模糊图像的目的

在这里插入图片描述

SEPC分为两个版本,SEPC-full对P11页图b的Combined head和Extra head加入SEPC,而SEPC-lite则仅对Extra head加入SEPC。我们做了详尽的消融实验,以确保我们每个模块的有效性.我们选取了FSAF,RetinaNet,FreeAnchor三个有代表性的model验证我们的有效性。如表中所示
可以看到,我们提出的模块在三个model上均有稳定的提升,并且性能提升相比flops与forward速度的增加极具性价比,值得注意的是,虽然我们使用了Dconv,但是性能的提升不仅仅是Dconv带来的,相比head结构全部更换为Dconv,我们的SEPC在速度与性能上都体现出了绝对的优势。
Dconv:可变形卷积

在这里插入图片描述

同时我们选取了FreeAnchor为基础与当前SOTA检测器进行了比较。如表中所示
我们SEPC在mAP45左右的baseline上依然有接近3mAP的提升,
我们在甚至在单尺度测试的条件下得到了一个mAP为50.1的单阶段检测器。

在这里插入图片描述
FPN详解

在这里插入图片描述


推荐阅读
  • ICRA2019最佳论文  Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio
    文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议:ICRA2019标题:《MakingSenseofVision ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 程度|也就是_论文精读:Neural Architecture Search without Training
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了论文精读:NeuralArchitectureSearchwithoutTraining相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • 计算成像的原理与应用研究
    本文探讨了计算成像的原理与应用研究。首先介绍了小孔成像实验和软件方面的相关内容。随后从傅里叶光学的角度简单谈了成像的过程。成像是观测样品分布的一种方法,通过成像系统接收光的强度来呈现图像。视网膜作为接收端接收到的图像实际上是由像元组成的矩阵,每个元素代表相应位置像元接收光的强度。大脑通过对图像的分析,得出一系列信息,如识别物体、判断距离等。计算成像是一种采集记录系统,通过处理数据得到样品分布与像的对应关系,用于后续问题的分析。 ... [详细]
  • 词袋模型的通俗介绍
    词,袋, ... [详细]
  • 面试经验分享:华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试
    最近有朋友去华为面试,面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败,因为缺乏基础知识。面试问题涉及 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
author-avatar
手机用户2502911627_202
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有