热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

YOLOv6:一个硬件友好的目标检测算法

​本文来自公众号“AI大道理” YOLOv6是美团视觉智能部研发的一款目标检测框架,致力于工业应用。YOLOv6支持模型训练、推理及多平台部署等全链条的工业应用需求,并在网络结构

本文来自公众号“AI大道理”

 

YOLOv6 是美团视觉智能部研发的一款目标检测框架,致力于工业应用。

YOLOv6支持模型训练、推理及多平台部署等全链条的工业应用需求,并在网络结构、训练策略等算法层面进行了多项改进和优化,在 COCO 数据集上,YOLOv6 在精度和速度方面均超越其他同体量算法。

YOLOv6是如何改进的呢?

 

 



 

添加图片注释,不超过 140 字(可选)

​ 一、YOLOV6的改进

1、backbone:RepBlock+结构重参数化(小型模型)、CSPStackRep Block(大型模型)

2、neck:Rep PAN

3、head:Decoupled Head

4、标签分配:TAL

5、anchor-free

6、损失函数:VariFocal Loss+SIOU

7、Self-distillation

8、量化+RepOpt-VGG+RepOptimizer+梯度重参数化

 



添加图片注释,不超过 140 字(可选)

 



 

添加图片注释,不超过 140 字(可选)

1、EfficientRep backbone

小模型:

在训练中使用 Rep block,如图 3a。

在推理时使用 RepConv,3x3 卷积 + ReLU 堆积而成的结构,如图 3b。

大模型:

使用 CSPStackRep block 来得到中/大模型,如图 3c,3 个 1x1 conv + 2 个 RepVGG(训练) / RepConv(测试) + 1 个残差通道。

 



添加图片注释,不超过 140 字(可选)

受到硬件感知神经网络设计思想的启发,基于 RepVGG style 设计了可重参数化、更高效的骨干网络 EfficientRep Backbone 。

YOLOv5/YOLOX 使用的 Backbone 和 Neck 都基于 CSPNet 搭建,采用了多分支的方式和残差结构。对于 GPU 等硬件来说,这种结构会一定程度上增加延时,同时减小内存带宽利用率。

YOLOv6引入了 RepVGG style 结构。

结构重参数化。

RepVGG Style 结构是一种在训练时具有多分支拓扑,而在实际部署时可以等效融合为单个 3x3 卷积的一种可重参数化的结构。通过融合成的 3x3 卷积结构,可以有效利用计算密集型硬件计算能力。

 



添加图片注释,不超过 140 字(可选)

 



添加图片注释,不超过 140 字(可选)

 

 



添加图片注释,不超过 140 字(可选)

 

 



 

添加图片注释,不超过 140 字(可选)

2、Rep PAN

Rep-PAN 基于 PAN 拓扑方式,用 RepBlock 替换了 YOLOv5 中使用的 CSP-Block,同时对整体 Neck 中的算子进行了调整。

 



添加图片注释,不超过 140 字(可选)

 



 

添加图片注释,不超过 140 字(可选)

3、Decoupled Head

YOLOv6 采用了解耦检测头(Decoupled Head)结构,并对其进行了精简设计。

原始 YOLOv5 的检测头是通过分类和回归分支融合共享的方式来实现的,而 YOLOX 的检测头则是将分类和回归分支进行解耦,同时新增了两个额外的 3x3 的卷积层,虽然提升了检测精度,但一定程度上增加了网络延时。

YOLOv6对解耦头进行了精简设计,同时综合考虑到相关算子表征能力和硬件上计算开销这两者的平衡,采用 Hybrid Channels 策略重新设计了一个更高效的解耦头结构,在维持精度的同时降低了延时,缓解了解耦头中 3x3 卷积带来的额外延时开销。

 



添加图片注释,不超过 140 字(可选)

 



 

添加图片注释,不超过 140 字(可选)

4、anchor-free

采用Anchor-free 无锚范式,也就是 box regression 分支是预测 anchor point 到 bbox 的四个边的距离。

YOLOv6 采用了更简洁的 Anchor-free 检测方法。由于 Anchor-based检测器需要在训练之前进行聚类分析以确定最佳 Anchor 集合,这会一定程度提高检测器的复杂度;

同时,在一些边缘端的应用中,需要在硬件之间搬运大量检测结果的步骤,也会带来额外的延时。

而 Anchor-free 无锚范式因其泛化能力强,解码逻辑更简单,在近几年中应用比较广泛。

 

 



 

添加图片注释,不超过 140 字(可选)

5、标签分配

为了获得更多高质量的正样本,YOLOv6 引入了 SimOTA 算法动态分配正样本,进一步提高检测精度。

YOLOv5 的标签分配策略是基于 Shape 匹配,并通过跨网格匹配策略增加正样本数量,从而使得网络快速收敛,但是该方法属于静态分配方法,并不会随着网络训练的过程而调整。

近年来,也出现不少基于动态标签分配的方法,此类方法会根据训练过程中的网络输出来分配正样本,从而可以产生更多高质量的正样本,继而又促进网络的正向优化。

例如,OTA通过将样本匹配建模成最佳传输问题,求得全局信息下的最佳样本匹配策略以提升精度,但 OTA 由于使用了Sinkhorn-Knopp 算法导致训练时间加长,而 SimOTA算法使用 Top-K 近似策略来得到样本最佳匹配,大大加快了训练速度。

故 YOLOv6 采用了SimOTA 动态分配策略,并结合无锚范式,在 nano 尺寸模型上平均检测精度提升 1.3% AP。

SimOTA定义的计算公式如下:

 



添加图片注释,不超过 140 字(可选)

对于每一个预测框,分别计算其与真实框的IOU和类别损失,然后加权得到总体损失。然后将各个框和真实框的iou排序,将所有框的iou相加取整,得到正样本的类别个数。 比如,下图中,取整后的结果为2,那就选取前两个作为正样本。

 



添加图片注释,不超过 140 字(可选)

不同的 label assignment 方法的效果对比,实验基于 YOLOv6-N:

 



添加图片注释,不超过 140 字(可选)

Task alignment learning 任务对齐学习(TAL)首次在TOOD 中提出,其中设计了一个统一的分类分数和预测框质量的统一度量。用此度量替换IoU以分配对象标签。

在一定程度上,缓解了任务(分类和预测框回归)的错位问题。

 



添加图片注释,不超过 140 字(可选)

 



 

添加图片注释,不超过 140 字(可选)

6、VariFocal Loss

 



添加图片注释,不超过 140 字(可选)

YOLOv6选择VariFocal Loss作为分类损失。

Focal Loss改进了传统的交叉熵损失,解决了正负样本或硬易样本之间的类不平衡问题。

为了解决训练和推理之间质量估计和分类使用不一致的问题,Quality Focal Loss(QFL)进一步扩展了Focal Loss,并将分类评分和定位质量联合表示出来进行分类监督。

而VariFocal Loss (VFL)来源于Focal Loss,但它不对称地处理正样本和负样本。

通过考虑不同重要程度的正样本和负样本,它平衡了来自两个样本的学习信号。

Poly Loss将常用的分类损失分解为一系列加权多项式基。它在不同的任务和数据集上调整多项式系数,通过实验证明了其优于交叉熵损失和焦点损失。

YOLOv6最终采用了VFL 。

 

 



 

添加图片注释,不超过 140 字(可选)

7、SIOU

YOLOv6选择SIoU /GIoU 损失作为回归损失。

为了进一步提升回归精度,YOLOv6 采用了 SIoU边界框回归损失函数来监督网络的学习。

目标检测网络的训练一般需要至少定义两个损失函数:分类损失和边界框回归损失,而损失函数的定义往往对检测精度以及训练速度产生较大的影响。

近年来,常用的边界框回归损失包括IoU、GIoU、CIoU、DIoU loss等等,这些损失函数通过考虑预测框与目标框之前的重叠程度、中心点距离、纵横比等因素来衡量两者之间的差距,从而指导网络最小化损失以提升回归精度,但是这些方法都没有考虑到预测框与目标框之间方向的匹配性。

SIoU 损失函数通过引入了所需回归之间的向量角度,重新定义了距离损失,有效降低了回归的自由度,加快网络收敛,进一步提升了回归精度。

SIOU应用于YOLOv6-N和YOLOv6-T,而其他的则使用GIoU。

 

 



 

添加图片注释,不超过 140 字(可选)

8、Self-distillation

为了进一步提高模型的准确性,同时不引入太多额外的计算成本,YOLOv6采用经典的知识蒸馏技术来最小化教师模型和学生模型之间预测的KL散度。

通过限制教师模型是预先训练的学生模型,因此称之为自我蒸馏。

kl-散度通常用于度量数据分布之间的差异。然而,在目标检测中有两个子任务,其中只有分类任务可以直接利用基于kl-散度的知识精馏。

由于DFL损失,我们也可以在预测框回归上执行它。

知识蒸馏损失可以表述为:

 



添加图片注释,不超过 140 字(可选)

其中

 



 

添加图片注释,不超过 140 字(可选)

和分别为教师模型和学生模型的类别预测,因此和为预测框回归预测。总体损失函数现在可以表述为:

 



添加图片注释,不超过 140 字(可选)

其中,Ldet是用预测和标签计算出的检测损失。

引入超参数α来平衡两个损失。在训练的早期阶段,从教师模型那里得到的软标签更容易学习。随着训练的继续,学生模型的表现将与教师模型相匹配,这样硬标签将对学生更有帮助。

在此基础上,将余弦权值衰减应用于α,以动态调整来自教师的硬标签和软标签的信息。

为了解决在训练和推理过程中假量化器的不一致性问题,有必要在重新优化器上建立QAT。此外,在YOLOv6框架内采用了通道蒸馏(后来称为CW蒸馏),这也是一种自蒸馏的方法,其中教师网络是在fp32精度上的学生模型。

 

 



添加图片注释,不超过 140 字(可选)

 

 



添加图片注释,不超过 140 字(可选)

学生网络前期侧重学习软标签,后期学习硬标签。

 

 



 

添加图片注释,不超过 140 字(可选)

9、量化

 



添加图片注释,不超过 140 字(可选)

​ YOLov6的量化问题:

yolov6在结构中大量使用了重参数结构,导致数据分布过差,PTQ精度急剧下降。另外,重参数化结构网络无法直接使用QAT进行微调提升量化性能。

因为Deploy部署的模型无BN,不利于训练;Train模式进行QAT之后无法进行分支融合。

YOLOv6又是怎么做的呢?

一、RepOpt-VGG 网络+梯度重参数化

思路一:RepVGG推理的时候由于速度的要求采用单路网络,训练的时候能否将推理模型的单路网络训练的效果拔高呢?(Deploy部署的模型无BN,仅仅是不利于训练,还是能训练,能否从这里进行改善。看起来可行。)

YOLOv6用了RepOpt-VGG 网络,这个工作与 RepVGG 相当于是两个不同的改进方向,一个是单网络变多分支来提高训练效果,另一个则是还是单网络通过训练手段提高训练效果。即:

RepVGG + 常规的优化器=VGG + RepOptimizer。

 

 



添加图片注释,不超过 140 字(可选)



添加图片注释,不超过 140 字(可选)

RepOPT结果改善了数据分布,有效提升了PTQ量化精度。

梯度重参数化。

将先验信息用于修改梯度数值,称为梯度重参数化,对应的优化器称为RepOptimizer。

 

 



添加图片注释,不超过 140 字(可选)

RepOpt 步骤:

步骤1:将架构的先验知识转移到你的优化器中。

步骤2:通过超搜索获得超参数。

步骤3:使用 RepOpt 进行训练。

 

二、PTQ-敏感度分析与部分量化

找到敏感的层,直接跳过。

如何寻找?

四种方法:mAP、MSE、SNR、Cosine

进行各层敏感性排序,进行逐层量化误差分析,查找最敏感的层进行跳过,实现部分量化。

 

三、QAT-量化节点插入

RepOPT的train/deploy模型结构一致,天然适合于QAT方法的使用。

 

 



添加图片注释,不超过 140 字(可选)

四、CWD自蒸馏

FP32模型为teacher,int8模型为student。

 

 



添加图片注释,不超过 140 字(可选)



 

添加图片注释,不超过 140 字(可选)

​ 10、总结

 

缘起:VGG中3*3的卷积结构,可以有效利用计算密集型硬件计算能力(比如 GPU),同时也可获得 GPU/CPU 上已经高度优化的 NVIDIA cuDNN 和 Intel MKL 编译框架的帮助。基于硬件友好的考虑,从模型推理出发,YOLOv6采用单路网络推理。

问题1:然而,单路网络训练的效果不佳。

解决1:结合resnet的想法,扩展为RepVGG的多分支结构用于训练。

问题2:多分支网络训练的参数无法直接应用到单路网络中进行推理,且多分支网络推理效果低,速度慢。

解决2:将训练模型和推理模型用结构重参数化方法结合起来,使得RepVGG多分支网络训练的参数可用于单路网络进行推理。

问题3:然而结构重参数化的网络无法进行量化,准确的说量化后无法进行分支融合,也就无法应用于单路推理模型。

解决3:因将训练的网络又从新改为单路,回到了起点。

网络的参数由网络结构获得,若能找到网络和参数的联系,类似结构重参数化一样的转化,岂不是可以从简单的网络得到复杂的参数?

RepOpt-VGG就是以单路网络为出发点,进行梯度重参数化来达到RepVGG网络的训练效果。

 



添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

​ ——————

浅谈则止,细致入微AI大道理

扫描下方“AI大道理”,选择“关注”公众号

—————————————————————

 

—————————————————————

 

公众号《AI大道理》征稿函​mp.weixin.qq.com/s?__biz=MzU5NTg2MzIxMw==&mid=2247489802&idx=1&sn=228c18ad3a11e731e8f325821c184a82&chksm=fe6a2ac8c91da3dec311bcde280ad7ee760c0c3e08795604e0f221ff23c89c43a86c6355390f&scene=21#wechat_redirect

|

留言吧​mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=77&appmsgid=100008353&isMul=1&replaceScene=0&isSend=0&isFreePublish=0&token=2141733260&lang=zh_CN

 

 

 

萍水相逢逢萍水,浮萍之水水浮萍!



推荐阅读
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 通过Anaconda安装tensorflow,并安装运行spyder编译器的完整教程
    本文提供了一个完整的教程,介绍了如何通过Anaconda安装tensorflow,并安装运行spyder编译器。文章详细介绍了安装Anaconda、创建tensorflow环境、安装GPU版本tensorflow、安装和运行Spyder编译器以及安装OpenCV等步骤。该教程适用于Windows 8操作系统,并提供了相关的网址供参考。通过本教程,读者可以轻松地安装和配置tensorflow环境,以及运行spyder编译器进行开发。 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • vb.net不用多线程如何同时运行两个过程?不用多线程?即使用多线程,也不会是“同时”执行,题主只要略懂一些计算机编译原理就能明白了。不用多线程更不可能让两个过程同步执行了。不过可 ... [详细]
  • OCR:用字符识别方法将形状翻译成计算机文字的过程Matlab:商业数学软件;CUDA:CUDA™是一种由NVIDIA推 ... [详细]
  • ICRA2019最佳论文  Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio
    文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议:ICRA2019标题:《MakingSenseofVision ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
author-avatar
龍的闖人_399_664
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有