热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

用于轨道交通障碍物检测的改进MaskRCNN

1.文章信息文章题目为《ImprovedMaskR-CNNforobstacledetectionofrailtransit》,是2022年发表在Measuremen

1. 文章信息

文章题目为《Improved Mask R-CNN for obstacle detection of rail transit》,是2022年发表在Measurement上的一篇关于轨道交通领域的目标检测文章,聚焦在自动识别障碍物来提高自动驾驶列车的运行安全性。

2. 摘要

障碍物的准确识别对提高自动驾驶列车的安全性具有重要意义。为了提高主动识别的准确率,提出了一种ME Mask R-CNN。SSwin-Le Transformer用作特征提取网络,ME-PAPN用作特征融合网络。综合多种多尺度增强方法,提高了对小目标的检测能力。抽样方法为主要样本注意,采用适合列车障碍物特性的锚箱尺寸和比例。列车障碍物数据集基于多种测试场景,如南宁地铁1号线测试线、隧道线和夜间测试。测试结果表明,ME-Mask R-CNN实现了91.3%的mAP,平均检测时间为4.2 FPS,比Mask R-CNN高11.1%。

3. 介绍

随着轨道交通的快速发展和新信息技术的应用,智能列车被视为列车运输技术发展的主要方向,列车自动驾驶(ATO)已成为发展趋势。列车障碍物检测作为全自动运行列车的重要安全保障,已引起越来越多学者的关注。与汽车运行相比,列车障碍物检测在场景设置、风险分类和车辆制动控制方面存在显著差异。地铁列车障碍物检测场景具有类别少、检测精度高的特点。在危险等级分类中,更多的关注是轨道内部和沿线的障碍物。由于列车运行速度快,制动距离长,对远处障碍物的检测精度提出了更高的要求。

列车轨道上的异物入侵和行人非法进入是造成轨道安全事故的主要原因,因此对准确、快速的障碍物检测系统的需求越来越迫切。随着深度学习等技术的进步,基于计算机视觉的目标检测算法在轨道交通领域得到了广泛的应用。近年来,基于多传感器融合的障碍物检测技术成为研究热点。摄像头易受极端天气影响,缺乏空间信息,而雷达对远处障碍物的探测效果较差。由摄像机、激光雷达和毫米波雷达组成的障碍物检测系统可以获得二维和三维信息。

障碍物检测系统由前端采集系统、控制和处理系统组成。前端采集系统由长焦相机、短焦距相机、激光雷达和毫米波雷达组成。前端采集系统的功能是使用各种传感器来采集列车的前方路线。控制和处理系统通过处理前端采集系统输入的传感器信号来检测和识别列车前方的障碍物。当列车前方检测到危及列车安全运行的障碍物时,系统能及时发出预警信号。根据障碍物与列车之间的不同距离,进行分级报警和制动。由于摄像机更直接地进行障碍物检测,保证了实时性和准确性,因此文章从视觉算法方面进行了研究。

文章设计一种基于Mask R-CNN的高精度快速检测算法模型,提高小目标检测的精度,并在不同环境条件下具有较高的鲁棒性。贡献总结如下:

(1) 在特征提取网络方面,采用Swin-Transformer作为基线模型。在Swin Transformer块的窗口多注意模块中加入了空间洗牌,在MLP模块中加入了深度可分离卷积。SSwin-Le Transformer的提出增强了算法的长期依赖性和局部能力。

(2) 在特征融合网络方面,以PAFPN为基线模型,在金字塔融合中加入ASPP、RFA和BSF模块,提高了模型的多尺度性能,提出了ME-PAFPN。

(3) 提出了ME-Mask R-CNN算法对11种障碍物进行细粒度检测,使列车障碍物检测准确率达到91.3%。实验表明,ME-Mask R-CNN在准确度、检测速度和泛化能力方面具有最好的综合性能。

4. 相关工作

目前,列车障碍物检测分为传统检测算法和基于深度学习的目标检测算法。基于传统检测算法的方法分为帧差法和纹理特征法。

传统障碍物检测方法存在以下问题:(1)基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余。(2)手动设计功能对多样性变化的鲁棒性不理想,难以满足实际应用中的高性能要求。

近年来,基于深度学习的障碍物检测算法发展得更加成熟。由于检测框架的不同,目标检测技术分为一阶段和两阶段。随着网络结构的深化和更多新架构的出现,现有方法在特征提取和特征融合性能方面无法满足列车障碍物检测中对高精度和小目标检测性能的要求。此外,为了不断提高列车的安全水平,需要更多的细粒度目标检测方法,对目标进行像素级的语义分割可以更好地解决异物入侵问题。本文对Mask R-CNN模型进行了改进,促进了目标检测中不同尺度信息的增强和融合,提高了特征提取和特征融合的性能。

5. 模型

A. ME Mask R-CNN的总体架构

ME Mask R-CNN使用Mask R-CNN作为基线。原始模型的特征提取网络被SSwin Le Transformer取代,特征融合网络被ME-PAFPN取代,采样方法被PrIme Sample Attention(PISA)取代,下图所示为整体框架图。

a76f5ad0306f4990b831ebed76fedf12.png

ME Mask R-CNN算法的过程如下:输入图像进入主干,生成四个不同比例的特征地图。SSwin-Le Transformer类似于传统卷积主干的分层形式,可以更好地集成到Mask R-CNN检测框架。SSW-Le Transformer的模块包括分片、分片合并、基于移位窗口的洗牌多头自注意(SSW-MSA)和局部增强前馈网络(LeFF)。然后,通过颈部ME-PAFPN生成特征图,通过加强信息流对原有PAFPN进行改进。为了增强特征融合网络的多尺度能力,提高小目标的检测性能,在自顶向下分支和Botton-up分支中加入了残差特征增强(RFA)模块、萎缩空间金字塔池(ASPP)模块和平衡语义特征(BSF)模块。通过区域建议网络(RPN)对特征地图进行处理,对前景背景进行二元分类,对边界盒进行回归,生成区域建议。在RPN中,锚箱的大小和比例在列车障碍物检测场景中是自适应的。对区域建议执行ROI对齐,输入ROI头部进行类别分类和回归,以生成边界框和分割掩码。采样方法为PISA,并对原始样本进行加权以提高检测精度。

B. 特征提取网络

提出了一种基于SwinTransformer的改进SSwin-Le Transformer。如下图所示。

d3ba5d9b432be12c6752df2fa51940e7.png

首先,输入的H×W×3图像通过面片分割被分割成不重叠的面片。每个补丁被视为一个“令牌”,并用作序列输入,补丁大小为7×7。采用线性嵌入调整输入维数,使SSwin-Le Transformer块通过稳定的特征维数输入实现特征学习,并将这两个模块结合起来生成层次化特征表示。整个网络由四个阶段组成。在每个相邻阶段之间使用补丁合并,以减少令牌数量并增加特征维度。因此,主干网生成的特征地图有四个不同的特征维度,类似于传统的CNN主干网Resnet,并且具有在不同尺度下建模的灵活性。SSwin-LeTransformer和基于窗口的多头自关注(W-MSA)Transformer具有相似的结构。改进包括用SSW-MSA模块替换传统的W-MSA,用传统的MLP替换LeFF模块。

C. 特征融合网络

以PAFPN为基线模型,对提出的ME-PAFPN特征融合网络进行了改进。Mask R-CNN使用FPN。FPN在信息融合中存在以下问题:(1)主特征图的信息丢失。FPN以自上而下的路径传播。从主特征映射到最高特征映射,需要经过多个网络层,这增加了获取初始图像的难度。(2)多尺度信息丢失。FPN不完全支持考虑不同层间语义信息的差异。这些特征的直接融合会降低多尺度特征表示的能力。(3)非相邻层语义信息不融合。FPN只有相邻层的语义信息可以直接融合,非相邻层的语义信息被稀释,导致语义特征不平衡。

如下图所示,PAFPN通过构建自底向上的特征融合网络来减少主要特征层的传播路径,以增强整个特征层次的定位能力,因为对边缘或实例部分的高响应是准确定位实例的有力指标。红色虚线表示,在FPN算法中,主特征图通过自上而下的方式通过几十甚至数百个网络层,导致主特征图信息严重丢失。绿色虚线表示自下而上的特征融合。浅层特征通过底层原始FPN的融合连接到P2,然后随着自底向上的特征融合从P2转移到顶层。层数小于10层,可以更好地保留浅层特征信息。虽然PAFPN有另一种方法来改善主要特征信息的丢失,但FPN的多尺度信息丢失和非相邻层语义信息的非融合问题并没有得到解决。

92a5cafb7ee01f4351bc084b3b43dd92.png

残差特征增强(RFA)。在FPN的最高级别减少通道特性会导致信息丢失,并且只包含与其他层特性不兼容的单尺度上下文信息。为了弥补这一缺陷,RFA使用剩余分支向自顶向下的分支添加不同级别的空间上下文信息,并改进自顶向下的第一级特征表示。如下图所示,在特征层的最高级别使用比率不变自适应池来生成具有不同尺度的三个特征层。考虑到插值引起的混叠效应,采用自适应空间融合(ASF)将生成的概率图与上采样的分层特征图自适应地结合起来,使其具有多尺度特征信息。

a461f426f500456ec460191bf758cac6.png

萎缩的空间金字塔池(ASPP)。FPN仅通过1×1卷积减少通道数,削弱了多尺度特征表示。如下图所示,ASPP的四个平行分支通过阿托拉斯卷积生成不同尺度的图像,并以不同的阿托拉斯速率和卷积核合并,扩展了感受野,提高了提取抽象信息的能力。因此,ASPP模块用于改善每个分支融合阶段的模型性能。

17a74d1e6378766666f2daee6743aea6.png

平衡语义特征(BSF)。高层次的语义信息和浅层的细节信息可以相互补充,提高目标检测效果,融合后的特征需要处理各分辨率中的不平衡信息。BSF对四层特征图进行重新缩放、集成和细化,以实现对不平衡信息的处理。如下图(a)所示,为了聚合多级特征,对特征层使用上采样插值和自适应最大池。通过平均得到均衡的语义信息。在细化模块之后,使用相同但相反的过程来增强原始特征。在这个过程中,每一层从其他层获得相同的信息。如下图(b)所示,通过使用细化模块进行细化,细化使用非局部思想来增强融合特征并进一步改进结果。

7428f0885cf6afea118f810f9405af80.png

D. 抽样方法

ME Mask R-CNN使用主要样本注意(PISA)作为采样方法,具有精度和检测速度的优势。PISA是通过层次局部秩(HLR)和素数样本注意来实现的。分层局部秩(HLR)策略表明,影响目标检测训练的正样本是IOU较高的样本,而负样本是分类分数较高的样本。PISA使用IoU层次局部秩(IoU HLR)和分数层次局部秩(Score HLR)分别基于正样本和负样本的重要性进行排序,如下图所示。

9b99b0839ce3a7265fc1d935e0a4875e.png

主要样本注意策略将更多注意力集中在主要样本上,包括基于重要性的样本重新加权(ISR)和基于分类的回归损失(CARL)。PISA的训练过程增加了原始样本的权重,使分类获得更高的得分(ISR)。联合目标函数用于学习分类器和回归(CARL),以提高原始样本分数并抑制其他样本分数。

6. 实验及结果

A. 实验细节

采集的图像数据由真实的列车平台视频和从试车线视频中选择的关键帧组成。为了提高模型的泛化能力,每50帧选择一幅图像以获得不同的场景。经过处理,获得了3000幅不同场景的图像。使用图像注释软件Labelme在注释。注释数据包括所有检测到的目标的位置和类别信息。标签和图像被制成COCO数据集格式。对障碍物图像类别进行细化,将其分为11个类别,即人、轨道、盒子、标志、广告牌、配电箱、书包、纸板、信号、平台和头盔。设置的实验场景为试车线、夜间和隧道线场景。测试现场线路采用自然光照明,夜间试验采用列车探照灯照明,隧道线路现场采用隧道照明设备照明。数据集按90%和10%的比例分为训练集和测试集。训练参数如下表。

46578ac1399407d4e65c2923911a2da4.png

B. 结果比较

为了简化结果表格,分别命名了11个类别,人员为C1,轨道为C2,箱子为C3,标志为C4,广告牌为C5,配电箱为C6,书包为C7,纸板为C8,信号为C9,平台为C10,头盔为C11。在实验中,盒子、标志、书包、纸板、信号和头盔被定义为小目标。COCO检测和评估标准中的指标用于性能评估,包括IoU阈值为0.5的平均精度(mAP)、训练时间(time)、参数数(Params)、每秒浮点运算(GFLOPs)和每秒帧数(FPS)。与其他主流目标检测算法的结果对比如下表所示:

02a8feeb45ac9fb6f981a80cd8b90685.png

可以看出,Mask R-CNN、Faster R-CNN和Cascade R-CNN等两级算法的映射相似,Mask R-CNN的检测速度比其他两种算法慢。原因是添加到mask R-CNN算法中的mask分支可以进行语义分割,这是一种比后续危险分类的检测框更细粒度的表示。当检测速度满足要求时,这也是选择Mask R-CNN作为基线模型的原因。YOLOV4在检测精度方面不符合要求。如下图所示,小目标的地图增加了19.35%,但对于一些大目标和遮挡目标,改进是有限的,这可能是因为数据集中只有铁路场景,大目标的障碍物较少。随后,障碍物将被扩大,以增加场景的多样性,但检测精度已满足轨道边界检测的要求。

cbdb13e199174e786dc56baae4e62e96.png

下图比较了ME Mask R-CNN和更快的R-CNN、YOLOV4、Cascade R-CNN在自定义数据集上的测试结果。ME mask R-CNN的mask分支可以检测像素级别,并对被检测对象进行着色,从而对对象的风险级别进行分类。当其他目标检测算法对障碍物风险等级进行分类时,盒子检测结果容易造成大面积重叠,导致风险等级的分类不明确。ME Mask R-CNN在不同的场景和不同的照明条件下都很稳定。

aadcd5fad9b5007931f5fe0fcf9e65bd.png

7. 结论

在这项工作中,ME-Mask R-CNN被提出用于地铁列车障碍物检测。通过改进模型的局部容量和信息交换特性,增强了融合网络的多尺度特性,融合了不同层次的语义信息,提高了小目标的检测精度。在工作机上的实验表明,使用SSwin-Le变压器的mAP比使用SWN变压器的mAP提高了3.2%,使用ME-PAFPN的mAP比使用PAFPN的mAP提高了4.2%。针对列车障碍物检测场景设计的ME Mask R-CNN使mAP比Mask R-CNN增加11.1%,小目标检测精度提高19.35%,检测速度与检测精度平衡。

文章末尾提出未来研究的方向:

(1) 探索提高ME-Mask R-CNN的检测速度,降低Transformer中多头部注意的计算复杂度,并集成更多卷积以提高性能。研究模型部署技术包括修剪、量化和提炼。车载终端的硬件和软件用于加速模型的部署,使算法可用。

(2) 优化数据集的长尾分布,提高数据集的泛化能力,增加更多的检测场景和小障碍类型,优化小目标检测问题,并使用跨域数据集证明模型的泛化性能。

(3) 将采用多模态检测方法,设计基于视觉、激光雷达、毫米波雷达和其他多传感器融合技术的列车障碍物检测模型。

Attention

如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!


推荐阅读
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • OpenMap教程4 – 图层概述
    本文介绍了OpenMap教程4中关于地图图层的内容,包括将ShapeLayer添加到MapBean中的方法,OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外,还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • AstridDAO 专访:波卡稳定币黑马 BAI
    加入Pol ... [详细]
  • 人脸检测 pyqt+opencv+dlib
    一、实验目标绘制PyQT界面,调用摄像头显示人脸信息。在界面中,用户通过点击不同的按键可以实现多种功能:打开和关闭摄像头, ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • SLAM优秀开源工程最全汇总
    https:zhuanlan.zhihu.comp145750808 1、CartographerCartographer是一个系统,可跨多个平台和传感器配置以2D和3D形式提供实 ... [详细]
  • 深度学习与神经网络——邱锡鹏
    深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络:一种以(人工))神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构:路线图:顶 ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算,然后根据这些系数的性质选择适当的ARMA模型进行拟合,并估计模型中的位置参数。接着进行模型的有效性检验,如果不通过则重新选择模型再拟合,如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]
author-avatar
手机用户2502853355
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有