自动驾驶中图像与点云融合的深度学习研究进展综述

作者：厚宝-Anzx_730 | 来源：互联网 | 2023-10-12 11:26

目录论文摘要相关工作与介绍内容精华一，深度估计二，单目和激光雷达的融合：三，立体相机和激光雷达融合四，动态物体的检测五，道路静止目标检测六，语义分割七，目标跟踪八，在线交叉传感器校

论文摘要

论文摘要
在过去的几年里，自动驾驶汽车得到了迅速的发展。然而，由于驾驶环境的复杂性和动态性，实现完全自主并非易事。因此，自动驾驶车辆配备了一套不同的传感器，以确保强健、准确的环境感知。尤其是摄像机融合正成为一个新兴的研究主题。然而，到目前为止，还没有关于基于深度学习的相机激光雷达融合方法的评论。为了弥补这一差距并推动未来的研究，本文致力于回顾最近基于深度学习的数据融合方法，这些方法同时利用图像和点云。简要介绍了图像和点云数据处理的深度学习。接着对摄像机激光雷达融合方法在深度学习领域的目标检测、语义分割、跟踪和在线交叉传感器标定等方面进行了深入的综述，并根据各自的融合层次进行了综述。此外，我们在公开的数据集上比较了这些方法。最后，我们发现了当前学术研究与实际应用之间的差距和挑战。在此基础上，我们提出了自己的见解，并指出了未来的研究方向。
图像数据与点云数据的比较

内容精华

一，深度估计

深度估计模型是一种通过将稀疏的点云通过上采样的方法生成稠密有规则的深度值（点云），这样生成的点云更加有利于后期的感知模块的实现，这种模型可以改善激光雷达扫描得到的点云的不均匀分布。这种上采样的方法通常是通过高分辨率的图像作为辅助条件来完成稠密深度值得生成。该图说明了不同的层次的深度值生成方案的时间线。

图给出了深度估计模型的时间轴及其相应的融合方法

图像引导深度完值估计背后的思想是密集的RGB/颜色信息包含相关的3D几何信息。因此，图像可以作为深度采样的参考。

二，单目和激光雷达的融合：

1）信号级融合：2018年，Ma等人提出了一种基于ResNet的自动编码器网络，该网络利用RGBD图像（即与稀疏深度图连接的图像）来预测密集深度图。为了实时生成清晰的密集深度图，Cheng等人将RGB-D图像传送到卷积空间传播网络（CSPN）。

2）特征级融合：Jaritz等人提出了一种自动编码器网络，它可以在不应用有效性掩码的情况下，从稀疏深度图和图像中执行深度完成或语义分割。图像和稀疏深度图首先由两个基于NASNet的并行编码器进行处理，然后将它们融合到共享解码器中。这种方法可以在非常稀疏的深度输入（8通道激光雷达）下获得良好的性能。

GuideNet将图像特征融合到编码器不同阶段的稀疏深度特征，引导稀疏深度的上采样，在KITTI深度完成基准中达到了最高性能。这些方法的局限性在于缺乏具有密集深度-地面真实性的大规模数据集。

3）多层次融合：Van Gansbeke等人]在图像引导深度完成网络中进一步结合了信号级融合和特征级融合。该网络由一个全局分支和一个局部分支组成，对RGB-D数据和深度数据进行并行处理，然后根据置信图进行融合。

三，立体相机和激光雷达融合

与RGB图像相比，立体相机的密集深度视差包含了更丰富的地面真实三维几何结构。另一方面，激光雷达的深度是稀疏的，但精度较高。这些互补特性使得基于立体激光雷达融合的深度完成模型能够产生更精确的密集深度。不过，值得注意的是，立体摄像头的射程有限，在高遮挡、无纹理的环境中也会遇到困难。

四，动态物体的检测

目标检测（3D）的目标是在三维空间中定位、分类和估计有方向的边界框。本节致力于动态目标检测，包括常见的动态道路对象（汽车、行人、骑车人等）。目标检测有两种主要方法：顺序检测和单步检测。基于序列的模型按时间顺序由预测阶段和三维边界框（bbox）回归阶段组成。在预测阶段，提出可能包含感兴趣对象的区域。在bbox回归阶段，基于从三维几何中提取的区域特征对这些建议进行分类。然而，序列融合的性能受到各个阶段的限制。另一方面，一步模型由一个阶段组成，其中二维和三维数据以并行方式处理。图4和图5显示了3D目标检测网络和典型模型结构的时间线。

三维目标检测网络的时间轴及其相应的融合方法

三种典型动态目标检测模型体系结构的比较

显示了在KITTI 3D物体检测基准上的3D物体检测模型的比较结果

总结和比较了动态目标检测模型

五，道路静止目标检测

基于相机-激光雷达融合的静止道路目标检测方法的最新进展。固定道路对象可分为道路上的物体（例如路面和道路标记）和越野物体（例如交通标志）。道路和越野物体为自动驾驶车辆提供法规、警告禁令和指导。

下图比较了车道/道路检测和交通标志识别（TSR）的典型模型结构。

道路/车道检测的几种典型模型结构及融合方法

一种典型的基于融合的交通标志识别流程

kitti数据集上不同模型的比较结果，并对这些模型进行了总结和比较

六，语义分割

现有的摄像机-激光雷达融合方法的二维语义分割、三维语义分割和实例分割。2D/3D语义分割的目的是预测每像素和每点的类标签，而实例分割也关注单个实例。

下图展示了3D语义分割网络和典型模型架构的时间轴。

三维语义分割网络的时间轴及其相应的融合方法

语义分割的几种典型模型结构与融合方法

七，目标跟踪

多目标跟踪（Multiple object tracking，MOT）的目标是保持目标的身份，并在数据帧间（随着时间的推移）跟踪它们的位置，这对于自主车辆的决策是必不可少的。为此，本节回顾了基于cameraldar融合的目标跟踪方法。基于目标初始化方法，MOT算法可以分为基于检测的跟踪（DBT）和无检测跟踪（DFT）两种框架。DBT或tracking by detection框架利用对象检测器产生的一系列对象假设和更高层次的线索来跟踪对象。在DBT中，通过数据（检测序列）关联或多假设跟踪来跟踪目标。相反，DFT框架是基于有限集统计（fist）进行状态估计的。常用的方法有多目标多贝努利（成员）滤波和概率假设密度（PHD）滤波。

不同模型在KITTI多目标跟踪基准（car）上的性能，提供了DBT和DFT方法之间的比较。

基于检测的跟踪（DBT）和无检测跟踪（DFT）方法的比较

八，在线交叉传感器校准

相机-激光雷达融合管道的先决条件之一是传感器之间的无缺陷注册/校准，这可能很难满足。由于机械振动和热波动，传感器之间的校准参数会不断变化。由于大多数融合方法对校准误差非常敏感，这可能严重削弱其性能和可靠性。此外，离线校准是一个麻烦和耗时的过程。因此，研究交叉传感器在线自动标定具有重要的实用价值。

A、经典的在线校准

在线校准方法在没有校准目标的情况下，估计自然环境中的外源性。许多研究[124][125][126][127]通过最大化不同模式之间的互信息（MI）（原始强度值或边缘强度）来发现外部性。然而，基于MI的方法对于纹理丰富的环境、较大的去校准和传感器位移引起的遮挡不具有鲁棒性。或者，基于激光雷达的视觉里程计方法[128]使用相机的自我运动来估计和评估相机激光雷达的外部参数。尽管如此，[128]仍然难以进行大规模的去校准，无法实时运行。

B、基于DL的在线校准缓解了上述挑战，Schneider等人。[129]设计了一个实时能力的CNN（RegNet）来估计外部性，它是在随机的去纤维数据上训练的。该方法将图像和深度特征分成两个平行的分支，并将它们串联起来生成融合后的特征映射。融合后的特征映射被输入到网络中的网络（NiN）模块和两个完全连接的层中，用于特征匹配和全局回归。然而，RegNet对传感器的固有参数是不可知的，一旦这些内在参数发生变化，就需要重新训练。为了解决这个问题，口径网[130]学会了以一种自我监督的方式最小化失调深度和目标深度之间的几何和光度不一致性。因为内部函数只在3D空间变换器中使用，所以校准网络可以应用于任何内部校准的相机。然而，基于深度学习的交叉传感器校准方法计算量大。

九，趋势、开放的挑战和有希望的方向

无人驾驶汽车中的感知模块负责获取和理解其周围的场景。它的下游模块，如计划、决策和自我定位，都依赖于它的输出。因此，它的性能和可靠性是整个无人驾驶系统能否胜任的先决条件。为此，应用激光雷达和摄像机融合技术提高感知系统的性能和可靠性，使无人驾驶车辆更能理解复杂场景（如城市交通、极端天气条件等）。因此，在本节中，我们将总结总体趋势，并讨论这方面存在的挑战和潜在的影响因素。

如表所示，我们的重点是提高融合方法的性能和融合管道的鲁棒性。

从上述方法中，我们观察到图像和点云融合方法的一些普遍趋势，总结如下：

•二维到三维：随着三维特征提取方法的发展，在三维空间中对物体进行定位、跟踪和分割已成为研究的热点。

•单任务到多任务：最近的一些工作[73][122]结合了多个互补任务，如目标检测、语义分割和深度完成，以获得更好的整体性能并降低计算成本。

•信号级到多级融合：早期的工作通常利用信号级融合，其中3D几何体被转换到图像平面，以利用现成的图像处理模型，而最近的模型尝试在多层次（例如早期融合、后期融合）和时间上下文编码中融合图像和激光雷达。

总结
本文对自主驾驶环境下点云与图像融合的深度学习模型的最新研究进展进行了综述。具体地说，这篇综述基于它们的融合方法来组织方法，涵盖深度完成、动态和静态目标检测、语义分割、跟踪和在线交叉传感器校准等主题。此外，表中还列出了公开数据集的性能比较、模型的亮点和优缺点。典型的模型体系结构如图所示。最后，我们总结了总体趋势，并讨论了面临的挑战和可能的未来方向。这项调查也提高了人们的认识，并对一些被研究界忽视但却困扰着自动驾驶技术实际应用的问题提供了见解

参考：
自动驾驶中图像与点云融合的深度学习研究进展综述

推荐阅读

jar
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
format
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
format
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
format
JavaScript疑难杂症系列相称性推断的知识点详解

本文详细解析了JavaScript中相称性推断的知识点，包括严厉相称和宽松相称的区别，以及范例转换的规则。针对不同类型的范例值，如差别范例值、统一类的原始范例值和统一类的复合范例值，都给出了具体的比较方法。对于宽松相称的情况，也解释了原始范例值和对象之间的比较规则。通过本文的学习，读者可以更好地理解JavaScript中相称性推断的概念和应用。 ... [详细]

蜡笔小新 2023-12-14 19:12:10
format
用友深耕烟草行业25年，提出数字化转型建议

本文介绍了用友在烟草行业深耕25年的经验，提出了数字化转型的建议，包括总体要求、主要任务、发展阶段和六位一体推进举措。通过数字化转型，烟草行业将注入新动能，实现高质量发展。 ... [详细]

蜡笔小新 2023-12-14 18:01:37
format
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
format
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
format
开发笔记:计网局域网：NAT 是如何工作的？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了计网-局域网：NAT是如何工作的？相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-13 13:04:08
js
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
search
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
search
集成电路企业跨隔离网数据交换的安全性及解决方案

集成电路企业在进行跨隔离网数据交换时面临着安全性问题，传统的数据交换方式存在安全性堪忧、效率低下等问题。本文以《Ftrans跨网文件安全交换系统》为例，介绍了如何通过丰富的审批流程来满足企业的合规要求，保障数据交换的安全性。 ... [详细]

蜡笔小新 2023-12-12 11:59:54
search
从高级程序员到CTO的4次能力跃迁！如何选择适合的技术负责人？

本文讲解了从高级程序员到CTO的4次能力跃迁，以及如何选择适合的技术负责人。在初创期、发展期、成熟期的每个阶段，创业公司需要不同级别的技术负责人来实现复杂功能、解决技术难题、提高交付效率和质量。高级程序员的职责是实现复杂功能、编写核心代码、处理线上bug、解决技术难题。而技术经理则需要提高交付效率和质量。 ... [详细]

蜡笔小新 2023-12-11 13:41:06
js
互联网思维中的3个段子，9大分类和19条法则

本文介绍了互联网思维中的三个段子，涵盖了餐饮行业、淘品牌和创业企业的案例。通过这些案例，探讨了互联网思维的九大分类和十九条法则。其中包括雕爷牛腩餐厅的成功经验，三只松鼠淘品牌的包装策略以及一家创业企业的销售额增长情况。这些案例展示了互联网思维在不同领域的应用和成功之道。 ... [详细]

蜡笔小新 2023-12-10 14:58:10
js
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
js
面试经验分享：华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试

最近有朋友去华为面试，面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败，因为缺乏基础知识。面试问题涉及 ... [详细]

蜡笔小新 2023-12-09 10:22:03