重读经典（点云深度学习开山之作）：《Deeplearningonpointcloudsfor3Dsceneunderstanding》(持续更新中)

作者：byd888_613 | 来源：互联网 | 2023-06-08 14:26

本文介绍的是PointNet作者的博士论文：3D场景理解中的点云深度学习。从上图可以看到，整个博士论文主要贡献有两块：一是点云深度学习的网

在这里插入图片描述
本文介绍的是 PointNet 作者的博士论文&＃xff1a;3D场景理解中的点云深度学习。从上图可以看到&＃xff0c;整个博士论文主要贡献有两块&＃xff1a;一是点云深度学习的网络架构&＃xff08;PointNet 和 PointNet&＃43;&＃43;&＃xff09;&＃xff1b;二是在3D场景理解中的应用&＃xff08;Frustum Pointnets 和 FlowNet3D&＃xff09;。在本文中&＃xff0c;将会按照博士论文篇幅顺序对 PointNet 和 PointNet&＃43;&＃43; 进行一次详解介绍。关于后面两章 3D 场景理解中的应用 感兴趣的朋友可以看论文原文&＃xff0c;这里就不介绍了。

文章目录

- - Abstract
  - Acknowledgments
  - Introduction & Background
  - Deep Learning on Point Sets: PointNet
  - - Problem Statement
    - PointNet Architecture
    - Experiments
    - Appendix
  - From PointNet to PointNet&＃43;&＃43;
  - - Problem Statement
    - PointNet&＃43;&＃43; Architecture
    - Experiments
    - Appendix
  - Conclusion and Outlook
  - 参考文献

Abstract

在这里插入图片描述
首先是论文摘要&＃xff0c;可以看到摘要篇幅不长&＃xff0c;主要有两段&＃xff1a;

第一段介绍点云是一种常用的几何数据类型&＃xff0c;在计算机视觉、计算机图形学和机器人领域有着广泛的应用。廉价的 3D 传感器的出现使得点云数据可以广泛获得&＃xff0c;而当前对自动驾驶汽车的兴趣突显了可靠和高效的点云处理的重要性。然而&＃xff0c;由于点云自身格式的不规则&＃xff0c;目前的卷积深度学习方法不能直接用于点云处理。大多数研究人员将点云数据转换为规则的3D体素网格或图像集合&＃xff0c;这使得点云数据量变得巨大&＃xff0c;同时也出现点云量化和其他问题。在本论文中&＃xff0c;提出了一种新的神经网络 (PointNet和PointNet&＃43;&＃43;)&＃xff0c;可直接处理点云&＃xff0c;同时考虑了点云输入的排列不变性。网络对物体分类和部件分割到语义场景解析的各种应用提供了统一的架构&＃xff0c;同时对各种输入扰动和数据损坏具有高效和鲁棒性。理论分析表明网络可以逼近任何连续的集合函数&＃xff0c;并解释了它的鲁棒性。在 PointNet&＃43;&＃43; 中&＃xff0c;我们进一步研究了点云中的局部内容&＃xff0c;研究了 3D 扫描中采样密度不均匀的挑战&＃xff0c;并设计了学习适应不同采样密度的网络层。
本文提出的架构打开了新的以 3D 为中心的场景理解方法。我们展示了如何将 PointNets 技术应用于机器人领域中两个重要的感知问题&＃xff1a;3D物体检测 和 3D场景流估计。在 3D物体检测 方面&＃xff0c;我们提出了一种新的基于 frustum 的检测框架&＃xff0c;实现了点云中的 3D实例分割 和 3D非模态的box估计 。我们的模型&＃xff0c;称为 Frustum PointNets&＃xff0c;得益于点云提供的精确几何信息&＃xff0c;能够通过在输入上应用非参数和数据驱动的几何变换来规范化学习问题。在大规模的室内和室外数据集上进行评估&＃xff0c;我们的实时检测器都取得了最好的检测效果。在场景流估计方面&＃xff0c;我们提出了一种新的深度网络 FlowNet3D&＃xff0c;该网络学习从两帧点云中恢复 3D 运动流。与以往侧重于二维表示和优化光流的工作相比&＃xff0c;我们的模型直接优化了三维场景流&＃xff0c;在实际 LiDAR 扫描的评估中显示出巨大的优势。由于点云的普遍存在&＃xff0c;我们的体系结构并不局限于上述两种应用&＃xff0c;甚至不局限于三维场景理解。本文最后对其它潜在的应用领域和未来的研究方向进行了讨论。
这里可以看到作者的摘要写的还是很简短的&＃xff0c;前面介绍了设计的网络结构&＃xff0c;后面介绍了两个具体感知应用。

Acknowledgments

在这里插入图片描述
下面是论文致谢&＃xff0c;总共有五段&＃xff1a;

作者第一段是感谢导师 Leonidas Guibas 教授 &＃xff08;Leo教授目前是美国两院院士&＃xff09;。对我来说&＃xff0c;Leo 是一位非凡的导师&＃xff0c;也是一个学术榜样。他总是保持纯真&＃xff0c;对新问题保持好奇心。我仍然感谢 Leo 对我的第一个项目的支持&＃xff0c;这是小组中的第一个深度学习项目。自从那个项目以来&＃xff0c;我们一直在一起学习和成长。现在我经常惊讶于 Leo 在这些新主题上的渊博知识&＃xff0c;以及他拥有的深刻洞察力。非常感谢 Leo 经常提醒我要思考得更深&＃xff0c;在研究中超越工程层面。最后但同样重要的是&＃xff0c;我感谢 Leo 给我的自由&＃xff0c;无论是在选择研究课题还是选择职业道路上。Leo 给了我他的建议&＃xff0c;但让我决定我真正想做的是什么。最后作者还感谢了论文阅读委员会和答辩委员会们对论文的建议和评论。
第二段作者感谢的是博士期间一同工作的同学、同事。特别感谢的是 Hao Su&＃xff0c;其也是 PointNet 共同一作和PointNet&＃43;&＃43; 作者之一。第三段作者感谢的是 Google 和 Nuro 公司&＃xff0c;正是因为在这两家公司实习&＃xff0c;作者才去研究了点云上的深度学习以及物体检测&＃xff0c;作者也感谢了两次实习的其他合作同事。第四段就是感谢家人&＃xff0c;最后感谢了英伟达捐赠的 GPU 以及其它组织的支持。

Introduction & Background

论文前两章导论和背景知识部分这里就不详细介绍了&＃xff0c;具体内容大家可以看论文原文。

首先是介绍研究背景&＃xff0c;最近&＃xff0c;我们观察到许多新兴的应用需要感知 3D 环境或与 3D 对象交互。例如&＃xff0c;在自动驾驶中&＃xff0c;为了做出驾驶决策&＃xff0c;机器人汽车需要意识到周围的行人和汽车&＃xff0c;并理解他们的动作。在增强现实(AR)中&＃xff0c;AR 眼镜配备了深度摄像头来感知和理解 3D 几何图形&＃xff0c;以便在正确的位置显示虚拟对象&＃xff0c;例如冰箱门上的虚拟菜单。许多 3D 场景理解问题不能通过直接编程的方法来结局&＃xff0c;因此需要数据驱动的方法来解决。最近深卷积神经网络(CNNs)在 2D 图像理解中的成功启发了我们&＃xff0c;我们也希望在 3D 数据理解中受益于深度学习&＃xff0c;从而实现 3D深度学习。

然而&＃xff0c;与用 2D像素数组表示的图像不同&＃xff0c;3D 具有许多常见的表示&＃xff0c;如下图所示&＃xff1a;点云、多边形结构、体素结构、深度图等。其中&＃xff0c;点云是从物体表面采样的空间中的一组点&＃xff0c;通常由激光雷达或深度相机等 3D 传感器采集。在众多的 3D 表示中&＃xff0c;对于 3D 场景的理解&＃xff0c;我们特别关注点云&＃xff0c;原因有两个。

首先&＃xff0c;点云可能是最接近原始传感器数据的表示形式。点云编码来自传感器的全部信息&＃xff0c;没有任何量化损失(如体积表示)或投影损失(如多视图表示)&＃xff0c;因此是三维场景理解中是端到端学习的首选。
其次&＃xff0c;点云在表示上非常简单&＃xff1a;它只是点的集合&＃xff0c;避免了网格组合的不规则性和复杂性(如多边形、多边形大小和连通性的选择)&＃xff0c;因此更容易学习。点云也不需要像在体积表示中那样选择分辨率&＃xff0c;或者像在多视图图像中那样选择投影视点。

尽管点云其简单性和普及性很强&＃xff0c;但几乎没有任何关于点云的表示学习工作&＃xff0c;大多数现有的点云特征都是针对特定任务手动制作的。近年来&＃xff0c;用深度神经网络处理点云的研究成果很少。然而&＃xff0c;由于点云是不规则的&＃xff0c;这些方法几乎都是先将点云转换为其他规则表示&＃xff0c;然后再应用现有的深层网络结构。

一个例子是将点云转换为二进制占用网格(如果其中有点&＃xff0c;则体素为1&＃xff0c;如果为空&＃xff0c;则为0)&＃xff0c;然后在体积网格上应用 3DCNN。然而&＃xff0c;这存在非常高的空间和计算成本。在3DCNN 中&＃xff0c;存储和计算开销随着网格分辨率的增加呈三次曲线增长。更糟糕的是&＃xff0c;由于扫描仪只从物体表面捕获点&＃xff0c;许多体素都是空的&＃xff0c;因此浪费了大量的计算。由于昂贵的成本&＃xff0c;大多数工作只使用非常粗糙的网格&＃xff0c;例如分辨率为 30x30x30x30&＃xff0c;这反过来会导致较大的量化误差。
除了将点云体素化到体网格和使用 3D CNN&＃xff0c;还可以将点云投影到 2D 平面上或从 2D 平面绘制 2D 图像&＃xff0c;然后使用流行的 2D CNN&＃xff0c;但是&＃xff0c;由于投影&＃xff0c;某些3D信息会丢失&＃xff0c;并且选择哪个视点进行投影并不总是显而易见的。
此外&＃xff0c;人们可以首先从点云中提取手工制作的特征&＃xff0c;然后使用简单的全连接网络来处理它们。然而&＃xff0c;通过这种方式&＃xff0c;特征学习是通过手工制作的特征来实现的。

由于所有这些转换都有不足之处&＃xff0c;一个吸引人的研究问题是&＃xff1a;我们能否直接在点云上实现有效的特征学习&＃xff1f; 答案是肯定的&＃xff0c;下面作者就开始介绍了自己的研究工作&＃xff08;PointNet/PointNet&＃43;&＃43;/Frustum PointNets/FlowNet3D&＃xff09;&＃xff0c;可以看作是摘要的扩充版&＃xff0c;后面还会再详细介绍这里就跳过了。

在背景知识部分&＃xff1a;

作者介绍了所使用的数据集&＃xff1a;MNIST、ModelNet40、ShapeNetPart、SHREC15、S3DIS、ScanNet、SUN RGB-D、FlyingThings3D、KITTI&＃xff0c;可以看到作者博士期间的工作量还是很大的。
然后从五个方面介绍了相关工作&＃xff1a;Point Cloud Descriptors、Deep Learning on Unordered Points、Deep Learning on Other 3D Representations、3D Object Detection、Scene Flow Estimation。背景知识部分这一章&＃xff0c;作者写的还是很详细的&＃xff0c;值得学习。

Deep Learning on Point Sets: PointNet

在本章&＃xff0c;我们开始学习 PointNet。下图是 PointNet 的应用&＃xff0c;包括物体分类、部件分割、语义分割。虽然点云在表示上很简单&＃xff0c;但在实际处理中面临着两个挑战。

首先&＃xff0c;点云只是一组点&＃xff0c;因此这些点的排列组合应是不变的&＃xff0c;这句话其实是说在处理点云数据时无论这些点如何排列组合&＃xff0c;所表示的物体都是确定的。
其次&＃xff0c;还需要考虑刚体运动的不变性。即无论怎么进行旋转平移操作&＃xff0c;点云所表示的物体也都是确定的。

为了解决上面两个问题&＃xff0c;作者构造了一个由神经网络组成的对称函数&＃xff0c;从而保证了它对输入点云序列的不变性。与一般论文所不同的是&＃xff0c;作者除了进行了实验评估&＃xff0c;还进行了理论分析&＃xff0c;证明了所设计的网络可以逼近任何连续的集合函数。更有趣的是&＃xff0c;网络学会了通过一组稀疏的关键点来总结输入点云&＃xff0c;根据可视化&＃xff0c;关键点大致对应于对象的骨架。

在这里插入图片描述

Problem Statement

下面介绍下我们要处理的问题。假设点云数据集为 ${Pi∣i&＃61;1,…,n}\left\{P_{i} \mid i&＃61;1, \ldots, n\right\}$ &＃xff0c;每个点 $P_i$ 可以由坐标 $(x, y, z)$ 以及其它特征通道来表示&＃xff08;如颜色等&＃xff09;&＃xff0c;这里为了简化&＃xff0c;每个点只包含坐标 $(x, y, z)$ 通道。

对于物体分类任务&＃xff0c;设计的网络对 $k$ 个候选类输出 $k$ 个分数&＃xff1b;对于部件分割和语义分割&＃xff0c;设计的网络会输出 $\times m$ 个分数&＃xff0c;每一个点会有 $m$ 个类别分值。

PointNet Architecture

在这里插入图片描述

先来看一下输入的点云数据&＃xff0c;它有三个主要的性质&＃xff1a;

无序性。与图像的像素数组或体素网格中的体素数组所不同&＃xff0c;点云是一个无特定顺序的点的集合。换句话说&＃xff0c;一个网络在处理 $N$ 个点时应该能保证对这些点 $N!$ 个排列组合输入时保持不变。
点之间的相互作用。每个点并不是完全孤立的&＃xff0c;它们与相邻的点形成了一个有意义的子集。因此&＃xff0c;模型需要能够从邻近的点捕获局部特征。
刚体变换不变性。作为一个几何体&＃xff0c;网络在物体经过不同刚体变换后学到的表征应该是不变的。例如&＃xff0c;旋转或平移所有的点不应该修改全部点的类体和每个点的分割结果。

下面着详细绍下 PointNet 网络结构。从下图可以看到&＃xff0c;分类网络和分割网络有很大一部分比例是共用的。整个网络有三个关键模块&＃xff1a;

1&＃xff09;最大池化层 作为一个对称函数聚合所有点的信息&＃xff1b;
2&＃xff09;局部和全局特征组合结构&＃xff1b;
3&＃xff09;两个对齐网络对齐输入点云和点云特征。

在这里插入图片描述

无序点云对称函数。为了让模型对点云的排列组合保持不变&＃xff0c;可以有三种办法&＃xff1a;1&＃xff09;对输入的点云顺序进行排序&＃xff1b;2&＃xff09;使用 RNN 网络&＃xff0c;讲输入看作是一个序列&＃xff0c;但是使用全局的排列组合来进行数据增强&＃xff1b;3&＃xff09;使用简单的对称函数聚合每个点的信息。例如 $&＃43;$ 和 $*$ 运算符是对称二元函数&＃xff0c;其实是我们学过的加法或乘法交换律。

我们的思想是通过对点集上的变换元素应用对称函数来逼近定义在该点集上的通用函数&＃xff0c;即&＃xff1a;
$f({x1,…,xn})≈g(h(x1),…,h(xn))f\left(\left\{x_{1}, \ldots, x_{n}\right\}\right) \approx g\left(h\left(x_{1}\right), \ldots, h\left(x_{n}\right)\right)$

其实&＃xff0c; $2^{\mathbb{R}^{N}} \rightarrow \mathbb{R}, h: \mathbb{R}^{N} \rightarrow \mathbb{R}^{K}$ $ &＃xff0c; $\underbrace{\mathbb{R}^{K} \times \cdots \times \mathbb{R}^{K}}_{n} \rightarrow \mathbb{R}$

RK×⋯×RK→R 是一个对称函数。在实验上&＃xff0c;我们的基本模式很简单&＃xff0c;使用多层感知机来近似函数 $h$ &＃xff0c; $g$ 是一个最大池化函数。使用这些基本模块就可以构建一个简单的 PointNet 网络。如下图所示。
在这里插入图片描述

Experiments

Appendix

From PointNet to PointNet&＃43;&＃43;

Problem Statement

PointNet&＃43;&＃43; Architecture

Experiments

Appendix

Conclusion and Outlook

参考文献

论文链接&＃xff1a;Deep Learning On Point Clouds For 3D Scene Understanding

推荐阅读

io
程度|也就是_论文精读：Neural Architecture Search without Training

篇首语：本文由编程笔记#小编为大家整理，主要介绍了论文精读：NeuralArchitectureSearchwithoutTraining相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:33:20
ip
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
io
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
ip
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
sum
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
io
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
ip
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
io
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01
io
ICRA2019最佳论文 Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio

文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议：ICRA2019标题：《MakingSenseofVision ... [详细]

蜡笔小新 2023-10-17 12:49:25
python
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
python
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
io
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
python
Windows7 安装TensorflowGPU文档

安装Tensorflow-GPU文档第一步：通过Anaconda安装python从这个链接https:www.anaconda.comdownload#window ... [详细]

蜡笔小新 2023-10-17 07:23:13
ip
用c语言实现线画、填充图元生成算法多边形_【游戏场景剔除】剔除算法综述...

之前在做场景优化的过程中，看了不少论文和博客阐述不同剔除算法的原理和过程，自己参照着算法去实现了Hiz和软件剔除。一直想写一篇关于剔除算法的综述 ... [详细]

蜡笔小新 2023-10-16 13:24:11
python
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31

byd888_613

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章