ICRA2019最佳论文MakingSenseofVisionandTouch:SelfSupervisedLearningofMultimodalRepresentatio

作者：柯韵亚 | 来源：互联网 | 2023-10-17 12:49

文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议：ICRA2019标题：《MakingSenseofVision

文章目录

摘要
模型架构
- 模态编码器
- 自监督预测
控制器设计
- 策略学习
- 控制器设计
实验
结论和展望

会议&＃xff1a; ICRA 2019

标题&＃xff1a;《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》

论文链接&＃xff1a; https://arxiv.org/abs/1810.10191

本文仅作为个人学习笔记分享&＃xff0c;图片来自于论文&＃xff0c;如有侵权&＃xff0c;请联系删除。

机器人领域顶级会议 ICRA 2019 刚在加拿大蒙特利尔举行&＃xff08;当地时间 5 月 20 日-24 日&＃xff09;&＃xff0c;刚刚大会公布了最佳论文奖项&＃xff0c;来自斯坦福大学李飞飞组的研究《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》获得了最佳论文。以下是针对这边文章的学习和记录。

摘要

在非结构化环境中执行需要大量接触的操纵任务通常需要触觉和视觉反馈。但是&＃xff0c;手动设计机器人控制器使其结合具备不同特征的模态并不容易。尽管深度强化学习在学习高维输入的控制策略时获得了很大成功&＃xff0c;但由于样本复杂度&＃xff0c;这些算法通常很难在真实机器人上面部署。
该研究使用自监督学习感知输入的紧凑、多模态表征&＃xff0c;然后使用这些表征提升策略学习的样本效率。研究者在植入任务上评估了该方法&＃xff0c;结果表明该方法对于外部扰动具备稳健性&＃xff0c;同时可以泛化至不同的几何、配置和间隙&＃xff08;clearances&＃xff09;。研究者展示了在模拟环境中和真实机器人上的结果。

在这里插入图片描述

图1&＃xff0c;Z轴上的压力传感器读数&＃xff08;高度&＃xff09;和视觉观察结果与插入桩任务的相应阶段一起显示。压力读数从&＃xff08;1&＃xff09;在自由空间中移动的臂转变为&＃xff08;2&＃xff09;与盒子接触。当对准销钉时&＃xff0c;压力捕捉到盒表面&＃xff08;3&＃xff0c;4&＃xff09;上的滑动接触的相互作用力。最后&＃xff0c;在插入阶段&＃xff0c;当机器人尝试在孔&＃xff08;5&＃xff09;边缘插入销钉时&＃xff0c;压力达到峰值&＃xff0c;当销钉滑入孔&＃xff08;6&＃xff09;时&＃xff0c;压力减小。

模型架构

该研究提出的多模态表征学习模型架构如下图所示&＃xff1a;

在这里插入图片描述
图 2&＃xff1a;利用自监督进行多模态表征学习的神经网络架构。该网络使用来自三个不同传感器的数据作为模型输入&＃xff1a;RGB 图像、力矩传感器在 32ms 窗口上读取的力矩数据、末端执行器的位置和速度。该模型将这些数据编码并融合为多模态表征&＃xff0c;基于这些多模态数据可学习用控制器执行需要大量接触的操纵。这一表征学习网络是通过自监督端到端训练得到的。

模态编码器

我们的模型对机器人可用的三种传感器数据进行编码&＃xff1a;来自固定摄像头的RGB图像、来自手腕固定力扭矩&＃xff08;F/T&＃xff09;传感器的触觉反馈以及来自机器人手臂关节编码器的本体感知数据。这种数据的异构性要求特定领域的编码器捕获每个模态的独特特征。

对于视觉反馈&＃xff0c;我们使用类似于FlowNet的6层卷积神经网络&＃xff08;CNN&＃xff09;编码128x128x3的RGB图像&＃xff0c;通过全连接层将最后的激活图转换为128维的向量。

对于触觉反馈&＃xff0c;们将来自六轴F/T传感器的最后32个读数作为32*6时间序列&＃xff0c;并用stride&＃61;2执行5层因果关系的卷积&＃xff0c;将压力读数转换为64维的特征向量。

对于本体感知&＃xff0c;我们使用2层的多层感知器&＃xff08;MLP&＃xff09;对末端效应器的当前位置和速度进行编码&＃xff0c;以生成32维特征向量。

最后&＃xff0c;将的得到的三个特征向量连接成一个特征向量&＃xff0c;并通过多模态融合模块&＃xff08;2层MLP&＃xff09;生成最终的128维多模表示。

自监督预测

模态编码器有近50万个可学习参数&＃xff0c;需要大量的标记训练数据。为了避免人工标注&＃xff0c;我们设计了通过自我监督可以自动生成标签的训练目标。此外&＃xff0c;控件的表示应该对与操作相关的信息进行编码。为此&＃xff0c;我们设计了两个动作条件表示学习目标。考虑到机器人的下一个动作和当前感官数据很少&＃xff0c;该模型必须预测&＃xff08;i&＃xff09;动作产生的光流&＃xff0c;&＃xff08;ii&＃xff09;末端执行器是否会在下一个控制循环中与环境接触。
在给定本体感知和已知的机器人运动学和几何学&＃xff0c;自动生成光流的真实标注信息。通过对F/T读数应用简单的启发式方法&＃xff0c;生成二元接触状态的真实标注。

下一个动作&＃xff0c;即末端效应器动作&＃xff0c;由2层MLP编码。它与多模态表示一起构成了流和接触预测器的输入。流量预测器使用一个6层卷积解码器加上采样来生成128x128x2大小的流量图。之后&＃xff0c;我们使用4个跳过连接。接触预测器是一个2层MLP&＃xff0c;执行二进制分类。

不同的传感器流之间存在着并发性&＃xff0c;导致了相关性和冗余性。例如&＃xff0c;看到木钉&＃xff0c;触摸盒子&＃xff0c;感受力量。我们通过引入第三个表示学习目标来利用这一点&＃xff0c;该目标预测两个传感器流是否暂时对齐。在训练过程中&＃xff0c;我们对时间一致的多模数据和随机移位的数据进行混合采样。对准预测器&＃xff08;2层MLP&＃xff09;以低维表示为输入&＃xff0c;对输入是否对准进行二进制分类。

我们训练了具有端点误差&＃xff08;EPE&＃xff09;损失的作用条件光流平均在所有像素上&＃xff0c;以及接触预测和具有交叉熵损失的对准预测。在训练过程中&＃xff0c;我们在一组展开的轨迹上&＃xff0c;以随机梯度下降的方式&＃xff0c;将三个损失的端到端之和最小化。经过训练后&＃xff0c;该网络生成一个128维特征向量&＃xff0c;它紧凑地表示多模数据。这个向量从输入通过强化学习获得操纵策略。

控制器设计

下图展示了该研究的控制器架构&＃xff0c;该架构可分为三部分&＃xff1a;轨迹生成、阻抗控制和操作空间控制。
在这里插入图片描述

策略学习

控制器设计

实验

下图展示了该模型在模拟环境中的训练。图 a 展示了 TRPO 智能体的训练曲线&＃xff1a;

在这里插入图片描述
图 4&＃xff1a;模拟植入任务&＃xff1a;对基于不同感知模态数据训练得到的表征进行模型简化测试。研究者将使用结合了视觉、触觉和本体感觉的多模态表征训练得到的完整模型和未使用这些感知训练的基线模型进行了对比。b 图展示了使用不同反馈模态的部分任务完成率&＃xff0c;其中视觉和触觉模态在接触丰富的任务中发挥不可或缺的作用。

下图展示了在真实环境中的模型评估。

在这里插入图片描述
图 5&＃xff1a;a&＃xff09;在真实机器人实验及其间隙上使用 3D 打印 peg。b&＃xff09;定性预测&＃xff1a;研究者对来自其表征模型的光流预测示例进行可视化。

下图展示了在真实机器人上对该模型的评估&＃xff0c;同时展示了该模型在不同任务设置上的泛化效果。
在这里插入图片描述
图6&＃xff1a;真实机器人peg插入&＃xff1a;我们在实际硬件上评估我们的模型&＃xff0c;在x轴上显示不同的peg形状。学习到的策略以很高的成功率完成任务。我们还研究了将政策和表示从训练有素的标桩转换为新颖的标桩形状&＃xff08;最后四个栏&＃xff09;。机器人有效地重新利用以前训练过的模型来解决这个新任务。

结论和展望

该技术研究了在时间一致的多传感器数据上联合推理对丰富接触操作任务的价值。为了实现高效的真实机器人训练&＃xff0c;提出了一种新模型&＃xff0c;将不同的传感器输入编码成一个紧凑的多模态表示。一旦经过训练&＃xff0c;当被用作加强学习的浅层神经网络策略的输入时&＃xff0c;表征保持不变。我们通过自监督训练了表征模型&＃xff0c;不需要手工标注。该研究对紧间隙销钉插入任务的实验表明&＃xff0c;它们需要视觉和触觉的多模态反馈。进一步证明了多模表示可以很好地转移到PEG插入的新任务实例中。为了将来的工作&＃xff0c;计划将该方法扩展到其他接触式任务&＃xff0c;这需要一个完整的位置和方向的6自由度控制器。研究者还希望探讨将更丰富的方式价值&＃xff08;如深度和声音&＃xff09;纳入代表性学习管道&＃xff0c;以及新的自监督的来源。

推荐阅读

tree
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
tree
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
format
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
format
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
format
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
range
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
range
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
copy
PhysioNet生理信号处理（三）WFDB Toolbox for Matlab的安装和使用方法

本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容，即可完成安装。该工具箱提供了一系列函数，可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-13 20:46:48
copy
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
tree
如何通过全新应用内评价获取更多优质用户反馈？

Google Play推出全新的应用内评价API，帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论，这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论，以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论，提升用户体验。 ... [详细]

蜡笔小新 2023-12-13 17:23:03
tree
Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池？

本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点，解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时，介绍了JDK原生线程池的工作流程。 ... [详细]

蜡笔小新 2023-12-13 16:18:09
tree
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
tree
SpringBoot yml 配置多配置文件,开发环境,生产环境配置文件分开

原文地址:https:www.cnblogs.combaoyipSpringBoot_YML.html1.在springboot中，有两种配置文件，一种 ... [详细]

蜡笔小新 2023-12-14 12:39:13
rsa
生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍

一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks（论文下载链接arxiv：[h ... [详细]

蜡笔小新 2023-12-14 11:39:45
rsa
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05

柯韵亚

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章