热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ICRA2019最佳论文MakingSenseofVisionandTouch:SelfSupervisedLearningofMultimodalRepresentatio

文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议:ICRA2019标题:《MakingSenseofVision

文章目录

  • 摘要
  • 模型架构
    • 模态编码器
    • 自监督预测
  • 控制器设计
    • 策略学习
    • 控制器设计
  • 实验
  • 结论和展望

会议: ICRA 2019

标题:《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》

论文链接: https://arxiv.org/abs/1810.10191

本文仅作为个人学习笔记分享,图片来自于论文,如有侵权,请联系删除。

机器人领域顶级会议 ICRA 2019 刚在加拿大蒙特利尔举行(当地时间 5 月 20 日-24 日),刚刚大会公布了最佳论文奖项,来自斯坦福大学李飞飞组的研究《Making Sense of Vision and Touch: Self-Supervised Learning of Multimodal Representations for Contact-Rich Tasks》获得了最佳论文。以下是针对这边文章的学习和记录。

摘要

在非结构化环境中执行需要大量接触的操纵任务通常需要触觉和视觉反馈。但是,手动设计机器人控制器使其结合具备不同特征的模态并不容易。尽管深度强化学习在学习高维输入的控制策略时获得了很大成功,但由于样本复杂度,这些算法通常很难在真实机器人上面部署。
该研究使用自监督学习感知输入的紧凑、多模态表征,然后使用这些表征提升策略学习的样本效率。研究者在植入任务上评估了该方法,结果表明该方法对于外部扰动具备稳健性,同时可以泛化至不同的几何、配置和间隙(clearances)。研究者展示了在模拟环境中和真实机器人上的结果。

在这里插入图片描述

图1,Z轴上的压力传感器读数(高度)和视觉观察结果与插入桩任务的相应阶段一起显示。压力读数从(1)在自由空间中移动的臂转变为(2)与盒子接触。当对准销钉时,压力捕捉到盒表面(3,4)上的滑动接触的相互作用力。最后,在插入阶段,当机器人尝试在孔(5)边缘插入销钉时,压力达到峰值,当销钉滑入孔(6)时,压力减小。

模型架构

该研究提出的多模态表征学习模型架构如下图所示:

在这里插入图片描述
图 2:利用自监督进行多模态表征学习的神经网络架构。该网络使用来自三个不同传感器的数据作为模型输入:RGB 图像、力矩传感器在 32ms 窗口上读取的力矩数据、末端执行器的位置和速度。该模型将这些数据编码并融合为多模态表征,基于这些多模态数据可学习用控制器执行需要大量接触的操纵。这一表征学习网络是通过自监督端到端训练得到的。

模态编码器

我们的模型对机器人可用的三种传感器数据进行编码:来自固定摄像头的RGB图像、来自手腕固定力扭矩(F/T)传感器的触觉反馈以及来自机器人手臂关节编码器的本体感知数据。这种数据的异构性要求特定领域的编码器捕获每个模态的独特特征。

对于视觉反馈,我们使用类似于FlowNet的6层卷积神经网络(CNN)编码128x128x3的RGB图像,通过全连接层将最后的激活图转换为128维的向量。

对于触觉反馈,们将来自六轴F/T传感器的最后32个读数作为32*6时间序列,并用stride=2执行5层因果关系的卷积,将压力读数转换为64维的特征向量。

对于本体感知,我们使用2层的多层感知器(MLP)对末端效应器的当前位置和速度进行编码,以生成32维特征向量。

最后,将的得到的三个特征向量连接成一个特征向量,并通过多模态融合模块(2层MLP)生成最终的128维多模表示。

自监督预测

模态编码器有近50万个可学习参数,需要大量的标记训练数据。为了避免人工标注,我们设计了通过自我监督可以自动生成标签的训练目标。此外,控件的表示应该对与操作相关的信息进行编码。为此,我们设计了两个动作条件表示学习目标。考虑到机器人的下一个动作和当前感官数据很少,该模型必须预测(i)动作产生的光流,(ii)末端执行器是否会在下一个控制循环中与环境接触。
在给定本体感知和已知的机器人运动学和几何学,自动生成光流的真实标注信息。通过对F/T读数应用简单的启发式方法,生成二元接触状态的真实标注。

下一个动作,即末端效应器动作,由2层MLP编码。它与多模态表示一起构成了流和接触预测器的输入。流量预测器使用一个6层卷积解码器加上采样来生成128x128x2大小的流量图。之后,我们使用4个跳过连接。接触预测器是一个2层MLP,执行二进制分类。

不同的传感器流之间存在着并发性,导致了相关性和冗余性。例如,看到木钉,触摸盒子,感受力量。我们通过引入第三个表示学习目标来利用这一点,该目标预测两个传感器流是否暂时对齐。在训练过程中,我们对时间一致的多模数据和随机移位的数据进行混合采样。对准预测器(2层MLP)以低维表示为输入,对输入是否对准进行二进制分类。

我们训练了具有端点误差(EPE)损失的作用条件光流平均在所有像素上,以及接触预测和具有交叉熵损失的对准预测。在训练过程中,我们在一组展开的轨迹上,以随机梯度下降的方式,将三个损失的端到端之和最小化。经过训练后,该网络生成一个128维特征向量,它紧凑地表示多模数据。这个向量从输入通过强化学习获得操纵策略。

控制器设计

下图展示了该研究的控制器架构,该架构可分为三部分:轨迹生成、阻抗控制和操作空间控制。
在这里插入图片描述

策略学习


控制器设计


实验

下图展示了该模型在模拟环境中的训练。图 a 展示了 TRPO 智能体的训练曲线:

在这里插入图片描述
图 4:模拟植入任务:对基于不同感知模态数据训练得到的表征进行模型简化测试。研究者将使用结合了视觉、触觉和本体感觉的多模态表征训练得到的完整模型和未使用这些感知训练的基线模型进行了对比。b 图展示了使用不同反馈模态的部分任务完成率,其中视觉和触觉模态在接触丰富的任务中发挥不可或缺的作用。

下图展示了在真实环境中的模型评估。

在这里插入图片描述
图 5:a)在真实机器人实验及其间隙上使用 3D 打印 peg。b)定性预测:研究者对来自其表征模型的光流预测示例进行可视化。

下图展示了在真实机器人上对该模型的评估,同时展示了该模型在不同任务设置上的泛化效果。
在这里插入图片描述
图6:真实机器人peg插入:我们在实际硬件上评估我们的模型,在x轴上显示不同的peg形状。学习到的策略以很高的成功率完成任务。我们还研究了将政策和表示从训练有素的标桩转换为新颖的标桩形状(最后四个栏)。机器人有效地重新利用以前训练过的模型来解决这个新任务。

结论和展望

该技术研究了在时间一致的多传感器数据上联合推理对丰富接触操作任务的价值。为了实现高效的真实机器人训练,提出了一种新模型,将不同的传感器输入编码成一个紧凑的多模态表示。一旦经过训练,当被用作加强学习的浅层神经网络策略的输入时,表征保持不变。我们通过自监督训练了表征模型,不需要手工标注。该研究对紧间隙销钉插入任务的实验表明,它们需要视觉和触觉的多模态反馈。进一步证明了多模表示可以很好地转移到PEG插入的新任务实例中。为了将来的工作,计划将该方法扩展到其他接触式任务,这需要一个完整的位置和方向的6自由度控制器。研究者还希望探讨将更丰富的方式价值(如深度和声音)纳入代表性学习管道,以及新的自监督的来源。


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • Android中高级面试必知必会,积累总结
    本文介绍了Android中高级面试的必知必会内容,并总结了相关经验。文章指出,如今的Android市场对开发人员的要求更高,需要更专业的人才。同时,文章还给出了针对Android岗位的职责和要求,并提供了简历突出的建议。 ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • macOS Big Sur全新设计大版本更新,10+个值得关注的新功能
    本文介绍了Apple发布的新一代操作系统macOS Big Sur,该系统采用全新的界面设计,包括图标、应用界面、程序坞和菜单栏等方面的变化。新系统还增加了通知中心、桌面小组件、强化的Safari浏览器以及隐私保护等多项功能。文章指出,macOS Big Sur的设计与iPadOS越来越接近,结合了去年iPadOS对鼠标的完善等功能。 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • 关于extjs开发实战pdf的信息
    本文目录一览:1、extjs实用开发指南2、本 ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了10分钟了解Android的事件分发相关的知识,希望对你有一定的参考价值。什么是事件分发?大家 ... [详细]
author-avatar
柯韵亚
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有