热门标签 | HotTags
当前位置:  开发笔记 > 运维 > 正文

骨骼的动作识别数据集_一种基于骨骼序列的动作识别方法与流程

此方法涉及多媒体信息处理领域,包括计算机智能、模式识别、机器学习领域。背景技术::人类的动作检测识别方法,在当今社会具有非常

此方法涉及多媒体信息处理领域,包括计算机智能、模式识别、机器学习领域。

背景技术:

:人类的动作检测识别方法,在当今社会具有非常广泛的应用,例如:智能监控、人机交互的体感游戏、视频检索等等。基于RGB-D(彩色和深度)视频序列的人类动作检测识别,在当今计算机视觉领域尤其流行。相比较传统的RGB视频序列,RGB-D视频序列对光照的敏感程度更低,同时还具有更为丰富的三维信息。基于深度信息,许多传统方法在第三维方向上提出了扩展,也有许多新的特征被提取出来。骨骼序列,作为深度信息中提取出来的一种特征,目前被广泛认可。Kinect的SDK中已经能够根据深度序列以及彩色图像序列计算出相当准确的骨骼序列。因此,单纯基于骨骼序列的人类动作识别也具有很有发展的前景。近年来,卷积神经网络在计算机识别的领域中具有相当出色的表现,尤其在图片的分类方面。然而,如何采用卷积神经网络来处理基于视频的识别问题仍然是一个开放的课题。当前人们采用卷积神经网络进行人类动作检测识别的方法,主要分为两类:采用卷积神经网络直接处理编码后的视频序列、对视频进行处理,转换为图片再采用卷积神经网络进行学习分类。技术实现要素:本发明利用从Kinect摄像机输出的人类骨骼序列,提出一种具有良好分类识别能力的基于骨骼序列的动作识别方法。技术方案如下:一种基于骨骼序列的动作识别方法,包括下列步骤:1)对于一个骨骼序列,将所有的骨骼均根据三维信息投影到三个笛卡尔正交系的正面、侧面和顶面,生成骨骼分布图;2)通过颜色的变换在骨骼分布图中加入时间信息,方法如下:不同骨骼序列中,同一个时间段的骨骼节点,采用同一个颜色来表示;同一个骨骼序列的不同时间段,用不同的颜色来表示;对不同位置的骨骼采用不同的颜色渐变方式来表示时间信息;在同一个时刻,当颜色信息已经选取完成后,根据骨骼节点的运动速度,用不同的色度以及饱和度来完成对当前颜色的加权;3)利用卷积神经网络,对基于训练数据集生成的三个投影面上的加入时间信息的骨骼分布图,分别做卷积神将网络的模型训练;4)对于每一个测试样本,经过步骤2)的处理后,针对三个投影面的加入时间信息的骨骼分布图,根据训练好的三个卷积神经网络模型,计算出三个Scores向量;将三个投影面的Scores向量相加后,取最大值所在的类别作为该视频序列的从属类别。附图说明图1为整个基于骨骼序列的人类动作识别框架具体实施方式1)骨骼序列到图片的映射通过Kinect摄像机捕捉人类动作,在捕获的数据流中进行骨骼跟踪,得到包含多个骨骼节点的三维骨骼序列。假设一个骨骼序列共有n帧,每一帧都有m个骨骼节点被从深度图上抽取出来,用来表示第i帧的第j个骨骼节点的三维位置信息。整个视频序列中所有的骨骼均可以根据三维信息投影到三个笛卡尔正交系的三个平面上(正面、侧面、顶面)。这样的投影后,每一个骨骼序列都能得到三张黑白的描述该动作骨骼分布的图片。具有丰富的空间信息,然而并不具备时间信息的描述。为了令骨骼展现更完备的动作信息,本发明通过颜色的变换在骨骼分布图中加入时间信息。首先,不同序列中,同一个时间段的骨骼节点,采用同一个颜色来表示;同一个骨骼序列的不同时间段,用不同的颜色来表示。由此,不同的骨骼序列都能够在图片上通过颜色的变换,即展现了空间的分布状态,又展现了时间的先后顺序。其次,由于人体的骨骼整体上是左右对称的,且几乎所有动作中,躯干的骨骼运动幅度都格外少。本专利采用对不同位置的骨骼用不同的颜色渐变方式来表示时间信息。接下来以20个骨骼节点为例,对于属于左侧的骨骼序列K1(左肩、左肘、左腕、左手、左胯、左膝、左脚踝、左脚),采用由蓝至红的颜色变换;对于属于右侧的骨骼序列K2(右肩、右肘、右腕、右手、右胯、右膝、右脚踝、右脚),采用由红至蓝,与左侧完全相反的颜色变换;而针对属于躯干部分的骨骼序列K3(头、颈、躯干、中央胯骨),采用由浅灰至灰色的色彩变换。最后,考虑到骨骼具有不同的速度,对于人类的运动,往往运动幅度大的部位,即关节点运动速度快的部位,具有更为有价值的能够表征动作的信息,因此,在同一个时刻,当颜色信息已经选取完成后,我们根据骨骼节点的运动速度,用不同的色度以及饱和度来完成对当前颜色的加权。以上工作均在给定骨骼序列根据以下公式,在HSV彩色空间表示出对骨骼节点的颜色选取。H(j,i)=in×(hmax-hmin)+hmin,j∈K1hmax-in×(hmax-hmin),j∈K20,j∈K3]]>S(j,i)=vjimax(v)×(Smax-Smin)+Smin,j∈K1,K20,j∈K3]]>V(j,i)=vjimax(v)×(bmax-bmin)+Smin,j∈K1,K2bmax-in×(bmax-bmin),j∈K3]]>其中H(j,i),S(j,i),V(j,i)分别代表HSV彩色空间中的色度、饱和度、明度的取值,表示第j个骨骼节点在第i帧的速度,max{v}表示整个骨骼序列中骨骼节点的最大值,hmin,hmax,Smin,Smax,bmin,bmax分别代表HSV空间中色度、饱和度、明度的取值范围边界值,在本发明中,均采用HSV彩色空间的色度、饱和度及明度的最大取值范围。2)利用深度学习进行图片分类,从而完成人类的动作检测识别任务。在这里,我们采用当今公用的深度学习框架Caffe,在Linux系统下,通过NvidiaGTXTITANX显卡进行卷积神经网络训练的加速,采用该工具箱中AlexNet的网络结构对经过颜色变换的彩色骨骼分布图片进行训练。采用数据集中的训练数据集,在求得三方向骨骼分布图后,分别进行三个卷积神经网络的参数训练对于每一个测试数据集中的视频序列,针对三个投影面的骨骼分布图,根据训练好的三个卷积神经网络模型,计算出三个Scores向量。该向量为图片从属对应类别的归一化概率,向量长度为训练类模型时的类别总数。将三个方向的Scores向量相加后,取最大值所在的类别作为该视频序列的从属类别。下面为本发明在MSRC-12、G3D、UTD-MHAD等数据集上的实验结果说明:在Matlab-2013b平台上进行算法的仿真实现,计算出了训练数据集以及测试数据集的三方向骨骼轨迹图片。我们采用当今公用的深度学习框架Caffe,在Linux系统下,通过NvidiaGTXTITANX显卡进行卷积神经网络训练的加速。最后的Scores综合部分依然在Matlab-2013b平台上完成。本方法在国际公认的人类动作识别数据集中进行测试,数据集中训练集以及测试集的分配方式采用CrossSubject分配方式。测试结果如下:在包含12类动作的MSRC-12数据集上,获得了94.27%的识别准确率;在包含20类动作的G3D数据集上,获得了95.45%的识别准确率;在包含27类动作的UTD-MHAD数据集上,获得了86.97%的识别精度。该实验结果对比与国际领先的基于骨骼序列的人类动作检测识别算法,均取得了高于其余算法的分类准确度。当前第1页1 2 3 



推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • ICRA2019最佳论文  Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio
    文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议:ICRA2019标题:《MakingSenseofVision ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • ShiftLeft:将静态防护与运行时防护结合的持续性安全防护解决方案
    ShiftLeft公司是一家致力于将应用的静态防护和运行时防护与应用开发自动化工作流相结合以提升软件开发生命周期中的安全性的公司。传统的安全防护方式存在误报率高、人工成本高、耗时长等问题,而ShiftLeft提供的持续性安全防护解决方案能够解决这些问题。通过将下一代静态代码分析与应用开发自动化工作流中涉及的安全工具相结合,ShiftLeft帮助企业实现DevSecOps的安全部分,提供高效、准确的安全能力。 ... [详细]
  • 知识图谱表示概念:知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Obj ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • 当写稿机器人真有了观点和感情,我们是该高兴还是恐惧?
    目前,写稿机器人多是撰写以数据为主的稿件,当它们能够为文章注入观点之时,这些观点真的是其所“想”吗?最近,《南 ... [详细]
author-avatar
手机用户2602889575
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有