热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

读手语图像识别论文笔记2

文章目录一、前言二、笔记1.名词解释2.流程分析上一篇快速门:读手语图像识别论文笔记1(手语识别背景和方法)一、前言一句:“做完了&#x

文章目录

  • 一、前言
  • 二、笔记
    • 1.名词解释
    • 2.流程分析


上一篇快速门:读手语图像识别论文笔记1(手语识别背景和方法)


一、前言

一句:“做完了,被推翻了,算法不过关。” 的叹息,表达出 “毕设狗” 的内心活动。

故事背景: 我的毕设题目是《基于机器视觉对手语进行识别》方面。

Two days ago:我毕设快要完成,效果不理想,寻找解决方法。
在这里插入图片描述
再怎么讨论都不如读paper寻找思路强!读他!

二、笔记

1.名词解释


  1. 连续中国手语图像

    图像分为连续图像和离散图像两类,

    连续图像是指在二维坐标系中具有连续变化的空间位置和灰度的图像。连续图像的典型代表是由光学透镜系统所获得的图像,如彩色照片、航空摄像片等,用眼睛观测连续图像时感觉自然。
    在这里插入图片描述 在这里插入图片描述
    (易误区:并不是只有视频才是连续图像,图片也是连续图像。)

    离散图像则以一定网挣为周期,把×、Y坐标轴划分为棋盘式的网格,仅取离散的各个交点位置上的灰度值,构成的图像称为离散图像,也称采样图像。印刷图像其实就是离散图像,电脑图像和扫描图像也是离散图像。

  2. 快速鲁棒性特征
    SURF(Speeded Up Robust Features,加速鲁棒性特征)是对SIFT特征的进一步优化,Sift采用的是DOG图像,而surf采用的是Hessian矩阵行列式近似值图像,也写作DOH算子。
    在这里插入图片描述

    SIFT(ScaleInvariant Feature Transform,尺度不变特征转换)根据图像尺度不变性、旋转不变性 得到特征点,匹配:
    在这里插入图片描述

    可参考:Python+Opencv2(三)图像特征匹配

  3. 隐马尔可夫模型
    HMM(Hidden Markov Model)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

    简单来说就是:已知状态–预测–>未知状态

    原理参考:【HMM】入门天气数据集实验–理解隐马尔可夫模型
    实例参考:1 | 2

    HMM如今被大量使用在音频处理上,手语视频和自然语言相似,都具有连续的特点。
    在这里插入图片描述


理论推导 部分 我太菜了,可面向Google 和百度理解学习,我怕我自己都说不明白。


2.流程分析


  1. 词袋的提出
    BOF( Bag Of Features)即词袋图,是一种用于图像或视频检索的技术,把每幅图像描述为一个局部区域/关键点特征的无序集合。

    左图为 词根 示例,右图为 “学校” 手语演示(由“读书”、“房子”两个手势表达而成)
    在这里插入图片描述 在这里插入图片描述
    两篇论文都提到从中国手语辞典里整理出 “词袋” ,再用HMM创建模型进行识别。

  2. 词袋的制作
    (1)特征点的提取:

    • 《面向大词汇量的连续中国手语识别系统的研究与实现_王春立》这篇论文中采用的是通过两只CyberGlove数据手套和带有三个接收器的跟踪设备进行采集特征集合。
    • 《基于快速鲁棒性特征和隐马尔可夫模型的手语识别_陈梯》这篇论文采用的是surf提取手势特征点。

    可见特征点提取的方法不唯一,最终得到的都是每种手势的特征集合。

    (2)词袋BOF的制作:
    通过聚类法(k-means),将以上提取的特征进行分类。《基于快速鲁棒性特征和隐马尔可夫模型的手语识别_陈梯》这篇文章中采取的做法是:
    在这里插入图片描述
    左图为鸢尾花数据集k-means分类,右图是我对6种手势特征分类效果,根据不同的分类获得词袋关键词特征。
    在这里插入图片描述在这里插入图片描述
    当然分类方法也不唯一,权重和参数的设置也很重要,划分特征点集合,让他们具有代表性和可识别性。

  3. 手势分类和识别
    根据编码辞典建立搜索网络,均采用的是HMM法。
    引用《基于神经网络的中小词汇量中国手语识别研究_李晓旭》这篇文章的测试结果,HMM的识别率可达90%。
    在这里插入图片描述
    当然另外还测试了LSTM法进行测试,LSTM性能会优于HMM。(其中SHS和HOG是特征提取法的两种,SHS特征比HOG特征更适合于中国手语的表达。)

读了这么些文章多少有点思路,可以开始编码了😀。


参考资料:
《面向大词汇量的连续中国手语识别系统的研究与实现_王春立》
《基于快速鲁棒性特征和隐马尔可夫模型的手语识别_陈梯》
《基于神经网络的中小词汇量中国手语识别研究_李晓旭》


推荐阅读
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 树莓派语音控制的配置方法和步骤
    本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助,文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行,然后使用Eoman的控制方法,即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]
  • navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题
    摘要:目前复杂问题包括两种:含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • 鄂维南:从数学角度,理解机器学习的「黑魔法」,并应用于更广泛的科学问题...
    作者|Hertz来源|科学智能AISI北京时间2022年7月8日晚上22:30,鄂维南院士在2022年的国际数学家大会上作一小时大会报告(plenarytalk)。今 ... [详细]
  • 分享篇:第十届“泰迪杯”数据挖掘挑战赛农田害虫图像识别(特等奖)一
    1.1赛题背景昆虫的种类浩如烟海,农田常见的昆虫是人工生态系统的重要组成部分。分辨益虫和害虫,保留益虫,消灭害虫,对于减轻害 ... [详细]
  • 开源真香 离线识别率高 Python 人脸识别系统
    本文主要介绍关于python,人工智能,计算机视觉的知识点,对【开源真香离线识别率高Python人脸识别系统】和【】有兴趣的朋友可以看下由【000X000】投稿的技术文章,希望该技术和经验能帮到 ... [详细]
  • 2018年人工智能大数据的爆发,学Java还是Python?
    本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代,Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言,容易上手。其特色之一是强制使用空白符作为语句缩进,使得新手可以快速上手。目前,Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣,欢迎加入qq群458345782。 ... [详细]
  • 如何实现织梦DedeCms全站伪静态
    本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态,以提高管理和SEO效果。全站伪静态可以避免重复URL的问题,同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式,可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具,如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]
  • 本文介绍了一些好用的搜索引擎的替代品,包括网盘搜索工具、百度网盘搜索引擎等。同时还介绍了一些笑话大全、GIF笑话图片、动态图等资源的搜索引擎。此外,还推荐了一些迅雷快传搜索和360云盘资源搜索的网盘搜索引擎。 ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 本文介绍了互联网思维中的三个段子,涵盖了餐饮行业、淘品牌和创业企业的案例。通过这些案例,探讨了互联网思维的九大分类和十九条法则。其中包括雕爷牛腩餐厅的成功经验,三只松鼠淘品牌的包装策略以及一家创业企业的销售额增长情况。这些案例展示了互联网思维在不同领域的应用和成功之道。 ... [详细]
  • css div中文字位置_超赞的 CSS 阴影技巧与细节
    本文的题目是CSS阴影技巧与细节。CSS阴影,却不一定是box-shadow与filter:drop-shadow,为啥?因为使用其他属性 ... [详细]
author-avatar
斌冷无情_869
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有