热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

深度学习的应用:语音识别、图像理解、自然语言处理

随着大数据时代的到来,深度学习技术已经成为当前人工智能领域的一个研究热点,其在图像识别、语音识别、自然语言处理等领域展现出了巨大的优势,并

k1r6N4mRuUxZca7g9BOcV5jIBJY1G82mYS=M7sZONRUc01535045792972.jpeg

随着大数据时代的到来,深度学习技术已经成为当前人工智能领域的一个研究热点,其在图像识别、语音识别、自然语言处理等领域展现出了巨大的优势,并且仍在继续发展变化。

随着传感器技术、存储技术、计算机技术和网络技术的迅猛发展以及人类管理与知识水平的提高,使得数据的膨胀趋势日益加剧,信息技术发展的瓶颈已不仅仅存在于数据的获取、存储与传输,而更受限于数据的加工、分析和利用。采用有效的人工智能技术从大数据中获取抽象信息并将其转换为有用的知识,是当前大数据分析所面临的核心问题之一。大数据时代,如何对纷繁复杂的数据进行有效分析,让其价值得以体现和合理的利用,是当前迫切需要思考和解决的问题,而近期兴起的深度学习方法正是开启这扇大门的一把钥匙。

深度学习是新兴的机器学习研究领域,旨在研究如何从数据中自动提取多层特征表示,其核心思想是通过数据驱动的方式,采用一系列的非线性变换,从原始数据中提取由低层到高层、由具体到抽象、由一般到特定语义的特征。深度学习不仅改变着传统的机器学习方法,也影响着本文对人类感知的理解,迄今已在语音识别、图像理解、自然语言处理等应用领域引发了突破性的变革。

1.图像识别

物体检测和图像分类是图像识别的两个核心问题,前者主要定位图像中特定物体出现的区域并判定其类别,后者则对图像整体的语义内容进行类别判定。Yang 等人是传统图像识别算法中的代表,他们在2009 年提出的采用稀疏编码来表征图像,通过大规模数据来训练支持向量机(support vector machine,SVM)进行图像分类,该方法在2010年和2011年的ImageNet图像分类竞赛中取得了最好成绩。图像识别是深度学习最早尝试的应用领域,早在1989 年,LeCun 和他的同事就发表了关于卷积神经网络的相关工作,在手写数字识别任务上取得了当时世界上最好的结果,并广泛应用于各大银行支票的手写数字识别任务中。百度在2012 年将深度学习技术成功应用于自然图像OCR 识别和人脸识别等问题上,并推出相应的移动搜索产品和桌面应用。从2012 年的ImageNet 竞赛开始,深度学习在图像识别领域发挥出巨大威力,在通用图像分类、图像检测、光学字符识别(optical character recognition,OCR)、人脸识别等领域,最好的系统都是基于深度学习的。2012 年是深度学习技术第一次被应用到ImageNet 竞赛中,可以看出相对于2011 年传统最好的识别错误率大幅降低了41.1%,且2015 年基于深度学习技术的图像识别率错误率已经超过了人类,2016 年最新的ImageNet 识别错误率已经达到2.991%。

PBWjTyEjtft02V5pyE6lDjVhaKur1s1nNPjz2LWMAruQU1535045794721.jpeg

2.语音识别

长久以来,人与机器交谈一直是人机交互领域内的一个梦想,而语音识别是其基本技术。语音识别(automatic speech recognition,ASR)是指能够让计算机自动地识别语音中所携带信息的技术。语音是人类实现信息交互最直接、最便捷、最自然的方式之一。自人工智能(artificial intelligence,AI)的概念出现以来,让计算机甚至机器人像自然人一样实现利用语音进行交互就一直是AI 领域研究者的梦想。最近几年,深度学习(deep learning,DL)理论在语音识别和图像识别领域取得了令人振奋的性能提升,迅速成为了当下学术界和产业界的研究热点,为处在瓶颈期的语音等模式识别领域提供了一个强有力的工具。在语音识别领域,深度神经网络(deep neural network,DNN)模型给处在瓶颈阶段的传统的GMM-HMM模型带来了巨大的革新,使得语音识别的准确率又上了一个新的台阶。目前国内外知名互联网企业(谷歌、科大讯飞及百度等)的语音识别算法都采用的是DNN 方法。2012年11 月,微软在中国天津的一次活动上公开演示了一个全自动的同声传译系统,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅,其后台支撑的关键技术就是深度学习。近期,百度将Deep CNN 应用于语音识别研究,使用了VGGNet,以及包含Residual连接的深层卷积神经网络(convolutional neuralnetwork,CNN)等结构,并将长短期记忆网络(long short-term memory,LSTM)和CTC 的端到端语音识别技术相结合,使得识别错误率相对下降了10%以上。2016 年9 月,微软的研究者在产业标准Switchboard 语音识别任务上,取得了产业中最低的6.3%的词错率。以及国内科大讯飞提出的前馈型序列记忆网络(feed-forward sequential memory network,FSMN)的语音识别系统,该系统使用大量的卷积层直接对整句语音信号进行建模,更好的表达了语音的长时相关性,其效果比学术界和工业界最好的双向RNN(recurrent neural network,RNN)语音识别系统识别率提升了15%以上。由此可见,深度学习技术对语言识别率的提高有着不可忽略的贡献。

Nw8u5nbZ9JD6speItzL2lUCay9prrrezj2YxcDQ8w99Ix1535045795457.jpeg

3.自然语言处理

自然语言处理(natural language processing,NLP)也是深度学习的一个重要应用领域,经过几十年多的发展,基于统计的模型已经成为NLP 的主流,同时人工神经网络在NLP 领域也受到了理论界的足够重视。加拿大蒙特利尔大学教授Bengio等在2003 年提出用embedding的方法将词映射到一个矢量表示空间,然后用非线性神经网络来表示N-Gram 模型。世界上最早的深度学习用于NLP 的研究工作诞生于NEC Labs American,其研究员Collobert 和Weston从2008年开始采用embedding 和多层一维卷积的结构,用于词性标注、分块、命名实体识别、语义角色标注等4 个典型NLP 问题。值得注意的是,他们将同一个模型用于不同的任务,都取得了与现有技术水平相当的准确率。Mikolov 等通过对Bengio 等提出的神经网络语言模型的进一步研究发现,通过添加隐藏层的多次递归,可以提高语言模型的性能,语音识别任务中,在提高后续词预测准确率及总体识别错误率方面都超越了当时最好的基准系统,Schwenk 等将类似的模型用在统计机器翻译任务中,采用BLEU(bilingual evaluation understudy,BLEU)评分机制评判,提高了近2 个百分点。此外,基于深度学习模型的特征学习还在语义消歧、情感分析[等自然语言处理任务中均超越了当时最优系统,取得优异表现。

98vwByoGeUX=nMJDALcFLW53S4xPQPDtlM1MUCY6IT5sF1535045796300.jpeg

文章来源于: 外天号,版权归原作者所有,如有侵权,请联系 guanwang@163yun.com 删除。


推荐阅读
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文介绍了使用PHP实现断点续传乱序合并文件的方法和源码。由于网络原因,文件需要分割成多个部分发送,因此无法按顺序接收。文章中提供了merge2.php的源码,通过使用shuffle函数打乱文件读取顺序,实现了乱序合并文件的功能。同时,还介绍了filesize、glob、unlink、fopen等相关函数的使用。阅读本文可以了解如何使用PHP实现断点续传乱序合并文件的具体步骤。 ... [详细]
  • SpringMVC接收请求参数的方式总结
    本文总结了在SpringMVC开发中处理控制器参数的各种方式,包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver,处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor,以及PathVariableMapMethodArgumentResol等子类。 ... [详细]
  • Netty源代码分析服务器端启动ServerBootstrap初始化
    本文主要分析了Netty源代码中服务器端启动的过程,包括ServerBootstrap的初始化和相关参数的设置。通过分析NioEventLoopGroup、NioServerSocketChannel、ChannelOption.SO_BACKLOG等关键组件和选项的作用,深入理解Netty服务器端的启动过程。同时,还介绍了LoggingHandler的作用和使用方法,帮助读者更好地理解Netty源代码。 ... [详细]
  • 微软评估和规划(MAP)的工具包介绍及应用实验手册
    本文介绍了微软评估和规划(MAP)的工具包,该工具包是一个无代理工具,旨在简化和精简通过网络范围内的自动发现和评估IT基础设施在多个方案规划进程。工具包支持库存和使用用于SQL Server和Windows Server迁移评估,以及评估服务器的信息最广泛使用微软的技术。此外,工具包还提供了服务器虚拟化方案,以帮助识别未被充分利用的资源和硬件需要成功巩固服务器使用微软的Hyper - V技术规格。 ... [详细]
  • OCR:用字符识别方法将形状翻译成计算机文字的过程Matlab:商业数学软件;CUDA:CUDA™是一种由NVIDIA推 ... [详细]
  • Opencv提供了几种分类器,例程里通过字符识别来进行说明的1、支持向量机(SVM):给定训练样本,支持向量机建立一个超平面作为决策平面,使得正例和反例之间的隔离边缘被最大化。函数原型:训练原型cv ... [详细]
  • 移动传感器扫描覆盖摘要:关于传感器网络中的地址覆盖问题,已经做过很多尝试。他们通常归为两类,全覆盖和栅栏覆盖,统称为静态覆盖 ... [详细]
  • 马尔可夫决策过程Markov Decision Process,MDPKintoki
    Originalurl:http:www.tuicool.comarticlesb6BjAva1.马尔可夫模型的几类子模型我想大家一定听说过马尔科夫链(MarkovChain)& ... [详细]
  • 都会|可能会_###haohaohao###图神经网络之神器——PyTorch Geometric 上手 & 实战
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了###haohaohao###图神经网络之神器——PyTorchGeometric上手&实战相关的知识,希望对你有一定的参考价值。 ... [详细]
  • Stanford机器学习第九讲. 聚类
    原文:http:blog.csdn.netabcjenniferarticledetails7914952本栏目(Machinelearning)包括单参数的线性回归、多参数的线性 ... [详细]
  • 使用机器学习的疾病预测原文:https://www.gees ... [详细]
  • Visualizing and Understanding Convolutional Networks(ZFNet网络)论文阅读笔记
    VisualizingandUnderstandingConvolutionalNetworksZFNet网络架构论文阅读笔记2022.4.4论文地址https:arxiv ... [详细]
  • ICRA2019最佳论文  Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio
    文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议:ICRA2019标题:《MakingSenseofVision ... [详细]
author-avatar
小伟
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有