热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

对话搜狗陈伟:机器同传的关键是做好语音识别、机器翻译的中间环节

智东西(公众号:zhidxcom)近日,在IWSLT(InternationalWorkshopon

对话搜狗陈伟:机器同传的关键是做好语音识别、机器翻译的中间环节

智东西(公众号:zhidxcom)
文 | 寓扬

近日,在IWSLT(International Workshop on Spoken Language Translation)国际口语机器翻译评测大赛上,搜狗击败其他对手获得Baseline Mode(基线模型)赛道冠军。

IWSLT是国际口语机器翻译评测中的最具影响力之一的大赛,从2004年开始至今已举办15届。本届比赛吸引了搜狗、科大讯飞、阿里巴巴、爱尔兰ADAPT中心、美国约翰霍普金斯大学、美国应用科技公司APPTEK、美国空军研究实验室AFRL等国内外知名大学、研究机构与公司参加。

对话搜狗陈伟:机器同传的关键是做好语音识别、机器翻译的中间环节

▲搜狗语音交互中心技术总监陈伟

围绕搜狗在本届口语机器翻译测评大赛中的表现以及其背后的技术探索,今天智东西等少数几家媒体与搜狗语音交互中心技术总监陈伟等人进行沟通,看看搜狗近两年机器翻译道路上又有哪些新的探索。

一、赛道选择出于实战考量

本次的国际口语机器翻译测评大赛主要考验的是AI从英语到德语的语音翻译,主要分为两个赛道,一个是Baseline(基线)模型,另一个是端到端模型赛道。搜狗本次参加的是Baseline赛道,并获得该赛道的第一名。

而在本届的端到端模型赛道上,科大讯飞则获得了第一名。搜狗为何在本次比赛中选择了Baseline的模型赛道而非端到端赛道呢?

搜狗语音交互中心技术总监陈伟介绍道,Baseline模型是目前做口语机器翻译比较成熟的方案,由机器像流水线一样逐一进行语音识别、机器翻译、语音合成等的方案;而口语机器翻译的端到端意味着直接输入英语输出德语口语,目前还处于学术界的一种探索,尚在应用的早期。

他们在本次比赛中选择了Baseline的模型赛道,主要原因是出于实用性考量。2016年11月的世界互联网大会上,搜狗便推出机器同声传译技术,经过过去2年的产品实战,搜狗想要借助这场比赛检验自身在语音翻译上的实力。

陈伟称,翻译是搜狗几个比较大的战略方向之一,他们希望通过产品实战把技术打磨好,并在真实的场景中检测一下自身实力。本次比赛其大约投入十多人的团队,主要来自内部语音识别、机器翻译、NLP(自然语言处理)、数据资源等多个团队。

此外,搜狗在机器翻译的端到端应用上也有一些前沿性探索,但该技术短期内并不能落地。

在他看来,小领域可控制的端到端模型更有价值,比如语音识别或者机器翻译这样一个环节的端到端在实际应用中更加可靠,而端到端的口语机器翻译至少还有5年以上的路要走。

二、要把语音识别、机器翻译的中间环节做好

陈伟也借着这场口语机器翻译比赛谈了他们对于机器翻译同传的一些新思考,他称早期认为机器同声传译就是语音识别+机器翻译,近两年在单点模型迭代的同时,他们在实际落地钟发现,要把语音识别与机器翻译的中间衔接环节做好,才能够真正实现领先。

他说,“想要做好机器同声传译,不仅仅是要把语音识别、机器翻译做好,还要把中间环节做好,这来自搜狗同传产品、实践中的积累。”

在Baseline这种流水线式的模型中,分为单点模型的迭代与不同环节之间的衔接。在单点模型上,搜狗通过多模型融合的方式来做语音识别与机器翻译,保证不同维度的特征,从而迭代效果。

科大讯飞无疑是语音赛道一位资深的老牌玩家,当谈及来自科大讯飞的竞争时,陈伟称,科大讯飞是一家很值得尊敬的公司,它们在技术细节上做的很扎实。

但他认为搜狗在语音识别技术上并不输于科大讯飞。随着2010年后深度神经网络在语音识别与机器翻译上的应用,对于新技术,大家都处于同一起跑线,这也是行业后入局者的机会。同时,搜狗依托搜狗输入法等产品,在数据上同样具有优势。

科大讯飞的会议同传产品讯飞听见最近闹出一场风波,它主要采用语音识别将语音转换成中文文本,然后由人工结合文本翻译成英文。针对这一“人机耦合”概念,陈伟称这是一种AI应用的方式,但一个成熟的人工同传是不需要看屏幕(看文字)的,人机结合应该以提升效率、降低成本为前提。此外,他还认为到2020年,机器同传就能够达到人类一般同传水平。

同时,他也谈道,目前同声传译领域还存在很多问题有待解决:其一是机器同传具有很强的领域属性,而在领域之外或者大量专业领域则效果一般;其二口音问题、重复词等也是翻译中的一个难点,其三算法中还存在一些亟待解决的问题,比如中译英中很大的问题是中英混杂,这都值得长期投入和推敲。

三、探索多模态、语音合成技术

2018年是人工智能深入落地场景的一年,搜狗也将AI技术落地到输入法、出行/旅行、大会同传等领域。在B端上,搜狗也开始将自身的AI能力对外输出,比如其AI能力已经上线到OPPO、vivo的手机中。

而在AI技术探索上,陈伟介绍了搜狗在多模态、语音合成等方面的进展。

2016年搜狗对外发布搜狗知音引擎,但最初它是一个以语音为主的单模态引擎,但语音在表达上是较为单薄的,近期搜狗将语音、唇语、图片等都加入知音引擎中,从而具备多模态表达的能力。

在语音合成方面,他展示了一个变声应用,你随便说一句话后,就可以模仿其他人的声音说出,比如经常被拿来调侃的特朗普。

陈伟还展示了一个搜狗制音坊的微信小程序应用,主要围绕儿童故事场景,爸爸妈妈们需要5分钟左右录制10句话,软件即可为孩子讲述带有父母声音的故事。

近年来语音合成技术也逐渐收到关注,并呈现出个性化、情感化发展的趋势。陈伟也表示,语音合成的关键是如何快速定制个性化声音,而目前最大的问题是数据问题。

语音合成希望机器的声音与人的声音很像,这意味着声音的音色、韵律等信息都需要还原,机器对数据的适配能力还需要加强。

此外,在今年的乌镇世界互联网大会上,搜狗还将与新华社合作展示搜狗分身技术。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 我们


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 程度|也就是_论文精读:Neural Architecture Search without Training
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了论文精读:NeuralArchitectureSearchwithoutTraining相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
  • OCR:用字符识别方法将形状翻译成计算机文字的过程Matlab:商业数学软件;CUDA:CUDA™是一种由NVIDIA推 ... [详细]
  • Opencv提供了几种分类器,例程里通过字符识别来进行说明的1、支持向量机(SVM):给定训练样本,支持向量机建立一个超平面作为决策平面,使得正例和反例之间的隔离边缘被最大化。函数原型:训练原型cv ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • ICRA2019最佳论文  Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio
    文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议:ICRA2019标题:《MakingSenseofVision ... [详细]
  • 2017亚马逊人工智能奖公布:他们的AI有什么不同?
    事实上,在我们周围,“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊,我们的世界正在变成一个机器 ... [详细]
author-avatar
mobiledu2502900167
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有