热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

【Mark】NG+全球开发者大会志愿翻译

【2020-11-07】我认领的是演讲《AIML如何加速小分子药物发现》的英文校验任务。演讲的分享者黄毅汪,是法国亚创生命科学部门TeamLeader,

【2020-11-07】

我认领的是演讲《AI/ML如何加速小分子药物发现》的英文校验任务。演讲的分享者黄毅汪,是法国亚创生命科学部门Team Leader,也是算法工程师。

因为涉及机器学习和深度学习领域的术语,在加入的时候大家填过自己的英语水平和专业背景简介,可能比较合适吧,所以就领到了这个英文校验的任务。

我觉得这个任务说简单也简单,说难也难。
一是它需要有良好的英语听力能力,二是要有一点专业知识背景,三就是需要多一些细心和耐心了。

演讲者应该是个上海人或湖蓝人吧,至少很肯定是南方人。大部分还是听得懂的,但是有些词还是费了一些力气去听懂,尤其带N和L的词。口音很阔耐。2333

我拿到的不是裸的演讲视频,它是使用了Transflow经过了AI翻译,并且打上了时间轴的演讲视频。

从这里的流程图上可以清晰的看到它的整个翻译流程,共有5步:AI翻译--人工校验--AI翻译--人工翻译--完成。

我认领的就是第二个阶段人工校验的工作。

当然如果你熟悉语音识别和NLP的话,你就会意识到,其实我这是帮人家的语音识别算法做了人工校验的工作。【心塞,还是免费的。】

但我觉得Transflow这套工作流程很棒,工具也非常的简洁好用。

但这个工作要向快速高效的完成,也是需要一点技巧的。毕竟AI的翻译还是有很多问题的。

  • 首先,先整体听一遍。然后快速进行断句合句。

把长的英文句子断开,把AI错误断开的句子进行合并。

这样先把整体框架拆好了,同时又保证了时间轴是对的,免得后期字幕和视频对不上。

如果时间轴对不上,只能手动调整句子右侧对应的时间戳了。还是有点麻烦的。

  • 其次,就是一句句的改单词和语法错误了。

当然不要求一遍就完成,如果实在听不清、不确定的单词可以先放下。

因为整个演讲是主题连贯的,在翻译后面的字母时,你可能会忽然明白前面作者没有发音清楚的那个词到底是啥。

翻译完一遍后,再进行第二遍第三遍的校验是肯定需要的。所以,不用急于一次做到完美。

当然,还是提醒下一定要及时保存。

虽然Transflow很友好的每隔两分钟会帮你自动保存一下,但还是在改了一些后记得保存一下。

我在改到一半的时候,因为操作了快捷键,Transflow意外退出了.还好之前的翻译都有保存。如果没有保存的话,真的是前功尽弃了。

  • 最后,就是英文句子加上时间轴,整体视频再检查一遍。

如果没什么问题,那么工作就完成了,就可以点提交了。

如果到了最后还是有些单词实在没办法听清,那么就使用句子左侧的星星标记一下,方便留给后面流程的人工翻译的同学重点检查。


个人工作也是非常的忙,近期也开始了新的项目,还是需要自己探索的有点开放的题目。

但是能遇到这么有意思的翻译工作还是蛮开心的,比较好玩。


【2020-11-14】

因为上周个人工作比较顺利的开展,所以本周又认领了一份演讲视频的翻译校验工作。

这次我选了中文校验,还是想要多些不同的体验,同时演讲的主题也是我想去了解的。

我本以为中文校验比英文要简单一些,毕竟是母语。

但是事实狠狠地打了我一巴掌。

因为Transflow对英文的语音识别比中文好太多了,中文的识别简直就是灾难,准确率相当之低。

再加上中文的断句不是那么明显,经常就是一大段一大段的句子,很多都需要去断句。

而且演讲者用中文演讲时,会有有很多个人的口语习惯,比如语速很快、话很密集,

或者很多语气词,呃,这个,那个,啊,嘛,等等,简直让校验工作难上加难。

Transflow还有一点不好的地方就是中文校验文本界面操作极其不友好,经常一个空格打不出来,删除空格造成换行等。

这些都让中文校验工作很难顺利进行。

所以,我一个小时才校验了5分钟的视频,你就可想而知有多不友好了。

这个演讲视频时长是40分钟,我真的是欲哭无泪了。

从这个教训里让自己学会注意自己的演讲语速和语言。不可以这么多的语气词,语速也要适当。

毕竟很多场合都需要工作分享和当众讲话,听众还是需要舒服的感受的。

大约就是我认领的第一个视频演讲者的语速比较慢,时长也合适,让我对其他演讲者也抱着同样的感觉,就轻敌了。

原来并不是所有的演讲者都能做到语速合适、停顿合适的。

进入正题,还是分享下中文校验的经验。

除了与上面英文相同的步骤,先断句外,另外就是

  • 去掉分享者的口语语气词

如,这个、那个、呃、呢、啊等等

  • 如果口语化太严重,或话的前后顺序反了,打断了对整个句子的书面化理解,那就换一种意思表达,简化、调整、书面化。

原句:我叫**,是作为这个谷歌开发的专家这个身份,然后来给大家这次来介绍一下TensorFlow2的一些最新的一个特性。
调整后:我叫**,作为谷歌开发者专家,为大家分享TensorFlow2的部分最新特性。

  • 句子的结尾不要用标点符号

 

 

 


推荐阅读
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • bat大牛带你深度剖析android 十大开源框架_请收好!5大领域,21个必知的机器学习开源工具...
    全文共3744字,预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 2017亚马逊人工智能奖公布:他们的AI有什么不同?
    事实上,在我们周围,“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊,我们的世界正在变成一个机器 ... [详细]
  • TensorFlow入门上
    前置准备在阅读本文之前,请确定你已经了解了神经网络的基本结构以及前向传播、后向传播的基本原理,如果尚未了解,可以查看下文。神经网络初探​chrer.com也可以直接在我博客阅读Te ... [详细]
  • 本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法,以及参数和返回值的说明,并提供了一个示例代码。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 软件测试工程师,需要达到什么水平才能顺利拿到 20k+ 无压力?
    前言最近看到很多应届生晒offer,稍有名气点的公司给出的价格都是一年30多W或者月薪20几k,相比之下工作几年的自己薪资确实很寒酸.根据我自己找工作经历,二线城市一般小公司招聘 ... [详细]
  • SLAM优秀开源工程最全汇总
    https:zhuanlan.zhihu.comp145750808 1、CartographerCartographer是一个系统,可跨多个平台和传感器配置以2D和3D形式提供实 ... [详细]
  • NLP如何进阶?你应该先掌握四大基本任务!
    “语言理解是人工智能领域皇冠上的明珠。”——比尔盖茨自然语言处理是一门综合性的学问,它远远不止机器学习算法。相比图像或语音,文本的变化更加复杂ÿ ... [详细]
author-avatar
廖赞胜
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有