热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

[论文笔记]CrowdsourcingTranslation:ProfessionalQualityfromNon-Professionals(ACL,2011)

Time:4hoursTimespan:Apr15–May3,2012OmarZaidan,ChrisCallison-Burch:CrowdsourcingTra



Time:    4 hours
Timespan: Apr 15 – May 3, 2012
Omar Zaidan, Chris Callison-Burch: Crowdsourcing Translation: Professional Quality from Non-Professionals. ACL 2011: 1220-1229


 


    作者Omar Zaidan是Johns Hopkins University的博士生,主要对NLP感兴趣,专注于text classification and machine translation,编写过一个软件MAISE(Java编写,帮助在mTurk上创建任务、上传文件等)。


下面是主要内容:


1. 本文介绍了一种基于众包的翻译流程,通过redundancy、post edit、rank等手段,来获得质量接近专业水准的译文。


2. (S3) 介绍了整个流程



  • (S3.1) 本文使用的数据集是"Urdu-to-English 2009 NITS Evaluation", 包含1792句Urdu语,每句Urdu语有四句参考翻译(由专业人士提供)。

  • (S3.2) 作者将这些句子放到了mTurks上,任务是获取这些句子的英文翻译,进行了两轮:第一轮的任务是翻译整个文档,每句Urdu语获得了一份翻译;第二轮进行了改进,拆分了文档,每个任务是翻译10句,并且这些待翻译的句子是以图片的形式展示给worker,这一轮每句Urdu语获得了三份翻译。

  • (S3.3) 然后进入Post-editing和Ranking(没找到文中具体描述如何ranking的文字)的步骤,这个步骤的任务也是在mTurk上以任务形式完成,但要求US-based worker才能参与。第一轮获得的翻译被编辑一次,第二轮获得的三份翻译各被编辑三次(不明白为什么要这样区分处理),这样对于一句Urdu语,总共就得到了10份编辑后的翻译和4份初始翻译。


3. 通过(S3)介绍的流程,一份Urdu语获得了14份翻译,而在(S4)中便在介绍如果通过建立恰当的模型以便从这14份中找出最佳的一份。


作者在(S4.1)中介绍了一些features(分为三类):


 


































































类别 Feature名称 描述
Sentence-level Language model features 一种判断句子质量高低的属性,具体不太清楚 (use a 5-gram language model trained on the English Gigaword corpus)
Sentence-level Sentence length features 质量高的句子长度应该适中
Sentence-level Web n-gram match percentage 一种根据n-gram百分比来给句子打分的方法,具体不太清楚(使用了Google N-Gram Database)
Sentence-level Web n-gram geometric average 一种根据n-gram匹配百分比来给句子进行打分的方法,具体不太清楚
Sentence-level Edit rate to other translations edit rate distance from the other translation(使用了TER metric)
Worker-level Aggregate features 该worker所有translation的sentence-level feature值计算而得
Worker-level Language abilities 是否母语,使用年限等
Worker-level Worker location 所在地
Ranking Average rank 根据ranking label而来
Ranking Is-Best percentage 根据ranking label而来
Ranking Is-Better percentage 根据ranking label而来


打分的函数方法是这样定义的:image


其中f(ti,j)是上面定义的feature,w是权重向量, (S4.2)介绍如何调试出较优的权重值(使用了"linear search method of Och")。这个打分方法算是一种多属性决策方法吧,比较容易理解。


4.  其他可关注的信息
(S1)中提到了SMT(Statistical Machine Translation),对于有大量配对语句的语言来说,这种翻译技术会比较有效。
(S2)中提到mTurks上的一个不足之处是不能提供Turkers的个人背景(比如教育背景、母语等信息)。





推荐阅读
  • 本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用,涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]
  • 深入解析JVM垃圾收集器
    本文基于《深入理解Java虚拟机:JVM高级特性与最佳实践》第二版,详细探讨了JVM中不同类型的垃圾收集器及其工作原理。通过介绍各种垃圾收集器的特性和应用场景,帮助读者更好地理解和优化JVM内存管理。 ... [详细]
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • 本文详细介绍了如何在Linux系统上安装和配置Smokeping,以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装,确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]
  • 深入理解Tornado模板系统
    本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块,支持嵌入Python代码片段,帮助开发者快速构建动态网页。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • Coursera ML 机器学习
    2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]
  • 优化后的摘要:本文详细分析了当前面临的挑战和机遇,结合具体实例探讨了如何通过创新和改革来推动长期可持续发展。文中还介绍了多种可行的解决方案,并强调了在不同阶段实施这些方案的重要性。 ... [详细]
  • 京东AI创新之路:周伯文解析京东AI战略的独特之处
    2018年4月15日,京东在北京举办了人工智能创新峰会,会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果,还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]
  • 回顾与学习是进步的阶梯。再次审视卷积神经网络(CNNs),我对之前不甚明了的概念有了更深的理解。本文旨在分享这些新的见解,并探讨CNNs在图像识别和自然语言处理等领域中的实际应用。 ... [详细]
  • 我整理了HMOV四大5G旗舰的参数,可依然没能拯救我的选择困难症
    伊瓢茕茕发自凹非寺量子位报道|公众号QbitAI报道了那么多发布会,依然无法选出要换的第一部5G手机。这不,随着华为P40系列发布,目前国 ... [详细]
author-avatar
再体验初体验g_154
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有