热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【论文泛读129】Transformer语言模型可以使用哪些上下文特征?

贴一下汇总贴:论文阅读记录论文链接:《WhatContextFeaturesCanTransformerLanguageModelsUse?》一、摘

贴一下汇总贴:论文阅读记录

论文链接:《What Context Features Can Transformer Language Models Use?》

一、摘要

基于 Transformer 的语言模型受益于对数百到数千个先前标记的上下文的调节。这些上下文的哪些方面有助于准确的模型预测?我们描述了一系列实验,这些实验通过在英语维基百科上训练的转换器语言模型中选择性地去除词汇和结构信息来测量可用信息。在中长距离上下文中,我们发现一些极具破坏性的上下文操作——包括在句子中打乱词序和删除除名词以外的所有单词——删除了不到 15% 的可用信息。我们的结果表明,对于当前 Transformer 语言模型的低困惑度,长上下文而非其详细的句法和命题内容很重要。

二、结论

我们已经研究了变形模型在英语语言建模的长期语境中使用结构和词汇信息的程度。实验表明,这些信息主要包含在实义词和局部排序统计中:从上下文中删除其他类型信息的烧蚀对模型的预测精度影响很小。相比之下,只保留关于文档标识或命名实体的信息会导致预测准确性的显著下降:仅存在主题或命名实体信息不能解释长上下文的有效性。

获得这些结果的关键是对消融可用信息的衡量,这些信息基于在消融环境下训练和测试的模型的准确性。过去关于LMs中上下文的研究主要是测量评价时间烧蚀的影响。有时这两个上下文敏感性的概念是一致的(例如,三字组合变换),有时它们不一致(例如,删除词汇信息)。我们的结果也为将来的建模工作提供了一个起点。它们激发更有效、压缩的上下文表示,更好地保存当前模型可用的信息。他们通过开发新的上下文表示来激发更精确的模型,使当前不可用的信息更加突出。

我们的实验仍有几个问题没有回答。烧蚀会影响模型生成的文本质量吗?(特别是,由长上下文添加的可用信息是否提高了语法、语义的可预测性,或者仅仅是文档级的词频统计?)更重要的是,对可用信息的观察是否反映了变形器的局限性或英语信息理论的基本属性?我们的结果表明,至少有一些效应是模型特有的:删除虚词不能增加信息,但可以提高模型的准确性。这个问题的完整答案需要更详细的探索,包括更好地理解人类在类似环境下的预测。


推荐阅读
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 第四章高阶函数(参数传递、高阶函数、lambda表达式)(python进阶)的讲解和应用
    本文主要讲解了第四章高阶函数(参数传递、高阶函数、lambda表达式)的相关知识,包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念,并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说,本文将是一个不错的学习资料。 ... [详细]
  • 突破MIUI14限制,自定义胶囊图标、大图标样式,支持任意APP
    本文介绍了如何突破MIUI14的限制,实现自定义胶囊图标和大图标样式,并支持任意APP。需要一定的动手能力和主题设计师账号权限或者会主题pojie。详细步骤包括应用包名获取、素材制作和封包获取等。 ... [详细]
  • 本文整理了常用的CSS属性及用法,包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等,方便开发者查阅和使用。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 本文整理了Java中org.apache.pig.backend.executionengine.ExecException.<init>()方法的一些代码 ... [详细]
  • 项目需要实现弹幕,网上参考了各种方法,最后觉得transform+transition实现的效果在移动设备上性能最好,在iphone6和红米4上测试,看不到 ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了10分钟了解Android的事件分发相关的知识,希望对你有一定的参考价值。什么是事件分发?大家 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • 为什么要用Go语言做后端
    FMZ数字货币量化平台www.fmz.com,后端使用Go语言,这里是创始人Zero谈论使用G ... [详细]
  • 简介:rabbitMQ是一个在AMQP协议标准基础上完整的,可服用的企业消息系统。它遵循MozillaPublicLicense开源协议,采用Erlang实现的工业级的消息队列(M ... [详细]
  • 简介基于java开发,高可用应用场景1、应用解耦2、流量销峰3、异步处理4、消息分发(邮件、短信、日志、数据处理)延时队列场景:需要延时单次延迟执行的场景,比如订单取消常见问题1、 ... [详细]
author-avatar
老邮迢
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有