热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【论文泛读103】文本摘要的噪声一致性训练

贴一下汇总贴:论文阅读记录论文链接:《NoisedConsistencyTrainingforTextSummarization》一、摘要神经抽象

贴一下汇总贴:论文阅读记录

论文链接:《Noised Consistency Training for Text Summarization》

一、摘要

神经抽象摘要方法通常需要大量标记的训练数据。然而,由于时间、财务和专业知识的限制,标记大量摘要数据通常是令人望而却步的,这限制了摘要系统在实际应用中的实用性。在本文中,我们认为可以通过半监督方法克服这种限制:一致性训练,即利用大量未标记数据来提高小语料库上监督学习的性能。一致性正则化半监督学习可以将模型预测正则化为对应用于输入文章的小噪声保持不变。通过添加噪声未标记语料库来帮助规范一致性训练,该框架在不使用完整数据集的情况下获得了比较性能。

二、结论

我们的工作表明,使用无标签数据来提高抽象摘要模型的性能是可行的。我们提出了一种新的观点,即有效地使用一致性训练来改进在标签不足的数据集上的监督文本摘要。通过将简单的噪声注入操作替换为高级的数据增强方法,例如反向翻译,我们的方法在相同的一致性训练框架下,在具有部分标记和部分未标记数据的数据集之间带来了实质性的改进。我们的方法在不使用完整数据集的情况下获得了比较性能。未来的工作包括将我们的一致性训练框架移植到其他自然语言生成任务中,比如问答和对话生成。

三、简介

自动文本摘要的一个基本要求是,它通常需要大量带标签的数据才能正常工作。

利用大量未标记数据来解决文本摘要任务中标注不足的弱点的有效方法。

半监督学习的一致正则化利用未标记的数据并采用数据扩充方法来注入有噪声的数据,然后通过鼓励一致的预测来实施摘要模型以正则化半监督学习。

将未标记的文章转化为原始样本和噪声样本,以提高对大规模未标记语料库的文本摘要的监督学习。

  • 反向翻译
    将A翻译成B,再翻译成A
  • 单词替换与TF-IDF
    选择分数低的替换单词

模型框架:
在这里插入图片描述


推荐阅读
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 前景:当UI一个查询条件为多项选择,或录入多个条件的时候,比如查询所有名称里面包含以下动态条件,需要模糊查询里面每一项时比如是这样一个数组条件:newstring[]{兴业银行, ... [详细]
  • 本文详细介绍了如何使用MySQL来显示SQL语句的执行时间,并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法:瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]
  • 本文介绍了在处理不规则数据时如何使用Python自动提取文本中的时间日期,包括使用dateutil.parser模块统一日期字符串格式和使用datefinder模块提取日期。同时,还介绍了一段使用正则表达式的代码,可以支持中文日期和一些特殊的时间识别,例如'2012年12月12日'、'3小时前'、'在2012/12/13哈哈'等。 ... [详细]
  • This article discusses the efficiency of using char str[] and char *str and whether there is any reason to prefer one over the other. It explains the difference between the two and provides an example to illustrate their usage. ... [详细]
  • Spring源码解密之默认标签的解析方式分析
    本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断,区分默认命名空间和自定义命名空间,并采用不同的解析方式。其中,bean标签的解析最为复杂和重要。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文介绍了在Linux下安装Perl的步骤,并提供了一个简单的Perl程序示例。同时,还展示了运行该程序的结果。 ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 本文介绍了Linux系统中正则表达式的基础知识,包括正则表达式的简介、字符分类、普通字符和元字符的区别,以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别,并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式,并提供了学习的参考资料。 ... [详细]
author-avatar
手机用户2502939543
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有