【论文解读】AAAI2020持续学习语义理解框架ERNIE2.0

作者：吴家大少wu_415 | 来源：互联网 | 2023-08-14 12:50

来自：百度NLP2月初，人工智能领域的顶级会议AAAI2020已在美国纽约召开，百度共有28篇论文入选。NLP预训练领域入选论文《ERNI

来自&＃xff1a;百度NLP

2月初&＃xff0c;人工智能领域的顶级会议AAAI 2020已在美国纽约召开&＃xff0c;百度共有28篇论文入选。NLP预训练领域入选论文《ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding》被选为Oral展示。

该论文提出了持续学习的语义理解框架&＃xff0c;该框架可增量学习海量数据中的知识&＃xff0c;持续提升语义理解效果&＃xff0c;本文将对其展开解读。

基于该框架&＃xff0c;ERNIE 2.0模型通过命名实体预测、句子排序结构重建、语义逻辑关系预测等预训练任务学习词法、结构、语义等多个维度知识&＃xff0c;大幅提升了通用语义理解水平。去年12月&＃xff0c;基于ERNIE 2.0改进的模型在权威榜单GLUE上首次突破90大关&＃xff0c;超越人类基线3个点&＃xff0c;获得全球第一。

论文地址&＃xff1a;

https://arxiv.org/abs/1907.12412

Github地址&＃xff1a;

https://github.com/PaddlePaddle/ERNIE

一、研究动机

近两年&＃xff0c;以BERT为代表的无监督预训练技术在多个自然语言处理任务上取得技术突破&＃xff0c;基于大规模数据的无监督预训练技术是未来自然语言处理领域发展的重要方向。

之前的工作主要通过语言共现信号构建语言模型任务进行建模&＃xff0c;例如BERT通过掩码语言模型和下一句预测任务进行预训练。然而&＃xff0c;除了语言共现信息外&＃xff0c;语料中还包含词法、结构、语义等更多有价值的信息&＃xff0c;例如人名、地名、机构名等概念知识&＃xff0c;句子间顺序和距离关系等结构知识&＃xff0c;语言逻辑关系等语义知识。

那么如果持续地学习各类任务&＃xff0c;模型的效果能否进一步提升? 这就是ERNIE 2.0希望探索的。

二、ERNIE 2.0框架

框架概述

ERNIE 2.0框架是基于预训练/微调架构构建的&＃xff0c;这种架构在NLP中非常流行。与BERT等预训练方法的不同之处在于&＃xff1a;它并不是在少量预训练任务上完成的&＃xff0c;而是通过不断引入新的预训练任务&＃xff0c;帮助模型持续高效地学习语义信息。

ERNIE框架支持引入各种自定义预训练任务&＃xff0c;这些任务共享相同的编码网络并通过多任务学习实现训练。当我们给出新的任务时&＃xff0c;ERNIE 2.0框架可以根据先前预训练的权重增量地学习新的知识。

图1 ERNIE 2.0框架

ERNIE 2.0预训练过程可以分为两个步骤&＃xff0c;即构建无监督预训练任务和通过多任务学习增量地更新ERNIE模型。这里不同的任务有序地加入框架中训练&＃xff0c;框架通过持续多任务学习使得模型在学习新任务时不遗忘已经学到过的知识。对于不同的应用任务&＃xff0c;ERNIE 2.0会使用具体的任务数据微调。

持续多任务学习

ERNIE 2.0在学习过程中有两个主要的挑战: 第一个是如何以连续的方式训练任务&＃xff0c;而不忘记以前所学的知识&＃xff1b;第二个是如何更有效地学习这些预训练任务。为此&＃xff0c;ERNIE 2.0中探索了3种预训练的学习方式&＃xff1a;

图 2 不同预训练方式

1、Continual Learning&＃xff1a;在训练的每一个阶段仅通过一项任务来训练模型&＃xff0c;其缺点是会忘记先前学习的知识。

2、Multi-task Learning&＃xff1a;所有任务一起进行多任务学习&＃xff0c;其缺点是在进行训练之前必须准备好所有定制的预训练任务&＃xff0c;每当有新任务时&＃xff0c;模型都需要从头学习。

3、Sequential Multi-task Learning&＃xff1a;ERNIE 2.0中新提出的方法&＃xff0c;每当有新任务出现时&＃xff0c;使用先前学习的参数来初始化模型&＃xff0c;并同时训练新引入的任务和原始任务。这样解决了前两种方法的问题&＃xff0c;可以随时引入新任务&＃xff0c;并保留先前学到的知识。

三、ERNIE 2.0模型

图3 ERNIE 2.0模型结构

ERNIE 2.0 Model使用Transformer作为编码器。经过多层的self-attention机制计算文本的上下文相关表示&＃xff0c;学习不同层面的任务。同时&＃xff0c;其引入了Task Embedding建模不同的预训练任务。模型使用Word、Sentence、Position和Task对应的表示加和作为输入。

模型的预训练任务是从词汇、结构和语义三个层面构建的&＃xff0c;以捕获和建模训练数据中不同的信息&＃xff0c;这里列举一些典型的预训练任务&＃xff1a;

词汇层面任务

1、知识掩码任务&＃xff1a;

ERNIE 1.0(https://arxiv.org/abs/1904.09223) 中介绍了知识掩码任务&＃xff0c;其通过对词、实体等语义单元进行完整地掩码&＃xff0c;使得模型学习完整概念&＃xff0c;ERNIE 2.0使用其作为一个预训练任务。

图4 知识掩码任务

2、大小写预测任务&＃xff1a;

在英文等语言中&＃xff0c;大写的词汇&＃xff08;如Newton等&＃xff09;包含了特殊的语义信息。传统建模有两种&＃xff1a;第一种是全部转化为小写&＃xff0c;更适合自然语言推断等任务&＃xff1b;第二种是保留大小写信息&＃xff0c;更适合命名实体识别等任务。在大小写预测任务中&＃xff0c;模型去学习每个词汇在原文中是否为大写&＃xff0c;兼顾了两种建模方式的优势。

结构层面任务

1、句子排序任务&＃xff1a;

句子之间的顺序反映了它们之间的逻辑顺序以及时间顺序。ERNIE 2.0构建了句子排序预训练任务。在训练过程中&＃xff0c;随机将一个段落中的N个句子打乱&＃xff0c;让模型预测正确的顺序。

图5 句子排序任务

2、句子距离任务&＃xff1a;

句子排序任务建模了段落内的句子关系。如果建模更长的结构关系&＃xff0c;能否进一步加强模型能力&＃xff1f;例如&＃xff0c;不同距离的句对有不同的语义紧密程度。

ERNIE 2.0构建了句子距离任务。输入任意两个句子&＃xff0c;模型预测两个句子是否相邻、是否属于同一文章&＃xff0c;来判断两句的语义关系是否紧密、是否属于同一话题。

语义层面任务

逻辑关系预测任务&＃xff1a;

短句之间的连词往往准确地表示了它们的逻辑关系。在该任务中&＃xff0c;ERNIE 2.0使用短句间的连词&＃xff0c;进行无监督的逻辑关系分类&＃xff0c;建模了细粒度的语义。

图6 句子逻辑关系任务

四、实验结果

论文中分别比较了ERNIE 2.0和当前最优预训练模型在中英文任务上的性能。英文任务中&＃xff0c;ERNIE 2.0在自然语言理解数据集GLUE的7个任务上超过了BERT和XLNet。中文上&＃xff0c;ERNIE 2.0在阅读理解、情感分析、问答等不同类型的9个数据集上超越了BERT&＃xff0c;并刷新了最优效果。

ERNIE 2.0 在英文任务上的效果

ERNIE 2.0模型在GLUE数据集上的性能如表1所示。可以看出相对之前的最优模型BERT和XLNet&＃xff0c;效果提升明显。

表1 ERNIE 2.0在GLUE上的效果

ERNIE 2.0 在中文任务上的效果

在 9 个中文NLP任务上&＃xff0c;ERNIE 2.0_Base在全部9项任务上的效果均超越BERT_BASE&＃xff0c;同时ERNIE 2.0_LARGE效果达到了业界最优。

表2 ERNIE 2.0在9项中文NLP任务上的效果

五、结语

在该论文提出的持续学习语义理解框架ERNIE 2.0中&＃xff0c;知识可通过预训练任务的形式加入到训练框架。该框架可在引入新任务学习时&＃xff0c;不遗忘之前学到过的信息。

基于该框架&＃xff0c;百度研究者提出了词法、结构、语义三个维度构建的多种预训练任务&＃xff0c;大幅提升了ERNIE 2.0模型的通用语义理解水平。该技术已经在工业界得到广泛应用&＃xff0c;在搜索、信息流、智能音箱、智能客服等产品中的效果都取得了显著提升。

至此&＃xff0c;AAAI 2020中百度在NLP领域入选的第二篇论文《ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding》的分享到此结束&＃xff0c;我们将继续对AAAI 2020中百度入选的其余2篇NLP领域论文进行详细解读&＃xff0c;敬请关注&＃xff01;

推荐阅读

search
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
search
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
search
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
int
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
web
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
web
如何使用PLEX播放组播、抓取信号源以及设置路由器

本文介绍了如何使用PLEX播放组播、抓取信号源以及设置路由器。通过使用xTeve软件和M3U源，用户可以在PLEX上实现直播功能，并且可以自动匹配EPG信息和定时录制节目。同时，本文还提供了从华为itv盒子提取组播地址的方法以及如何在ASUS固件路由器上设置IPTV。在使用PLEX之前，建议先使用VLC测试是否可以正常播放UDPXY转发的iptv流。最后，本文还介绍了docker版xTeve的设置方法。 ... [详细]

蜡笔小新 2023-12-09 01:31:00
int
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
int
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
main
vlfilecopy(findfile(vllist>string(10811110311146103105102)))(vll的简单介绍

本文目录一览：1、一段lisp代码求解释2、运 ... [详细]

蜡笔小新 2023-10-16 12:39:45
php
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
int
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
web
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
web
老牌医药收割AI红利：先投个15亿美元抢中国人才

萧箫发自凹非寺量子位报道|公众号QbitAI没想到，一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场，能看见不少熟悉的身影， ... [详细]

蜡笔小新 2023-10-17 17:40:25
web
推荐：以数据驱动的方式讲故事

直觉vs数据首先，你有思考过一个问题吗？当你的直觉与你所掌握的数据矛盾的时候，你是听从于直觉还是相信你所掌握的数据呢？201 ... [详细]

蜡笔小新 2023-10-16 17:51:26
web
软件测试工程师，需要达到什么水平才能顺利拿到 20k+ 无压力？

前言最近看到很多应届生晒offer,稍有名气点的公司给出的价格都是一年30多W或者月薪20几k,相比之下工作几年的自己薪资确实很寒酸.根据我自己找工作经历,二线城市一般小公司招聘 ... [详细]

蜡笔小新 2023-10-16 13:18:32

吴家大少wu_415

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章