XLNet详解

作者：mobiledu2502881513 | 来源：互联网 | 2023-10-14 16:20

2020-01-0413:40:02BERT训练时将部分单词mask起来，使模型能够利用句子双向的信息，在很多NLU任务上取得很好的效果。但是BERT忽

2020-01-04 13:40:02

BERT 训练时将部分单词 mask 起来&＃xff0c;使模型能够利用句子双向的信息&＃xff0c;在很多 NLU 任务上取得很好的效果。但是 BERT 忽略了 mask 单词之间的关系&＃xff0c;且微调过程与预训练过程不一致 (微调时没有 mask 的单词)。XLNet 采用了 PLM (Permutation Language Model) &＃xff0c;将句子随机排列&＃xff0c;然后用自回归的方法训练&＃xff0c;从而获得双向信息并且可以学习 token 之间的依赖关系。另外 XLNet 使用了 Transformer-XL&＃xff0c;使用了更广阔的上下文信息。

1.前言

XLNet 论文中首先提出了一种比较有意思的观点&＃xff0c;将当前预训练模型分为了两类 AR (Auto Regression&＃xff0c;自回归) 和 AE (Auto Encoder&＃xff0c;自编码器)。

GPT 就是一种 AR 方法&＃xff0c;不断地使用当前得到的信息预测下一个输出 (自回归)。而 BERT 是一种 AE 方法&＃xff0c;将输入句子的某些单词 mask 掉&＃xff0c;然后再通过 BERT 还原数据&＃xff0c;这一过程类似去噪自编码器 (Denoising AutoEncoder&＃xff0c;DAE)。不熟悉 GPT 和 BERT 的童鞋可以参考前面的文章&＃xff0c;《OpenAI GPT 和 GPT2 模型详解》和《彻底理解 Google BERT 模型》。

AR 的方法可以更好地学习 token 之间的依赖关系&＃xff0c;而 AE 的方法可以更好地利用深层的双向信息。因此 XLNet 希望将 AR 和 AE 两种方法的优点结合起来&＃xff0c;XLNet 使用了 Permutation Language Model (PLM) 实现这一目的。

Permutation 指排列组合的意思&＃xff0c;XLNet 将句子中的 token 随机排列&＃xff0c;然后采用 AR 的方式预测末尾的几个 token。这样一来&＃xff0c;在预测 token 的时候就可以同时利用该 token 双向的信息&＃xff0c;并且能学到 token 间的依赖&＃xff0c;如下图所示。

XLNet 详解

XLNet Permutation 和预测

接下来介绍 XLNet 中的实现细节&＃xff0c;其中 XLNet 为了实现 PLM&＃xff0c;提出了 Two-Stream Self-Attention 和 Partial Prediction。另外 XLNet 还使用了 Transformer-XL 中的 Segment Recurrence Mechanism 和 Relative Positional Encoding&＃xff0c;不熟悉 Transformer-XL 的童鞋可以参考前面的文章&＃xff0c;《Transformer-XL 语言模型》。

2.Permutation Language Model

PLM (Permutation Language Model) 是 XLNet 的核心思想&＃xff0c;首先将句子的 token 随机排列&＃xff0c;然后采用 AR 的方式预测句子末尾的单词&＃xff0c;这样 XLNet 即可同时拥有 AE 和 AR 的优势。

2.1 PLM 介绍

XLNet 中通过 Attention Mask 实现 PLM&＃xff0c;而无需真正修改句子 token 的顺序。例如原来的句子是 [1,2,3,4]&＃xff0c;如果随机生成的序列时 [3,2,4,1]&＃xff0c;则输入到 XLNet 的句子仍然是 [1,2,3,4]&＃xff0c;但是掩码需要修改成下图。

XLNet 详解

PLM 例子

图中的掩码矩阵&＃xff0c;红色表示不遮掩&＃xff0c;白色表示遮掩。第 1 行表示 token 1 的掩码&＃xff0c;可以看到&＃xff0c;1 是句子的最后一个 token&＃xff0c;因此可以看到之前的所有 token (3,2,4)。3 是句子的第一个 token&＃xff0c;看不到句子的任何信息&＃xff0c;因此第 3 行都是白色的 (表示遮掩)。

2.2 Two-Stream Self-Attention

Two-Stream 概念

XLNet 打乱了句子的顺序&＃xff0c;这时在预测的时候 token 的位置信息会非常重要&＃xff0c;同时在预测的时候也必须将 token 的内容信息遮掩起来 (否则输入包含了要预测的内容信息&＃xff0c;模型就无法学到知识)。也就是说 XLNet 需要看到 token 的位置信息&＃xff0c;但是又不能看到 token 的内容信息&＃xff0c;因此 XLNet 采用了两个 Stream 实现这一目的&＃xff1a;

Query Stream&＃xff0c;对于每一个 token&＃xff0c;其对应的 Query Stream 只包含了该 token 的位置信息&＃xff0c;注意是 token 在原始句子的位置信息&＃xff0c;不是重新排列的位置信息。
Content Stream&＃xff0c;对于每一个 token&＃xff0c;其对应的 Content Stream 包含了该 token 的内容信息。

Query Stream 计算

Query Stream 用 g 表示&＃xff0c;Content Stream 用 h 表示&＃xff0c;使用 Query Stream 对要预测的位置进行预测的时候&＃xff0c;Q (Query) 向量是用 g 计算得到的&＃xff0c;包含该位置的位置信息&＃xff0c;而 K (Key) 和 V (Value) 是用 h 计算的&＃xff0c;包含其他 token 的内容信息。下图展示了如何通过当前层的 g计算下一层 g 的过程&＃xff0c;图中的排列是 [3,2,4,1]&＃xff0c;计算的 token 是 1。

XLNet 详解

Query Stream 计算方式

可以看到在计算 token 1 的 Q 向量时&＃xff0c;只使用了 token 1 的 Query Stream g&＃xff0c;即模型只得到 token 1 的位置信息。而向量 K&＃xff0c;V 使用 token 3, 2, 4 进行计算&＃xff0c;所以模型可以得到 token 3, 2, 4 的内容信息。因为 token 1 是排列 [3,2,4,1] 的最后一位。这一个过程的掩码矩阵和上一节的是一样的 &＃xff0c;对角线上都为白色&＃xff0c;即遮掩当前预测位置的内容信息 h。

XLNet 详解

Query Stream 的 Mask 矩阵

Content Stream 计算

Content Stream 包含了 token 的内容信息&＃xff0c;因为 XLNet 的层数很多&＃xff0c;需要将 token 的内容传递到下一层。这一层的 Q, K, V 都是利用 h 计算的。Content Stream 的计算如下图所示。

XLNet 详解

Content Stream 计算方式

可以看到&＃xff0c;在计算下一层的 h1 时&＃xff0c;也会利用 token 1 当前的内容信息&＃xff0c;这样就可以将 token 的内容传递到下一层&＃xff0c;但是注意 XLNet 在预测时只是用 g (Query Stream)。计算 Content Stream 时候的掩码矩阵如下图所示。

XLNet 详解

Content Stream 的 Mask 矩阵

和 Query Stream 的掩码矩阵区别在于对角线&＃xff0c;Content Stream 不遮掩对角线&＃xff0c;使得当前 token 的信息可以传递到下一层。

Query Stream 和 Content Stream 组合

XLNet 将 Query Stream 和 Content Stream 组合在一起&＃xff0c;如下图所示。

XLNet 详解

XLNet 整体结构

图中最下面的一层是输入层&＃xff0c;其中 e(x) 是单词的词向量&＃xff0c;表示输入的 Content Stream&＃xff0c;而 w 表示输入的位置信息&＃xff0c;即 Query Stream。

2.3 Partial Prediction

XLNet 将句子重新排列&＃xff0c;然后根据排列后的顺序使用 AR 方式预测&＃xff0c;但是由于句子是随机排列的&＃xff0c;会导致优化比较困难且收敛速度慢。因此 XLNet 采用了 Partial Prediction (部分预测) 的方式进行训练&＃xff0c;对于排列后的句子&＃xff0c;只预测句子末尾的 1/K 个 token。

例如 K&＃61;4&＃xff0c;就是只预测最后 1/4 的 token。给定句子 [1,2,3,4,5,6,7,8] 和一种随机排列 [2,8,3,4,5,1,7,6]&＃xff0c;则只预测 7 和 6。论文中训练 XLNet-Large 时使用的 K 为 6&＃xff0c;大约是预测末尾 14.3% 的 token。

3.XLNet 优化技巧

3.1 Transformer-XL

XLNet 使用了 Transformer-XL 中的 Segment Recurrence Mechanism (段循环) 和 Relative Positional Encoding (相对位置编码) 进行优化。

Segment Recurrence Mechanism 段循环的机制会将上一段文本输出的信息保存下来&＃xff0c;用于当前文本的计算&＃xff0c;使模型可以拥有更广阔的上下文信息。

在引入上一段信息后&＃xff0c;可能会有两个 token 拥有相同的位置信息&＃xff0c;例如上一段的第一个单词和当前段的第一个单词位置信息都是一样的。因此 Transformer-XL 采用了 Relative Positional Encoding (相对位置编码) &＃xff0c;不使用固定的位置&＃xff0c;而是采用单词之间的相对位置进行编码。在之前的文章《Transformer-XL 语言模型》中有比较详细的介绍&＃xff0c;感兴趣的童鞋可以参考一下。

XLNet 使用了 Transformer-XL 后如下图所示。mem 表示的就是前一个 XLNet 段的内容信息&＃xff0c;而 XLNet 中输入的 Query Stream 为 w&＃xff0c;保存位置信息&＃xff0c;采用的是 Relative Positional Encoding。

XLNet 详解

XLNet 使用 Transformer-XL 优化

3.2 Relative Segment Encodings

XLNet 希望像 BERT 一样采用 [A, SEP, B, SEP, CLS] 的形式处理句子任务&＃xff0c;在 BERT 中有两个表征向量 EA 和 EB 分别表示句子 A 和 B。但是 XLNet 采用 Transformer-XL 的段循环机制后会出现问题&＃xff0c;两个段都有句子 A 和 B&＃xff0c;则两个句子 A 属于不同的段&＃xff0c;但是却会有相同的 Segment 向量。

XLNet 提出了 Relative Segment Encodings&＃xff0c;对于每一个 attention head 都添加 3 个可训练的向量 s&＃43;, s-, b&＃xff0c;然后利用以下公式计算 attention score。

XLNet 详解

Relative Segment Encodings

其中 q 就是 Query 向量&＃xff0c;这个计算得到的 attention score 会加到原来的 attention score 上&＃xff0c;再计算 softmax。Relative Segment Encodings 加上了一个偏置向量 b&＃xff0c;同时 Relative Segment Encodings 也可以用于一些超过两段输入句子的任务上。

4.总结

XLNet 的核心思想是 PLM&＃xff0c;排列原来的句子&＃xff0c;然后预测末尾的单词。这样可以学习到单词之间的依赖关系&＃xff0c;而且可以利用 token 前后向的信息。

XLNet PLM 的实现需要用到 Two-Stream Self-Attention&＃xff0c;包含两个 Stream&＃xff0c;Query Stream 用于预测&＃xff0c;只包含当前位置的位置信息。而 Content Stream 保存了 token 的内容。

XLNet 还使用了 Transformer-XL 的优化方式。

5.参考文献

1.XLNet: Generalized Autoregressive Pretraining for Language Understanding

推荐阅读

settings
Windows Vista系统账户保护机制初探，保障用户安全

本文介绍了Windows Vista操作系统中的用户账户保护功能，该功能是为了增强系统的安全性而设计的。通过对Vista测试版的体验，可以看到系统在安全性方面的进步。该功能的引入，为用户的账户安全提供了更好的保障。 ... [详细]

蜡笔小新 2023-12-10 11:22:01
settings
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
settings
H323资料

概述H.323是由ITU制定的通信控制协议，用于在分组交换网中提供多媒体业务。呼叫控制是其中的重要组成部分，它可用来建立点到点的媒体会话和多点间媒体会议 ... [详细]

蜡笔小新 2023-10-17 19:16:37
function
vue使用

关键词： ... [详细]

蜡笔小新 2023-12-14 19:14:56
main
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
main
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
require
伊振华作品 | 沈阳市智慧城市运行管理中心的设计与建设

本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计，并以数字赋能和创新驱动高质量发展的理念，建设了集成、智慧、高效的一体化城市综合管理平台，促进了城市的数字化转型。该中心被称为当代城市的智能心脏，为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]

蜡笔小新 2023-12-14 16:35:39
select
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
install
phpcomposer 那个中文镜像是不是凉了

phpcomposer 那个中文镜像是不是凉了 ... [详细]

蜡笔小新 2023-12-12 16:01:05
install
如何查询zone下的表的信息

本文介绍了如何通过TcaplusDB知识库查询zone下的表的信息。包括请求地址、GET请求参数说明、返回参数说明等内容。通过curl方法发起请求，并提供了请求示例。 ... [详细]

蜡笔小新 2023-12-12 08:26:32
install
OpenStack及其构成简介

本文介绍了OpenStack的逻辑概念以及其构成简介，包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]

蜡笔小新 2023-12-12 06:47:38
install
使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换

本文介绍了如何使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换。首先解释了JSON的概念和数据格式，然后详细介绍了相关API，包括JSONObject和Gson的使用方法。接着讲解了如何将json格式的字符串转换为kotlin对象或List，以及如何将kotlin对象转换为json字符串。最后提到了使用Map封装json对象的特殊情况。文章还对JSON和XML进行了比较，指出了JSON的优势和缺点。 ... [详细]

蜡笔小新 2023-12-11 16:20:50
spring
java.lang.NoSuchMethodError.getMessage()方法的使用及代码示例

本文整理了Java中java.lang.NoSuchMethodError.getMessage()方法的一些代码示例，展示了NoSuchMethodErr ... [详细]

蜡笔小新 2023-12-09 17:50:11
spring
ejava,刘聪dejava

本文目录一览：1、什么是Java？2、java ... [详细]

蜡笔小新 2023-12-09 09:28:18
spring
在泛型字典类中使用foreach

本文介绍了在实现了System.Collections.Generic.IDictionary接口的泛型字典类中如何使用foreach循环来枚举字典中的键值对。同时还讨论了非泛型字典类和泛型字典类在foreach循环中使用的不同类型，以及使用KeyValuePair类型在foreach循环中枚举泛型字典类的优势。阅读本文可以帮助您更好地理解泛型字典类的使用和性能优化。 ... [详细]

蜡笔小新 2023-12-09 09:22:34

mobiledu2502881513

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章