NLP新宠：谈Prompt的前世今生

作者：姜漂亮真可爱w0 | 来源：互联网 | 2023-09-11 13:56

作者｜闵映乾单位|中国人民大学信息学院硕士研究方向|自然语言处理导读：本文目标是对近期火爆异常的Prompt相关研究作一些追溯和展望，内容

作者&＃xff5c;闵映乾

单位 | 中国人民大学信息学院硕士

研究方向 | 自然语言处理

导读&＃xff1a;本文目标是对近期火爆异常的Prompt相关研究作一些追溯和展望&＃xff0c;内容主要参考论文《Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing》&＃xff0c;并掺杂了笔者的一些个人见解&＃xff0c;欢迎大家积极讨论~所用图片均来自该论文&＃xff0c;转载请注明出处。

论文的arxiv链接如下&＃xff1a;https://arxiv.org/abs/2107.13586

本文的内容框架如下&＃xff1a;

一、Prompt的产生和兴起

二、什么是Prompt

三、Prompt的设计方法

四、Prompt的挑战和展望

产生和兴起

近几年来&＃xff0c;有关预训练语言模型&＃xff08;PLM&＃xff09;的研究比比皆是&＃xff0c;自然语言处理&＃xff08;NLP&＃xff09;也借着这股春风获得了长足发展。尤其是在2017-2019年间&＃xff0c;研究者们的重心逐渐从传统task-specific的有监督模式转移到预训练上。

基于预训练语言模型的研究思路通常是“pre-train, fine-tune”&＃xff0c;即将PLM应用到下游任务上&＃xff0c;在预训练阶段和微调阶段根据下游任务设计训练对象并对PLM本体进行调整。

随着PLM体量的不断增大&＃xff0c;对其进行fine-tune的硬件要求、数据需求和实际代价也在不断上涨。除此之外&＃xff0c;丰富多样的下游任务也使得预训练和微调阶段的设计变得繁琐复杂&＃xff0c;因此研究者们希望探索出更小巧轻量、更普适高效的方法&＃xff0c;Prompt就是一个沿着此方向的尝试。

融入了Prompt的新模式大致可以归纳成“pre-train, prompt, and predict”&＃xff0c;在该模式中&＃xff0c;下游任务被重新调整成类似预训练任务的形式。

例如&＃xff0c;通常的预训练任务有Masked Language Model&＃xff0c; 在文本情感分类任务中&＃xff0c;对于 "I love this movie." 这句输入&＃xff0c;可以在后面加上prompt "The movie is ___" 这样的形式&＃xff0c;然后让PLM用表示情感的答案填空如 "great"、"fantastic" 等等&＃xff0c;最后再将该答案转化成情感分类的标签&＃xff0c;这样以来&＃xff0c;通过选取合适的prompt&＃xff0c;我们可以控制模型预测输出&＃xff0c;从而一个完全无监督训练的PLM可以被用来解决各种各样的下游任务。

因此&＃xff0c;合适的prompt对于模型的效果至关重要。大量研究表明&＃xff0c;prompt的微小差别&＃xff0c;可能会造成效果的巨大差异。研究者们就如何设计prompt做出了各种各样的努力——自然语言背景知识的融合、自动生成prompt的搜索、不再拘泥于语言形式的prompt探索等等&＃xff0c;笔者将会在第三节进行进一步讨论。

什么是 Prompt&＃xff1f;

Prompt刚刚出现的时候&＃xff0c;还没有被叫做Prompt&＃xff0c;是研究者们为了下游任务设计出来的一种输入形式或模板&＃xff0c;它能够帮助PLM“回忆”起自己在预训练时“学习”到的东西&＃xff0c;因此后来慢慢地被叫做Prompt了。

对于输入的文本

&＃xff0c;有函数

&＃xff0c;将

转化成prompt的形式

&＃xff0c;即&＃xff1a;

该函数通常会进行两步操作&＃xff1a;

1、使用一个模板&＃xff0c;模板通常为一段自然语言&＃xff0c;并且包含有两个空位置&＃xff1a;用于填输入

的位置

和用于生成答案文本

的位置

2、把输入

填到

的位置。

还用前文提到的例子。在文本情感分类的任务中&＃xff0c;假设输入是

" I love this movie."

使用的模板是

" [X] Overall, it was a [Z] movie."

那么得到的

就应该是 "I love this movie. Overall it was a [Z] movie."

在实际的研究中&＃xff0c;prompts应该有空位置来填充答案&＃xff0c;这个位置一般在句中或者句末。如果在句中&＃xff0c;一般称这种prompt为cloze prompt&＃xff1b;如果在句末&＃xff0c;一般称这种prompt为prefix prompt。

和

的位置以及数量都可能对结果造成影响&＃xff0c;因此可以根据需要灵活调整。

另外&＃xff0c;上面的例子中prompts都是有意义的自然语言&＃xff0c;但实际上其形式并不一定要拘泥于自然语言。现有相关研究使用虚拟单词甚至直接使用向量作为prompt&＃xff0c;笔者将会在第三节讲到。

下一步会进行答案搜索&＃xff0c;顾名思义就是LM寻找填在

处可以使得分数最高的文本

。最后是答案映射。有时LM填充的文本并非任务需要的最终形式&＃xff0c;因此要将此文本映射到最终的输出

。例如&＃xff0c;在文本情感分类任务中&＃xff0c;"excellent", "great", "wonderful" 等词都对应一个种类 "&＃43;&＃43;"&＃xff0c;这时需要将词语映射到标签再输出。

设计

Prompt大致可以从下面三个角度进行设计&＃xff1a;

Prompt的形状
手工设计模板
自动学习模板

Prompt的形状

Prompt的形状主要指的是

和

的位置和数量。上文提到过cloze prompt和prefix prompt的区别&＃xff0c;在实际应用过程中选择哪一种主要取决于任务的形式和模型的类别。

cloze prompts和Masked Language Model的训练方式非常类似&＃xff0c;因此对于使用MLM的任务来说cloze prompts更加合适&＃xff1b;对于生成任务来说&＃xff0c;或者使用自回归LM解决的任务&＃xff0c;prefix prompts就会更加合适&＃xff1b;Full text reconstruction models较为通用&＃xff0c;因此两种prompt均适用。

另外&＃xff0c;对于文本对的分类&＃xff0c;prompt模板通常要给输入预留两个空&＃xff0c;

和

。

手工设计模板

Prompt最开始就是从手工设计模板开始的。手工设计一般基于人类的自然语言知识&＃xff0c;力求得到语义流畅且高效的模板。例如&＃xff0c;Petroni等人在著名的LAMA数据集中为知识探针任务手工设计了cloze templates&＃xff1b;Brown等人为问答、翻译和探针等任务设计了prefix templates。手工设计模板的好处是较为直观&＃xff0c;但缺点是需要很多实验、经验以及语言专业知识&＃xff0c;代价较大。

自动学习模板

为了解决手工设计模板的缺点&＃xff0c;许多研究开始探究如何自动学习到合适的模板。自动学习的模板又可以分为离散&＃xff08;Discrete Prompts&＃xff09;和连续&＃xff08;Continuous Prompts&＃xff09;两大类。

离散的主要包括 Prompt Mining, Prompt Paraphrasing, Gradient-based Search, Prompt Generation 和 Prompt Scoring&＃xff1b;连续的则主要包括Prefix Tuning, Tuning Initialized with Discrete Prompts 和 Hard-Soft Prompt Hybrid Tuning。

离散Prompts

自动生成离散Prompts指的是自动生成由自然语言的词组成的Prompt&＃xff0c;因此其搜索空间是离散的。目前大致可以分成下面几个方法&＃xff1a;

Prompt Mining. 该方法需要一个大的文本库支持&＃xff0c;例如Wikipedia。给定输入

和输出

&＃xff0c;要找到

和

之间的中间词或者依赖路径&＃xff0c;然后选取出现频繁的中间词或依赖路径作为模板&＃xff0c;即“[X] middle words [Z]”。

Prompt Paraphrasing. Paraphrasing-based方法是基于释义的&＃xff0c;主要采用现有的种子prompts(例如手动构造)&＃xff0c;并将其转述成一组其他候选prompts&＃xff0c;然后选择一个在目标任务上达到最好效果的。一般的做法有&＃xff1a;将提示符翻译成另一种语言&＃xff0c;然后再翻译回来&＃xff1b;使用同义或近义短语来替换等。

Gradient-based Search. 梯度下降搜索的方法是在单词候选集里选择词并组合成prompt&＃xff0c;利用梯度下降的方式不断尝试组合&＃xff0c;从而达到让PLM生成需要的词的目的。

Prompt Generation. 既然Prompt也是一段文本&＃xff0c;那是否可以用文本生成的方式来生成Prompt呢&＃xff1f;该类方法就是将标准的自然语言生成的模型用于生成prompts了。例如&＃xff0c;Gao等人将T5引入了模板搜索的过程&＃xff0c;让T5生成模板词&＃xff1b;Ben-David 等人提出了一种域自适应算法&＃xff0c;训练T5为每个输入生成一种唯一的域相关特征&＃xff0c;然后把输入和特征连接起来组成模板再用到下游任务中。

Prompt Scoring. Davison等人在研究知识图谱补全任务的时候为三元组输入&＃xff08;头实体&＃xff0c;关系&＃xff0c;尾实体&＃xff09;设计了一种模板。首先人工制造一组模板候选&＃xff0c;然后把相应的[X]和[Z]都填上成为prompts&＃xff0c;并使用一个双向LM给这些prompts打分&＃xff0c;最后选取其中的高分prompt。

连续Prompts

既然构造Prompt的初衷是能够找到一个合适的方法&＃xff0c;让PLM更“听话”地得出我们想要的结果&＃xff0c;那就不必把prompt的形式拘泥于人类可以理解的自然语言了&＃xff0c;只要机器可以理解就好了。因此&＃xff0c;还有一些方法探索连续型prompts——直接作用到模型的embedding空间。连续型prompts去掉了两个约束条件&＃xff1a;

模板中词语的embedding可以是整个自然语言的embedding&＃xff0c;不再只是有限的一些embedding。

模板的参数不再直接取PLM的参数&＃xff0c;而是有自己独立的参数&＃xff0c;可以通过下游任务的训练数据进行调整。

目前的连续prompts方法大致可以分为下面几种&＃xff1a;

Prefix Tuning. Prefix Tuning最开始由Li等人提出&＃xff0c;是一种在输入前添加一串连续的向量的方法&＃xff0c;该方法保持PLM的参数不动&＃xff0c;仅训练合适的前缀&＃xff08;prefix&＃xff09;。它的形式化定义是&＃xff0c;在给定一个可训练的前缀矩阵

和一个固定的参数化为

的PLM的对数似然目标上进行优化。

其中指的是所有神经网络层在第i个时间步的连接。如果对应的时间步在前缀中&＃xff0c;则它可以直接从前缀矩阵中复制过来&＃xff1b;否则需要使用PLM进行计算。

类似地&＃xff0c;Lester等人在输入序列前面加上特殊的token来组成一个模板&＃xff0c;然后直接调整这些token的embedding。和上面的Prefix Tuning的方法相比&＃xff0c;他们的方法相对来说参数较少&＃xff0c;因为没有在每一层网络中引入额外的参数。

Tuing Initialized with Discrete Prompts. 这类方法中连续prompts是用已有的prompts初始化的&＃xff0c;已有的prompts可以是手工设计的&＃xff0c;也可以是之前搜索发现的离散prompts。Zhong 等人先用一个离散prompt搜索方法定义了一个模板&＃xff0c;然后基于该模板初始化虚拟的token&＃xff0c;最后微调这些token的embedding以提高准确率。

Hard-Soft Prompt Hybrid Tuning. 这类方法可以说是手工设计和自动学习的结合&＃xff0c;它通常不单纯使用可学习的prompt模板&＃xff0c;而是在手工设计的模板中插入一些可学习的embedding。

Liu等人提出了“P-Tuning”方法&＃xff0c;通过在input embedding中插入可训练的变量来学习连续的prompts。并且&＃xff0c;该方法使用BiLSTM的输出来表示prompt embeddings&＃xff0c;以便让prompt tokens之间有一定的交互。

P-tuning还引入了任务相关的anchor tokens&＃xff08;例如关系提取中的“capital”&＃xff09;来进一步提高效果&＃xff0c;这些anchor tokens不参与后续的调优。Han等人提出了Prompt Tunning with Rules&＃xff08;PTR&＃xff09;方法&＃xff0c;使用手工指定的子模板按照逻辑规则组装成完整的模板。

为了增强生成的模板的表示能力&＃xff0c;该方法还插入了几个虚拟token&＃xff0c;这些虚拟token的embeddings可以和PLM的参数一起被调整&＃xff0c;PTR的模板token既有实际token也有虚拟token 。实验结果证明了该方法在关系分类任务中的有效性。

挑战与展望

尽管Prompt相关研究搞得如火如荼&＃xff0c;但目前仍存在许多问题&＃xff0c;值得研究者们去探索。

Prompt的设计问题。目前使用Prompt的工作大多集中育分类任务和生成任务&＃xff0c;其它任务则较少&＃xff0c;因为如何有效地将预训练任务和prompt联系起来还是一个值得探讨的问题。另外&＃xff0c;模板和答案的联系也函待解决。模型的表现同时依赖于使用的模板和答案的转化&＃xff0c;如何同时搜索或者学习出两者联合的最好效果仍然很具挑战性。

Prompt的理论分析和可解释性。尽管Prompt方法在很多情况下都取得了成功&＃xff0c;但是目前prompt-based learning的理论分析和保证还很少&＃xff0c;使得人们很难了解Prompt为什么能达到好的效果&＃xff0c;又为什么在自然语言中意义相近的Prompt有时效果却相差很大。

Prompt在PLM debias方面的应用。由于PLM在预训练过程中见过了大量的人类世界的自然语言&＃xff0c;所以很自然地受到了影响。拿一个简单的例子来说&＃xff0c;可能不太恰当&＃xff0c;比如说训练语料中有很多的"The capital of China is "Beijing."&＃xff0c;导致模型认为下次看到"capital" 的时候都会预测出"Beijing",而不是着重看到底是哪个国家的首都。

在应用的过程中&＃xff0c;Prompt还暴露了PLM学习到的很多其它bias&＃xff0c;比如种族歧视、恐怖主义、性别对立等等。已有相关研究关注是否可以利用Prompt来对这些bias进行修正&＃xff0c;但还处在比较初级的阶段&＃xff0c;这也会是一个值得研究的方向。

[1] Liu P, Yuan W, Fu J, et al. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing[J]. arXiv preprint arXiv:2107.13586, 2021.

欢迎加入「自然语言处理」交流群&＃xff01;

&＃xff08;与内行人交流日常&＃xff09;

推荐阅读

go
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
go
九度OnlineJudge之1002：Grading问题的解决方法

本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程，将每个考题分配给3个独立的专家，如果他们的评分不一致，则需要请一位裁判做出最终决定。文章详细描述了评分规则，并给出了解决该问题的程序。 ... [详细]

蜡笔小新 2023-12-14 13:00:09
format
【shell】网络处理：判断IP是否在网段、两个ip是否同网段、IP地址范围、网段包含关系

本文介绍了使用shell脚本判断IP是否在同一网段、判断IP地址是否在某个范围内、计算IP地址范围、判断网段之间的包含关系的方法和原理。通过对IP和掩码进行与计算，可以判断两个IP是否在同一网段。同时，还提供了一段用于验证IP地址的正则表达式和判断特殊IP地址的方法。 ... [详细]

蜡笔小新 2023-12-12 11:19:14
bit
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
format
向QTextEdit拖放文件的方法及实现步骤

本文介绍了在使用QTextEdit时如何实现拖放文件的功能，包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数，并结合QMimeData和QUrl等类，可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]

蜡笔小新 2023-12-14 16:06:38
bit
Open judge C16H: Magical Balls 快速幂+逆元问题解析

本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法，并给出了问题的解析和解决方法。详细介绍了问题的背景和规则，并给出了相应的算法解析和实现步骤。通过本文的解析，读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]

蜡笔小新 2023-12-14 12:03:27
filter
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
filter
HTML学习02 图像标签的使用和属性

本文介绍了HTML中图像标签的使用和属性，包括定义图像、定义图像地图、使用源属性和替换文本属性。同时提供了相关实例和注意事项，帮助读者更好地理解和应用图像标签。 ... [详细]

蜡笔小新 2023-12-13 11:31:26
go
3.223.28周学习总结中的贪心作业收获及困惑

本文是对3.223.28周学习总结中的贪心作业进行总结，作者在解题过程中参考了他人的代码，但前提是要先理解题目并有解题思路。作者分享了自己在贪心作业中的收获，同时提到了一道让他困惑的题目，即input details部分引发的疑惑。 ... [详细]

蜡笔小新 2023-12-13 03:42:02
jsp
实现一个通讯录系统，可添加、删除、修改、查找、显示、清空、排序通讯录信息

本文介绍了如何实现一个通讯录系统，该系统可以实现添加、删除、修改、查找、显示、清空、排序通讯录信息的功能。通过定义结构体LINK和PEOPLE来存储通讯录信息，使用相关函数来实现各项功能。详细介绍了每个功能的实现方法。 ... [详细]

蜡笔小新 2023-12-10 21:26:32
utf-8
Python基础篇：315道题目及答案整理，帮助你检验学习成果

本文整理了315道Python基础题目及答案，帮助读者检验学习成果。文章介绍了学习Python的途径、Python与其他编程语言的对比、解释型和编译型编程语言的简述、Python解释器的种类和特点、位和字节的关系、以及至少5个PEP8规范。对于想要检验自己学习成果的读者，这些题目将是一个不错的选择。请注意，答案在视频中，本文不提供答案。 ... [详细]

蜡笔小新 2023-12-10 14:33:46
go
node . js urlsearchparams API

node.jsurlsearchparamsAPI哎哎哎 ... [详细]

蜡笔小新 2023-12-09 18:08:10
go
adfs是什么_培训与开发的概念

adfs是什么_培训与开发的概念（如您转载本文，必须标明本文作者及出处。如有任何疑问请与我联系me@nap7.com）ADFS相关开发技术的中文资料相对匮乏，之前在弄这个东西的时候 ... [详细]

蜡笔小新 2023-10-17 17:14:18
string
php 7.1特性,PHP 7.1 新特性一览

可空类型可空类型主要用于参数类型声明和函数返回值声明。主要的两种形式如下： ... [详细]

蜡笔小新 2023-10-17 15:50:06
go
将Firebase添加到调用Microsoft图形的项目中时出错

我正在尝试将Firebase添加到涉及添加以下内容的现有应用程序中：classpath'com.googl ... [详细]

蜡笔小新 2023-10-17 10:31:48

姜漂亮真可爱w0

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章