【NLP】Attention机制与实战（Tensoflow2.x）

作者：我是田小勇2702932553 | 来源：互联网 | 2023-09-14 22:41

Attention是一种用于提升基于RNN（LSTM或GRU）的EncoderDecoder模型效果的机制（Mechanism࿰

Attention是一种用于提升基于RNN&＃xff08;LSTM或GRU&＃xff09;的Encoder &＃43; Decoder模型效果的机制&＃xff08;Mechanism&＃xff09;&＃xff0c;一般称为Attention Mechanism。Attention给模型赋予了区分辨别的能力&＃xff0c;例如&＃xff0c;在机器翻译、语音识别应用中&＃xff0c;为句子中的每个词赋予不同的权重&＃xff0c;使神经网络模型的学习变得更加灵活&＃xff08;soft&＃xff09;&＃xff0c;同时Attention本身可以做为一种对齐关系&＃xff0c;解释翻译输入/输出句子之间的对齐关系&＃xff0c;解释模型到底学到了什么知识。
在这里插入图片描述
上图显示了在图像标注中的attention可视化。

Attention Mechanism与人类对外界事物的观察机制很类似&＃xff0c;当人类观察外界事物的时候&＃xff0c;一般不会把事物当成一个整体去看&＃xff0c;往往倾向于根据需要选择性的去获取被观察事物的某些重要部分&＃xff0c;比如我们看到一个人时&＃xff0c;往往先Attention到这个人的脸&＃xff0c;然后再把不同区域的信息组合起来&＃xff0c;形成一个对被观察事物的整体印象。因此&＃xff0c;Attention Mechanism可以帮助模型对输入的X每个部分赋予不同的权重&＃xff0c;抽取出更加关键及重要的信息&＃xff0c;使模型做出更加准确的判断&＃xff0c;同时不会对模型的计算和存储带来更大的开销&＃xff0c;这也是Attention Mechanism应用如此广泛的原因。

一、Attention Mechanism原理

1.1 Attention Mechanism主要需要解决的问题

《Sequence to Sequence Learning with Neural Networks》介绍了一种基于RNN的Seq2Seq模型&＃xff0c;基于一个Encoder和一个Decoder来构建基于神经网络的End-to-End的机器翻译模型&＃xff0c;其中&＃xff0c;Encoder把输入X编码成一个固定长度的隐向量C&＃xff0c;Decoder基于隐向量C解码出目标输出Y。这是一个非常经典的序列到序列的模型&＃xff0c;但是却存在两个明显的问题&＃xff1a;
1、把输入X的所有信息有压缩到一个固定长度的隐向量C&＃xff0c;忽略了输入X的长度&＃xff0c;当输入句子长度很长&＃xff0c;特别是比训练集中最初的句子长度还长时&＃xff0c;模型的性能急剧下降。
2、把输入X编码成一个固定的长度&＃xff0c;对于句子中每个词都赋予相同的权重&＃xff0c;这样做是不合理的&＃xff0c;比如&＃xff0c;在机器翻译里&＃xff0c;对输入的每个词赋予相同权重&＃xff0c;这样做没有区分度&＃xff0c;往往使模型性能下降

同样的问题也存在于图像识别领域&＃xff0c;卷积神经网络CNN对输入的图像每个区域做相同的处理&＃xff0c;这样做没有区分度&＃xff0c;特别是当处理的图像尺寸非常大时&＃xff0c;问题更明显。因此&＃xff0c;2015年&＃xff0c;Dzmitry Bahdanau等人在《Neural machine translation by jointly learning to align and translate》提出了Attention Mechanism&＃xff0c;用于对输入X的不同部分赋予不同的权重&＃xff0c;进而实现软区分的目的。

1.2 Attention Mechanism原理

2014年在论文《Sequence to Sequence Learning with Neural Networks》中使用LSTM来搭建Seq2Seq模型。随后&＃xff0c;2015年&＃xff0c;Kyunghyun Cho等人在论文《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》提出了基于GRU的Seq2Seq模型。两篇文章所提出的Seq2Seq模型&＃xff0c;想要解决的主要问题是&＃xff0c;如何把机器翻译中&＃xff0c;变长的输入X映射到一个变长输出Y的问题&＃xff0c;主要结构如下&＃xff1a;
在这里插入图片描述

Encoder把一个变成的输入序列x1&＃xff0c;x2&＃xff0c;x3…xt编码成一个固定长度隐向量&＃xff08;背景向量&＃xff0c;或上下文向量context&＃xff09;c&＃xff0c;c有两个作用&＃xff1a;
1、做为初始向量初始化Decoder的模型&＃xff0c;做为decoder模型预测y1的初始向量。
2、做为背景向量&＃xff0c;指导y序列中每一个step的y的产出。Decoder主要基于背景向量c和上一步的输出yt-1解码得到该时刻t的输出yt&＃xff0c;直到碰到结束标志&＃xff08;&＃xff09;为止。

在上述的模型中&＃xff0c;Encoder-Decoder 框架将输入X都编码转化为语义表示 C&＃xff0c;这就导致翻译出来的序列的每一个字都是同权地考虑了输入中的所有的词。例如输入的英文句子是&＃xff1a;Tom chase Jerry&＃xff0c;目标的翻译结果是&＃xff1a;汤姆追逐杰瑞。在未考虑注意力机制的模型当中&＃xff0c;模型认为“汤姆 ”这个词的翻译受到 Tom&＃xff0c;chase 和 Jerry 这三个词的同权重的影响。但是实际上显然不应该是这样处理的&＃xff0c;“汤姆 ”这个词应该受到输入的 Tom 这个词的影响最大&＃xff0c;而其它输入的词的影响则应该是非常小的。显然&＃xff0c;在未考虑注意力机制的 Encoder-Decoder 模型中&＃xff0c;这种不同输入的重要程度并没有体现处理&＃xff0c;一般称这样的模型为分心模型。

而带有 Attention 机制的 Encoder-Decoder 模型则是要从序列中学习到每一个元素的重要程度&＃xff0c;然后按重要程度将元素合并。因此&＃xff0c;注意力机制可以看作是 Encoder 和 Decoder 之间的接口&＃xff0c;它向 Decoder 提供来自每个 Encoder 隐藏状态的信息。通过该设置&＃xff0c;模型能够选择性地关注输入序列的有用部分&＃xff0c;从而学习它们之间的“对齐”。这就表明&＃xff0c;在 Encoder 将输入的序列元素进行编码时&＃xff0c;得到的不在是一个固定的语义编码 C &＃xff0c;而是存在多个语义编码&＃xff0c;且不同的语义编码由不同的序列元素以不同的权重参数组合而成。一个简单地体现 Attention 机制运行的示意图如下&＃xff1a;
在这里插入图片描述
在 Attention 机制下&＃xff0c;语义编码 C 就不在是输入X序列的直接编码了&＃xff0c;而是各个元素按其重要程度加权求和得到的&＃xff0c;即&＃xff1a;
$Ci&＃61;∑j&＃61;0Txaijf(xj)C_i&＃61;\sum_{j&＃61;0}^{T_x}{a_{ij}f(x_j)}$
在公式&＃xff08;6&＃xff09;中&＃xff0c;参数 &＃x1d456; 表示时刻&＃xff0c; &＃x1d457;表示序列中的第 &＃x1d457;个元素&＃xff0c; &＃x1d447;&＃x1d465; 表示序列的长度&＃xff0c; &＃x1d453;(⋅) 表示对元素 &＃x1d465;&＃x1d457;的编码。&＃x1d44e;&＃x1d456;&＃x1d457;可以看作是一个概率&＃xff0c;反映了元素 ℎ&＃x1d457; 对 &＃x1d436;&＃x1d456;的重要性&＃xff0c;可以使用 softmax 来表示&＃xff1a;
$aij&＃61;exp(eij)∑k&＃61;1Txexp(eik)a_{ij}&＃61;\frac{exp(e_{ij})}{\sum_{k&＃61;1}^{T_x}exp(e_{ik})}$
这里 &＃x1d452;&＃x1d456;&＃x1d457;正是反映了待编码的元素和其它元素之间的匹配度&＃xff0c;当匹配度越高时&＃xff0c;说明该元素对其的影响越大&＃xff0c;则 &＃x1d44e;&＃x1d456;&＃x1d457;的值也就越大。

因此&＃xff0c;得出 &＃x1d44e;&＃x1d456;&＃x1d457;的过程如下图&＃xff1a;
在这里插入图片描述
其中&＃xff0c;ℎi 表示 Encoder 的转换函数&＃xff0c;&＃x1d439;(ℎ&＃x1d457;,&＃x1d43b;&＃x1d456;)表示预测与目标的匹配打分函数。将以上过程串联起来&＃xff0c;则注意力模型的结构如下图所示&＃xff1a;

① 对 RNN 的输出计算注意程度&＃xff0c;通过计算最终时刻的向量与任意 i 时刻向量的权重&＃xff0c;通过 softmax 计算出得到注意力偏向分数&＃xff0c;如果对某一个序列特别注意&＃xff0c;那么计算的偏向分数将会比较大。
② 计算 Encoder 中每个时刻的隐向量
③ 将各个时刻对于最后输出的注意力分数进行加权&＃xff0c;计算出每个时刻 i 向量应该赋予多少注意力
④ decoder 每个时刻都会将 ③ 部分的注意力权重输入到 Decoder 中&＃xff0c;此时 Decoder 中的输入有&＃xff1a;经过注意力加权的隐藏层向量&＃xff0c;Encoder 的输出向量&＃xff0c;以及 Decoder 上一时刻的隐向量
⑤ Decoder 通过不断迭代&＃xff0c;Decoder 可以输出最终翻译的序列。

二、 NMT领域Attention

几十年来&＃xff0c;统计机器翻译一直是占主导地位的翻译模型&＃xff0c;直到神经机器翻译 (NMT)的诞生。NMT是一种新兴的机器翻译方法&＃xff0c;它试图构建和训练单个大型的神经网络&＃xff0c;来读取输入文本并输出对应的翻译。
NMT的先驱是Kalchbrenner and Blunsom (2013)&＃xff0c; Sutskever et. al (2014)和Cho. et. al (2014b)&＃xff0c;其中比较熟悉的框架是来自Sutskever et. al.的序列到序列(seq2seq)模型。
在这里插入图片描述
上述seq2seq输入长度为4输出长度为3。
seq2seq的问题是&＃xff0c;解码器从编码器接收到的唯一信息是编码器的最后隐藏状态&＃xff08;图中的红色向量&＃xff09;这是一个向量表示&＃xff0c;类似于输入序列的数值摘要。在长文本中&＃xff0c;我们期望解码器只使用这一个向量表示(希望它“充分描述输入序列”)来输出翻译是不现实的。这可能会导致灾难性的遗忘。

如果我们做不到&＃xff0c;那么我们就不应该对解码器如此残忍。那么&＃xff0c;如果不光给一个向量表示&＃xff0c;同时还给解码器一个来自每个编码器时间步长的向量表示&＃xff0c;这样它就可以做出具有充足信息的翻译了&＃xff0c;这个想法怎么样&＃xff1f;让我们进入注意力机制。

注意力机制是编码器和解码器之间的接口&＃xff0c;它向解码器提供来自每个编码器隐藏状态的信息。通过这个设置&＃xff0c;模型能够选择性地关注输入序列的有用部分&＃xff0c;从而学习它们之间的“对齐”。这有助于模型有效地处理长输入语句。
在这里插入图片描述
有两种注意类型&＃xff0c;使用所有编码器隐藏状态的注意力类型也称为“全局注意力”。相反&＃xff0c;“局部注意力”只使用编码器隐藏状态的子集。由于本文的范围是全局attention&＃xff0c;因此本文中提到的“attention”均被视为“全局attention”。

引入 Attention 的 Encoder-Decoder 框架下&＃xff0c;完成机器翻译任务的大致流程如下&＃xff1a;
在这里插入图片描述

注意力集中在不同的单词上&＃xff0c;给每个单词打分。然后&＃xff0c;使用softmax之后分数&＃xff0c;我们使用编码器隐藏状态的加权和来聚合编码器隐藏状态&＃xff0c;得到上下文向量。

三、主要代码实现

3.1 Encoder

class Encoder(tf.keras.Model):def __init__(self, hidden_size&＃61;1024, max_sequence_len&＃61;30, batch_size&＃61;batch_size, embedding_dim&＃61;256, vocab_size&＃61;5000):super(Encoder, self).__init__()self.embedding_dim &＃61; embedding_dimself.vocab_size &＃61; vocab_sizeself.max_sequence_len &＃61; max_sequence_lenself.hidden_size &＃61; hidden_sizeself.batch_size &＃61; batch_sizeself.embedding_layer &＃61; Embedding(input_dim&＃61;self.vocab_size, output_dim&＃61;self.embedding_dim)self.GRU_1 &＃61; GRU(units&＃61;hidden_size, return_sequences&＃61;True)self.GRU_2 &＃61; GRU(units&＃61;hidden_size,return_sequences&＃61;True, return_state&＃61;True)def initial_hidden_state(self):return tf.zeros(shape&＃61;(self.batch_size, self.hidden_size))def call(self, x, initial_state, training&＃61;False):x &＃61; self.embedding_layer(x)x &＃61; self.GRU_1(x, initial_state&＃61;initial_state)x, hidden_state &＃61; self.GRU_2(x)return x, hidden_state

3.2 Attention

class Attention(tf.keras.Model):def __init__(self, hidden_size&＃61;256):super(Attention, self).__init__()self.fc1 &＃61; Dense(units&＃61;hidden_size)self.fc2 &＃61; Dense(units&＃61;hidden_size)self.fc3 &＃61; Dense(units&＃61;1)def call(self, encoder_output, hidden_state, training&＃61;False):&＃39;&＃39;&＃39;hidden_state : h(t-1)&＃39;&＃39;&＃39;y_hidden_state &＃61; tf.expand_dims(hidden_state, axis&＃61;1)y_hidden_state &＃61; self.fc1(y_hidden_state)y_enc_out &＃61; self.fc2(encoder_output)#get a_ijy &＃61; tf.keras.backend.tanh(y_enc_out &＃43; y_hidden_state)attention_score &＃61; self.fc3(y)attention_weights &＃61; tf.keras.backend.softmax(attention_score, axis&＃61;1)#get c_icontext_vector &＃61; tf.multiply(encoder_output, attention_weights)context_vector &＃61; tf.reduce_sum(context_vector, axis&＃61;1)return context_vector, attention_weights

3.3 Decoder

class Decoder(tf.keras.Model):def __init__(self, hidden_size&＃61;1024, max_sequence_len&＃61;30, batch_size&＃61;batch_size, embedding_dim&＃61;256, vocab_size&＃61;5000):super(Decoder, self).__init__()self.embedding_dim &＃61; embedding_dimself.vocab_size &＃61; vocab_sizeself.max_sequence_len &＃61; max_sequence_lenself.hidden_size &＃61; hidden_sizeself.batch_size &＃61; batch_sizeself.embedding_layer &＃61; Embedding(input_dim&＃61;self.vocab_size, output_dim&＃61;self.embedding_dim)self.GRU &＃61; GRU(units&＃61;hidden_size,return_sequences&＃61;True, return_state&＃61;True)self.attention &＃61; Attention(hidden_size&＃61;self.hidden_size)self.fc &＃61; Dense(units&＃61;self.vocab_size)def initial_hidden_state(self):return tf.zeros(shape&＃61;(self.batch_size, self.hidden_size))def call(self, x, encoder_output, hidden_state, training&＃61;False):x &＃61; self.embedding_layer(x)context_vector, attention_weights &＃61; self.attention(encoder_output, hidden_state, training&＃61;training)contect_vector &＃61; tf.expand_dims(context_vector, axis&＃61;1)x &＃61; tf.concat([x, contect_vector], axis&＃61;-1)x, curr_hidden_state &＃61; self.GRU(x)x &＃61; tf.reshape(x, shape&＃61;[self.batch_size, -1])x &＃61; self.fc(x)return x, curr_hidden_state, attention_weights

最终结果&＃xff1a;
在这里插入图片描述

完整代码&＃xff1a;https://github.com/LIANGQINGYUAN/NLP-Notebook
欢迎star&＃xff5e;

参考链接&＃xff1a;
模型汇总24 - 深度学习中Attention Mechanism详细介绍&＃xff1a;原理、分类及应用&＃xff1a;
https://zhuanlan.zhihu.com/p/31547842
浅谈 Attention 机制的理解&＃xff1a;https://www.cnblogs.com/ydcode/p/11038064.html
Attention可视化&＃xff1a;https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/
Intuitive Understanding of Attention Mechanism in Deep Learning&＃xff1a;
https://towardsdatascience.com/intuitive-understanding-of-attention-mechanism-in-deep-learning-6c9482aecf4f
kaggle翻译例子1&＃xff1a;https://www.kaggle.com/nikhilxavier/english-to-hindi-machine-translation-attention
kaggle翻译例子2&＃xff1a;https://www.kaggle.com/harishreddy18/english-to-french-translation
Go from the basics - Attention mechanism, transformers, BERT&＃xff1a;
https://www.kaggle.com/c/tensorflow2-question-answering/discussion/115676#711847
机器翻译语料库&＃xff1a;http://www.manythings.org/anki/
Transformer 系列一&＃xff1a;https://zhuanlan.zhihu.com/p/109585084

推荐阅读

grid
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
input
绕过WAF的XSS检测机制及构建XSS payload的方法

本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ... [详细]

蜡笔小新 2023-12-11 19:42:30
join
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
sum
Android自定义控件绘图篇之Paint函数大汇总

本文介绍了Android自定义控件绘图篇中的Paint函数大汇总，包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数，可以更好地掌握Paint的用法。 ... [详细]

蜡笔小新 2023-12-10 23:11:57
web
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
range
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
input
开发笔记:图像识别基于主成分分析算法实现人脸二维码识别

篇首语：本文由编程笔记#小编为大家整理，主要介绍了图像识别基于主成分分析算法实现人脸二维码识别相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-17 14:55:32
input
我必须更改我的数字的最后一位和第一位，但不能仅对整数或循环使用函数。例如从12345到52341

#include<iostream>usingnamespacestd;intmain(){HereIseperatemynumberbe ... [详细]

蜡笔小新 2023-10-17 11:01:00
grid
keras归一化激活函数dropout

激活函数:1.softmax函数在多分类中常用的激活函数，是基于逻辑回归的，常用在输出一层，将输出压缩在0~1之间，且保证所有元素和为1，表示输入值属于每个输出值的概率大小2、Si ... [详细]

蜡笔小新 2023-10-16 18:35:17
input
程度|也就是_论文精读：Neural Architecture Search without Training

篇首语：本文由编程笔记#小编为大家整理，主要介绍了论文精读：NeuralArchitectureSearchwithoutTraining相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:33:20
random
鄂维南：从数学角度，理解机器学习的「黑魔法」，并应用于更广泛的科学问题...

作者|Hertz来源|科学智能AISI北京时间2022年7月8日晚上22:30，鄂维南院士在2022年的国际数学家大会上作一小时大会报告(plenarytalk)。今 ... [详细]

蜡笔小新 2023-10-15 23:41:17
sum
关于Linq to sql 实现模糊查询 string数组

前景：当UI一个查询条件为多项选择，或录入多个条件的时候，比如查询所有名称里面包含以下动态条件，需要模糊查询里面每一项时比如是这样一个数组条件：newstring[]{兴业银行, ... [详细]

蜡笔小新 2023-12-13 09:34:59
sum
3.223.28周学习总结中的贪心作业收获及困惑

本文是对3.223.28周学习总结中的贪心作业进行总结，作者在解题过程中参考了他人的代码，但前提是要先理解题目并有解题思路。作者分享了自己在贪心作业中的收获，同时提到了一道让他困惑的题目，即input details部分引发的疑惑。 ... [详细]

蜡笔小新 2023-12-13 03:42:02
sum
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
sum
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31

我是田小勇2702932553

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章