ReactiveX(vnpy的坑)

作者：江游弈一个 | 来源：互联网 | 2023-09-17 12:40

它专门研究数据序列使其在自然语言处理，机器翻译，时间序列建模和信号处理中特别有用。注意力机制是transformers成功的基石。这些机制研究输入序列并确定最重要的元素。这些元素在

什么是注意力机制？为什么RFA比Softmax好？

谷歌最近推出了一种新方法-Random Feature Attention-，取代了“转换器”的软件最大提醒机制。这样可以实现相似性或更好的性能，大大改善时间和空间的复杂性。

在这篇文章中，我们将讨论transformers的背景、注意机制是什么，以及RFA为什么能够代替softmax注意机制。用RFA的总结结束这篇文章。

背景目前，“变换”是从序列到序列的机器学习模型的最佳模型。专门研究数据序列，在自然语言处理、机器翻译、时间序列建模、信号处理中特别有用。

注意力机制是transformers成功的基础。这些机制研究输入序列，确定最重要的因素。这些元素在编码序列时具有沉重的权重。也就是说，需要引起更多的关注。

注意机制是什么？被认为就像在会议中写笔记做后续的电子邮件一样。做笔记的时候，我们几乎写不出所有的内容。可能需要用缩写或图画代替单词；可能需要跳过在意义损失最小的情况下可以推断的词语。在这个过程中，一个小时的会议被压缩为一页笔记本。本质上，注意力机制在试图通过更重要的嵌入(单词的缩写或图标表示)将序列编码的过程中也是如此。

什么是Softmax注意机制？假设有“注意的结构是什么”这样的句子

注意机制的目标是计算数组的不同部分应该如何相互链接的相对矩阵例如，“注意”和“机制”应该联系在一起，但两者都不应该与“实际”和“是”密切联系在一起。

这个机制以输入语句的数字形式，也就是单词嵌入矩阵开始

请注意，个词的嵌入是包含该词不同属性的词的向量表示。这些属性太简单的例子有感情、词类、字符数等。

然后，初始化三个权重矩阵：查询Wq、密钥Wk和值W_v。

接着，计算查询矩阵q、密钥矩阵k、值矩阵v，可以分别作为词嵌入矩阵和Wq、Wk、W_v的点积。如论文所述，最初的注意矩阵可以用以下的：来计算

公式为以下：

为了了解矩阵的操作流程，下面显示了矩阵的图形流程：

这种注意力也被称为softmax注意力。这是因为使用softmax激活函数将q和k的变焦点积转换为注意力的相对测量值，即a。其中，各单词共享比率的注意力，合计为1 (或100% )。 softmax结果与v结合，提供基于注意力的语义结果。

但是什么是查询、键和值呢？

要理解查询、键和值xydxg背后的概念，一个过于简单的方法是将转换器理解语句的能力视为最大化以下条件的可能性：

如果输入序列是“y，‘actually’，‘is’，‘注意’，‘机械’”，则y=‘what’的概率

如果输入序列是“['what”、“y”、“is”、“注意”和“机械”，则y=' actually”的概率

如果输入序列是“['what”、“actually”、y、“attention”和“机械”，则y=' is”的概率是多少

如果输入序列是“['what”、“actually”、“is”、y和“机械”，则y=“注意”的概率

输入序列为“['what”、“actually”、“is”、“attention”、“y”时

推测可能性的方法是注意输入句中的其他单词(单词嵌入)。在训练过程中，“变换器”学习如何基于嵌入细化三个权重矩阵来链接单词。

该体系结构的优点是，可以通过创建多个查询、键和值组或重叠多个注意层来捕获更复杂的语义结构。

为什么Softmax的注意力机制不够好？是典型的转换器

，部署多头注意力来解压缩更复杂的语言模式。softmax注意力机制的时间和空间复杂度变成O(MN)，并以输入序列长度的二次速率增长。

为了解决这个问题，来自Google Deepmind的小组利用了Bochner定理，并扩展了Rahmi＆Recht（2008）的工作，softmax函数与指数函数的随机特性映射ϕ(独立和正态分布的随机向量w与输入语句x之间的内积的傅立叶特征)。

softmax函数

随机特征映射

随机特征图的点积可用于估计指数函数

在不深入过多数学推导细节的情况下，softmax注意机制可以近似为以下结构:

通过将softmax近似为RFA，谷歌Deepmind将时间和空间复杂度降低到O(M + N)，即从二次到线性。

Deepmind的研究成果
由于RFA具有相同的输入和输出尺寸要求，可以作为softmax注意机制的替代。
随着复杂度从二次型下降到线性型，RFA在输入文本序列较长的情况下得到了更显著的改善。
RFA背后的基本原理可以用来近似高斯核之外的其他核函数。在谷歌Deepmind的论文中，他们演示了如何将同样的方法应用于近似弧余弦核。
与softmax一样，RFA本身并不考虑输入句子中的位置距离。在Deepmind的谷歌论文中，他们讨论了如何将递归神经网络的灵感应用于RFA，从而使单词的重要性根据它们在句子中的相对位置呈指数衰减。
最后但并非最不重要的是，机器学习看起来非常出色，但它都是关于数学和统计的。多亏了优秀的研究人员和程序员，我们才有了像TensorFlow和PyTorch这样的高级软件包。尽管如此，我们仍然需要不断学习最新的发展和修改核心概念，以确保我们正在开发可解释的机器学习模型和管道。
作者：Louis Chan
deephub翻译组

推荐阅读

go
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
go
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
go
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
object
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
format
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
go
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
go
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
go
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
go
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
web
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
go
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
web
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
go
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
go
2017亚马逊人工智能奖公布：他们的AI有什么不同？

事实上，在我们周围，“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊，我们的世界正在变成一个机器 ... [详细]

蜡笔小新 2023-10-16 19:50:15
input
程度|也就是_论文精读：Neural Architecture Search without Training

篇首语：本文由编程笔记#小编为大家整理，主要介绍了论文精读：NeuralArchitectureSearchwithoutTraining相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:33:20

江游弈一个

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章