当前位置: 开发笔记 > 编程语言 > 正文

BERT中怎么实现嵌入层

作者：亲亲萌萌baby0106_671 | 来源：互联网 | 2023-10-11 10:30

本篇文章为大家展示了BERT中怎么实现嵌入层，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。Toke

本篇文章为大家展示了BERT中怎么实现嵌入层，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。

Token嵌入

目的

如前一节所述，token嵌入层的作用是将单词转换为固定维的向量表示形式。在BERT的例子中，每个单词都表示为一个768维的向量。

实现

假设输入文本是“I like strawberries”。下图描述了token嵌入层的作用：

BERT中怎么实现嵌入层

在将输入文本传递到token嵌入层之前，首先对其进行token化。另外，在tokens的开始([CLS])和结束([SEP])处添加额外的tokens。这些tokens的目的是作为分类任务的输入表示，并分别分隔一对输入文本(更多细节将在下一节中介绍)。

tokens化是使用一种叫做WordPiece token化的方法来完成的。这是一种数据驱动的token化方法，旨在实现词汇量和非词汇量之间的平衡。这就是“strawberries”被分成“straw”和“berries”的方式。对这种方法的详细描述超出了本文的范围。感兴趣的读者可以参考Wu et al. (2016)和Schuster & Nakajima (2012)中的第4.1节。单词token化的使用使得BERT只能在其词汇表中存储30522个“词”，而且在对英语文本进行token化时，很少会遇到词汇表以外的单词。

token嵌入层将每个wordpiece token转换为768维向量表示形式。这将使得我们的6个输入token被转换成一个形状为(6,768)的矩阵，或者一个形状为(1,6,768)的张量，如果我们包括批处理维度的话。

Segment嵌入

目的

BERT能够解决包含文本分类的NLP任务。这类问题的一个例子是对两个文本在语义上是否相似进行分类。这对输入文本被简单地连接并输入到模型中。那么BERT是如何区分输入的呢？答案是Segment嵌入。

实现

假设我们的输入文本对是(“I like cats”, “I like dogs”)。下面是Segment嵌入如何帮助BERT区分这个输入对中的tokens :

BERT中怎么实现嵌入层

Segment嵌入层只有两个向量表示。第一个向量(索引0)分配给属于输入1的所有tokens，而最后一个向量(索引1)分配给属于输入2的所有tokens。如果一个输入只有一个输入语句，那么它的Segment嵌入就是对应于Segment嵌入表的索引为0的向量。

Position嵌入

目的

BERT由一堆Transformers 组成的，广义地说，Transformers不编码其输入的顺序特征。在这个博客文章：https://medium.com/@init/how-self-attention-with-relatedposition-representations-works-28173b8c245a的动机部分更详细地解释了我的意思。总之，有Position嵌入将允许BERT理解给定的输入文本，比如：

I think, therefore I am

第一个“I”不应该与第二个“I”具有相同的向量表示。

实现

BERT被设计用来处理长度为512的输入序列。作者通过让BERT学习每个位置的向量表示来包含输入序列的顺序特征。这意味着Position嵌入层是一个大小为(512,768)的查找表，其中第一行是第一个位置上的任意单词的向量表示，第二行是第二个位置上的任意单词的向量表示，等等。因此，如果我们输入“Hello world”和“Hi there”，“Hello”和“Hi”将具有相同的Position嵌入，因为它们是输入序列中的第一个单词。同样，“world”和“there”的Position嵌入是相同的。

合并表示

我们已经看到，长度为n的token化输入序列将有三种不同的表示，即：

token嵌入，形状(1,n, 768)，这只是词的向量表示
Segment嵌入，形状(1,n, 768)，这是向量表示，以帮助BERT区分成对的输入序列。
Position嵌入，形状(1,n, 768)，让BERT知道其输入具有时间属性。

对这些表示进行元素求和，生成一个形状为(1,n, 768)的单一表示。这是传递给BERT的编码器层的输入表示。

上述内容就是BERT中怎么实现嵌入层，你们学到知识或技能了吗？如果还想学到更多技能或者丰富自己的知识储备，欢迎关注编程笔记行业资讯频道。

推荐阅读

编程
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
编程
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
php
使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换

本文介绍了如何使用JSONObiect和Gson相关方法实现json数据与kotlin对象的相互转换。首先解释了JSON的概念和数据格式，然后详细介绍了相关API，包括JSONObject和Gson的使用方法。接着讲解了如何将json格式的字符串转换为kotlin对象或List，以及如何将kotlin对象转换为json字符串。最后提到了使用Map封装json对象的特殊情况。文章还对JSON和XML进行了比较，指出了JSON的优势和缺点。 ... [详细]

蜡笔小新 2023-12-11 16:20:50
php
Android实战——jsoup实现网络爬虫，糗事百科项目的起步

本文介绍了Android实战中使用jsoup实现网络爬虫的方法，以糗事百科项目为例。对于初学者来说，数据源的缺乏是做项目的最大烦恼之一。本文讲述了如何使用网络爬虫获取数据，并以糗事百科作为练手项目。同时，提到了使用jsoup需要结合前端基础知识，以及如果学过JS的话可以更轻松地使用该框架。 ... [详细]

蜡笔小新 2023-12-11 09:19:45
php
Android开发笔记：使用Picasso加载网络图片等比例缩放

在Android开发中，使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法，并提供了具体的代码实现。通过获取图片的宽高，计算目标宽度和高度，并创建新图实现等比例缩放。 ... [详细]

蜡笔小新 2023-12-14 17:34:00
timestamp
如何用GStreamer删除H264格式的中间部分视频

本文讨论了如何使用GStreamer来删除H264格式视频文件中的中间部分，而不需要进行重编码。作者提出了使用gst_element_seek(...)函数来实现这个目标的思路，并提到遇到了一个解决不了的BUG。文章还列举了8个解决方案，希望能够得到更好的思路。 ... [详细]

蜡笔小新 2023-12-10 08:46:57
php
负载均衡_Nginx反向代理动静分离负载均衡及rewrite隐藏路径详解（Nginx Apache MySQL Redis）–第二部分

nginx反向代理、动静分离、负载均衡及rewrite隐藏路径详解 ... [详细]

蜡笔小新 2023-10-17 21:34:48
php
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
php
利用PyTorch快速实现分类任务

关于如何快速定义自己的数据集，可以参考我的前一篇文章PyTorch中快速加载自定义数据（入门）_晨曦473的博客-CSDN博客刚开始学习P ... [详细]

蜡笔小新 2023-10-17 18:12:24
php
实例详解CSS3实现弹幕

项目需要实现弹幕，网上参考了各种方法，最后觉得transform+transition实现的效果在移动设备上性能最好，在iphone6和红米4上测试，看不到 ... [详细]

蜡笔小新 2023-10-17 12:33:46
config
将Firebase添加到调用Microsoft图形的项目中时出错

我正在尝试将Firebase添加到涉及添加以下内容的现有应用程序中：classpath'com.googl ... [详细]

蜡笔小新 2023-10-17 10:31:48
tree
mapbox矢量切片标准_下载python3中的mapbox向量切片,矢量

python3下载mapbox矢量切片通过观察mapbox的页面开发者工具里的network可以发现，打开矢量切片和字体切片pbf和prite图标的链接， ... [详细]

蜡笔小新 2023-10-16 21:46:42
settings
vsCode配置通过Github同步(Settings Sync)

vsCode配置通过Github同步(Settings Sync) ... [详细]

蜡笔小新 2023-10-16 20:41:08
settings
验证识别之你讲武德了吗？

说说那个试用版的打包软件，既然是试用版肯定要加个试用期限，但是里面的pb模型并没有放识别率最好的那个，而是放了一个识别率中等 ... [详细]

蜡笔小新 2023-10-16 20:25:37
settings
推荐：以数据驱动的方式讲故事

直觉vs数据首先，你有思考过一个问题吗？当你的直觉与你所掌握的数据矛盾的时候，你是听从于直觉还是相信你所掌握的数据呢？201 ... [详细]

蜡笔小新 2023-10-16 17:51:26

亲亲萌萌baby0106_671

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章