LSTM模型结构的可视化

作者：老爷们白百合开在秋天 | 来源：互联网 | 2023-09-08 15:22

来自|知乎作者|master苏链接|https:zhuanlan.zhihu.comp139617364最近在学习LSTM应用在时间序列的预测上，但是遇到一个很大的问

来自 | 知乎作者 | master苏

链接 | https://zhuanlan.zhihu.com/p/139617364

最近在学习LSTM应用在时间序列的预测上&＃xff0c;但是遇到一个很大的问题就是LSTM在传统BP网络上加上时间步后&＃xff0c;其结构就很难理解了&＃xff0c;同时其输入输出数据格式也很难理解&＃xff0c;网络上有很多介绍LSTM结构的文章&＃xff0c;但是都不直观&＃xff0c;对初学者是非常不友好的。我也是苦苦冥思很久&＃xff0c;看了很多资料和网友分享的LSTM结构图形才明白其中的玄机。

本文内容如下&＃xff1a;

1、传统的BP网络和CNN网络 2、LSTM网络 3、LSTM的输入结构 4、pytorch中的LSTM 4.1 pytorch中定义的LSTM模型 4.2 喂给LSTM的数据格式 4.3 LSTM的output格式 5、LSTM和其他网络组合

传统的BP网络和CNN网络

BP网络和CNN网络没有时间维&＃xff0c;和传统的机器学习算法理解起来相差无几&＃xff0c;CNN在处理彩色图像的3通道时&＃xff0c;也可以理解为叠加多层&＃xff0c;图形的三维矩阵当做空间的切片即可理解&＃xff0c;写代码的时候照着图形一层层叠加即可。如下图是一个普通的BP网络和CNN网络。

BP网络

CNN网络

图中的隐含层、卷积层、池化层、全连接层等&＃xff0c;都是实际存在的&＃xff0c;一层层前后叠加&＃xff0c;在空间上很好理解&＃xff0c;因此在写代码的时候&＃xff0c;基本就是看图写代码&＃xff0c;比如用keras就是&＃xff1a;

# 示例代码&＃xff0c;没有实际意义model &＃61; Sequential()model.add(Conv2D(32, (3, 3), activation&＃61;&＃39;relu&＃39;)) # 添加卷积层model.add(MaxPooling2D(pool_size&＃61;(2, 2))) # 添加池化层model.add(Dropout(0.25)) # 添加dropout层 model.add(Conv2D(32, (3, 3), activation&＃61;&＃39;relu&＃39;)) # 添加卷积层model.add(MaxPooling2D(pool_size&＃61;(2, 2))) # 添加池化层model.add(Dropout(0.25)) # 添加dropout层 .... # 添加其他卷积操作 model.add(Flatten()) # 拉平三维数组为2维数组model.add(Dense(256, activation&＃61;&＃39;relu&＃39;)) 添加普通的全连接层model.add(Dropout(0.5))model.add(Dense(10, activation&＃61;&＃39;softmax&＃39;)) .... # 训练网络

LSTM网络

当我们在网络上搜索看LSTM结构的时候&＃xff0c;看最多的是下面这张图&＃xff1a;

RNN网络

这是RNN循环神经网络经典的结构图&＃xff0c;LSTM只是对隐含层节点A做了改进&＃xff0c;整体结构不变&＃xff0c;因此本文讨论的也是这个结构的可视化问题。

中间的A节点隐含层&＃xff0c;左边是表示只有一层隐含层的LSTM网络&＃xff0c;所谓LSTM循环神经网络就是在时间轴上的循环利用&＃xff0c;在时间轴上展开后得到右图。

看左图&＃xff0c;很多同学以为LSTM是单输入、单输出&＃xff0c;只有一个隐含神经元的网络结构&＃xff0c;看右图&＃xff0c;以为LSTM是多输入、多输出&＃xff0c;有多个隐含神经元的网络结构&＃xff0c;A的数量就是隐含层节点数量。

WTH&＃xff1f;思维转不过来啊。这就是传统网络和空间结构的思维。

实际上&＃xff0c;右图中&＃xff0c;我们看Xt表示序列&＃xff0c;下标t是时间轴&＃xff0c;所以&＃xff0c;A的数量表示的是时间轴的长度&＃xff0c;是同一个神经元在不同时刻的状态&＃xff08;Ht&＃xff09;&＃xff0c;不是隐含层神经元个数。

我们知道&＃xff0c;LSTM网络在训练时会使用上一时刻的信息&＃xff0c;加上本次时刻的输入信息来共同训练。

举个简单的例子&＃xff1a;在第一天我生病了&＃xff08;初始状态H0&＃xff09;&＃xff0c;然后吃药&＃xff08;利用输入信息X1训练网络&＃xff09;&＃xff0c;第二天好转但是没有完全好&＃xff08;H1&＃xff09;&＃xff0c;再吃药&＃xff08;X2&＃xff09;,病情得到好转&＃xff08;H2&＃xff09;,如此循环往复知道病情好转。因此&＃xff0c;输入Xt是吃药&＃xff0c;时间轴T是吃多天的药&＃xff0c;隐含层状态是病情状况。因此我还是我&＃xff0c;只是不同状态的我。

实际上&＃xff0c;LSTM的网络是这样的&＃xff1a;

LSTM网络结构

上面的图表示包含2个隐含层的LSTM网络&＃xff0c;在T&＃61;1时刻看&＃xff0c;它是一个普通的BP网络&＃xff0c;在T&＃61;2时刻看也是一个普通的BP网络&＃xff0c;只是沿时间轴展开后&＃xff0c;T&＃61;1训练的隐含层信息H,C会被传递到下一个时刻T&＃61;2&＃xff0c;如下图所示。上图中向右的五个常常的箭头&＃xff0c;所的也是隐含层状态在时间轴上的传递。

注意&＃xff0c;图中H表示隐藏层状态&＃xff0c;C是遗忘门&＃xff0c;后面会讲解它们的维度。

LSTM的输入结构

为了更好理解LSTM结构&＃xff0c;还必须理解LSTM的数据输入情况。仿照3通道图像的样子&＃xff0c;在加上时间轴后的多样本的多特征的不同时刻的数据立方体如下图所示&＃xff1a;

三维数据立方体

右边的图是我们常见模型的输入&＃xff0c;比如XGBOOST&＃xff0c;lightGBM&＃xff0c;决策树等模型&＃xff0c;输入的数据格式都是这种&＃xff08;N*F&＃xff09;的矩阵&＃xff0c;而左边是加上时间轴后的数据立方体&＃xff0c;也就是时间轴上的切片&＃xff0c;它的维度是&＃xff08;N*T*F&＃xff09;,第一维度是样本数&＃xff0c;第二维度是时间&＃xff0c;第三维度是特征数&＃xff0c;如下图所示&＃xff1a;

这样的数据立方体很多&＃xff0c;比如天气预报数据&＃xff0c;把样本理解成城市&＃xff0c;时间轴是日期&＃xff0c;特征是天气相关的降雨风速PM2.5等&＃xff0c;这个数据立方体就很好理解了。在NLP里面&＃xff0c;一句话会被embedding成一个矩阵&＃xff0c;词与词的顺序是时间轴T&＃xff0c;索引多个句子的embedding三维矩阵如下图所示&＃xff1a;

pytorch中的LSTM

4.1 pytorch中定义的LSTM模型

pytorch中定义的LSTM模型的参数如下

class torch.nn.LSTM(*args, **kwargs)参数有&＃xff1a; input_size&＃xff1a;x的特征维度 hidden_size&＃xff1a;隐藏层的特征维度 num_layers&＃xff1a;lstm隐层的层数&＃xff0c;默认为1 bias&＃xff1a;False则bihbih&＃61;0和bhhbhh&＃61;0. 默认为True batch_first&＃xff1a;True则输入输出的数据格式为 (batch, seq, feature) dropout&＃xff1a;除最后一层&＃xff0c;每一层的输出都进行dropout&＃xff0c;默认为: 0 bidirectional&＃xff1a;True则为双向lstm默认为False

结合前面的图形&＃xff0c;我们一个个看。

&＃xff08;1&＃xff09;input_size&＃xff1a;x的特征维度&＃xff0c;就是数据立方体中的F&＃xff0c;在NLP中就是一个词被embedding后的向量长度&＃xff0c;如下图所示&＃xff1a;

&＃xff08;2&＃xff09;hidden_size&＃xff1a;隐藏层的特征维度&＃xff08;隐藏层神经元个数&＃xff09;&＃xff0c;如下图所示&＃xff0c;我们有两个隐含层&＃xff0c;每个隐藏层的特征维度都是5。注意&＃xff0c;非双向LSTM的输出维度等于隐藏层的特征维度。

&＃xff08;3&＃xff09;num_layers&＃xff1a;lstm隐层的层数&＃xff0c;上面的图我们定义了2个隐藏层。

&＃xff08;4&＃xff09;batch_first&＃xff1a;用于定义输入输出维度&＃xff0c;后面再讲。

&＃xff08;5&＃xff09;bidirectional&＃xff1a;是否是双向循环神经网络&＃xff0c;如下图是一个双向循环神经网络&＃xff0c;因此在使用双向LSTM的时候我需要特别注意&＃xff0c;正向传播的时候有&＃xff08;Ht, Ct&＃xff09;,反向传播也有&＃xff08;Ht&＃39;, Ct&＃39;&＃xff09;,前面我们说了非双向LSTM的输出维度等于隐藏层的特征维度&＃xff0c;而双向LSTM的输出维度是隐含层特征数*2&＃xff0c;而且H,C的维度是时间轴长度*2。

4.2 喂给LSTM的数据格式

pytorch中LSTM的输入数据格式默认如下&＃xff1a;

input(seq_len, batch, input_size)参数有&＃xff1a; seq_len&＃xff1a;序列长度&＃xff0c;在NLP中就是句子长度&＃xff0c;一般都会用pad_sequence补齐长度 batch&＃xff1a;每次喂给网络的数据条数&＃xff0c;在NLP中就是一次喂给网络多少个句子 input_size&＃xff1a;特征维度&＃xff0c;和前面定义网络结构的input_size一致。

前面也说到&＃xff0c;如果LSTM的参数 batch_first&＃61;True&＃xff0c;则要求输入的格式是&＃xff1a;

input(batch, seq_len, input_size)

刚好调换前面两个参数的位置。其实这是比较好理解的数据形式&＃xff0c;下面以NLP中的embedding向量说明如何构造LSTM的输入。

之前我们的embedding矩阵如下图&＃xff1a;

如果把batch放在第一位&＃xff0c;则三维矩阵的形式如下&＃xff1a;

其转换过程如下图所示&＃xff1a;

看懂了吗&＃xff0c;这就是输入数据的格式&＃xff0c;是不是很简单。

LSTM的另外两个输入是 h0 和 c0&＃xff0c;可以理解成网络的初始化参数&＃xff0c;用随机数生成即可。

h0(num_layers * num_directions, batch, hidden_size)c0(num_layers * num_directions, batch, hidden_size)参数&＃xff1a; num_layers&＃xff1a;隐藏层数 num_directions&＃xff1a;如果是单向循环网络&＃xff0c;则num_directions&＃61;1&＃xff0c;双向则num_directions&＃61;2 batch&＃xff1a;输入数据的batch hidden_size&＃xff1a;隐藏层神经元个数

注意&＃xff0c;如果我们定义的input格式是&＃xff1a;

input(batch, seq_len, input_size)

则H和C的格式也是要变的&＃xff1a;

h0(batc&＃xff0c;num_layers * num_directions, h, hidden_size)c0(batc&＃xff0c;num_layers * num_directions, h, hidden_size)

4.3 LSTM的output格式

LSTM的输出是一个tuple&＃xff0c;如下&＃xff1a;

output,(ht, ct) &＃61; net(input) output: 最后一个状态的隐藏层的神经元输出 ht&＃xff1a;最后一个状态的隐含层的状态值 ct&＃xff1a;最后一个状态的隐含层的遗忘门值

output的默认维度是&＃xff1a;

output(seq_len, batch, hidden_size * num_directions)ht(num_layers * num_directions, batch, hidden_size)ct(num_layers * num_directions, batch, hidden_size)

和input的情况类似&＃xff0c;如果我们前面定义的input格式是&＃xff1a;

input(batch, seq_len, input_size)

则ht和ct的格式也是要变的&＃xff1a;

ht(batc&＃xff0c;num_layers * num_directions, h, hidden_size)ct(batc&＃xff0c;num_layers * num_directions, h, hidden_size)

说了这么多&＃xff0c;我们回过头来看看ht和ct在哪里&＃xff0c;请看下图&＃xff1a;

output在哪里&＃xff1f;请看下图&＃xff1a;

LSTM和其他网络组合

还记得吗&＃xff0c;output的维度等于隐藏层神经元的个数&＃xff0c;即hidden_size&＃xff0c;在一些时间序列的预测中&＃xff0c;会在output后&＃xff0c;接上一个全连接层&＃xff0c;全连接层的输入维度等于LSTM的hidden_size&＃xff0c;之后的网络处理就和BP网络相同了&＃xff0c;如下图&＃xff1a;

用pytorch实现上面的结构&＃xff1a;

import torchfrom torch import nn class RegLSTM(nn.Module): def __init__(self): super(RegLSTM, self).__init__() # 定义LSTM self.rnn &＃61; nn.LSTM(input_size, hidden_size, hidden_num_layers) # 定义回归层网络&＃xff0c;输入的特征维度等于LSTM的输出&＃xff0c;输出维度为1 self.reg &＃61; nn.Sequential( nn.Linear(hidden_size, 1) )def forward(self, x): x, (ht,ct) &＃61; self.rnn(x) seq_len, batch_size, hidden_size&＃61; x.shape x &＃61; y.view(-1, hidden_size) x &＃61; self.reg(x) x &＃61; x.view(seq_len, batch_size, -1) return x

当然&＃xff0c;有些模型则是将输出当做另一个LSTM的输入&＃xff0c;或者使用隐藏层ht,ct的信息进行建模&＃xff0c;不一而足。

好了&＃xff0c;以上就是我对LSTM的一些学习心得&＃xff0c;看完记得关注点赞。

参考链接&＃xff1a;

https://zhuanlan.zhihu.com/p/94757947

https://zhuanlan.zhihu.com/p/59862381

https://zhuanlan.zhihu.com/p/36455374

https://www.zhihu.com/question/41949741/answer/318771336

https://blog.csdn.net/android_ruben/article/details/80206792

推荐阅读

nlp
干货 | 携程AI推理性能的自动化优化实践

作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本࿰ ... [详细]

蜡笔小新 2023-10-16 14:03:03
nlp
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
eval
pytorch Dropout过拟合的操作

这篇文章主要介绍了pytorchDropout过拟合的操作，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完 ... [详细]

蜡笔小新 2023-10-16 19:35:56
int
plt python 画直线_机器学习干货，一步一步通过Python实现梯度下降的学习

GradientDescent-梯度下降梯度下降法(英语：Gradientdescent)是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找 ... [详细]

蜡笔小新 2023-10-17 14:30:10
int
大数据就业前景及人才需求

近年来，大数据成为互联网世界的新宠儿，被列入阿里巴巴、谷歌等公司的战略规划中，也在政府报告中频繁提及。据《大数据人才报告》显示，目前全国大数据人才仅46万，未来3-5年将出现高达150万的人才缺口。根据领英报告，数据剖析人才供应指数最低，且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示，未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中，60%以上的招聘职位都是针对大数据人才的。 ... [详细]

蜡笔小新 2023-12-14 16:25:20
int
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
input
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
input
[大整数乘法] java代码实现

本文介绍了使用java代码实现大整数乘法的过程，同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率，并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]

蜡笔小新 2023-12-13 11:21:32
input
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
input
java八大异常_关于Java异常最常见的八大问题

本文介绍了关于Java异常的八大常见问题，包括异常管理的最佳做法、在try块中定义的变量不能用于catch或finally的原因以及为什么Double.parseDouble(null)和Integer.parseInt(null)会抛出不同的异常。同时指出这些问题是由于不同的开发人员开发所导致的，不值得过多思考。 ... [详细]

蜡笔小新 2023-12-09 17:11:45
input
机器学习算法代码实现——线性回归

前言：拿到一个案例，去分析：它该是做分类还是做回归，哪部分该做分类，哪部分该做回归，哪部分该做优化，它们的目标值分别是什么。再挑影响因素，哪些和分类有关的影响因素，哪些和回归有关的 ... [详细]

蜡笔小新 2023-10-17 19:58:52
input
支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度

介绍在我们学习机器算法的时候，可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器，但你要明白这些兵器是需要在合适的时间合理 ... [详细]

蜡笔小新 2023-10-17 16:21:13
input
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
list
软件测试工程师，需要达到什么水平才能顺利拿到 20k+ 无压力？

前言最近看到很多应届生晒offer,稍有名气点的公司给出的价格都是一年30多W或者月薪20几k,相比之下工作几年的自己薪资确实很寒酸.根据我自己找工作经历,二线城市一般小公司招聘 ... [详细]

蜡笔小新 2023-10-16 13:18:32
list
NLP如何进阶？你应该先掌握四大基本任务！

“语言理解是人工智能领域皇冠上的明珠。”——比尔盖茨自然语言处理是一门综合性的学问，它远远不止机器学习算法。相比图像或语音，文本的变化更加复杂ÿ ... [详细]

蜡笔小新 2023-10-16 05:43:05

老爷们白百合开在秋天

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章