当前位置: 开发笔记 > 人工智能 > 正文

人工神经网络——【BP】反向传播算法证明

作者：失憶壹瞬間_533 | 来源：互联网 | 2023-01-07 09:39

第一步：前向传播【注】此BP算法的证明仅限sigmoid激活函数情况。简单的三层网络结构如下参数定义：可见层定义为X，共有n个单元，下标用i表示隐藏层定义为B，共有p个单元，下标用

第一步：前向传播

【注】此BP算法的证明仅限sigmoid激活函数情况。

简单的三层网络结构如下

参数定义：

可见层定义为X，共有n个单元，下标用 i表示

隐藏层定义为B，共有p个单元，下标用 j 表示

输出层定义为Y，共有q个单元，下标用 k表示

可见层到隐藏层权重矩阵为W，大小为 n*p

隐藏层到输出层权重矩阵为V，大小为p*q

① 计算隐藏层各神经元激活值

代表所有可见层单元乘以连接到第j个隐单元的权重，再减去偏置或者阈值

②计算隐含层单元的输出值

采用sigmoid函数即S型函数

③计算输出层各神经元激活值

④计算输出层单元的输出值

第二步：逆向传播校正是从后往前进行的，所以称为误差逆传播，计算是从输出层到隐藏层，再从隐藏层到输入层。更新的是权重和偏置，称为模型参数两层的权重和偏置的更新是类似的，下面以输出层到隐藏层的权重和偏置更新为例。采用平方和误差衡量期望输出与实际输出的差别：

输出层→隐藏层的更新

先对权重求梯度：

【注】上式中最后一个等号左边第二项求导利用对sigmoid函数求导

接下来对偏置求梯度

隐藏层→输入层的更新

【注】建议这一层的更新，读者认真推导，这样会对BP的更新有更深刻的印象

第四步：模型参数校正这一步就非常简单啦，直接用原始的模型参数，减去现在的模型参数就行啦，其中会加入一个学习率η，控制梯度下降速度

第五步：一般性推导【注】以下纯为个人理解，与网络上那些复杂点的公式可能有出入，实际情况有待考证．．．．．．．．．．．．．．上面只是三层BP神经网络的推导，看着已经很复杂了，这时候会产生一个想法：如果是很多层的BP神经网络该如何去推导？难道是每一层都得从最后一层挨个朝前推导一次？这时候就得考察我们的归纳能力。这里有一个题外话，何为归纳？何为演绎？简单点，归纳就是从特殊性到一般性，而演绎则是从一般到特殊。当然内中道理还有很多，就不说了。如何去归纳，这里就得说到BP中经常遇到的一个词语：链式求导。如果不知道具体定义也没事，朝下看： ①从最后一个权重开始看：这个权重连接了中间隐层和最后的输出层，求导过程是对输出层的sigmoid激活函数求导，然后进一步得到的结果是：输出误差＊输出值＊(1-输出值)＊(隐层值)，换个方法说：权重右边的输出误差＊权重右边的输出＊(1-权重右边的输出)＊(权重左边的输出)；——分割线——权重连接的右边层的偏置更新就是去掉权重更新中乘以的权重左端值的那一参数（即权重连接的左层单元的值）。 ②然后看倒数第二个权重：这个权重连接了原始输出层和中间隐层，求导过程还是对输出层的sigmoid激活函数求导，只不过求导对象是第二个权重，而不是①中的权重。接下来发现不好求导，需要按照求导法则变换，变成了最后的输出层对隐层的输出求导乘以隐层输出对第二个权重的求导，可以发现这两个都好求，因为他们都直接存在与被求导的激活函数(也就是分母的表达式)中。然后发现输出层关于第二层权重的导数变成了：权重右边某种值＊权重右边的输出＊(1-权重右边的输出)＊(权重左边的输出)。发现与①很相似，只不过第一项有差别，然后观察何为“权重右边某式”，发现就是此层权重的后一层权重连接的层的偏置更新乘以连接到后一层的权重。这样总结出一个规律：建立的一个BP网络如下，注意，最后的伪层只是第n层的副本，实际的BP是没有这一层的，此处只是为了方便理解罢了，原因继续看下去：

如图所示，Ｗ左边连接层Ａ，右边连接层Ｂ，Ｂ层的下一层是Ｃ,B和Ｃ的连接权重为Ｖ，Ｃ的偏置更新为

，B的偏置更新为

，则按照归纳的结论可以得到下式：

但是突然想到当A是第n-1层的时候，并没有对应的"C"层去计算第n-1层到第n层的连接权重，所以在此我们建立了第n层数据的副本，称为伪层，那么此时C就是伪层了，对应的伪层偏置设置为：

对应的第n层到伪层的连接权重的全为1 这样一来，我们可以轻松发现，BP的更新步骤可以用一个递归来解决：步骤1：建立一个伪层副本，伪层偏置设置为△c，伪层与输出层（第n层）的连接权重为V 步骤2：从伪层往前推，建立一个层数为3的滑动窗口，从左到右依次称为上面介绍过的A、B、C层步骤3：套用上面ABC更新△W和△b的方法去计算权重与偏置梯度步骤4：返回步骤2（即往前移动一层）步骤5：每一层的更新后参数就是

附录：参数调整方法以下摘自【模式识别与智能计算——MATLAB技术实现】梯度下降法有动量的梯度下降法有自适应lr的梯度下降法有动量加自适应lr的梯度下降法弹性梯度下降法 Fletcher-Reeves共轭梯度法 Polak-Ribiere共轭梯度法 Powell-Beale共轭梯度法量化共轭梯度法
三层BP神经网络学习的过程： ①输入模式顺传播（输入模型由输入层经隐藏层向输出层传播） ②输出误差逆传播（输出的误差由输出层经隐含层传向输入层） ③循环记忆训练（模式顺传播与误差逆传播的计算过程反复交替循环进行) ④学习结果判定（判定全局误差是否趋向极小值）
UFLDL中的证明：UFLDL

推荐阅读

自然语言处理
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
算法
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
算法
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
算法
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
算法
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
算法
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
算法
读手语图像识别论文笔记2

文章目录一、前言二、笔记1.名词解释2.流程分析上一篇快速门:读手语图像识别论文笔记1（手语识别背景和方法）一、前言一句：“做完了&#x ... [详细]

蜡笔小新 2023-10-17 20:45:15
算法
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
算法
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
算法
概论组合最优化问题、计算复杂性和启发式算法概念（现代优化计算方法）

1.组合最优化问题定义：是通过数学方法的研究去寻找离散事件的最优编排、分组、次序或筛选等。描述：最优化问题的数学模型的一般描述是，x为决策 ... [详细]

蜡笔小新 2023-10-17 18:23:43
算法
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01
算法
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
算法
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
算法
ICRA2019最佳论文 Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio

文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议：ICRA2019标题：《MakingSenseofVision ... [详细]

蜡笔小新 2023-10-17 12:49:25
自然语言处理
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14

失憶壹瞬間_533

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章