【RBM受限玻尔兹曼机DBM深度玻尔兹曼机】

作者：袁韦伦世彦琬育 | 来源：互联网 | 2023-09-18 14:57

转载https:blog.csdn.netfjssharpswordarticledetails79352222参考https:www.cnblogs.comkemaswillp3

转载 https://blog.csdn.net/fjssharpsword/article/details/79352222
参考
https://www.cnblogs.com/kemaswill/p/3269138.html
https://blog.csdn.net/weixin_42137700/article/details/81610145
https://baijiahao.baidu.com/s?id&＃61;1599798281463567369&wfr&＃61;spider&for&＃61;pc

受限玻尔兹曼机&＃xff08;RBM&＃xff09;多见深度学习&＃xff0c;不过笔者发现推荐系统也有相关专家开始应用RBM。实际上&＃xff0c;作为一种概率图模型&＃xff0c;用在那&＃xff0c;只要场景和数据合适都可以。有必要就RBM做一个初步了解。

1、 RBM定义

RBM记住三个要诀&＃xff1a;1&＃xff09;两层结构图&＃xff0c;可视层和隐藏层&＃xff1b;2&＃xff09;同层无边&＃xff0c;上下层全连接&＃xff1b;3&＃xff09;二值状态值&＃xff0c;前向反馈和逆向传播求权参。定义如下&＃xff1a;

RBM包含两个层&＃xff0c;可见层&＃xff08;visible layer&＃xff09;和隐藏层&＃xff08;hidden layer&＃xff09;。神经元之间的连接具有如下特点&＃xff1a;层内无连接&＃xff0c;层间全连接&＃xff0c;显然RBM对应的图是一个二分图。一般来说&＃xff0c;可见层单元用来描述观察数据的一个方面或一个特征&＃xff0c;而隐藏层单元的意义一般来说并不明确&＃xff0c;可以看作特征提取层。RBM和BM的不同之处在于&＃xff0c;BM允许层内神经元之间有连接&＃xff0c;而RBM则要求层内神经元之间没有连接&＃xff0c;因此RBM的性质&＃xff1a;当给定可见层神经元的状态时&＃xff0c;各隐藏层神经元的激活条件独立&＃xff1b;反之当给定隐藏层神经元的状态是&＃xff0c;可见层神经元的激活也条件独立。

如图给出了一个RBM网络结构示意图。其中&＃xff1a; $n_{v},n_{h}$ 分别表示可见层和隐藏层中包含神经元的数目&＃xff0c;下标v&＃xff0c;h代表visible和hidden&＃xff1b; $v&＃61;(v_{1},v_{2},...,v_{n_{v}},)^{T}$ 表示可见层的状态向量&＃xff1b; $h&＃61;(h_{1},h_{2},...,h_{n_{h}},)^{T}$ 表示隐藏层的状态向量&＃xff1b; $a&＃61;(a_{1},a_{2},...,a_{n_{v}},)^{T}$ 表示可见层的偏置向量&＃xff1b; $b&＃61;(b_{1},b_{2},...,b_{n_{h}},)^{T}$ 表示隐藏层的偏置向量&＃xff1b; $W&＃61;(w_{i,j})\in \Re ^{n_{h}\times n_{v}}$ 表示隐藏层和可见层之间的权值矩阵&＃xff0c; $w_{i,j}$ 表示隐藏层中第i个神经元与可见层中第j个神经元之间的连接权重。记 $\theta &＃61;(W,a,b)$ 表示RBM中的参数&＃xff0c;可将其视为把W,a,b中的所有分量拼接起来得到的长向量。

RBM的求解也是基于梯度求对数自然函数。

给定训练样本&＃xff0c;RBM的训练意味着调整参数 $\theta$ &＃xff0c;从而拟合给定的训练样本&＃xff0c;使得参数条件下对应RBM表示的概率分布尽可能符合训练数据。

假定训练样本集合为 $S&＃61;\{v_1,v_2,...,v^{n_s}\}$ &＃xff0c;其中 $n_s$ 为训练样本的数目&＃xff0c; $v^i&＃61;(v_1^i,v_2^i,...,v_{n_v}^i)^T,i&＃61;1,2,...,n_s$ &＃xff0c;它们是独立同分布的&＃xff0c;则训练RBM的目标就是最大化如下似然 $L_{\theta,S}&＃61;\prod_{i&＃61;1}^{n_s}P(v^i)$ &＃xff0c;一般通过对数转化为连加的形式&＃xff0c;其等价形式&＃xff1a; $lnL_{\theta,S}&＃61;ln\prod_{i&＃61;1}^{n_s}P(v^i) &＃61;\sum_{i&＃61;1}^{n_s}lnP(v^i)$ 。简洁起见&＃xff0c;将 $L_{\theta,S}$ 简记为 $L_S$ 。

最大化 $L_S$ 常用的数值方法是梯度上升法&＃xff08;Gradient Ascent&＃xff09;&＃xff0c;通过迭代的方法进行逼近&＃xff0c;迭代形式&＃xff1a; $\theta:&＃61;\theta&＃43;\eta\frac{\partial lnL_S}{\partial\theta}$ &＃xff0c;其中 $\eta>0$ 表示学习速率。其关键就是计算梯度 $\frac{\partial lnL_S}{\partial\theta}$ &＃xff08; $lnL_S$ 关于各个参数的偏导数 $\frac{\partial lnL_S}{\partial w_{i,j}}$ &＃xff0c; $\frac{\partial lnL_S}{\partial a_i}$ , $\frac{\partial lnL_S}{\partial b_i}$ &＃xff09;。一般采用MCMC采样来估计&＃xff0c;但由于常规的MCMC需要经过许多步的状态转移才能保证采集到的样本符合目标分布。若我们以训练样本作为起点&＃xff0c;就可以仅需要很少次的状态转移抵达RBM的分布。Hinton教授2002年基于这个上想法发明了对比散度&＃xff08;Contrastive Divergence&＃xff0c;CD&＃xff09;算法&＃xff0c;目前已经成为训练RBM的标准算法。

2、RBM DEMO
引自很好的一个介绍RBM文章&＃xff0c;还有python demo&＃xff0c;参考&＃xff1a;
http://blog.echen.me/2011/07/18/introduction-to-restricted-boltzmann-machines/
为怕链接失效&＃xff0c;还是复制过来比较靠谱。

文中demo地址&＃xff1a;https://github.com/echen/restricted-boltzmann-machines

3、RBM预备知识

理解RBM&＃xff0c;需要一些预备知识&＃xff1a;

sigmiod函数&＃xff0c;神经网络中常用的激活函数之一&＃xff0c; $sigmoid(x)&＃61;\frac{1}{1&＃43;e^{-x}}$ 。
Bayes定理&＃xff0c; $P(A|B)&＃61;\frac{P(A,B)}{P(B)}$ &＃xff0c; $P(B|A)&＃61;\frac{P(A,B)}{P(A)}$ 推出 $P(A|B)&＃61;P(A)\frac{P(B|A)}{P(B)}$ &＃xff0c; $P(A)$ 先验概率&＃xff08;Prior probability&＃xff09;、 $P(A|B)$ 后验概率&＃xff08;Posterior probability&＃xff09;&＃xff0c; $\frac{P(B|A)}{P(B)}$ 可能性函数&＃xff08;Likelyhood&＃xff09;。
二分图&＃xff08;bipartite graph&＃xff09;&＃xff0c;图论中一种特殊模型&＃xff0c;如果无向图中顶点可分割为两个互不相交的子集&＃xff0c;而且图中的每条边关联的两个顶点分别属于这两个不同的顶点集。
MCMC&＃xff0c;蒙特卡罗方法最初用于通过随机化的方法计算积分&＃xff0c;假设计算 $\int_{a}^{b} h(x)dx$ &＃xff0c;如果无法通过数学推导直接求出解析解&＃xff0c;一般不可能对区间(a,b)上所有的x值进行枚举&＃xff0c;我们可以将h(x)分解为某个函数f(x)和一个定义在(a,b)上的概率密度函数p(x)的乘积&＃xff0c;则整个积分可以写成 $\int_{a}^{b}h(x)dx&＃61;\int_{a}^{b}f(x)p(x)dx&＃61;E_{p(x)}[f(x)]$ &＃xff0c;这样原积分等同于f(x)在p(x)这个分布上的均值。这时&＃xff0c;如果我们从分布p(x)上采集大量的样本点&＃xff0c;这些样本符合分布p(x)&＃xff0c;即有 $\frac{x_{i}}{\sum_{i&＃61;1}^{n}x_{i}}\approx p(x_{i})$ 。那么我们就可以通过这些样本来逼近这个均值 $\int_{a}^{b}h(x)dx&＃61;\int_{a}^{b}f(x)p(x)dx&＃61;E_{p(x)}[f(x)]\approx \frac{1}{n}\sum_{i&＃61;1}^{n}f(x_{i})$ &＃xff0c;这就是蒙特卡罗方法的基本思想。蒙特卡罗方法的核心问题是如何从分布上随机采集样本&＃xff0c;一般采用马尔可夫链蒙特卡罗方法&＃xff08;Markov Chain Monte Carlo&＃xff0c;MCMC&＃xff09;产生指定分布下的样本。
马尔可夫链&＃xff0c;离散时间上随机变量随时间变化的转移概率仅仅依赖于当前值的序列&＃xff0c;MCMC建立的理论基础&＃xff1a;如果我们想在某个分布下采样&＃xff0c;只需要模拟以其为平稳分布的马尔科夫过程&＃xff0c;经过足够多次转移之后&＃xff0c;我们的样本分布就会充分接近于该平稳分布&＃xff0c;也就意味着我们近似地采集目标分布下的样本。
正则分布&＃xff0c;统计力学的一个基本结论&＃xff1a;当系统与外界达到热平衡时&＃xff0c;系统处于状态 $i$ 的概率 $p_{i}$ 具有以下形式 $p_{i}&＃61;\frac{1}{Z_{T}} e^{-\frac{E_{i}}{T}}$ &＃xff0c;其中 $Z_{T}&＃61;\sum_{i}{e^{-\frac{E_{i}}{T}}}$ 被称作归一化常数&＃xff0c;T为正数&＃xff0c;表示系统所处的温度&＃xff0c;这种概率分布的形式叫做正则分布。
Metropolis-Hasting采样&＃xff0c;MCMC算法中&＃xff0c;为了在一个指定的分布上采样&＃xff0c;先从系统的任意一个状态出发&＃xff0c;然后模拟马尔可夫过程&＃xff0c;不断进行状态转移&＃xff0c;根据马尔可夫的性质&＃xff0c;经过足够的转移次数之后&＃xff0c;我们所处的状态即符合目标分布&＃xff0c;此时的状态就可以作为一个采集到的样本。算法的关键就是设计出合理的状态转移过程。Metropolist-Hastings是一个非常重要的MCMC采样算法&＃xff0c;并且对于设计状态转移过程建立了统一的框架。

对于采样的特定数据场景还是需要进一步理解的。

RBM推广到DBM

RBM很容易推广到深层的RBM&＃xff0c;即我们的DBM。推广的方法就是加入更多的隐藏层&＃xff0c;当然隐藏层的层数可以是任意的&＃xff0c;随着层数越来越复杂&＃xff0c;那模型怎么表示呢&＃xff1f;其实DBM也可以看做是一个RBM&＃xff0c;稍微加以变换就可以看做是一个DBM。将可见层和偶数隐藏层放在一边&＃xff0c;将奇数隐藏层放在另一边&＃xff0c;我们就得到了RBM&＃xff0c;和RBM的细微区别只是现在的RBM并不是全连接的&＃xff0c;其实也可以看做部分权重为0的全连接RBM。RBM的算法思想可以在DBM上使用。只是此时我们的模型参数更加的多&＃xff0c;而且迭代求解参数也更加复杂了。

推荐阅读

rsa
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
rsa
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
list
面试经验分享：华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试

最近有朋友去华为面试，面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败，因为缺乏基础知识。面试问题涉及 ... [详细]

蜡笔小新 2023-12-09 10:22:03
go
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
php
Linux进程控制块PCBtask_struct结构体结构及作用详解

本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用，包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]

蜡笔小新 2023-12-13 21:31:18
list
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
php
《数据结构》学习笔记3——串匹配算法性能评估

本文主要讨论串匹配算法的性能评估，包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库，可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n)，通过随机取出长度为m的子串作为模式P，在文本T中进行匹配，统计平均复杂度。对于成功和失败的匹配分别进行测试，分析其平均复杂度。详情请参考相关学习资源。 ... [详细]

蜡笔小新 2023-12-13 16:16:05
eval
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
php
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
php
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
php
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
php
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
go
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
go
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
list
python里33个关键字符是什么意思_Python 关键知识点

1关于字符串相邻的两个或多个字符串字面值(引号引起来的字符)将会自动连接到一起：str_catpython!str_cat输出：python!把很长 ... [详细]

蜡笔小新 2023-10-17 16:31:38

袁韦伦世彦琬育

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章