当前位置: 开发笔记 > 编程语言 > 正文

【精读AI论文】dropout(Improvingneuralnetworksbypreventingcoadaptationoffeaturedetectors)

作者：端庄的一白_167 | 来源：互联网 | 2023-10-11 18:07

文章目录前言第一页：第一段：第二段：第二页第一段第二段第三段第3-6页思考与总结dropout丢弃的是权重还是输出？drop

文章目录

前言
第一页&＃xff1a;
- 第一段&＃xff1a;
- 第二段&＃xff1a;
第二页
- 第一段
- 第二段
- 第三段
第3-6页
思考与总结
- dropout丢弃的是权重还是输出&＃xff1f;
- dropout的正确性以及随机丢弃对结果的影响&＃xff1f;
- dropout丢弃的是前一层还是后一层&＃xff1f;
- 总结

论文下载地址:点我下载

有很多dropout的文章&＃xff0c;我选了两个比较知名的。

一个是dropout提出的论文:《Improving neural networks by preventing co-adaptation of feature detectors》

还有一个是比较知名的dropout论文:《Dropout:A Simple Way to Prevent Neural Networks from Overfitting》

今天先看一下上面的那个。

前言

之前在复现LeNet的时候&＃xff0c;作者用到了丢弃式卷积&＃xff0c;已经有了Dropout的思想&＃xff0c;后来的AlexNet VGG等也都一部分使用了Dropout&＃xff0c;不过只知道dropout用于正则化&＃xff0c;随机的丢弃了一部分特征不参与训练&＃xff0c;防止了过拟合&＃xff0c;我本来想复现一下inceptionV2的&＃xff0c;突然想到一个问题&＃xff0c;dropout这样随机的丢弃难道不会导致某些重要的特征丢失嘛&＃xff1f;也想深入了解的一下dropout&＃xff0c;所以来读读这篇论文。

第一页&＃xff1a;

这篇论文看着很乱&＃xff0c;没有平常论文那种摘要引言开头啥的&＃xff0c;这篇论文就是一大串到底&＃xff0c;然后就是附录了。

上来一段加黑的字体说在大训练网络应用在小数据集的时候会产生过拟合现象&＃xff0c;使用了dropout技术&＃xff0c;随机放弃一半的神经元使其不工作&＃xff0c;有效的防止了复杂的协同适应(prevents complex co-adaptations)。

这里这样翻译其实不太对。

co-adaptations :

意思是每个神经元学到的特征&＃xff0c;必须结合其它的特定神经元作为上下文&＃xff0c;才能提供对训练的帮助。

然后作者说随机的“dropout”已经实验取得比较大的成功。

第一段&＃xff1a;

第一段都在介绍前馈神经网络的过拟合问题&＃xff0c;在一个大的前馈神经网络中&＃xff0c;中间可能会有很多的隐层单元&＃xff0c;他们能非常好的贴合训练集&＃xff0c;但是在验证集上的效果却不好。

第二段&＃xff1a;

第二段介绍了一种方法就是用不同的网络模型去训练相同的数据&＃xff0c;然后取这些结果的平均&＃xff0c;这样可以减少过拟合现象&＃xff0c;但是这样的方法非常 ’昂贵‘ 计算成本时间成本等都很高&＃xff0c;所以作者在这样方法的基础上加入dropout技术&＃xff0c;随机使得一半的神经元不工作&＃xff0c;这样的不同网络训练方案就不再那么 ‘昂贵’。

有一个要注意的点&＃xff0c;就是这里所说的‘不同网络’&＃xff0c;并不是像ResNet那样的多模型融合技术&＃xff0c;而是当使用了dropout技术&＃xff0c;每次一epoch都会随机丢弃不同的隐层神经元&＃xff0c;所以每一次的epoch都是不同的网络&＃xff0c;但是这些网络的权值是共享的。

关于这里取平均的泛化理解:

假如我们使用五个不同的神经网络去训练同一数据模型&＃xff0c;得到的五个结果来取平均&＃xff0c;或者使用多数为主的策略来定结果。比如预测数字&＃xff0c;其中四个网络给出结果为5&＃xff0c;另一个网络为2&＃xff0c;则结果取多数为主的5。这种取平均的思想可以一定程度上防止过拟合的发生&＃xff0c;因为每个网络可能过拟合不同的数据&＃xff0c;取平均思想让这些不同网络的过拟合数据 ’相互抵消‘&＃xff0c;从而使结果变好。在加入了dropout技术之后&＃xff0c;每一次的epoch都相当于一个新的网络&＃xff0c;所以在每次epoch中就已经 ’相互抵消‘了&＃xff0c;整体结果上自然就变好了。

不过这里保留一个问题&＃xff0c;这样的随机丢弃&＃xff0c;难道不会丢失重要特征吗&＃xff1f;50%的几率丢弃&＃xff0c;则会有很大概率导致某些重要特征从未参与训练&＃xff0c;这样的结果是可以的吗&＃xff1f;

第二页

第一段

作者使用随机梯度下降 mini-batches 来训练网络&＃xff0c;但没有使用通常的L2范数惩罚项&＃xff0c;而是使用约束取代惩罚&＃xff0c;对每一个隐藏节点的权值L2范数设置一个上限&＃xff0c;这样的约束可以防止权重爆炸的同时&＃xff0c;让学习率变大&＃xff0c;从而可以探索更多的地方。

即:当w的L2范式要大于某个阈值c时&＃xff0c;把它进行一个规范化操作&＃xff08;即同时除以该L2范数值&＃xff09;。

L2范式:

L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小&＃xff0c;可以使得W的每个元素都很小&＃xff0c;都接近于0&＃xff0c;但与L1范数不同&＃xff0c;它不会让它等于0&＃xff0c;而是接近于0。越小的参数说明模型越简单&＃xff0c;越简单的模型则越不容易产生过拟合现象。

第二段

这段开头有一个 “mean network”&＃xff0c;其实就是在网络前向传播到输出层前时隐含层节点的输出值都要减半&＃xff0c;这一小段没太看懂&＃xff0c;作者说这种均值网络和dropout有相似的地方&＃xff0c;结果比用dropout之后再平均的结果要好。

第三段

开始实验&＃xff0c;使用了MNIST数据集&＃xff0c;MNIST数据集在之前复现LeNet上介绍过一次&＃xff0c;这就不说了。然后作者使用了一些数据增强的方法。

然后给了一张图描述它的实验结果&＃xff1a;

可以看到什么都没有用&＃xff0c;在MNIST没有dropout时160个错误&＃xff0c;50%的dropout得到130个错误&＃xff0c;在输入加入20%的dropout得到110个错误。
在这里插入图片描述

第3-6页

作者将带有dropout方法的训练网络应用于各种不同的数据集&＃xff0c;都取得了不错的成果(这些实验没啥看的我觉得&＃xff0c;直接略过了~~~)。

后面作者提到了一下贝叶斯和朴素贝叶斯(极端情况下的dropout)。

最后作者还提到了一下性别进化论的问题。

关于性别进化论的我在博客看到一个挺不错的:

有性生殖取一半父亲基因&＃xff0c;一半母亲基因&＃xff0c;还有低概率的基因突变&＃xff0c;产生后代。
无性生殖直接取父代的基因&＃xff0c;加低概率的基因突变&＃xff0c;产生后代。
直觉上无性生殖更好&＃xff0c;因为它把父代的优秀基因直接传给了后代。但是有性生殖是物种演化中最重要的方式&＃xff0c;一个可能的解释是自然选择的准则并不是保持个体健康&＃xff0c;而是基本的混合交流。基因不能依赖于当前已存在的基因&＃xff0c;它需要和其它的基因共同协同学习有用的东西。
基于这个理论&＃xff0c;使用dropout可以减小和固有神经元之间的依赖&＃xff0c;使得它们可以随机地和其它神经元来共同学习&＃xff0c;这可以使得神经元更加鲁棒&＃xff0c;能够学到更多有用的特征。

思考与总结

dropout丢弃的是权重还是输出&＃xff1f;

我们知道&＃xff0c;在每一层使用dropout后&＃xff0c;都会对没有被dropout掉的神经元进行rescale。即 $rescale &＃61; 1/(1-keep_prob)$ 。此步骤是为了弥补因为随即删除节点而造成的输出减少的副作用。

所以dropout时&＃xff0c;权重并没有被丢弃&＃xff08;个人理解只是未被更新&＃xff09;&＃xff0c;只是后面需要对未丢弃神经元做一个rescale来保持期望输出大小不变。实际丢弃的是就是神经元的输出&＃xff08;输出项置为0&＃xff09;。

dropout的正确性以及随机丢弃对结果的影响&＃xff1f;

这是我在前面思考的一个问题&＃xff0c;就是如果每次epoch都丢掉了同一个重要特征&＃xff0c;那岂不是对结果有比较重大的影响吗&＃xff1f;

查阅诸多资料后发现&＃xff0c;深度学习没什么正确性&＃xff0c;&＃xff0c;哈哈玄学了。只有可能效果好不好而已&＃xff0c;多一些或者少一些精度&＃xff0c;丢弃不合理可能是丢弃率没设置好。且输出期望并没有改变&＃xff0c;改变的只是隐层的输出。

所以我好像并没有找到对于这个问题的直观解答&＃xff0c;都是侧面的解答&＃xff0c;额。

dropout丢弃的是前一层还是后一层&＃xff1f;

是丢弃的路径&＃xff0c;可以理解为丢弃的前一层的输出&＃xff0c;或者是丢弃的后一层的输入。

所以他也不是丢弃的节点&＃xff0c;而是该隐层节点的输出或输入变成0&＃xff0c;其权重不更新。

总结

dropout防止过拟合的关键就是:在前向传播的时候&＃xff0c;让某个神经元的激活值以一定的概率p停止工作&＃xff0c;它不会太依赖某些局部的特征。
关于preventing co-adaptation&＃xff1a;减少神经元之间的共适应关系&＃xff0c;通俗的理解就是假如训练识别人脸&＃xff0c;可能的情况是模型可以识别出整张人脸&＃xff0c;但是只给左脸或者右脸就无法识别&＃xff0c;可能在训练过程中左脸特征总是依赖右脸来训练的&＃xff0c;当加入dropout之后&＃xff0c;减小左右脸的依赖关系&＃xff0c;可以让模型只看左脸就识别成功&＃xff0c;增加了系统的鲁棒性。
关于生物进化&＃xff0c;更直白的说&＃xff0c;物种会不断的适应所生存的周围环境&＃xff0c;但是如果环境发生突变&＃xff0c;生物可能无法做出及时反映&＃xff0c;性别的出现可以繁衍出适应新环境的变种&＃xff0c;有效的阻止过拟合&＃xff0c;即避免环境改变时物种可能面临的灭绝。

推荐阅读

get
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
php
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
less
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
future
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
copy
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
copy
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
split
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
import
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
import
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
import
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
import
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
import
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
rsa
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01
eval
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
eval
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56

端庄的一白_167

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章