当前位置: 开发笔记 > 人工智能 > 正文

动手学深度学习——基础优化算法梯度下降，小批量随机梯度下降

作者：AJlf100斤的好奇心心宜1993 | 来源：互联网 | 2023-10-12 12:17

一、梯度下降算法挑选一个初始值w0；重复迭代参数t1,2,3；在接下来不断的更新w0，使它接近最优解；具体来说࿰

一、梯度下降算法

挑选一个初始值w0&＃xff1b;
重复迭代参数t&＃61;1,2,3&＃xff1b;
在接下来不断的更新w0&＃xff0c;使它接近最优解&＃xff1b;
具体来说&＃xff0c;法则如下&＃xff1a;

wt等于wt的上一时刻减去η乘以损失函数关于wt的上一时刻的梯度。

沿梯度方向将增加损失函数值。

η&＃xff1a;是指学习率&＃xff0c;我沿着这个方向每次走多远。

学习率&＃xff1a;步长的超参数&＃xff0c;是需要人为指定的一个值。

注意&＃xff1a;

选择学习率&＃xff1a;

不能太小&＃xff0c;如果选的太小&＃xff0c;每次的步长有限&＃xff0c;每到达一个点都需要走好多步&＃xff08;计算梯度是很贵的&＃xff0c;尽量少的计算梯度&＃xff09;&＃xff1b;
也不能太大&＃xff0c;如果太大就可能迈过要下降的地方&＃xff0c;使的一直在震荡&＃xff0c;并没有真正的下降。

二、小批量随机梯度下降

在整个训练集上算梯度太贵&＃xff0c;&＃xff08;需要把所有的训练集重新算一遍&＃xff09;&＃xff0c;一个深度神经网络模型可能需要数分钟至数小时&＃xff0c;代价太大了&＃xff0c;这时我们就可以随机采样b个样本i1&＃xff0c;i2&＃xff0c;....... ,ib来近似损失

当b很大的时候&＃xff0c;计算是精确的&＃xff0c;当b很小的时候可能没那么精确&＃xff0c;但是b很小的时候计算它的梯度是很容易的&＃xff0c;因为梯度的计算复杂度和样本的个数是线性相关的。这里b叫做批量大小&＃xff0c;是另一个重要的超参数。

注意&＃xff1a;

选择批量大小&＃xff1a;

不能太小&＃xff0c;每次计算量太小&＃xff0c;不适合并行来最大利用计算资源&＃xff1b;
也不能太大&＃xff0c;内存和批量大小时成正比的。如果使用GPU&＃xff0c;内存是一个很大的瓶颈&＃xff0c;内存消耗增加&＃xff0c;浪费计算&＃xff1b;

三、总结

1、梯度下降通过不断沿着反梯度方向更新参数求解&＃xff1b;好处是&＃xff0c;不需要知道显示解是什么样子&＃xff0c;只需要知道怎么求导就行了。

2、小批量随机梯度下降是深度学习默认的求解算法&＃xff1b;一般来说是最稳定最简单的。

3、两个重要的超参数是批量大小和学习率。

推荐阅读

人工智能
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
机器学习
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
深度学习
腾讯BERT推理模型TurboTransformers的快速推理能力

本文介绍了腾讯最近开源的BERT推理模型TurboTransformers，该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想，通过简化问题和加速开发，实现了快速推理能力。同时，文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题，并提出了合并计算的解决方案。 ... [详细]

蜡笔小新 2023-12-12 13:48:41
人工智能
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
人工智能
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
机器学习
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
ocr
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01
人工智能
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
算法
程度|也就是_论文精读：Neural Architecture Search without Training

篇首语：本文由编程笔记#小编为大家整理，主要介绍了论文精读：NeuralArchitectureSearchwithoutTraining相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:33:20
算法
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
机器学习
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
nlp
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
人工智能
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
人工智能
当写稿机器人真有了观点和感情，我们是该高兴还是恐惧？

目前，写稿机器人多是撰写以数据为主的稿件，当它们能够为文章注入观点之时，这些观点真的是其所“想”吗？最近，《南 ... [详细]

蜡笔小新 2023-10-17 15:17:11
人工智能
2017亚马逊人工智能奖公布：他们的AI有什么不同？

事实上，在我们周围，“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊，我们的世界正在变成一个机器 ... [详细]

蜡笔小新 2023-10-16 19:50:15

AJlf100斤的好奇心心宜1993

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章