常用的优化方法梯度下降、牛顿法、坐标下降法

作者：瑞景地产王琴 | 来源：互联网 | 2023-10-11 19:11

最优化问题在机器学习中有非常重要的地位，很多机器学习算法最后都归结为求解最优化问题。在各种最优化算法中，梯度下降法是最简单、最常见的一种，

最优化问题在机器学习中有非常重要的地位&＃xff0c;很多机器学习算法最后都归结为求解最优化问题。在各种最优化算法中&＃xff0c;梯度下降法是最简单、最常见的一种&＃xff0c;在深度学习的训练中被广为使用。

最优化问题是求解函数极值的问题&＃xff0c;包括极大值和极小值。微积分为我们求函数的极值提供了一个统一的思路&＃xff1a;找函数的导数等于0的点&＃xff0c;因为在极值点处&＃xff0c;导数必定为0。这样&＃xff0c;只要函数的可导的&＃xff0c;我们就可以用这个万能的方法解决问题&＃xff0c;幸运的是&＃xff0c;在实际应用中我们遇到的函数基本上都是可导的。

在机器学习之类的实际应用中&＃xff0c;我们一般将最优化问题统一表述为求解函数的极小值问题&＃xff0c;即&＃xff1a;

$min_{x}f(x)$

其中 $\bigtriangledown$

可导函数在某一点处取得极值的必要条件是梯度为0&＃xff0c;梯度为0的点称为函数的驻点&＃xff0c;这是疑似极值点。需要注意的是&＃xff0c;梯度为0只是函数取极值的必要条件而不是充分条件&＃xff0c;即梯度为0的点可能不是极值点。

至于是极大值还是极小值&＃xff0c;要看二阶导数/Hessian矩阵&＃xff0c;Hessian矩阵我们将在后面的文章中介绍&＃xff0c;这是由函数的二阶偏导数构成的矩阵。这分为下面几种情况&＃xff1a;

如果Hessian矩阵正定&＃xff0c;函数有极小值;如果Hessian矩阵负定&＃xff0c;函数有极大值;如果Hessian矩阵不定&＃xff0c;则需要进一步讨论

这和一元函数的结果类似&＃xff0c;Hessian矩阵可以看做是一元函数的二阶导数对多元函数的推广。一元函数的极值判别法为&＃xff0c;假设在某点处导数等于0&＃xff0c;则&＃xff1a;

如果二阶导数大于0&＃xff0c;函数有极小值;如果二阶导数小于0&＃xff0c;函数有极大值;如果二阶导数等于0&＃xff0c;情况不定

直接求函数的导数/梯度&＃xff0c;然后令导数/梯度为0&＃xff0c;解方程&＃xff0c;问题不就解决了吗&＃xff1f;事实上没这么简单&＃xff0c;因为这个方程可能很难解。对于有指数函数&＃xff0c;对数函数&＃xff0c;三角函数的方程&＃xff0c;我们称为超越方程&＃xff0c;求解的难度并不比求极值本身小。精确的求解不太可能&＃xff0c;因此只能求近似解&＃xff0c;这称为数值计算。工程上实现时通常采用的是迭代法&＃xff0c;它从一个初始点 $x_{0}$
这张图中的函数有3个局部极值点&＃xff0c;分别是A&＃xff0c;B和C&＃xff0c;但只有A才是全局极小值&＃xff0c;梯度下降法可能迭代到B或者C点处就终止。

鞍点 :指梯度为0&＃xff0c;Hessian矩阵既不是正定也不是负定&＃xff0c;即不定的点&＃xff0c;鞍点处附近存在有正有负的的二阶导&＃xff0c;即鞍点的hessian矩阵是不定的&＃xff0c;在最优化问题中&＃xff0c;只有hessian矩阵不定时才会出现鞍点&＃xff08;半正定也不会&＃xff09;&＃xff01;。下面是鞍点的一个例子&＃xff0c;假设有函数&＃xff1a; $x^{2}-y^{2}$
在这里&＃xff0c;梯度下降法遇到了鞍点&＃xff0c;认为已经找到了极值点&＃xff0c;从而终止迭代过程&＃xff0c;而这根本不是极值点。对于怎么逃离局部极小值点和鞍点&＃xff0c;有一些解决方案&＃xff0c;在这里我们暂时不细讲&＃xff0c;以后有机会再专门写文章介绍。对于凸优化问题&＃xff0c;不会遇到上面的局部极小值与鞍点问题&＃xff0c;即梯度下降法一定能找到全局最优解。

梯度下降法有大量的变种&＃xff0c;它们都只利用之前迭代时的梯度信息来构造每次的更新值&＃xff0c;最流行的&＃xff1a;动量优化&＃xff0c;Nesterov 加速梯度&＃xff0c;AdaGrad&＃xff0c;RMSProp&＃xff0c; Adam 优化.详情参见&＃xff1a;快速优化器

黑塞矩阵

黑塞矩阵&＃xff08;Hessian Matrix&＃xff0c;是一个多元函数的二阶偏导数构成的方阵&＃xff0c;描述了函数的局部曲率。黑塞矩阵常用于牛顿法解决优化问题&＃xff0c;利用黑塞矩阵可判定多元函数的极值问题。在工程实际问题的优化设计中&＃xff0c;所列的目标函数往往很复杂&＃xff0c;为了使问题简化&＃xff0c;常常将目标函数在某点邻域展开成泰勒多项式来逼近原函数&＃xff0c;此时函数在某点泰勒展开式的矩阵形式中会涉及到黑塞矩阵。

在数学中, 海森矩阵(Hessian matrix或Hessian)是一个自变量为向量x的实值函数f的二阶偏导数组成的方块矩阵, 此函数如下&＃xff1a; ,如果f的所有二阶导数都存在, 那么f的海森矩阵:

&＃xff08;1&＃xff09;

将二元函数的泰勒展开式推广到多元函数&＃xff0c;则在X(0)点处的泰勒展开的矩阵形式为&＃xff1a;

黑塞矩阵是由目标函数f在点X处的二阶偏导数组成的n∗n阶对称矩阵。

Hessian矩阵性质&＃xff1a;

&＃xff08;1&＃xff09;如果是正定矩阵&＃xff0c;则临界点处是一个局部极小值
&＃xff08;2&＃xff09;如果是负定矩阵&＃xff0c;则临界点处是一个局部极大值
&＃xff08;3&＃xff09;如果是不定矩阵&＃xff0c;则临界点处不是极值

判断一个矩阵是否是正定方法 &＃xff1a;

1、顺序主子式&＃xff1a;实对称矩阵为正定矩阵的充要条件是的各顺序主子式都大于零。
2、特征值&＃xff1a;矩阵的特征值全大于零&＃xff0c;矩阵为正定&＃xff0c;矩阵的特征值全非负&＃xff0c;矩阵为半正定。矩阵的特征值全小于零&＃xff0c;矩阵为负定。否则是不定的。

from&＃xff1a;https://blog.csdn.net/u010700066/article/details/81836166

二次规划的全局最优&＃xff1a;https://blog.csdn.net/nickkissbaby_/article/details/89419423

牛顿法

除了前面说的梯度下降法&＃xff0c;牛顿法也是机器学习中用的比较多的一种优化算法。但对于非线性优化问题, 牛顿法提供了一种求解的办法. 假设任务是优化一个目标函数 f, 求函数 f的极大极小问题, 可以转化为求解函数 f的导数f′&＃61;0的问题, 这样求可以把优化问题看成方程求解问题(f′&＃61;0).

牛顿法的基本思想是利用迭代点处的一阶导数(梯度)和二阶导数(Hessen矩阵)对目标函数进行二次函数近似&＃xff0c;然后把二次模型的极小点作为新的迭代点(f′&＃61;0的点)&＃xff0c;并不断重复这一过程&＃xff0c;直至求得满足精度的近似极小值。它使用函数f (x)的泰勒级数的前面几项来寻找方程f (x) &＃61; 0的根。牛顿法最大的特点就在于它的收敛速度很快&＃xff0c;而且能高度逼近最优值。

1、基本牛顿法的原理

考虑同样的一个无约束最优化问题&＃xff1a;

$min_{x\in R^{n}}f(x)$

牛顿法的每次迭代就是让一阶导为零&＃xff0c;当且仅当 Δx无线趋近于0。即&＃xff1a;

拟牛顿法&＃xff08;Quasi-Newton Methods&＃xff09;

　　拟牛顿法是求解非线性优化问题最有效的方法之一&＃xff0c;拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷&＃xff0c;它使用正定矩阵来近似Hessian矩阵的逆&＃xff0c;从而简化了运算的复杂度。拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化&＃xff0c;构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法&＃xff0c;尤其对于困难的问题。另外&＃xff0c;因为拟牛顿法不需要二阶导数的信息&＃xff0c;所以有时比牛顿法更为有效。如今&＃xff0c;优化软件中包含了大量的拟牛顿算法用来解决无约束&＃xff0c;约束&＃xff0c;和大规模的优化问题。

具体步骤&＃xff1a;

拟牛顿法的基本思想如下。首先构造目标函数在当前迭代 $x_{k}$
我们尽可能地利用上一步的信息来选取 $B_{k}$
从而得到

这个公式被称为割线方程。常用的拟牛顿法有DFP算法和BFGS算法。

DFP方法

记 $H_k&＃61;B_k^{-1}$ &＃xff0c;DFP公式为&＃xff1a;

$H_{k&＃43;1}&＃61;H_k-(H_ky_ky_k^TH_k)/(y_k^T H_k y_k)&＃43;(s_ks_k^T)/(y_k^Ts_k)$ 。

DFP方法是秩-2更新的一种&＃xff0c;由它产生的矩阵B_k是正定的&＃xff0c;而且满足这样的极小性&＃xff1a; $min ||B-B_k|| s.t. B&＃61;B^T, Bs_k&＃61;y_k$ 。

from:http://www.cnblogs.com/shixiangwan/p/7532830.html

坐标下降法

坐标上升与坐标下降可以看做是一对&＃xff0c;坐标上升是用来求解max最优化问题&＃xff0c;坐标下降用于求min最优化问题&＃xff0c;但是两者的执行步骤类似&＃xff0c;执行原理相同。

例如要求接一个 $min f(x_{1},x_{2},...x_{n})$ 的问题&＃xff0c;其中各个 $x_i$ 是自变量&＃xff0c;如果应用坐标下降法求解&＃xff0c;其执行步骤就是&＃xff1a;

1.首先给定一个初始点&＃xff0c;如 $X_0&＃61;(x_{1},x_{2},...x_{n})$

2.for dim&＃61;1:n

固定 $x_i$ ;(其中i是除dim以外的其他所有维度)

以 $x_{dim}$ 为自变量求取使得f取得最小值的 $x_{dim}$ &＃xff1b;

end

3.循环执行步骤2&＃xff0c;直到f的值不再变化或变化很小。

其关键点就是每次只变换一个维度 $x_i$ ,而其他维度都用当前值进行固定&＃xff0c;如此循环迭代&＃xff0c;最后得到最优解。

推荐阅读

io
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
io
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
io
[大整数乘法] java代码实现

本文介绍了使用java代码实现大整数乘法的过程，同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率，并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]

蜡笔小新 2023-12-13 11:21:32
io
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
io
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
io
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
object
JavaScript疑难杂症系列相称性推断的知识点详解

本文详细解析了JavaScript中相称性推断的知识点，包括严厉相称和宽松相称的区别，以及范例转换的规则。针对不同类型的范例值，如差别范例值、统一类的原始范例值和统一类的复合范例值，都给出了具体的比较方法。对于宽松相称的情况，也解释了原始范例值和对象之间的比较规则。通过本文的学习，读者可以更好地理解JavaScript中相称性推断的概念和应用。 ... [详细]

蜡笔小新 2023-12-14 19:12:10
byte
EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析

本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程，并分析了其所需的资源容量。通过解决错误提示和调整内存大小，成功存储了波形数据。然后，讨论了储存环逐束团信号的意义，以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大，每天需要近250G，一年需要90T。然而，储存环逐束团信号具有重要意义，可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]

蜡笔小新 2023-12-14 17:43:56
io
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
io
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
io
如何去除Win7快捷方式的箭头

本文介绍了如何去除Win7快捷方式的箭头的方法，通过生成一个透明的ico图标并将其命名为Empty.ico，将图标复制到windows目录下，并导入注册表，即可去除箭头。这样做可以改善默认快捷方式的外观，提升桌面整洁度。 ... [详细]

蜡笔小新 2023-12-14 16:17:05
byte
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
io
P1651 塔 (动态规划) 的最大高度计算方法

本文介绍了P1651题目的描述和要求，以及计算能搭建的塔的最大高度的方法。通过动态规划和状压技术，将问题转化为求解差值的问题，并定义了相应的状态。最终得出了计算最大高度的解法。 ... [详细]

蜡笔小新 2023-12-13 19:52:19
io
《数据结构》学习笔记3——串匹配算法性能评估

本文主要讨论串匹配算法的性能评估，包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库，可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n)，通过随机取出长度为m的子串作为模式P，在文本T中进行匹配，统计平均复杂度。对于成功和失败的匹配分别进行测试，分析其平均复杂度。详情请参考相关学习资源。 ... [详细]

蜡笔小新 2023-12-13 16:16:05
include
动态规划算法的基本步骤及最长递增子序列问题详解

本文详细介绍了动态规划算法的基本步骤，包括划分阶段、选择状态、决策和状态转移方程，并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中，在以后尽可能多地利用这些子问题的解，从而提高算法的效率。 ... [详细]

蜡笔小新 2023-12-13 15:38:19

瑞景地产王琴

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章