pltpython画直线_机器学习干货，一步一步通过Python实现梯度下降的学习

作者：Cy章健Mr_189 | 来源：互联网 | 2023-10-17 14:30

GradientDescent-梯度下降梯度下降法(英语：Gradientdescent)是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找

Gradient Descent - 梯度下降

梯度下降法(英语&＃xff1a;Gradient descent)是一个一阶最优化算法&＃xff0c;通常也称为最速下降法。要使用梯度下降法找到一个函数的局部极小值&＃xff0c;必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索&＃xff0c;则会接近函数的局部极大值点&＃xff1b;这个过程则被称为梯度上升法。

以上是维基百科对梯度下降的解释。

下面我们来一步一步的学习一遍&＃xff1a;

什么是梯度下降&＃xff1f;

为了方便&＃xff0c;我们准备一些数据&＃xff0c;并通过Python绘制出图像。

图1&＃xff1a;数据准备和图像

如图1所示&＃xff0c;我们准备了一组数据&＃xff0c;x轴为体重(Weight)数据&＃xff0c;y轴是身高(Height)数据&＃xff0c;通过Python中 matplotlib 包&＃xff0c;将数据图像话。

此时&＃xff0c;图像中的点似乎呈现出线性的关系。

问题来了&＃xff0c;我们怎么样去找到最匹配的直线关系式呢&＃xff1f;

有的同学会直接上手 线性回归。自然没错&＃xff0c;但是今天的主角是 梯度下降。

那么&＃xff0c;我们一起来用梯度下降的方式来解决这个问题吧&＃xff01;

第一步&＃xff1a;假设函数关系 h(x)

既然上述图像可以被看成是线性关系&＃xff0c;我们就可以假设一个线性的函数关系式&＃xff1a;h(x)&＃xff1b;

Predicted Height &＃61; Intercept &＃43; Slope * Weight

身高的预测值 &＃61; y轴截距 &＃43; 斜率 * 体重

找到最优化线性关系的问题就转化成了&＃xff1a;找到最优的 y轴截距和斜率的问题。

用数学的方法来表示如下&＃xff1a;

图2&＃xff1a;数学公式

在数据中&＃xff0c;真实存在的 y值和预测值 h是存在误差的。这个误差可以用残留误差(Residual Error)来表示。

图3

图4&＃xff1a;残留误差(Residual Error)

在图4中&＃xff0c;数据点(红球)的y值与直线给出的预测值之间的误差显示为蓝色的虚线。

在统计中&＃xff0c;我们将所有误差的平方和称为Sum of the Squared Residuals 残值平方和&＃xff1b;
在机器学习中&＃xff0c;所有误差的平方和称为 损失函数 Loss Function ~ J&＃xff1b;

为什么损失函数里要用距离的平方而不是距离的绝对值&＃xff1f;

大家有想过这个问题吗&＃xff1f;误差是| 预测值_i - 实际值_i | &＃xff0c;那我取误差绝对值的和的最小值不也可以称为一个损失函数嘛。

千万不要以为这个平方是随随便便来的。背后是有道理的。

误差 &＃61; 预测值_i - 实际值_i

这个误差是符合一定概率分布的。看过我之前的文章介绍海量数据的中心极限定理的朋友&＃xff0c;应该知道这个误差可以被假定为&＃xff1a;

平均值 u &＃61; 0&＃xff0c;方差为σ 的正态分布。

图5&＃xff1a;正态分布

那么在已知正太分布的情况下&＃xff0c;每一个数据点都会对应一个误差&＃xff0c;而误差出现的概率&＃xff0c;准确的说是Likelihood是可以通过正态分布的函数求得的。

图6&＃xff1a;likelihood(概率)

所有数据点误差概率相加

当我们对上述函数取对数可得&＃xff1a;

取对数

最大似然分析&＃xff0c;不懂得看我之前的文章。我们要保证 L 最大&＃xff0c;只要保证上式右边值最大。

式子右边第一项和第二项是定值&＃xff0c;只要保证第三项最小就可以使 L最大。

由于 u &＃61; 0&＃xff0c;只要 sum((误差值_i)^2) 最小就可以啦&＃xff01;

这就是为什么损失函数 J要采用平方的数学解释啦&＃xff01;

目标&＃xff1a;找到β0 和 β1使得损失函数 J 最小&＃xff01;&＃xff01;&＃xff01;

图7&＃xff1a;给出y和x的定义

在Python中&＃xff0c;我们首先给β0 和 β1赋值为0&＃xff0c;当然可以赋值成任何值。

图8&＃xff1a;梯度下降

为什么叫梯度下降&＃xff1f;

在图8中&＃xff0c;如果我们将每一个β0 和 β1 对应的的 残值平方和 作图表示出来&＃xff0c;就能发现局部最低点&＃xff0c;也就是残值平方和最小的点。图8是只考虑斜率的情况下。如果同时考虑β0 和 β1&＃xff0c;则是三维图像&＃xff0c;如图9.

图9

第二步&＃xff1a;将β0 和 β1 插入相关函数和导数中&＃xff1b;

介绍了这么多梯度下降&＃xff0c;接着我们就进入如何使用梯度下降找到β0 和 β1 吧&＃xff01;

小范围的极小值点&＃xff0c;我们会想到 函数的一阶导数 &＃61; 0 对应的 x 值。

图10&＃xff1a;一阶导数

接下来&＃xff0c;我们要定义一个重要的概念 学习效率(Learning Rate): a&＃xff1a;梯度下降对于 Learning Rate的选择非常敏感。

图11&＃xff1a;梯度下降

当我们在当前的β0 和 β1 下无法使得损失函数对于β0 和 β1 的偏微分为0。

损失函数对于β0 和 β1 的偏微分可以理解成β0 和 β1 变化的梯度方向(如图11)。那么&＃xff0c;我们在这个梯度下降的方向上给β0 和 β1 做一个微小的移动。

图12

通过对β0 和 β1 最终找到是的损失函数 J 最小的β0 和 β1。

Python实现梯度下降

图13

先从β0 和 β1 都为0开始&＃xff0c;图13中蓝线。

我们运行1000次&＃xff0c;并且将直线的演变过程画出来&＃xff1a;

为了有些同学想自己试试&＃xff0c;我把代码复制如下&＃xff1a;

import numpy as npfrom matplotlib import pyplot as plt%matplotlib inlinex_data &＃61; [1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]y_data &＃61; [1, 2, 3, 1, 4, 5, 6, 4, 7, 10, 15, 9]plt.plot(x_data, y_data, &＃39;ro&＃39;)plt.title(&＃39;Height vs Weight&＃39;)plt.xlabel(&＃39;Weight&＃39;)plt.ylabel(&＃39;Height&＃39;)# y &＃61; β0 &＃43; β1 * xβ0 &＃61; 0β1 &＃61; 0y &＃61; lambda x : β0 &＃43; β1 * xdef plot_line(y, data_points): x_values &＃61; [i for i in range(int(min(data_points)) - 1, int(max(data_points)) &＃43; 2)] y_values &＃61; [y(x) for x in x_values] plt.plot(x_values, y_values, &＃39;b&＃39;) plot_line(y, x_data)learning_rate &＃61; 0.001def summation(y, x_data, y_data): slope_β0 &＃61; 0 slope_β1 &＃61; 0 for i in range(1, len(x_data)): slope_β0 &＃43;&＃61; y(x_data[i]) - y_data[i] slope_β1 &＃43;&＃61; (y(x_data[i]) - y_data[i]) * x_data[i] return slope_β0 / len(x_data), slope_β1 / len(x_data)for i in range(1000): slope_β0, slope_β1 &＃61; summation(y, x_data, y_data) β0 &＃61; β0 - learning_rate * slope_β0 β1 &＃61; β1 - learning_rate * slope_β1 plot_line(y, x_data) plt.plot(x_data, y_data, &＃39;ro&＃39;)总结

以上就是梯度下降的过程&＃xff0c;以及如何通过python来实现梯度下降。

最后&＃xff0c;我们可以得到我们想要的线性关系函数了。

y &＃61; 0.058 &＃43; 1 * x

希望大家喜欢我的文章。

“逃学博士”&＃xff1a;理工科直男一枚&＃xff0c;在冰天雪地的加拿大攻读工程博士。闲暇之余分享点科学知识和学习干货。

推荐阅读

io
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
io
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
io
Python瓦片图下载、合并、绘图、标记的代码示例

本文提供了Python瓦片图下载、合并、绘图、标记的代码示例，包括下载代码、多线程下载、图像处理等功能。通过参考geoserver，使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法，供读者参考使用。 ... [详细]

蜡笔小新 2023-12-13 12:14:55
blob
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
get
GetWindowLong函数

今天在看一个代码里头写了GetWindowLong(hwnd,0)，我当时就有点费解，靠，上网搜索函数原型说明，死活找不到第 ... [详细]

蜡笔小新 2023-12-14 17:58:15
config
[从头学数学] 第101节比例的相关问题研究和修炼

本文介绍了[从头学数学]中第101节关于比例的相关问题的研究和修炼过程。主要内容包括[机器小伟]和[工程师阿伟]一起研究比例的相关问题，并给出了一个求比例的函数scale的实现。 ... [详细]

蜡笔小新 2023-12-14 13:39:15
foreach
javascript – 概述在Firefox上无法正常工作

我试图提出一些自定义大纲,以达到一些Web可访问性建议.但我不能用Firefox制作.这就是它在Chrome上的外观：而那个图标实际上是一个锚点.在Firefox上,它只概述了整个 ... [详细]

蜡笔小新 2023-12-14 10:20:38
io
Oracle分析函数first_value()和last_value()的用法及原理

本文介绍了Oracle分析函数first_value()和last_value()的用法和原理，以及在查询销售记录日期和部门中的应用。通过示例和解释，详细说明了first_value()和last_value()的功能和不同之处。同时，对于last_value()的结果出现不一样的情况进行了解释，并提供了理解last_value()默认统计范围的方法。该文对于使用Oracle分析函数的开发人员和数据库管理员具有参考价值。 ... [详细]

蜡笔小新 2023-12-13 19:07:23
get
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
io
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
io
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
io
[大整数乘法] java代码实现

本文介绍了使用java代码实现大整数乘法的过程，同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率，并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]

蜡笔小新 2023-12-13 11:21:32
get
Java中闭包的争论以及闭包的定义和特性

闭包一直是Java社区中争论不断的话题，很多语言都支持闭包这个语言特性，闭包定义了一个依赖于外部环境的自由变量的函数，这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例，介绍了闭包的定义和特性。 ... [详细]

蜡笔小新 2023-12-13 10:46:54
get
如何更高效地使用IF函数来获取输出列表

本文讨论了如何使用IF函数从基于有限输入列表的有限输出列表中获取输出，并提出了是否有更快/更有效的执行代码的方法。作者希望了解是否有办法缩短代码，并从自我开发的角度来看是否有更好的方法。提供的代码可以按原样工作，但作者想知道是否有更好的方法来执行这样的任务。 ... [详细]

蜡笔小新 2023-12-12 17:32:28
get
Python爬虫技术基础篇面向对象高级编程（中）的多重继承

本文介绍了Python爬虫技术基础篇面向对象高级编程（中）中的多重继承概念。通过继承，子类可以扩展父类的功能。文章以动物类层次的设计为例，讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例，以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]

蜡笔小新 2023-12-12 16:19:02

Cy章健Mr_189

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章