当前位置: 开发笔记 > 前端 > 正文

大白话5分钟带你走进人工智能第三节最大似然推导mse损失函数（深度解析最小二乘来源）（1）...

作者：帝京 | 来源：互联网 | 2023-08-22 23:34

第三节最大似然推导mse损失函数（深度解析最小二乘来源）在第二节中，我们介绍了高斯分布的来源，以及其概率密度函数对应的参数的

第三节最大似然推导mse损失函数&＃xff08;深度解析最小二乘来源&＃xff09;

在第二节中&＃xff0c;我们介绍了高斯分布的来源&＃xff0c;以及其概率密度函数对应的参数的解释。本节的话&＃xff0c;我们结合高斯分布从数学原理部分解释为什么损失函数是最小二乘。我们再来回归下高斯分布的概率密度函数实际上是这个形式的&＃xff1a;

那么这个函数有什么用&＃xff1f;其实就是给一个X&＃xff0c;就能知道X发生的可能性有多大&＃xff1f;相当于给每一个X的一个得分。那么我们回忆一下&＃xff0c;在咱们讲这概率论之前&＃xff0c;咱们讲的最后一个概念是什么&＃xff1f;最小二乘损失函数。我们由什么推到最小二乘&＃xff1f;实际上是由误差的概念推导而来&＃xff0c;

咱们逐个元素的去分析公式中的含义&＃xff0c;

代表第i条数据预测值与真实值之间的差距。

整体是我们的预测值&＃xff0c;

是我们的真实值。那么预测值中的

代表什么呢&＃xff1f;这里不免讲到一个学科叫做线性代数&＃xff0c;我个人的理解&＃xff0c;线性代数就是一种简化标记法&＃xff0c;比如我要写

,写的很累&＃xff0c;很长&＃xff0c;因为老写这一长串的东西&＃xff0c;于是我们干脆引入一个向量的概念&＃xff0c;用W乘以X的转置&＃xff0c;就等于上面的这些东西&＃xff0c;它就是一种运算的定义。即

怎么解释上面公式&＃xff1f;此时的

通常在咱们手写的时候&＃xff0c;通常会写成

&＃xff0c;这就是向量的意思。那什么叫向量&＃xff1f;假如说我的W向量为

是什么意思呢&＃xff1f;此时

不再是一个实数了&＃xff0c;而是由三个实数构成的这么一个集合体&＃xff0c;你就简单地把它联系理解成三个数的一个组合&＃xff0c;把三数放一块&＃xff0c;我把三个数硬生生写成一个字母&＃xff0c;要不我还得称它 $w1,w2,w3$ ,好麻烦&＃xff01;&＃xff0c;所以我们直接称它叫

向量&＃xff0c;其中它的第一个元素是1&＃xff0c;第二个元素是2&＃xff0c;第三个元素是3&＃xff0c;它们三个整体构成了一个叫做三维向量&＃xff0c;因为它是由三个元素构成的。向量为了方便运算&＃xff0c;定义了行向量和列向量&＃xff0c;横着写的就叫行向量&＃xff0c;竖着写的叫列向量。这些东西没有什么原因就这么定义的&＃xff0c;就是一个起名。我们把从行向量变成列向量的运算叫做转置&＃xff0c;比如

&＃xff0c;它的转置就是竖着写下上面的向量。为什么要转来转去&＃xff1f;因为我们定义了行向量乘以列向量这种运算。我们此时对于这个例子来说&＃xff0c;A向量乘以B向量的转置&＃xff0c;假设A是行向量

&＃xff0c;B是列向量

的转置 $W^{T}$ 。那么一个行向量乘一个列向量怎么定义&＃xff1f;就是行的第一个元素乘以列向量的第一个元素的结果&＃xff0c;加上行的第二个元素乘以列向量的第二个元素结果&＃xff0c;加上行的第三个元素乘以列向量的第三个元素的结果&＃xff0c;就是 $WW^{T}$ &＃61; $1*1&＃43;2*2&＃43;3*3$ 。那么

这个公式就可以借用上面行向量乘以列向量的表示方式。我们通常把 $\theta$ 都定义为列向量&＃xff0c;那么 $\theta$ 的本身是 $w_{0},w_{1},...w_{n}$ 的一个列向量&＃xff0c; $\theta ^{T}$ 就是 $w_{0},w_{1},...w_{n}$ 的一个行向量。那么 $x^{(i)}$ 怎么解释&＃xff1f;每一条数据x是不是有n个维度&＃xff0c;X本身是不是也可以给它写成一个向量&＃xff1f;我们就直接写 $x^{(i)}$ 向量就包含了这一条数据的所有维度了&＃xff0c;当它为列向量的情况下&＃xff0c; $w_{0}x_{0}&＃43;w_{1}x_{1}&＃43;w_{2}x_{2}&＃43;...&＃43;w_{n}x_{n}$ 就变成了一个行向量乘以列向量的形式。所以目前为止就把线性代数当作一种运算的简写方式。际上你就把这想成就是一个暗号&＃xff0c;你看到这个暗号&＃xff0c;你就知道它背后根据向量的乘法的定义会得到一个这样的结果&＃xff0c;就是 $w_{0}x_{0}&＃43;w_{1}x_{1}&＃43;w_{2}x_{2}&＃43;...&＃43;w_{n}x_{n}$ &＃xff0c;也就是 $\sum x^{i}w^{i}$ 这么一个结果&＃xff0c;它计算出来的结果是什么&＃xff1f;就是我们的 $\hat{y}$ &＃xff0c;也就是我们的预测值。那么 $\hat{y}&＃43;\varepsilon$ 是不是就是我们的真实值&＃xff1f;刚好符合我们的公式。

我们总结下上面说的核心。误差是由我们多个未观测到的属性或者叫特征决定的&＃xff0c;多个未观测到的属性共同决定误差&＃xff0c;我们应该假设它符合同一个高斯分布&＃xff0c;什么样的高斯分布呢&＃xff1f;就是误查服从一个均值为零&＃xff0c;方差虽然你不知道&＃xff0c;但一定也是某个确定的值的高斯分布。好&＃xff0c;上面的核心你已了解&＃xff0c;我们就可以引入一个概率的问题&＃xff0c;一个可能性问题。既然误差服从均值为零的高斯分布&＃xff0c;那误差自己的概率密度函数写出来如下&＃xff1a;

$p(\varepsilon ^{(i)})=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(\varepsilon ^{i})^{2}}{2\sigma ^{2}})$

某一个误差发生的概率是不是就应该等于上面的公式。用心观察一下这个式子怎么来的&＃xff1f;还记得高斯分布的概率密度函数吗&＃xff1f;

对比发现是不是只有

这个公式&＃xff0c;所以把样本被采样到的概率中 $y^{(i)}-\theta ^{T}x^{(i)}$ 替换成 $\varepsilon ^{(i)}$ &＃xff0c;结果是一样的&＃xff0c;只不过我们要从实际含义去理解。

既然知道每个样本采样到的概率后&＃xff0c;那我们来计算这个概率。可以发现这里面真正变得是 $\theta$ &＃xff0c;因为其他参数都是已知&＃xff0c;假如 $\theta$ 全等于0&＃xff0c;你算出来的是一个概率&＃xff0c;假如 $\theta$ 全等于1&＃xff0c;算出来是另一个概率&＃xff0c;也就是说每一条样本被采样到的可能性是随着 $\theta$ 的变化而变化的。这是某一条样本被采样到的概率&＃xff0c;而最终所有的样本都被你采样到了。比如说你拿到了1万条数据&＃xff0c;拿第一条数据&＃xff0c;是不是有一组 $x$ &＃xff0c;有一个 $y$ ,分别是 $x^{1}$ 和 $y^{1}$ &＃xff0c;带进去上面的概率公式&＃xff0c;得到一个关于 $\theta$ 的一个表达式。只要 $\theta$ 确定&＃xff0c;结果也就确定了。那么第一条样本被抽样到的概率是一个关于 $\theta$ 的表达式&＃xff0c;第二个样本被抽样到的概率也是一个关于 $\theta$ 的表达式&＃xff0c;跟第一个表达式不一样&＃xff0c;因为带进去的 $y^{(i)}$ 跟 $x^{(i)}$ 是不一样的&＃xff0c;这样下去&＃xff0c;你会得到1万个表达式&＃xff0c; 每个表达式代表每一个点被抽样到的概率&＃xff0c;1万个点共同的被抽样到了&＃xff0c;那么你通通把它乘起来&＃xff0c;就代表这1万个点共同被你抽样到的概率&＃xff0c;得到了一个总的概率。总的概率是高是低取决于谁&＃xff1f; $x^{(i)}$ 已知 $y^{(i)}$ 已知&＃xff0c;所以总概率高低取决于 $\theta$ &＃xff0c; $\theta$ 变一变&＃xff0c;这总概率就变一变。那么你希望找到的 $\theta$ 是使总概率越高还是越低越好&＃xff1f;因为你已经抽样到了这些数据&＃xff0c;你最合理的 $\theta$ 应该能让样本总体被抽样到的概率越高越好&＃xff0c; $\theta$ 才越趋近于真实。我们称这种思想叫做极大似然估计&＃xff08;MLE&＃xff09;。所谓似然就是上面说的1万个 $\theta$ 的表达式相乘的结果就叫似然&＃xff0c;其实就是最大概率估计&＃xff0c;只不过民国时期翻译那些经典的数学书籍的时候&＃xff0c;把概率翻译成了似然。

由于训练集上的样本被抽选到这个随机事件是彼此独立的&＃xff0c;那么训练集上所有的样本全部都被抽选到的概率转换为数学公式就是&＃xff1a;

$\prod_{i=1}^{m}p(y^{(i)}|x^{(i)};\theta )=\frac{1}{\sqrt{2\pi }\sigma }exp(-\frac{(y^{(i)-}{\theta^{T}x^{(i)^{2}} })}{2\sigma ^{2}})$

通常我们称上面的总概率函数为似然函数。那什么样的 $\theta$ 是最好的 $\theta$ 呢&＃xff1f;能够使这个式子最大的θ就是最好的 $\theta$ 。因为它代表整个训练及被抽样到的总概率&＃xff0c;既然它已经发生的事情&＃xff0c;概率理应最大&＃xff0c;这样 $\theta$ 才最真实&＃xff0c;否则 $\theta$ 计算出来&＃xff0c;这个概率没有达到最大&＃xff0c;说明给的 $\theta$ 不够好&＃xff0c;毕竟这些东西已经被你抽到了&＃xff0c;这个概率还没达到最高值&＃xff0c;说明给的 $\theta$ 不够合理。所以最大似然的思想就是已经抽样到的样本的总概率应该最大&＃xff0c;而最合理的 $\theta$ 就应该是让似然函数最大的 $\theta$ 。这一点只要理解透了&＃xff0c;后面的东西都很简单&＃xff0c;这是本节最大的重点&＃xff0c;极大似然估计会出现在机器学习的方方面面。方方面面都会有极大似然估计&＃xff0c;它的核心思想就是已经发生的概率理应最大&＃xff0c;而且概率取决于谁&＃xff1f;取决于 $\theta$ 。

我们不要忘记初心&＃xff0c;我们机器学习&＃xff0c;学习的是一组参数 $w_{0},w_{1},...w_{n}$ &＃xff0c;其实就是 $\theta$ &＃xff0c;本质就想找到一组最好的 $\theta$ &＃xff0c;现在似然函数是不是相当于给了我们一个指导方针&＃xff1f; 能够让总概率最大&＃xff08;也就是似然函数最大&＃xff09;的 $\theta$ 就是最好的 $\theta$ 。

那么这跟那MSE函数&＃xff08;损失函数&＃xff09;有什么关系&＃xff1f;我们回顾之前的知识&＃xff0c;我们的目的是想找到一组一组参数 $w_{0},w_{1},...w_{n}$ &＃xff0c;即&＃xff08; $\theta$ &＃xff09;&＃xff0c;使损失函数&＃xff08;MSE&＃xff09;最小&＃xff0c;而本节讲的是让这组参数 $w_{0},w_{1},...w_{n}$ &＃xff08;即 $\theta$ &＃xff09;&＃xff0c;使似然函数最大&＃xff0c;那么他们之间矛盾吗&＃xff1f;要是能找到他们之间的关系&＃xff0c;是不是所有的原理&＃xff0c;无论从哪一方面都能解释通了。所以下一节中&＃xff0c;我们来解剖MSE和最大似然之间的真正关系。

转:https://www.cnblogs.com/LHWorldBlog/p/10576628.html

推荐阅读

html
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
label
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
js
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
js
电销机器人代理需要注意哪些问题？创业者小心这些骗局

电销机器人作为一种人工智能技术载体，可以帮助企业提升电销效率并节省人工成本。然而，电销机器人市场缺乏统一的市场准入标准，产品品质良莠不齐。创业者在代理或购买电销机器人时应注意谨防用录音冒充真人语音通话以及宣传技术与实际效果不符的情况。选择电销机器人时需要考察公司资质和产品品质，尤其要关注语音识别率。 ... [详细]

蜡笔小新 2023-12-14 16:31:48
js
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
js
词袋模型的通俗介绍

词,袋, ... [详细]

蜡笔小新 2023-12-12 08:20:03
正则
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
正则
机器学习之贝叶斯垃圾邮件分类代码

本文介绍了贝叶斯垃圾邮件分类的机器学习代码，代码来源于https://www.cnblogs.com/huangyc/p/10327209.html，并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]

蜡笔小新 2023-12-10 12:24:15
正则
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
iframe
绕过WAF的XSS检测机制及构建XSS payload的方法

本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ... [详细]

蜡笔小新 2023-12-11 19:42:30
iframe
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
iframe
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
chrome
2016 linux发行版排行_灵越7590 安装 linux (manjarognome)

RT之前做了一次灵越7590黑苹果炒作业的文章，希望能够分享给更多不想折腾的人。kawauso：教你如何给灵越7590黑苹果抄作业zhuanlan.z ... [详细]

蜡笔小新 2023-12-10 19:11:07
js
互联网思维中的3个段子，9大分类和19条法则

本文介绍了互联网思维中的三个段子，涵盖了餐饮行业、淘品牌和创业企业的案例。通过这些案例，探讨了互联网思维的九大分类和十九条法则。其中包括雕爷牛腩餐厅的成功经验，三只松鼠淘品牌的包装策略以及一家创业企业的销售额增长情况。这些案例展示了互联网思维在不同领域的应用和成功之道。 ... [详细]

蜡笔小新 2023-12-10 14:58:10
js
面试经验分享：华为面试四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试

最近有朋友去华为面试，面试经历包括四轮电话面试、一轮笔试、一轮主管视频面试、一轮hr视频面试。80%的人都在第一轮电话面试中失败，因为缺乏基础知识。面试问题涉及 ... [详细]

蜡笔小新 2023-12-09 10:22:03

帝京

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章