逻辑斯蒂回归_逻辑回归2逻辑回归由来

作者：狡兔死走狗喷Henry | 来源：互联网 | 2023-08-18 15:47

1高斯分布首先，LR的假设只有一个，就是两个类别的特征服从均值不等，方差相等的高斯分布，也就是为什么会假设它们服从高斯分布&

1 高斯分布

首先&＃xff0c;LR的假设只有一个&＃xff0c;就是两个类别的特征服从均值不等&＃xff0c;方差相等的高斯分布&＃xff0c;也就是

为什么会假设它们服从高斯分布&＃xff1f;一方面是因为高斯分布是比较容易处理的分布&＃xff0c;另一方面&＃xff0c;从信息论的角度上看&＃xff0c;当均值和方差已知时&＃xff08;尽管你并不知道确切的均值和方差&＃xff0c;但是根据概率论&＃xff0c;当样本量足够大时&＃xff0c;样本均值和方差以概率1趋向于均值和方差&＃xff09;&＃xff0c;高斯分布是熵最大的分布&＃xff0c;为什么要熵最大&＃xff1f;因为最大熵的分布可以平摊你的风险&＃xff0c;这就好比不要把鸡蛋放到同一个篮子里&＃xff0c;想想二分查找中&＃xff0c;为什么每次都是选取中间点作为查找点&＃xff1f;就是为了平摊风险。为什么假设方差相等&＃xff1f;为了后面处理起来方便....不相等的话没法消去。。。

接下来就是贝叶斯决策的东西了&＃xff0c;首先&＃xff0c;我们定义风险

其中&＃xff0c;

是把样本预测为0时的风险&＃xff0c;

是把样本预测为1时的风险&＃xff0c;

是样本实际标签为

时&＃xff0c;却把它预测为

是所带来的风险。

在LR里&＃xff0c;我们认为预测正确并不会带来风险&＃xff0c;因此

和

都为0&＃xff0c;此外&＃xff0c;我们认为当标签为0而预测为1 和当标签为1而预测为0&＃xff0c;这两者所带来的风险是相等的&＃xff0c;因此

和

相等&＃xff0c;方便起见&＃xff0c;我们记为

。这里你可能认为我说的是废话&＃xff0c;但在一些领域里&＃xff0c;比如医学、风控等&＃xff0c;这些λ在大多数情况下是不相等的&＃xff0c;有时候我们会选择“宁可杀错一百也不能放过一个”

所以&＃xff0c;上面定义的风险就可以简化为

现在问题来了&＃xff0c;我拿到一个样本&＃xff0c;我应该把它预测为0还是预测为1好&＃xff1f;按照风险最小化的原则&＃xff0c;我们应该选择风险最小的&＃xff0c;也就是&＃xff0c;当

时&＃xff0c;预测为0的风险要小于预测为1的风险&＃xff0c;即

时&＃xff0c;应该把样本预测为0&＃xff0c;从而也就是书上提到的&＃xff1a;比较两个条件概率&＃xff0c;并把样本分配到概率最大的那个类上。

我们两边除一下&＃xff0c;就会得到

我们对不等式左边的部分取一下对数&＃xff0c;&＃xff08;为什么取对数&＃xff1f;因为之前我们提过&＃xff0c;两个类别的特征服从均值不等&＃xff0c;方差相等的高斯分布&＃xff0c;

取对数方便处理高斯分布里的指数&＃xff09;&＃xff0c;再利用贝叶斯公式进行展开&＃xff0c;归一化常数扔掉&＃xff0c;我们将得到

为了方便起见&＃xff0c;我们假设x是一维的&＃xff0c;当然也很容易推广到多维的情况&＃xff0c;我们套入高斯分布的公式&＃xff0c;此外&＃xff0c;由于

和

都是常数&＃xff0c;第二项我们简记为常数

继续展开&＃xff0c;将得到

打开括号&＃xff0c;化简&＃xff0c;就会得到

整理整理&＃xff0c;就会得到

也就是

两面取指数&＃xff0c;并且利用上

这个概率公理&＃xff0c;移一下&＃xff0c;你就会看到熟悉的logistic公式

2 对数几率

现在考察逻辑斯蒂回归模型的特点&＃xff0c;一个事件的几率是指该事件发生的概率与该事件不发生的概率的比值&＃xff0c;如果事件发生的概率是

&＃xff0c;那么该事件的几率是

&＃xff0c;该事件的对数几率或logit函数是

对于逻辑斯蒂回归而言&＃xff0c;得

这就是说&＃xff0c;在逻辑斯蒂回归模型中&＃xff0c;输出

的对数几率是输入

的线性函数&＃xff0c;或者说&＃xff0c;输出

的对数几率是由输入

的线性函数表示的模型&＃xff0c;即逻辑斯蒂回归模型。

换一个角度看&＃xff0c;考虑对输入

进行分类的线性函数

&＃xff0c;其值域为实数域&＃xff0c;通过逻辑斯蒂回归模型可以将线性函数

转化为概率&＃xff1a;

这时&＃xff0c;线性函数的值越接近正无穷&＃xff0c;概率值就越接近1&＃xff1b;线性函数的值越接近负无穷&＃xff0c;概率值就越接近0。

3 最大熵原理

我们现在尝试把最大熵模型推导成logistic回归模型&＃xff1a;

最大熵模型定义了在给定输入变量

时&＃xff0c;输出变量

的条件分布&＃xff1a;

如果我们我们限定

为二元变量&＃xff0c;即

&＃xff0c;那么就可以把最大熵模型转换为logistic回归模型&＃xff0c;我们还需要定义特征函数为&＃xff1a;

即仅在

时抽取

的特征&＃xff0c;在

时不抽任何特征&＃xff08;直接返回全为0的特征向量。&＃xff09;

将这个特征函数带回最大熵模型&＃xff0c;我们得到

时&＃xff1a;

当

时&＃xff0c;得

我们发现&＃xff0c;当类别标签只有两个时&＃xff0c;最大熵模型就是logistic回归模型&＃xff0c;表面上看&＃xff0c;logistic回归模型里面的特征函数的确只考虑

不考虑

&＃xff0c;然而通过上面的推导&＃xff0c;我们发现其实

抽取的特征仅仅在

时被用到。

推荐阅读

git
电话号码的字母组合解题思路和代码示例

本文介绍了力扣题目《电话号码的字母组合》的解题思路和代码示例。通过使用哈希表和递归求解的方法，可以将给定的电话号码转换为对应的字母组合。详细的解题思路和代码示例可以帮助读者更好地理解和实现该题目。 ... [详细]

蜡笔小新 2023-12-14 18:50:22
git
解决Docker中volume的权限问题的方法

在Docker中，将主机目录挂载到容器中作为volume使用时，常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法，包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法，可以避免在使用Docker时出现无写权限的情况。 ... [详细]

蜡笔小新 2023-12-14 18:48:02
git
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
git
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
git
baresip android编译、运行教程1语音通话

本文介绍了如何在安卓平台上编译和运行baresip android，包括下载相关的sdk和ndk，修改ndk路径和输出目录，以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]

蜡笔小新 2023-12-14 10:53:48
git
20211101CleverTap参与度和分析工具功能平台学习/实践

1.应用场景主要用于学习CleverTap的使用,该平台主要用于客户保留与参与平台.为客户提供价值.这里接触到的原因,是目前公司用到该平台的服务~2.学习操作 ... [详细]

蜡笔小新 2023-12-14 10:25:12
ide
如何用UE4制作2D游戏文档——计算篇

篇首语：本文由编程笔记#小编为大家整理，主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 09:50:34
git
安卓select模态框样式改变_微软Office风格的多端（Web、安卓、iOS）组件库——Fabric UI...

介绍FabricUI是微软开源的一套Office风格的多端组件库，共有三套针对性的组件，分别适用于web、android以及iOS，Fab ... [详细]

蜡笔小新 2023-12-14 05:55:08
git
使用在线工具jsonschema2pojo根据json生成java对象

本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具，用户只需将json字符串复制到输入框中，即可自动将其转换成java对象。该工具还能解析列表式的json数据，并将嵌套在内层的对象也解析出来。本文以请求github的api为例，展示了使用该工具的步骤和效果。 ... [详细]

蜡笔小新 2023-12-13 21:23:45
git
大量研发销售产品设计市场岗位！

关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商，服务新产业周期的IoT&5G、边缘计算与云计算市场，交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]

蜡笔小新 2023-12-13 21:02:32
ide
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
git
解决Cydia数据库错误：could not open file /var/lib/dpkg/status 的方法

本文介绍了解决iOS系统中Cydia数据库错误的方法。通过使用苹果电脑上的Impactor工具和NewTerm软件，以及ifunbox工具和终端命令，可以解决该问题。具体步骤包括下载所需工具、连接手机到电脑、安装NewTerm、下载ifunbox并注册Dropbox账号、下载并解压lib.zip文件、将lib文件夹拖入Books文件夹中，并将lib文件夹拷贝到/var/目录下。以上方法适用于已经越狱且出现Cydia数据库错误的iPhone手机。 ... [详细]

蜡笔小新 2023-12-13 19:02:44
git
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
ide
XML介绍与使用的概述及标签规则

本文介绍了XML的基本概念和用途，包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则，包括标签的尖括号和合法标识符的组成，标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读，读者可以对XML的基本知识有一个全面的了解。 ... [详细]

蜡笔小新 2023-12-13 17:39:50
ide
如何通过全新应用内评价获取更多优质用户反馈？

Google Play推出全新的应用内评价API，帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论，这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论，以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论，提升用户体验。 ... [详细]

蜡笔小新 2023-12-13 17:23:03

狡兔死走狗喷Henry

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章