首先,LR的假设只有一个,就是两个类别的特征服从均值不等,方差相等的高斯分布,也就是
为什么会假设它们服从高斯分布?一方面是因为高斯分布是比较容易处理的分布,另一方面,从信息论的角度上看,当均值和方差已知时(尽管你并不知道确切的均值和方差,但是根据概率论,当样本量足够大时,样本均值和方差以概率1趋向于均值和方差),高斯分布是熵最大的分布,为什么要熵最大?因为最大熵的分布可以平摊你的风险,这就好比不要把鸡蛋放到同一个篮子里,想想二分查找中,为什么每次都是选取中间点作为查找点?就是为了平摊风险。为什么假设方差相等?为了后面处理起来方便....不相等的话没法消去。。。
接下来就是贝叶斯决策的东西了,首先,我们定义风险
其中,
在LR里,我们认为预测正确并不会带来风险,因此
所以,上面定义的风险就可以简化为
现在问题来了,我拿到一个样本,我应该把它预测为0还是预测为1好?按照风险最小化的原则,我们应该选择风险最小的,也就是,当
时,预测为0的风险要小于预测为1的风险,即
时,应该把样本预测为0,从而也就是书上提到的:比较两个条件概率,并把样本分配到概率最大的那个类上。
我们两边除一下,就会得到
我们对不等式左边的部分取一下对数,(为什么取对数?因为之前我们提过,两个类别的特征服从均值不等,方差相等的高斯分布,
取对数方便处理高斯分布里的指数),再利用贝叶斯公式进行展开,归一化常数扔掉,我们将得到
为了方便起见,我们假设x是一维的,当然也很容易推广到多维的情况,我们套入高斯分布的公式,此外,由于
打开括号,化简,就会得到
整理整理,就会得到
也就是
两面取指数,并且利用上
现在考察逻辑斯蒂回归模型的特点,一个事件的几率是指该事件发生的概率与该事件不发生的概率的比值,如果事件发生的概率是
对于逻辑斯蒂回归而言,得
这就是说,在逻辑斯蒂回归模型中,输出
换一个角度看,考虑对输入
这时,线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0。
我们现在尝试把最大熵模型推导成logistic回归模型:
最大熵模型定义了在给定输入变量
如果我们我们限定
即仅在
将这个特征函数带回最大熵模型,我们得到
当
我们发现,当类别标签只有两个时,最大熵模型就是logistic回归模型,表面上看,logistic回归模型里面的特征函数的确只考虑