当前位置: 开发笔记 > 后端 > 正文

GMM与KDE区别与联系

作者：mobiledu2502889521 | 来源：互联网 | 2023-06-06 16:33

GMM与KDE区别与联系对拿到的一堆数据，可以通过KDE方法来估计概率密度，Parzen窗方法通过使用不同的窗口作为基底，用函数逼近的思路

GMM 与 KDE 区别与联系

对拿到的一堆数据&＃xff0c;可以通过KDE方法来估计概率密度&＃xff0c;Parzen 窗方法通过使用不同的窗口作为基底&＃xff0c;用函数逼近的思路来逼近真实的分布函数,混合高斯模型&＃xff0c;同样也用了多个高斯分布做了线性组合来拟合隐含的分布&＃xff0c;看起来高斯混合模型也可以用来做概率密度估计&＃xff0c;那么到底这两者之间是否是相似的呢&＃xff1f;又或者有什么不同呢先来看他们各自的公式

混合高斯模型&＃xff1a;

$f(x)&＃61;\sum_{k&＃61;0}^{N}w_kp_k(x)$

其中 N 表示 Component 的个数&＃xff0c;也就是由多少个高斯分布来进行混合&＃xff0c; $w_k$ 表示每一个Component的权重&＃xff0c;它是一个概率意义上的量&＃xff0c;代表了一个观测数据由第i个Component生成的概率&＃xff0c;因此

$\sum_{k&＃61;0}^{N} w_k&＃61;1$

其中&＃xff0c; $p_k(x)$ 代表了第k个Component的概率密度函数

从这个公式上面可以看到&＃xff0c;一般高斯混合模型的用途是用来做分类判别用&＃xff0c;第k个Component代表了第k类&＃xff0c;如果我们已经有了第k类的信息&＃xff0c;那么我们就可以判定一个数据是属于第k类的概率&＃xff0c;这个概率值就是 $w_k$ &＃xff0c;因此对K个可能的分类&＃xff0c;我们就会得到把当前的数据分类到第k类的概率为 $w_k$ 。

用高斯模型的线性组合来拟合未知的分布&＃xff0c;有研究表明有过拟合的问题存在&＃xff0c;物理意义并不明显&＃xff0c;不像KDE有窗的概念&＃xff0c;有窗的宽度等东西&＃xff0c;因此他们的解释是不一样的

KDE 的概念是从直方图的概率中过度来的&＃xff0c;我们看看KDE的定义是如何得到的

我们以一维的情况来举例&＃xff0c;假设在某未知分布 $f(x)$ 下&＃xff0c;观测了N次得到N个结果 $X_1,X_2,...X_n$ ,这是为了保证这N个数据是独立同分布的。我们考察一个给定的区间R在这N个数据中&＃xff0c;有K个落在R中的情况&＃xff0c;很明显&＃xff0c;这属于二项分布的情况

$P_k&＃61;\begin{pmatrix}N\\k \end{pmatrix}p^{k}(1-p)^{N-k}$

k 的期望值是

$E[k]&＃61;nP$

其中P是&＃xff0c;

$P&＃61; \int_R p(x)dx$

可以这么来理解k的期望&＃xff0c;就是一共有N个数据&＃xff0c;区间R中有k个的平均值就是nP&＃xff0c;这是二项分布的特点 ,因此因此我们可以用下面的公式来估计k

$E[k]&＃61; \hat{k} &＃61; nP$

对这个公式进行一下变形&＃xff0c;得到如下公式

$P&＃61;\frac{\hat{k}}{n}$

这就可以是k的一个概率估计&＃xff0c;当样本数n很大的时候&＃xff0c;这个估计就越准确

现在假设区域R足够小&＃xff0c;然后在R的这个小区域里面&＃xff0c;p(x)的值变化都非常小&＃xff0c;可以近似相等&＃xff0c;那么 $x&＃39;$ 在R中取值&＃xff0c;我们可以计算这个R区间内的面积,也就是有k个数据在R中的概率

$P&＃61;\int_{R}p(x&＃39;)dx&＃39;&＃61;p(x)R&＃61;p(x)V&＃61;\frac{k}{n}$

这里的R本身就代表了区间的长度&＃xff0c;但是为了扩展到更高纬度的方便&＃xff0c;这里用体积V来表示&＃xff0c;一维的情况下是长度&＃xff0c;二维情况下是面积&＃xff0c;三维情况下是体积&＃xff0c;对N维情况下就要用到测度来表示了&＃xff0c;测度其实就是一种更严格的定义的关于不同维度下的“体积“的一种度量。

为了得到概率密度的表达式&＃xff0c;我们只需要把上面等式的后面部分做一个变形就可以得到&＃xff1a;

$p(x)&＃61;\frac{k/V}{n}&＃61;\frac{P}{V}&＃61;\frac{\int_{R}p(x&＃39;)dx&＃39;}{V} &＃61; \frac{\int_{R}p(x&＃39;)dx&＃39;}{\int_Rx}$

现在来看这里得到的理论结果&＃xff1a;假设有一系列包含x的区域 $R_1,R_2,R_3,...R_n$ ,对 $R_1$ 采用一个样本进行估计&＃xff0c;对 $R_2$ 采用两个样本进行估计&＃xff0c;对 $R_n$ 采用n个样本进行估计&＃xff0c;也就是逐渐增加样本个数的方式来构建区域。 $V_n$ 为 $R_n$ 的体积&＃xff0c; $\hat{p_n}(x)&＃61;\frac{k_n}{NV_n}$ 为 $p(x)$ 的第n次估计&＃xff0c;有下面的结论&＃xff1a;

$\lim_{n\to \infty}V_n &＃61; 0$

$\lim_{n\to \infty}k_n &＃61; \infty$

$\lim_{n\to \infty}\frac{k_n}{n} &＃61; 0$

则&＃xff0c; $\hat{p_n}(x)$ 收敛于 ${p_n}(x)}$ 两种选择方法

选择 $V_n$ 比如 $V_n &＃61; \frac{1}{\sqrt{n}}$ 同时对 $k_n$ 和 $\frac{k_n}{n}$ 加限制以保障收敛,此法称为Parzen窗方法
选择 $k_n$ 比如 $k_n &＃61; \frac{1}{\sqrt{n}}$ , $V_n$ 为正好包含x的 $k_n$ 个近邻&＃xff0c;此法为 $k_N$ 近邻估计

Parzen 窗方法

概率密度的估计公式为&＃xff1a; $\hat{p_n}(x)&＃61;\frac{k_n}{NV_n}$ &＃xff0c;设区域 $R_n$ 是以 $h_N$ 为棱长的d维超立方体&＃xff0c;则立方体的体积为&＃xff1a; $V_N&＃61; h_N^d$

定义一个窗函数&＃xff0c; $\varphi(x)&＃61;\left\{\begin{matrix}1,\begin{vmatrix}u_j\end{vmatrix}\leqslant 1/2,j&＃61;1,2,...,d\\0,other\end{matrix}\right$

求出落入超立方体的样本个数
如果某一样本 $x_i$ 落入该超立方体&＃xff0c;则有 $\varphi(\frac{x-x_i}{h_N})&＃61;1$ ,否则 $\varphi(\frac{x-x_i}{h_N})&＃61;0$ 落入该立方体的样本数 $k_n&＃61;\sum_{i&＃61;1}^{N}\varphi(\frac{x-x_i}{h_N})$ 点x的概率密度为&＃xff1a; $\hat{p_n}(x)&＃61;\frac{k_n}{NV_n} &＃61; \frac{1}{N}\sum_{i&＃61;1}^{N}\frac{1}{V_n}\varphi(\frac{x-x_i}{h_N})$

现在我们来对比高斯混合模型和parzen 窗方法的公式

$f(x)&＃61;\sum_{k&＃61;0}^{N}w_kp_k(x)$
$f(x)&＃61;\frac{1}{N}\sum_{i&＃61;1}^{N}\frac{1}{V_n}\varphi(\frac{x-x_i}{h_N})$

可以看出&＃xff0c;有两个地方不同&＃xff0c;第一&＃xff0c;窗的选择不同&＃xff0c;Parzen的选择有更明确的物理意义&＃xff0c;高斯混合模型的窗是基于函数逼近理论选择出来的&＃xff0c;第二&＃xff0c;系数不同&＃xff0c;高斯混合模型需要数据来训练得出系数&＃xff0c;Parzen 窗方法有明确的物理意义。其实如果Parzen 选择高斯窗口&＃xff0c;样子看起来更像高斯混合模型。一般来说&＃xff0c;高斯混合模型更多的用于分类&＃xff0c;Parzen等KDE方法更多的用于概率密度的估计。两个方法的意义不一样。

引用 http://www.doc88.com/p-8109915473355.html
http://www.doc88.com/p-8059993777655.html

推荐阅读

api
GetWindowLong函数

今天在看一个代码里头写了GetWindowLong(hwnd,0)，我当时就有点费解，靠，上网搜索函数原型说明，死活找不到第 ... [详细]

蜡笔小新 2023-12-14 17:58:15
api
Monkey《大话移动——Android与iOS应用测试指南》的预购信息发布啦！

Monkey《大话移动——Android与iOS应用测试指南》的预购信息已经发布，可以在京东和当当网进行预购。感谢几位大牛给出的书评，并呼吁大家的支持。明天京东的链接也将发布。 ... [详细]

蜡笔小新 2023-12-14 18:57:09
api
CentOS7.0 U盘刻录工具使用方法详解

本文介绍了使用CentOS7.0 U盘刻录工具进行安装的详细步骤，包括使用USBWriter工具刻录ISO文件到USB驱动器、格式化USB磁盘、设置启动顺序等。通过本文的指导，用户可以轻松地使用U盘安装CentOS7.0操作系统。 ... [详细]

蜡笔小新 2023-12-14 18:55:14
api
EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析

本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程，并分析了其所需的资源容量。通过解决错误提示和调整内存大小，成功存储了波形数据。然后，讨论了储存环逐束团信号的意义，以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大，每天需要近250G，一年需要90T。然而，储存环逐束团信号具有重要意义，可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]

蜡笔小新 2023-12-14 17:43:56
api
Nginx使用（server参数配置）

本文介绍了Nginx的使用，重点讲解了server参数配置，包括端口号、主机名、根目录等内容。同时，还介绍了Nginx的反向代理功能。 ... [详细]

蜡笔小新 2023-12-14 17:08:34
go
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
go
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
go
如何去除Win7快捷方式的箭头

本文介绍了如何去除Win7快捷方式的箭头的方法，通过生成一个透明的ico图标并将其命名为Empty.ico，将图标复制到windows目录下，并导入注册表，即可去除箭头。这样做可以改善默认快捷方式的外观，提升桌面整洁度。 ... [详细]

蜡笔小新 2023-12-14 16:17:05
go
AJAX的POST请求及实现数据修改功能的方法

本文介绍了使用AJAX的POST请求实现数据修改功能的方法。通过ajax-post技术，可以实现在输入某个id后，通过ajax技术调用post.jsp修改具有该id记录的姓名的值。文章还提到了AJAX的概念和作用，以及使用async参数和open()方法的注意事项。同时强调了不推荐使用async=false的情况，并解释了JavaScript等待服务器响应的机制。 ... [详细]

蜡笔小新 2023-12-14 16:12:01
go
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
python
90后程序员的职业发展之路：从年薪3w到30w的经验分享

本文是一位90后程序员分享的职业发展经验，从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光，包括与朋友一起玩DOTA的回忆，并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队，如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验，作者希望能够给其他程序员提供一些职业发展的思路和启示。 ... [详细]

蜡笔小新 2023-12-14 15:22:09
缓存
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
缓存
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
python
Alink回归预测的不完善问题及期待

本文讨论了Alink回归预测的不完善问题，指出目前主要针对Python做案例，对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法，以及Maven的相关知识。最后，对Alink回归预测的未来发展提出了期待。 ... [详细]

蜡笔小新 2023-12-14 14:25:33
python
Oracle Database 10g许可授予信息及高级功能详解

本文介绍了Oracle Database 10g许可授予信息及其中的高级功能，包括数据库优化数据包、SQL访问指导、SQL优化指导、SQL优化集和重组对象。同时提供了详细说明，指导用户在Oracle Database 10g中如何使用这些功能。 ... [详细]

蜡笔小新 2023-12-14 13:12:10

mobiledu2502889521

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章