热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

聚类算法评价指标——基于DBI指数的k-means算法(python代码)

本文主要分享【diff分类算法】,技术文章【聚类算法评价指标——基于DBI指数的k-means算法(python代码)】为【仙女不扎马尾.】投稿,如果你遇到时间序列的相似性分析相关问题,本文相关知识或

本文主要分享【diff分类算法】,技术文章【聚类算法评价指标——基于DBI指数的k-means算法(python代码)】为【仙女不扎马尾.】投稿,如果你遇到时间序列的相似性分析相关问题,本文相关知识或能到你。

diff分类算法

文章目录 1 DBI指数介绍2 优点3 定义值3.1 S i S_i Si:表示第i类中,数据点的分散程度3.2 M i j M_{ij} Mij:表示第i类与第j类的距离3.3 R i j R_{ij} Rij:表示第i类和第j类的相似度3.4 R ‾ \overline{R} R:DBI指数,越小分类效果越好 4 这篇博文公式挺多挺费事的,觉得有用的话可以点击收藏关注~~点赞是我更新的无限动力!!5 python代码实现

参考文章:
https://blog.csdn.net/a841454735/article/details/80237257
http://blog.sina.com.cn/s/blog_65c8baf901016flh.html

1 DBI指数介绍

Davies-Bouldin指数(DBI)(戴维森堡丁指数),又称为分类适确性指标,是由大卫L·Davies和唐纳德·Bouldin提出的一种评估聚类算法优劣的指标。

属于内部指标,内部指标是利用数据集的固有特征和量值来评价一个聚类算法的结果。

2 优点

基于DBI指数的k-means算法无需指定K的值,而是给出K的范围,由算法自动确定最适合的K值。

3 定义值 3.1 S i S_i Si:表示第i类中,数据点的分散程度

S i = { 1 T i ∑ j = 1 T i ∣ X j − A i ∣ q } 1 q S_i=\{\frac{1}{T_i}\sum_{j=1}^{T_i}|X_j-A_i|^q\}^{\frac{1}{q}} Si={ Ti1j=1TiXjAiq}q1

X j X_j Xj:第i类中第j个数据点
A i A_i Ai:第i类的中心数据点

当q=1:表示各点到中心距离的均值
当q=2:表示各点到中心距离的标准差
【用来衡量离散程度】

3.2 M i j M_{ij} Mij:表示第i类与第j类的距离

M i j = ∑ k = 1 N ∣ a k i − a k j ∣ p } 1 p M_{ij}=\sum_{k=1}^{N}|a_{ki}-a_{kj}|^p\}^{\frac{1}{p}} Mij=k=1Nakiakjp}p1

a k i a_{ki} aki:表示第i类的中心点的第k个属性的值

当p=1:表示各点到中心距离的均值
当p=2:表示各点到中心距离的标准差
【用来衡量离散程度】

3.3 R i j R_{ij} Rij:表示第i类和第j类的相似度

R i j = S i + S j M i j R_{ij}=\frac{S_i+S_j}{M_{ij}} Rij=MijSi+Sj

3.4 R ‾ \overline{R} R:DBI指数,越小分类效果越好 先计算 R i R_i Ri,i=1,2,3…N
即求类i与其他类的最大相似值。

R i = m a x ( R i 1 , R i 2 , . . . R i j , . . . R i N ) , i ≠ j R_i=max(R_{i1},R_{i2}, ...R_{ij}, ...R_{iN}) ,i≠j Ri=max(Ri1,Ri2,...Rij,...RiN)i=j

再计算每个类的最大相似度的均值,得到 R ‾ \overline{R} R,即DBI指数。
D B I = R ‾ = 1 N ∑ i = 1 N R i DBI =\overline{R}=\frac{1}{N}\sum_{i=1}^{N}R_i DBI=R=N1i=1NRi

分类个数的不同(N不同),会导致 R ‾ \overline{R} R不同, R ‾ \overline{R} R值越小,分类效果越好。

4 这篇博文公式挺多挺费事的,觉得有用的话可以点击收藏关注~~点赞是我更新的无限动力!! 5 python代码实现 代码来自参考博文里面的博主写的~
def vectorDistance(v1, v2):
    """ this function calculates de euclidean distance between two vectors. """
    sum = 0
    for i in range(len(v1)):
        sum += (v1[i] - v2[i]) ** 2
    return sum ** 0.5


def compute_Si(i, x, clusters, nc):
    norm_c = nc
    s = 0
    for t in x[i]:
        s += vectorDistance(t, clusters)
    return s / norm_c


def compute_Rij(i, j, x, clusters, nc):
    Mij = vectorDistance(clusters[i], clusters[j])
    Rij = (compute_Si(i, x, clusters[i], nc) + compute_Si(j, x, clusters[j], nc)) / Mij
    return Rij


def compute_Di(i, x, clusters, nc):
    list_r = []
    for j in range(nc):
        if i != j:
            temp = compute_Rij(i, j, x, clusters, nc)
            list_r.append(temp)
    return max(list_r)


def compute_DB_index(x, clusters, nc):
    sigma_R = 0.0
    for i in range(nc):
        sigma_R = sigma_R + compute_Di(i, x, clusters, nc)
    DB_index = float(sigma_R) / float(nc)
    return DB_index

本文《聚类算法评价指标——基于DBI指数的k-means算法(python代码)》版权归仙女不扎马尾.所有,引用聚类算法评价指标——基于DBI指数的k-means算法(python代码)需遵循CC 4.0 BY-SA版权协议。


推荐阅读
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 使用nodejs爬取b站番剧数据,计算最佳追番推荐
    本文介绍了如何使用nodejs爬取b站番剧数据,并通过计算得出最佳追番推荐。通过调用相关接口获取番剧数据和评分数据,以及使用相应的算法进行计算。该方法可以帮助用户找到适合自己的番剧进行观看。 ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • 目录实现效果:实现环境实现方法一:基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]
  • android listview OnItemClickListener失效原因
    最近在做listview时发现OnItemClickListener失效的问题,经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效,还会导致单击后listview每个item的背景改变,使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况,并提供了解决方法。 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 成功安装Sabayon Linux在thinkpad X60上的经验分享
    本文分享了作者在国庆期间在thinkpad X60上成功安装Sabayon Linux的经验。通过修改CHOST和执行emerge命令,作者顺利完成了安装过程。Sabayon Linux是一个基于Gentoo Linux的发行版,可以将电脑快速转变为一个功能强大的系统。除了作为一个live DVD使用外,Sabayon Linux还可以被安装在硬盘上,方便用户使用。 ... [详细]
  • [大整数乘法] java代码实现
    本文介绍了使用java代码实现大整数乘法的过程,同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率,并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]
  • 电销机器人作为一种人工智能技术载体,可以帮助企业提升电销效率并节省人工成本。然而,电销机器人市场缺乏统一的市场准入标准,产品品质良莠不齐。创业者在代理或购买电销机器人时应注意谨防用录音冒充真人语音通话以及宣传技术与实际效果不符的情况。选择电销机器人时需要考察公司资质和产品品质,尤其要关注语音识别率。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • 本文介绍了C++中省略号类型和参数个数不确定函数参数的使用方法,并提供了一个范例。通过宏定义的方式,可以方便地处理不定参数的情况。文章中给出了具体的代码实现,并对代码进行了解释和说明。这对于需要处理不定参数的情况的程序员来说,是一个很有用的参考资料。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • 本文介绍了P1651题目的描述和要求,以及计算能搭建的塔的最大高度的方法。通过动态规划和状压技术,将问题转化为求解差值的问题,并定义了相应的状态。最终得出了计算最大高度的解法。 ... [详细]
author-avatar
莺妈
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有