热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

聚类论文分析-AHybridApproachtoClusteringinBigData

谈谈对论文AHybridApproachtoClusteringinBigData的理解在这篇论文中作者提出了一种新的聚类方法,叫clusiVAT算法,并且与k-me

谈谈对论文A Hybrid Approach to Clustering in Big Data的理解
在这篇论文中作者提出了一种新的聚类方法,叫clusiVAT算法,并且与 k-means, single pass k-means, online k-means,和clustering using representatives (CURE) 等算法进行了对比。

对聚类的理解

聚类(clustrering)是一种无监督学习方法,主要分成原型聚类(k均值算法,LVQ算法(学习向量量化算法)、高斯混合聚类)密度聚类(DBSCAN算法)、层次聚类(single-linkage算法)。
理解这篇论文需要一些前提知识:

论文中提到的常见聚类算法

常见的由层次聚类算法(hierarchical clustering),基于簇中心的(centroid-based clustering)聚类算法等。作者用以下四种算法作为参考,来体现clusiVAT算法的优秀之处。
(1):k-means算法
(2):online k-means算法
(3)pass k-means算法
(4)clustering using representatives(CURE)
一些基础知识:
(1) single-linkage clustering,一种层次聚类方法,基于bottom up的聚类方式,聚类时每次将元素最接近的两个cluster归为一类。

论文的主要成就

(1)与上述四种算法在大数据集下比较了clusiVAT算法的性能
(2)在24个 2-D数据集上展示了clusiVAT算法的CPU time和partition accuracy(PA).
(3)为了体现clusiVAT算法对无标签样本的内部聚类性能,作者用Surry大学的indoor office environment energy usage data来做了测试,发现clusiVAT算法有最大的Dunn指数(在clusiVAT算法和其他4种算法之中)。
(4)做Friedman test

clusiVAT算法

clusiVAT算法基于reordered dissimilarity images(RDIs),也叫作cluster heat maps,那到底是什么意思呢?在图像中,VAT实际上是对由像素组成的非相似矩阵D进行重排序(按照modified MST方法)形成矩阵D*,形成不同的簇,这些簇在图像上看来就像一块斑(dark blocks).
首先来看VAT算法:

按照论文的意思,D*是由D通过modified MST生成的,如图:
=
标识黄线的部分就是MST的核心了,把最小权值的边保留下来,由于对生成最小生成树的Prim算法理解不深,黄线部分伪代码还是不理解。。。

iVAT算法改进了VAT算法,有更小的时间复杂度O(n^2)
siVAT算法在iVAT和VAT算法的基础上改进得可以处理很大的数据集。


推荐阅读
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • Android工程师面试准备及设计模式使用场景
    本文介绍了Android工程师面试准备的经验,包括面试流程和重点准备内容。同时,还介绍了建造者模式的使用场景,以及在Android开发中的具体应用。 ... [详细]
  • 本文介绍了解决Netty拆包粘包问题的一种方法——使用特殊结束符。在通讯过程中,客户端和服务器协商定义一个特殊的分隔符号,只要没有发送分隔符号,就代表一条数据没有结束。文章还提供了服务端的示例代码。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 阿,里,云,物,联网,net,core,客户端,czgl,aliiotclient, ... [详细]
  • “你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • 本文详细介绍了相机防抖的设置方法和使用技巧,包括索尼防抖设置、VR和Stabilizer档位的选择、机身菜单设置等。同时解释了相机防抖的原理,包括电子防抖和光学防抖的区别,以及它们对画质细节的影响。此外,还提到了一些运动相机的防抖方法,如大疆的Osmo Action的Rock Steady技术。通过本文,你将更好地理解相机防抖的重要性和使用技巧,提高拍摄体验。 ... [详细]
  • JVM 学习总结(三)——对象存活判定算法的两种实现
    本文介绍了垃圾收集器在回收堆内存前确定对象存活的两种算法:引用计数算法和可达性分析算法。引用计数算法通过计数器判定对象是否存活,虽然简单高效,但无法解决循环引用的问题;可达性分析算法通过判断对象是否可达来确定存活对象,是主流的Java虚拟机内存管理算法。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 软件测试对于减少程序BUG有多大帮助?有经验的程序员通常认为测试与代码同等重要,测试可以减少代码变更或扩展的不确定性。测试应该方便阅读简单且能快速运行 ... [详细]
author-avatar
手机用户2502885711
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有