当前位置: 开发笔记 > 后端 > 正文

8.1聚类(Clustering)K-means算法

作者：我是王美慧 | 来源：互联网 | 2023-07-08 22:20

归类：聚类(clustering)属于非监督学习(unsupervisedlearning)无类别标记(classlabel)举例：

归类：
聚类(clustering) 属于非监督学习 (unsupervised learning)
无类别标记(class label)
举例：
K-means 算法：
3.1 Clustering 中的经典算法，数据挖掘十大经典算法之一
3.2 算法接受参数 k ；然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一
聚类中的对象相似度较高；而不同聚类中的对象相似度较小。
3.3 算法思想：
以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心
的值，直至得到最好的聚类结果
3.4 算法描述：
```
  （1）适当选择c个类的初始中心；
  （2）在第k次迭代中，对任意一个样本，求其到c各中心的距离，将该样本归到距离最短的中心所在     
          的类；
  （3）利用均值等方法更新该类的中心值；
  （4）对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，
           否则继续迭代。
```
3.5 算法流程：

输入：k, data[n];
（1）选择k个初始中心点，例如c[0]=data[0],…c[k-1]=data[k-1];
（2）对于data[0]….data[n], 分别与c[0]…c[k-1]比较，假定与c[i]差值最少，就标记为i;
（3）对于所有标记为i点，重新计算c[i]={ 所有标记为i的data[j]之和}/标记为i的个数；
（4）重复(2)(3),直到所有c[i]值的变化小于给定阈值。
举例：
```
   停止
```
优点：速度快，简单
缺点：最终结果跟初始点选择相关，容易陷入局部最优，需直到k值

推荐阅读

数据挖掘
python可以做什么工作好Python入门后，想要从事自由职业可以做哪方面工作？

Python入门后，想要从事自由职业可以做哪方面工作？1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ... [详细]

蜡笔小新 2023-10-17 16:29:09
数据挖掘
数据结构与算法的重要性及基本概念、存储结构和算法分析

数据结构与算法在编程领域中的重要性不可忽视，无论从事何种岗位，都需要掌握数据结构和算法。本文介绍了数据结构与算法的基本概念、存储结构和算法分析。其中包括线性结构、树结构、图结构、栈、队列、串、查找、排序等内容。此外，还介绍了图论算法、贪婪算法、分治算法、动态规划、随机化算法和回溯算法等高级数据结构和算法。掌握这些知识对于提高编程能力、解决问题具有重要意义。 ... [详细]

蜡笔小新 2023-12-09 10:17:45
数据挖掘
plt python 画直线_机器学习干货，一步一步通过Python实现梯度下降的学习

GradientDescent-梯度下降梯度下降法(英语：Gradientdescent)是一个一阶最优化算法，通常也称为最速下降法。要使用梯度下降法找 ... [详细]

蜡笔小新 2023-10-17 14:30:10
数据挖掘
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
数据挖掘
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
php
机器学习算法代码实现——线性回归

前言：拿到一个案例，去分析：它该是做分类还是做回归，哪部分该做分类，哪部分该做回归，哪部分该做优化，它们的目标值分别是什么。再挑影响因素，哪些和分类有关的影响因素，哪些和回归有关的 ... [详细]

蜡笔小新 2023-10-17 19:58:52
php
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
php
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
php
支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度

介绍在我们学习机器算法的时候，可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器，但你要明白这些兵器是需要在合适的时间合理 ... [详细]

蜡笔小新 2023-10-17 16:21:13
php
如何搭建服务器环境php(2023年最新解答)

导读：本篇文章编程笔记来给大家介绍有关如何搭建服务器环境php的相关内容，希望对大家有所帮助，一起来看看吧。本文目录一览：1、怎么搭建p ... [详细]

蜡笔小新 2023-10-17 15:34:53
php
【Python学习】基于 KNN 模型的葡萄酒种类预测

算法原理K最近邻(KNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。给定测试样本，基于某种距离度量找出训练集中与其最靠近的K个训练样本，然后 ... [详细]

蜡笔小新 2023-10-17 12:17:00
php
OAuth2.0指南

引言OAuth2.0是一种应用之间彼此访问数据的开源授权协议。比如，一个游戏应用可以访问Facebook的用户数据，或者一个基于地理的应用可以访问Foursquare的用户数据等。 ... [详细]

蜡笔小新 2023-10-17 11:24:37
php
GeoTrust证书和Comodo证书的区别

　　一、GeoTrust证书的相关介绍　　　　GeoTrust成立于2001年，其到2006年就占领了全球市场25%的市场份额，所以GeoTrust是目前全球第二大的数字证书颁发机 ... [详细]

蜡笔小新 2023-10-17 11:05:44
php
人工智能推理能力与假设检验

最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发，逻辑推理，发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]

蜡笔小新 2023-10-17 10:01:37
php
马尔可夫决策过程Markov Decision Process,MDPKintoki

Originalurl:http:www.tuicool.comarticlesb6BjAva1.马尔可夫模型的几类子模型我想大家一定听说过马尔科夫链(MarkovChain)& ... [详细]

蜡笔小新 2023-10-17 08:36:47

我是王美慧

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章