当前位置: 开发笔记 > 编程语言 > 正文

机器学习：KNN-近邻算法

作者：mobiledu2502862777 | 来源：互联网 | 2023-10-12 20:45

一、理论知识1、K近邻（k-NearestNeighbor，简称KNN）学习是一种常用的监督学习。工作机制：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后

一、理论知识

1、K近邻（k-Nearest Neighbor，简称KNN）学习是一种常用的监督学习。

工作机制：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个的信息来进行预测。且通常使用“投票法”。

2、以电影类型举例，现在已知部分电影的属性和分类，想要预测未知电影的分类。

　　我们可以计算未知电影和其它电影的属性距离，这里直接采用几何距离（Euclidean Distance），即把每个属性化为不同维度的坐标，再利用距离公式

　　计算结束后，递增排序，可以找到k个最近的样本。因为要采用“投票法”，即满足少数服从多数原则，所以K的取值一般为奇数。这里假设k=3，则最靠近的3个都为爱情电影，所以判断未知电影为爱情电影。

3、KNN算法伪码描述：

　　(1) 计算已知类别数据集中的点与当前点之间的距离；

　　(2) 按照距离递增次序排序；

　　(3) 选取与当前点距离最小的k个点；

　　(4) 确定前k个点所在类别的出现频率；

　　(5) 返回前k个点出现频率最高的类别作为当前点的预测分类

4、优点：简单；易于理解；通过对K的选择可具备丢噪音数据的健壮性

　缺点：（1）需要大量空间储存所有已知实例

　　　　（2）算法执行效率低（需要比较所有已知实例与要分类的实例）

　　（3）当其样本分布不平衡时，比如其中一类样本过大（实例数量过多）占主导的时候，新的未知实例容易被归类为这个主导样本，因为这类样本实例的数量过大，但这个新的未知实例并未接近目标样本。

　　　　缺点（3）的意思是，如图中的Y点，黑圈代表其k的取值，即黑圈内的点都是要进行投票的数据点。通过观察会发现Y显然与红点更近，然而因为紫色点在这个圈里数目更多，Y点就会被认为是紫色。对于这个缺点，通常我们用权重的方法改善，根据距离d改变权重，例如1/d，这样就能让离目标点近的数据点的权重更大一点，优化算法。

二、代码实现

　　调用sklearn库中KNN算法分析著名的iris数据

 1 from sklearn import neighbors
 2 from sklearn import datasets
 3 
 4 knn = neighbors.KNeighborsClassifier()
 5 iris = datasets.load_iris()
 6 
 7 knn.fit(iris.data, iris.target)                          # 建立KNN模型，输入特征值和分类结果
 8 predictedLabel = knn.predict([[6.3, 1.2, 5.2, 1.6]])
 9 
10 print("predictedLabel is :"+ str(predictedLabel))

predictedLabel is :[1]

　　有现成的库调用起来很方便，当然也可以自己写对应的算法，下面是KNN的算法。

 1 def classify0(inX, dataSet, labels, k):                  # KNN算法
 2     dataSetSize = dataSet.shape[0]
 3     diffMat = tile(inX, (dataSetSize,1)) - dataSet       #计算两个点的空间距离
 4     sqDiffMat = diffMat**2
 5     sqDistances = sqDiffMat.sum(axis=1)
 6     distances = sqDistances**0.5
 7     sortedDistIndicies = distances.argsort()
 8     classCount={}
 9     for i in range(k):                                   #选择距离最小的k个点
10         voteIlabel = labels[sortedDistIndicies[i]]
11         classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
12     sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)  # 按照第二个元素进行从小到大排序，最后返回发生频率最高的标签
13     return sortedClassCount[0][0]

三、参考资料

　　《机器学习》—— 周志华

　　《机器学习实战》—— Peter Harrington

ps:本人初学者，有错误欢迎指出。感谢。

推荐阅读

io
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新 2023-12-09 08:30:08
io
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
io
Linux重启网络命令实例及关机和重启示例教程

本文介绍了Linux系统中重启网络命令的实例，以及使用不同方式关机和重启系统的示例教程。包括使用图形界面和控制台访问系统的方法，以及使用shutdown命令进行系统关机和重启的句法和用法。 ... [详细]

蜡笔小新 2023-12-14 15:52:52
io
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
jsp
求解hdu 1003 java题目的动态规划优化方法

本文讨论了如何优化解决hdu 1003 java题目的动态规划方法，通过分析加法规则和最大和的性质，提出了一种优化的思路。具体方法是，当从1加到n为负时，即sum(1,n)sum(n,s)，可以继续加法计算。同时，还考虑了两种特殊情况：都是负数的情况和有0的情况。最后，通过使用Scanner类来获取输入数据。 ... [详细]

蜡笔小新 2023-12-14 13:11:00
io
Open judge C16H: Magical Balls 快速幂+逆元问题解析

本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法，并给出了问题的解析和解决方法。详细介绍了问题的背景和规则，并给出了相应的算法解析和实现步骤。通过本文的解析，读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]

蜡笔小新 2023-12-14 12:03:27
io
VB.NET在线急等问题解决方法，如何统计数据库字段下的数据并显示在文本框里？

本文介绍了一个在线急等问题解决方法，即如何统计数据库中某个字段下的所有数据，并将结果显示在文本框里。作者提到了自己是一个菜鸟，希望能够得到帮助。作者使用的是ACCESS数据库，并且给出了一个例子，希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句，得到的结果是650，但不知道如何得到560。希望能够得到解决方案。 ... [详细]

蜡笔小新 2023-12-13 15:15:30
io
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
io
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
format
Kotlin中扩展函数的惯用用法及其合理性

本文讨论了Kotlin中扩展函数的一些惯用用法以及其合理性。作者认为在某些情况下，定义扩展函数没有意义，但官方的编码约定支持这种方式。文章还介绍了在类之外定义扩展函数的具体用法，并讨论了避免使用扩展函数的边缘情况。作者提出了对于扩展函数的合理性的质疑，并给出了自己的反驳。最后，文章强调了在编写Kotlin代码时可以自由地使用扩展函数的重要性。 ... [详细]

蜡笔小新 2023-12-12 19:17:21
io
如何更高效地使用IF函数来获取输出列表

本文讨论了如何使用IF函数从基于有限输入列表的有限输出列表中获取输出，并提出了是否有更快/更有效的执行代码的方法。作者希望了解是否有办法缩短代码，并从自我开发的角度来看是否有更好的方法。提供的代码可以按原样工作，但作者想知道是否有更好的方法来执行这样的任务。 ... [详细]

蜡笔小新 2023-12-12 17:32:28
python
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48
io
Which is more efficient: char str[] or char *str?

This article discusses the efficiency of using char str[] and char *str and whether there is any reason to prefer one over the other. It explains the difference between the two and provides an example to illustrate their usage. ... [详细]

蜡笔小新 2023-12-12 10:13:35
io
Android自定义控件绘图篇之Paint函数大汇总

本文介绍了Android自定义控件绘图篇中的Paint函数大汇总，包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数，可以更好地掌握Paint的用法。 ... [详细]

蜡笔小新 2023-12-10 23:11:57
io
OpenMap教程4 – 图层概述

本文介绍了OpenMap教程4中关于地图图层的内容，包括将ShapeLayer添加到MapBean中的方法，OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外，还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]

蜡笔小新 2023-12-09 19:26:56

mobiledu2502862777

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章