当前位置: 开发笔记 > 编程语言 > 正文

机器学习：kNN算法（也叫k近邻算法）

作者：庄乐星 | 来源：互联网 | 2023-10-11 10:30

一、kNN算法基础#kNN：k-NearestNeighboors#多用于解决分类问题1）特点：是机器学习中唯一一个不需要训练过程的算法，可以别认为是没有模型的算法，也可以认为训

一、kNN算法基础

# kNN：k-Nearest Neighboors

# 多用于解决分类问题

　1）特点：

是机器学习中唯一一个不需要训练过程的算法，可以别认为是没有模型的算法，也可以认为训练数据集就是模型本身；
思想极度简单；
应用数学知识少（近乎为零）；
效果少；
可以解释机械学习算法使用过程中的很多细节问题
更完整的刻画机械学习应用的流程；

　2）思想：

根本思想：两个样本，如果它们的特征足够相似，它们就有更高的概率属于同一个类别；
问题：根据现有训练数据集，判断新的样本属于哪种类型；
方法/思路：

求新样本点在样本空间内与所有训练样本的欧拉距离；
对欧拉距离排序，找出最近的k个点；
对k个点分类统计，看哪种类型的点数量最多，此类型即为对新样本的预测类型；

　3）代码实现过程：

示例代码：
import numpy as np
import matplotlib.pyplot as plt
raw_data_x = [[3.3935, 2.3312],
[3.1101, 1.7815],
[1.3438, 3.3684],
[3.5823, 4.6792],
[2.2804, 2.8670],
[7.4234, 4.6965],
[5.7451, 3.5340],
[9.1722, 2.5111],
[7.7928, 3.4241],
[7.9398, 0.7916]]
raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
# 训练集样本的data
x_train = np.array(raw_data_x)
# 训练集样本的label
y_train = np.array(raw_data_y)
# 1）绘制训练集样本与新样本的散点图
# 根据样本类型（0、1两种类型），绘制所有样本的各特征点
plt.scatter(x_train[y_train == 0, 0], x_train[y_train == 0, 1], color = 'g')
plt.scatter(x_train[y_train == 1, 0], x_train[y_train == 1, 1], color = 'r')
# 新样本
x = np.array([8.0936, 3.3657])
# 将新样本的特征点绘制在训练集的样本空间
plt.scatter(x[0], x[1], color = 'b')
plt.show()
# 2）在特征空间中，计算训练集样本中的所有点与新样本的点的欧拉距离
from math import sqrt
# math模块下的sqrt函数：对数值开平方sqrt(number)
distances = []
for x_train in x_train:
d = sqrt(np.sum((x - x_train) ** 2))
distances.append(d)
# 也可以用list的生成表达式实现：
# distances = [sqrt(np.sum((x - x_train) ** 2)) for x_train in x_train]
# 3）找出距离新样本最近的k个点，并得到对新样本的预测类型
nearest = np.argsort(distances)
k = 6
# 找出距离最近的k个点的类型
topK_y = [y_train[i] for i in nearest[:k]]
# 根据类别对k个点的数量进行统计
from collections import Counter
votes = Counter(topK_y)
# 获取所需的预测类型：predict_y
predict_y = votes.most_common(1)[0][0]

封装好的Python代码：
import numpy as np
from math import sqrt
from collections import Counter
def kNN_classify(k, X_train, y_train, x):
assert 1 <= k <= X_train.shape[0],"k must be valid"
assert X_train.shape[0] == y_train.shape[0], \
"the size of X_train nust equal to the size of y_train"
assert X-train.shape[1] == x.shape[0],\
"the feature number of x must be equal to X_train"
distances = [sprt(np.sum((x_train - x) ** 2)) for x_train in X_train]
nearest = np.argsort(distances)
topK_y = [y_train[i] for i in nearest[:k]]
vates = Counter(topK_y)
return votes.most_common(1)[0][0]

　　　# assert：表示声明；此处对4个参数进行限定；

代码中的其它Python知识：

math模块下的sprt()方法：对数开平方；
from math import sqrt
print(sprt(9))
# 3
collections模块下的Counter()方法：对列表中的数据进行分类统计，生产一个Counter对象;
from collections import Counter
my_list = [0, 0, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3]
print(Counter(my_list))
# 一个Counter对象：Counter({0: 2, 1: 3, 2: 4, 3: 5})
Counter对象的most_common()方法：Counter.most_common(n)，返回Counter对象中数量最多的n种数据，返回一个list，list的每个元素为一个tuple；
from collections import Counter
my_list = [0, 0, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3]
votes = Counter(my_list)
print(votes.most_common(2))
# [(3, 5), (2, 4)]

二、总结

　1）k近邻算法的作用

　　1、解决分类问题，而且天然可以解决多分类问题；

　　2、也可以解决回归问题，其中scikit-learn库中封装的KNeighborsRegressor，就是解决回归问题；

　2）缺点

缺点1：效率低下

原因：如果训练集有m个样本，n个特征，预测每一个新样本，需要计算与m个样本的距离，每计算一个距离，要使用n个时间复杂度，则计算m个样本的距离，使用m * n个时间复杂度；
算法的时间复杂度：反映了程序执行时间随输入规模增长而增长的量级，在很大程度上能很好反映出算法的优劣与否。
算法的时间复杂度与空间复杂度，参考：算法的时间复杂度和空间复杂度
可以通过树结构对k近邻算法优化：KD-Tree、Ball-Tree，但即便进行优化，效率依然不高；

缺点2：高度数据相关

机器学习算法，就是通过喂给数据进行预测，理论上所有机器学习算法都是高度数据相关；
k近邻算法对outlier更加敏感：比如三近邻算法，在特征空间中，如果在需要预测的样本周边，一旦有两个样本出现错误值，就足以使预测结果错误，哪怕在更高的范围里，在特征空间中有大量正确的样本；

缺点3：预测的结果不具有可解释性

按k近邻算法的逻辑：找到和预测样本比较近的样本，就得出预测样本和其最近的这个样本类型相同；
问题：为什么预测的样本类型就是离它最近的样本的类型？
很多情况下，只是拿到预测结果是不够的，还需要对此结果有解释性，进而通过解释推广使用，或者制作更多工具，或者以此为基础发现新的理论/规则，来改进生产活动中的其它方面——这些是kNN算法做不到的；

缺点4：维数灾难

维数灾难：随着维度的增加，“看似相近”的两个点之间的距离越来越大；
例：[0, 0, 0, &＃8230;0]和[1, 1, 1,&＃8230;1]，按欧拉定理计算，元素个数越多，两点距离越大；
方案：降维（PCA）；

三、使用机器学习算法的流程

《机器学习：k-NN算法（也叫k近邻算法）》

获取原始数据——数据分割——数据归一化——训练模型——预测

获取原始数据：一般可从scikit-learn库中调用——# 调用数据集的操作流程 机器学习：scikit-learn中算法的调用、封装并使用自己所写的算法
数据分割：一般按2 ：8进行分割——# 分割数据的代码实现过程、通过scikit-learn库分割数据的操作流程 机器学习：训练数据集、测试数据集
数据归一化：参见 机器学习：数据归一化（Scaler）
训练模型、模型预测： 机器学习：scikit-learn中算法的调用、封装并使用自己所写的算法

推荐阅读

text
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
python
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48
scala
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
copy
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
go
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
copy
[大整数乘法] java代码实现

本文介绍了使用java代码实现大整数乘法的过程，同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率，并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]

蜡笔小新 2023-12-13 11:21:32
get
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
python
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
get
开发笔记:加密&json&StringIO模块&BytesIO模块

篇首语：本文由编程笔记#小编为大家整理，主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识，希望对你有一定的参考价值。一、加密加密 ... [详细]

蜡笔小新 2023-12-14 15:18:35
get
Java容器中的compareto方法排序原理解析

本文从源码解析Java容器中的compareto方法的排序原理，讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点，回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录，展示了整个讲解过程。 ... [详细]

蜡笔小新 2023-12-14 13:53:31
get
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
get
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
get
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
get
OpenMap教程4 – 图层概述

本文介绍了OpenMap教程4中关于地图图层的内容，包括将ShapeLayer添加到MapBean中的方法，OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外，还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]

蜡笔小新 2023-12-09 19:26:56
go
[echarts] 同指标对比柱状图相关的知识介绍及应用示例

本文由编程笔记小编为大家整理，主要介绍了echarts同指标对比柱状图相关的知识，包括对比课程通过率最高的8个课程和最低的8个课程以及全校的平均通过率。文章提供了一个应用示例，展示了如何使用echarts制作同指标对比柱状图，并对代码进行了详细解释和说明。该示例可以帮助读者更好地理解和应用echarts。 ... [详细]

蜡笔小新 2023-12-09 10:02:11

庄乐星

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章