热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

机器学习:kNN算法(也叫k近邻算法)

一、kNN算法基础#kNN:k-NearestNeighboors#多用于解决分类问题1)特点:是机器学习中唯一一个不需要训练过程的算法,可以别认为是没有模型的算法,也可以认为训

一、kNN算法基础

# kNN:k-Nearest Neighboors

# 多用于解决分类问题

 1)特点:

  1. 是机器学习中唯一一个不需要训练过程的算法,可以别认为是没有模型的算法,也可以认为训练数据集就是模型本身;
  2. 思想极度简单;
  3. 应用数学知识少(近乎为零);
  4. 效果少;
  5. 可以解释机械学习算法使用过程中的很多细节问题
  6. 更完整的刻画机械学习应用的流程;

 2)思想:

  • 根本思想:两个样本,如果它们的特征足够相似,它们就有更高的概率属于同一个类别;
  • 问题:根据现有训练数据集,判断新的样本属于哪种类型
  • 方法/思路
  1. 求新样本点在样本空间内与所有训练样本的欧拉距离;
  2. 对欧拉距离排序,找出最近的k个点;
  3. 对k个点分类统计,看哪种类型的点数量最多,此类型即为对新样本的预测类型;

 3)代码实现过程:

  • 示例代码:

    import numpy as np
    import matplotlib.pyplot as plt
    raw_data_x
    = [[3.3935, 2.3312],
    [
    3.1101, 1.7815],
    [
    1.3438, 3.3684],
    [
    3.5823, 4.6792],
    [
    2.2804, 2.8670],
    [
    7.4234, 4.6965],
    [
    5.7451, 3.5340],
    [
    9.1722, 2.5111],
    [
    7.7928, 3.4241],
    [
    7.9398, 0.7916]]
    raw_data_y
    = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
    # 训练集样本的data
    x_train = np.array(raw_data_x)
    # 训练集样本的label
    y_train = np.array(raw_data_y)
    # 1)绘制训练集样本与新样本的散点图
    #
    根据样本类型(0、1两种类型),绘制所有样本的各特征点
    plt.scatter(x_train[y_train == 0, 0], x_train[y_train == 0, 1], color = 'g')
    plt.scatter(x_train[y_train
    == 1, 0], x_train[y_train == 1, 1], color = 'r')
    # 新样本
    x = np.array([8.0936, 3.3657])
    # 将新样本的特征点绘制在训练集的样本空间
    plt.scatter(x[0], x[1], color = 'b')
    plt.show()
    # 2)在特征空间中,计算训练集样本中的所有点与新样本的点的欧拉距离
    from math import sqrt
    # math模块下的sqrt函数:对数值开平方sqrt(number)
    distances = []
    for x_train in x_train:
    d
    = sqrt(np.sum((x - x_train) ** 2))
    distances.append(d)
    # 也可以用list的生成表达式实现:
    #
    distances = [sqrt(np.sum((x - x_train) ** 2)) for x_train in x_train]
    # 3)找出距离新样本最近的k个点,并得到对新样本的预测类型
    nearest = np.argsort(distances)
    k
    = 6
    # 找出距离最近的k个点的类型
    topK_y = [y_train[i] for i in nearest[:k]]
    # 根据类别对k个点的数量进行统计
    from collections import Counter
    votes
    = Counter(topK_y)
    # 获取所需的预测类型:predict_y
    predict_y = votes.most_common(1)[0][0]

 

  • 封装好的Python代码

    import numpy as np
    from math import sqrt
    from collections import Counter
    def kNN_classify(k, X_train, y_train, x):
    assert 1 <= k <= X_train.shape[0],"k must be valid"
    assert X_train.shape[0] == y_train.shape[0], \
    "the size of X_train nust equal to the size of y_train"
    assert X-train.shape[1] == x.shape[0],\
    "the feature number of x must be equal to X_train"
    distances
    = [sprt(np.sum((x_train - x) ** 2)) for x_train in X_train]
    nearest
    = np.argsort(distances)
    topK_y
    = [y_train[i] for i in nearest[:k]]
    vates
    = Counter(topK_y)
    return votes.most_common(1)[0][0]

    # assert:表示声明;此处对4个参数进行限定;

  • 代码中的其它Python知识:
  1. math模块下的sprt()方法:对数开平方;

    from math import sqrt
    print(sprt(9))
    # 3

  2. collections模块下的Counter()方法:对列表中的数据进行分类统计,生产一个Counter对象;

    from collections import Counter
    my_list
    = [0, 0, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3]
    print(Counter(my_list))
    # 一个Counter对象:Counter({0: 2, 1: 3, 2: 4, 3: 5})

  3. Counter对象的most_common()方法:Counter.most_common(n),返回Counter对象中数量最多的n种数据,返回一个list,list的每个元素为一个tuple;

    from collections import Counter
    my_list
    = [0, 0, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3]
    votes
    = Counter(my_list)
    print(votes.most_common(2))
    # [(3, 5), (2, 4)]

 

二、总结

 1)k近邻算法的作用

  1、解决分类问题,而且天然可以解决多分类问题;

  2、也可以解决回归问题,其中scikit-learn库中封装的KNeighborsRegressor,就是解决回归问题;

 2)缺点

  • 缺点1:效率低下
  1. 原因:如果训练集有m个样本,n个特征,预测每一个新样本,需要计算与m个样本的距离,每计算一个距离,要使用n个时间复杂度,则计算m个样本的距离,使用m * n个时间复杂度;
  2. 算法的时间复杂度:反映了程序执行时间随输入规模增长而增长的量级,在很大程度上能很好反映出算法的优劣与否。
  3. 算法的时间复杂度与空间复杂度,参考:算法的时间复杂度和空间复杂度
  4. 可以通过树结构对k近邻算法优化:KD-Tree、Ball-Tree,但即便进行优化,效率依然不高;

 

  • 缺点2:高度数据相关
  1. 机器学习算法,就是通过喂给数据进行预测,理论上所有机器学习算法都是高度数据相关;
  2. k近邻算法对outlier更加敏感:比如三近邻算法,在特征空间中,如果在需要预测的样本周边,一旦有两个样本出现错误值,就足以使预测结果错误,哪怕在更高的范围里,在特征空间中有大量正确的样本;

 

  • 缺点3:预测的结果不具有可解释性
  1. 按k近邻算法的逻辑:找到和预测样本比较近的样本,就得出预测样本和其最近的这个样本类型相同;
  2. 问题:为什么预测的样本类型就是离它最近的样本的类型?
  3. 很多情况下,只是拿到预测结果是不够的,还需要对此结果有解释性,进而通过解释推广使用,或者制作更多工具,或者以此为基础发现新的理论/规则,来改进生产活动中的其它方面——这些是kNN算法做不到的;

 

  • 缺点4:维数灾难
  1. 维数灾难:随着维度的增加,“看似相近”的两个点之间的距离越来越大;
  2. 例:[0, 0, 0, &#8230;0]和[1, 1, 1,&#8230;1],按欧拉定理计算,元素个数越多,两点距离越大;
  3. 方案:降维(PCA);

 

三、使用机器学习算法的流程

《机器学习:k-NN算法(也叫k近邻算法)》

  • 获取原始数据——数据分割——数据归一化——训练模型——预测
  1. 获取原始数据:一般可从scikit-learn库中调用——# 调用数据集的操作流程  机器学习:scikit-learn中算法的调用、封装并使用自己所写的算法
  2. 数据分割:一般按2 :8进行分割——# 分割数据的代码实现过程、通过scikit-learn库分割数据的操作流程  机器学习:训练数据集、测试数据集
  3. 数据归一化:参见  机器学习:数据归一化(Scaler)
  4. 训练模型、模型预测:  机器学习:scikit-learn中算法的调用、封装并使用自己所写的算法

 


推荐阅读
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 第四章高阶函数(参数传递、高阶函数、lambda表达式)(python进阶)的讲解和应用
    本文主要讲解了第四章高阶函数(参数传递、高阶函数、lambda表达式)的相关知识,包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念,并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说,本文将是一个不错的学习资料。 ... [详细]
  • 本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大,单机上运行高斯朴素贝叶斯模型会变得很慢,因此考虑使用Spark来加速运行。然而,Spark的MLlib并没有实现高斯朴素贝叶斯模型,因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式,并对具有多个特征和类别的模型进行了讨论。最后,作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
  • [大整数乘法] java代码实现
    本文介绍了使用java代码实现大整数乘法的过程,同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率,并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]
  • YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程
    本文介绍了关于人工智能、神经网络和深度学习的知识点,并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说,YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容,以及选择模型的优化思路。 ... [详细]
  • 本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数,可以方便地选择要打开或保存的图片文件,并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 个人学习使用:谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]
  • OpenMap教程4 – 图层概述
    本文介绍了OpenMap教程4中关于地图图层的内容,包括将ShapeLayer添加到MapBean中的方法,OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外,还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]
  • [echarts] 同指标对比柱状图相关的知识介绍及应用示例
    本文由编程笔记小编为大家整理,主要介绍了echarts同指标对比柱状图相关的知识,包括对比课程通过率最高的8个课程和最低的8个课程以及全校的平均通过率。文章提供了一个应用示例,展示了如何使用echarts制作同指标对比柱状图,并对代码进行了详细解释和说明。该示例可以帮助读者更好地理解和应用echarts。 ... [详细]
author-avatar
庄乐星
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有