热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

总结机器学习部分计算原理—续

首先补充一下关于数据集的几点内容,在上次博客之后做的练习中,我发现了关于数据集中一些比较重要却被我忽视的内容。1、划分数据集。对于机器学习来说,不能将所有的数据都用来进行训练,这是

  首先补充一下关于数据集的几点内容,在上次博客之后做的练习中,我发现了关于数据集中一些比较重要却被我忽视的内容。

  1、划分数据集。对于机器学习来说,不能将所有的数据都用来进行训练,这是因为倘若将所有的数据都用来训练,然后训练完毕后的模型直接去进行预测等工作,这样很难判断训练模型究竟好不好,是不是能比较准确的进行工程实践。所以,必须将数据集划分成训练集和测试集。当然一般来说,训练集会多一些,测试集会占到10%~30%。

  划分数据集的代码如下:


from sklearn.model_selection import train_test_split
# 以鸢尾花集来举例子
#
划分数据集
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=30)

   train_test_split方法参数输入顺序是:数据集的特征值,数据集的标签值。然后是一些默认参数,比较重要的就是random_state,不同的随机数种子会造成不同的随机采样结果。最后比较重要的就是train_test_split方法的返回值,返回数据顺序是:训练集特征值,测试集特征值,训练集目标值,测试集目标值,简称训特、测特、训目、测目,一般表示为x_train,y_train,x_test,y_test。

  2、K-近邻算法,非常非常基础的机器学习算法之一,又叫KNN(K Nearest Neighbors)算法,K是自己规定的常数,K-近邻算法的核心思想就是“找近的”,距离是衡量关系的最重要因素。在n个样本点中,选出距离要测试的样本点最近的K个样本,再选取这K个样本中标签相同数量最多的样本的标签,这个标签就是测试点的标签。所以,K值的选取是很重要的因素,K值不能取1,因为如果正好取到离得最近的“坏点”,预测就会错误;K值也不能取得太大,因为相同标签的数量多,但对于样本的标签来说不一定是对的。下面附上鸢尾花集的K-近邻算法。


from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
# 使用K-近邻算法
def KNN_iris():
# 获取数据
iris = load_iris()
# 划分数据集
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=30)
# 特征工程:标准化
stand_trans = StandardScaler()
x_train_standard
= stand_trans.fit_transform(x_train)
x_test_standard
= stand_trans.transform(x_test)
# K-近邻算法预估器
estimator = KNeighborsClassifier(n_neighbors=5)
estimator.fit(x_train_standard,y_train)
# 模型评估
# 1、直接比对真实值和预测值
y_predict = estimator.predict(x_test_standard)
print("直接作对比:",y_predict==y_test)
# 2、计算准确率
score = estimator.score(x_test_standard,y_test)
print("计算准确率:",score)
print("Iris‘s data:",iris.data)
print("Iris‘s target:",iris.target)
if __name__ == __main__:
KNN_iris()

 

截图如下

技术分享图片

 

 


推荐阅读
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 开发笔记:加密&json&StringIO模块&BytesIO模块
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了加密&json&StringIO模块&BytesIO模块相关的知识,希望对你有一定的参考价值。一、加密加密 ... [详细]
  • 目录实现效果:实现环境实现方法一:基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • 本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤,包括在application.properties配置文件中添加thymeleaf的配置信息,引入thymeleaf的jar包,以及创建PageController并添加index方法。 ... [详细]
  • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 本文介绍了在Linux下安装Perl的步骤,并提供了一个简单的Perl程序示例。同时,还展示了运行该程序的结果。 ... [详细]
  • 关键词:Golang, Cookie, 跟踪位置, net/http/cookiejar, package main, golang.org/x/net/publicsuffix, io/ioutil, log, net/http, net/http/cookiejar ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • 超级简单加解密工具的方案和功能
    本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头,并根据特定长度进行加密,加密后将加密部分写入源文件。同时,该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法,并给出了Python代码示例。 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有