热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

总结机器学习部分计算原理—续

首先补充一下关于数据集的几点内容,在上次博客之后做的练习中,我发现了关于数据集中一些比较重要却被我忽视的内容。1、划分数据集。对于机器学习来说,不能将所有的数据都用来进行训练,这是

  首先补充一下关于数据集的几点内容,在上次博客之后做的练习中,我发现了关于数据集中一些比较重要却被我忽视的内容。

  1、划分数据集。对于机器学习来说,不能将所有的数据都用来进行训练,这是因为倘若将所有的数据都用来训练,然后训练完毕后的模型直接去进行预测等工作,这样很难判断训练模型究竟好不好,是不是能比较准确的进行工程实践。所以,必须将数据集划分成训练集和测试集。当然一般来说,训练集会多一些,测试集会占到10%~30%。

  划分数据集的代码如下:


from sklearn.model_selection import train_test_split
# 以鸢尾花集来举例子
#
划分数据集
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=30)

   train_test_split方法参数输入顺序是:数据集的特征值,数据集的标签值。然后是一些默认参数,比较重要的就是random_state,不同的随机数种子会造成不同的随机采样结果。最后比较重要的就是train_test_split方法的返回值,返回数据顺序是:训练集特征值,测试集特征值,训练集目标值,测试集目标值,简称训特、测特、训目、测目,一般表示为x_train,y_train,x_test,y_test。

  2、K-近邻算法,非常非常基础的机器学习算法之一,又叫KNN(K Nearest Neighbors)算法,K是自己规定的常数,K-近邻算法的核心思想就是“找近的”,距离是衡量关系的最重要因素。在n个样本点中,选出距离要测试的样本点最近的K个样本,再选取这K个样本中标签相同数量最多的样本的标签,这个标签就是测试点的标签。所以,K值的选取是很重要的因素,K值不能取1,因为如果正好取到离得最近的“坏点”,预测就会错误;K值也不能取得太大,因为相同标签的数量多,但对于样本的标签来说不一定是对的。下面附上鸢尾花集的K-近邻算法。


from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
# 使用K-近邻算法
def KNN_iris():
# 获取数据
iris = load_iris()
# 划分数据集
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,random_state=30)
# 特征工程:标准化
stand_trans = StandardScaler()
x_train_standard
= stand_trans.fit_transform(x_train)
x_test_standard
= stand_trans.transform(x_test)
# K-近邻算法预估器
estimator = KNeighborsClassifier(n_neighbors=5)
estimator.fit(x_train_standard,y_train)
# 模型评估
# 1、直接比对真实值和预测值
y_predict = estimator.predict(x_test_standard)
print("直接作对比:",y_predict==y_test)
# 2、计算准确率
score = estimator.score(x_test_standard,y_test)
print("计算准确率:",score)
print("Iris‘s data:",iris.data)
print("Iris‘s target:",iris.target)
if __name__ == __main__:
KNN_iris()

 

截图如下

技术分享图片

 

 


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 深入理解CSS中的margin属性及其应用场景
    本文主要介绍了CSS中的margin属性及其应用场景,包括垂直外边距合并、padding的使用时机、行内替换元素与费替换元素的区别、margin的基线、盒子的物理大小、显示大小、逻辑大小等知识点。通过深入理解这些概念,读者可以更好地掌握margin的用法和原理。同时,文中提供了一些相关的文档和规范供读者参考。 ... [详细]
  • 本文介绍了闭包的定义和运转机制,重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则,闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]
  • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
  • Voicewo在线语音识别转换jQuery插件的特点和示例
    本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件,该插件具有快速、架构、风格、扩展和兼容等特点,适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]
  • 计算机存储系统的层次结构及其优势
    本文介绍了计算机存储系统的层次结构,包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体,形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低,使得整体存储系统的平均价格降低。同时,高速缓存的存取速度可以和CPU的工作速度相匹配,进一步提高程序执行效率。 ... [详细]
  • 本文详细介绍了在ASP.NET中获取插入记录的ID的几种方法,包括使用SCOPE_IDENTITY()和IDENT_CURRENT()函数,以及通过ExecuteReader方法执行SQL语句获取ID的步骤。同时,还提供了使用这些方法的示例代码和注意事项。对于需要获取表中最后一个插入操作所产生的ID或马上使用刚插入的新记录ID的开发者来说,本文提供了一些有用的技巧和建议。 ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了贝叶斯垃圾邮件分类的机器学习代码,代码来源于https://www.cnblogs.com/huangyc/p/10327209.html,并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]
author-avatar
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有