热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python教程分享Python机器学习库scikitlearn入门开发示例

1.数据采集和标记先采集数据,再对数据进行标记。其中采集数据要就有代表性,以确保最终训练出来模型的准确性。2.特征选择选择特征的直观方法:直接使用图片的每个像素点作为一个特征。数据

1.数据采集和标记

先采集数据,再对数据进行标记。其中采集数据要就有代表性,以确保最终训练出来模型的准确性。

2.特征选择

选择特征的直观方法:直接使用图片的每个像素点作为一个特征。

数据保存为样本个数×特征个数格式的array对象。scikit-learn使用numpy的array对象来表示数据,所有的图片数据保存在digits.images里,每个元素都为一个8×8尺寸的灰阶图片。

3.数据清洗

把采集到的、不合适用来做机器学习训练的数据进行预处理,从而转换为合适机器学习的数据。

目的:减少计算量,确保模型稳定性。

4.模型选择

对于不同的数据集,选择不同的模型有不同的效率。因此在选择模型要考虑很多的因素,来提高最终选择模型的契合度。

5.模型训练

在进行模型训练之前,要将数据集划分为训练数据集和测试数据集,再利用划分好的数据集进行模型训练,最后得到我们训练出来的模型参数。

6.模型测试

模型测试的直观方法:用训练出来的模型预测测试数据集,然后将预测出来的结果与真正的结果进行比较,最后比较出来的结果即为模型的准确度。

scikit-learn提供的完成这项工作的方法:

clf . score ( xtest , ytest)

除此之外,还可以直接把测试数据集里的部分图片显示出来,并且在图片的左下角显示预测值,右下角显示真实值。

7.模型保存与加载

当我们训练出一个满意的模型后即可将模型保存下来,这样当下次需要预测时,可以直接利用此模型进行预测,不用再一次进行模型训练。

8.实例

数据采集和标记

#导入库  %matplotlib inline  import matplotlib.pyplot as plt  import numpy as np  """  sk-learn库中自带了一些数据集  此处使用的就是手写数字识别图片的数据  """  # 导入sklearn库中datasets模块  from sklearn import datasets  # 利用datasets模块中的函数load_digits()进行数据加载  digits = datasets.load_digits()  # 把数据所代表的图片显示出来  images_and_labels = list(zip(digits.images, digits.target))  plt.figure(figsize=(8, 6))  for index, (image, label) in enumerate(images_and_labels[:8]):      plt.subplot(2, 4, index + 1)      plt.axis('off')      plt.imshow(image, cmap=plt.cm.gray_r, interpolation='nearest')      plt.title('digit: %i' % label, fOntsize=20);

Python机器学习库scikit-learn入门开发示例

特征选择

# 将数据保存为 样本个数x特征个数 格式的array对象 的数据格式进行输出  # 数据已经保存在了digits.data文件中  print("shape of raw image data: {0}".format(digits.images.shape))  print("shape of data: {0}".format(digits.data.shape))

Python机器学习库scikit-learn入门开发示例

模型训练

# 把数据分成训练数据集和测试数据集(此处将数据集的百分之二十作为测试数据集)  from sklearn.model_selection import train_test_split  xtrain, xtest, ytrain, ytest = train_test_split(digits.data, digits.target, test_size=0.20, random_state=2);  # 使用支持向量机来训练模型  from sklearn import svm  clf = svm.svc(gamma=0.001, c=100., probability=true)  # 使用训练数据集xtrain和ytrain来训练模型  clf.fit(xtrain, ytrain);

模型测试

"""  sklearn.metrics.accuracy_score(y_true, y_pred, normalize=true, sample_weight=none)  normalize:默认值为true,返回正确分类的比例;如果为false,返回正确分类的样本数  """  # 评估模型的准确度(此处默认为true,直接返回正确的比例,也就是模型的准确度)  from sklearn.metrics import accuracy_score  # predict是训练后返回预测结果,是标签值。  ypred = clf.predict(xtest);  accuracy_score(ytest, ypred)

模型保存与加载

"""  将测试数据集里的部分图片显示出来  图片的左下角显示预测值,右下角显示真实值  """  # 查看预测的情况  fig, axes = plt.subplots(4, 4, figsize=(8, 8))  fig.subplots_adjust(hspace=0.1, wspace=0.1)  for i, ax in enumerate(axes.flat):      ax.imshow(xtest[i].reshape(8, 8), cmap=plt.cm.gray_r, interpolation='nearest')      ax.text(0.05, 0.05, str(ypred[i]), fOntsize=32,              transform=ax.transaxes,              color='green' if ypred[i] == ytest[i] else 'red')      ax.text(0.8, 0.05, str(ytest[i]), fOntsize=32,              transform=ax.transaxes,              color='black')      ax.set_xticks([])      ax.set_yticks([])

Python机器学习库scikit-learn入门开发示例

# 保存模型参数  import joblib  joblib.dump(clf, 'digits_svm.pkl');

保存模型参数过程中出现如下错误:

Python机器学习库scikit-learn入门开发示例

原因:sklearn.externals.joblib函数是用在0.21及以前的版本中,在最新的版本,该函数应被弃用。

解决方法:将 from sklearn.externals import joblib改为 import joblib

# 导入模型参数,直接进行预测  clf = joblib.load('digits_svm.pkl')  ypred = clf.predict(xtest);  clf.score(xtest, ytest)

Python机器学习库scikit-learn入门开发示例

到此这篇关于python机器学习库scikit-learn入门开发示例的文章就介绍到这了,更多相关python scikit-learn内容请搜索<编程笔记>以前的文章或继续浏览下面的相关文章希望大家以后多多支持<编程笔记>!

需要了解更多python教程分享Python机器学习库scikit-learn入门开发示例,都可以关注python教程分享栏目&#8212;编程笔记


推荐阅读
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • 在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板
    本文介绍了在Xamarin XAML语言中如何在页面级别构建ControlTemplate控件模板的方法和步骤,包括将ResourceDictionary添加到页面中以及在ResourceDictionary中实现模板的构建。通过本文的阅读,读者可以了解到在Xamarin XAML语言中构建控件模板的具体操作步骤和语法形式。 ... [详细]
  • 本文讨论了在openwrt-17.01版本中,mt7628设备上初始化启动时eth0的mac地址总是随机生成的问题。每次随机生成的eth0的mac地址都会写到/sys/class/net/eth0/address目录下,而openwrt-17.01原版的SDK会根据随机生成的eth0的mac地址再生成eth0.1、eth0.2等,生成后的mac地址会保存在/etc/config/network下。 ... [详细]
  • 本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景,描述了学童们面对老先生的教导时的反应,以及上官如在这个过程中的表现。同时,文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后,文章强调了日期和时区操作在机器学习中的重要性,并指出了其在实际应用中的作用和意义。 ... [详细]
  • 本文详细介绍了如何使用MySQL来显示SQL语句的执行时间,并通过MySQL Query Profiler获取CPU和内存使用量以及系统锁和表锁的时间。同时介绍了效能分析的三种方法:瓶颈分析、工作负载分析和基于比率的分析。 ... [详细]
  • IOS开发之短信发送与拨打电话的方法详解
    本文详细介绍了在IOS开发中实现短信发送和拨打电话的两种方式,一种是使用系统底层发送,虽然无法自定义短信内容和返回原应用,但是简单方便;另一种是使用第三方框架发送,需要导入MessageUI头文件,并遵守MFMessageComposeViewControllerDelegate协议,可以实现自定义短信内容和返回原应用的功能。 ... [详细]
  • 网址:https:vue.docschina.orgv2guideforms.html表单input绑定基础用法可以通过使用v-model指令,在 ... [详细]
  • 本文介绍了在MFC下利用C++和MFC的特性动态创建窗口的方法,包括继承现有的MFC类并加以改造、插入工具栏和状态栏对象的声明等。同时还提到了窗口销毁的处理方法。本文详细介绍了实现方法并给出了相关注意事项。 ... [详细]
  • Android自定义控件绘图篇之Paint函数大汇总
    本文介绍了Android自定义控件绘图篇中的Paint函数大汇总,包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数,可以更好地掌握Paint的用法。 ... [详细]
  • Gitlab接入公司内部单点登录的安装和配置教程
    本文介绍了如何将公司内部的Gitlab系统接入单点登录服务,并提供了安装和配置的详细教程。通过使用oauth2协议,将原有的各子系统的独立登录统一迁移至单点登录。文章包括Gitlab的安装环境、版本号、编辑配置文件的步骤,并解决了在迁移过程中可能遇到的问题。 ... [详细]
author-avatar
l夜幕下的流星雨l
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有