热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

机器学习特征预处理小白笔记

1什么是特征预处理通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。1.1包含内容数据类型的无量纲化:归一化、标准化。1.2特征预处理APIskl
1 什么是特征预处理

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。

1.1 包含内容

数据类型的无量纲化: 归一化 、标准化。

 

1.2 特征预处理API

sklearn.preprocessing

 

1.3 归一化


1.3.1 定义

通过对原始数据进行变换把数据映射到0与1之间(默认0与1)。

1.3.2  公式

1.3.3 实现API

代码实现

from sklearn.preprocessing import MinMaxScaler
import pandas as pddef minmax_demo():"""归一化:return:"""#1 获取数据data=pd.read_csv("data.csv")#取前三列data=data.iloc[:,:3]#print("data:\n",data)#2 实例化转换器transfer=MinMaxScaler()#3 调用fit_transformdata_new=transfer.fit_transform(data)print("data_new:\n",data_new)if __name__ == '__main__':minmax_demo()

输出日志

data.csv文件

1.3.4 总结

1.4 标准化

 

1.4.1 定义

通过对原始数据进行变换,把数据变换到0,标准差为1范围内。

 

1.4.2  公式

1.4.3 实现API

代码实现

from sklearn.preprocessing import StandardScaler
import pandas as pddef minmax_demo():"""归一化:return:"""#1 获取数据data=pd.read_csv("data.csv")data=data.iloc[:,:4]print("data:\n",data)#2 实例化转换器transfer=StandardScaler()#3 调用fit_transformdata_new=transfer.fit_transform(data)print("data_new:\n",data_new)if __name__ == '__main__':minmax_demo()

1.4.4 总结

在已有样本足够多的情况下比较稳定,适合现在嘈杂大数据场景。

 

 


推荐阅读
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • Go Cobra命令行工具入门教程
    本文介绍了Go语言实现的命令行工具Cobra的基本概念、安装方法和入门实践。Cobra被广泛应用于各种项目中,如Kubernetes、Hugo和Github CLI等。通过使用Cobra,我们可以快速创建命令行工具,适用于写测试脚本和各种服务的Admin CLI。文章还通过一个简单的demo演示了Cobra的使用方法。 ... [详细]
  • 前言:拿到一个案例,去分析:它该是做分类还是做回归,哪部分该做分类,哪部分该做回归,哪部分该做优化,它们的目标值分别是什么。再挑影响因素,哪些和分类有关的影响因素,哪些和回归有关的 ... [详细]
  • 在本教程中,我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后,我们将看到使用Flask创建AP ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 本文介绍了闭包的定义和运转机制,重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则,闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]
  • 本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数,可以方便地选择要打开或保存的图片文件,并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]
  • Java容器中的compareto方法排序原理解析
    本文从源码解析Java容器中的compareto方法的排序原理,讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点,回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录,展示了整个讲解过程。 ... [详细]
  • 本文讨论了为什么在main.js中写import不会全局生效的问题,并提供了解决方案。在每一个vue文件中都需要写import语句才能使其生效,而在main.js中写import语句则不会全局生效。本文还介绍了使用Swal和sweetalert2库的示例。 ... [详细]
  • 本文讨论了一个关于cuowu类的问题,作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案,并给出了两个可能导致错误的原因。 ... [详细]
  • 无损压缩算法专题——LZSS算法实现
    本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程,以及代码中的注释。 ... [详细]
  • 本文介绍了如何使用python从列表中删除所有的零,并将结果以列表形式输出,同时提供了示例格式。 ... [详细]
  • 本文讨论了在dva中引入antd组件table时没有显示样式的问题。提供了.roadhogrc文件的配置,包括环境和import的设置。同时介绍了extraBabelPlugins和transform-runtime的使用方法,并解释了libraryName和css的含义。 ... [详细]
  • 本文介绍了使用readlink命令获取文件的完整路径的简单方法,并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
author-avatar
手机用户2602901861
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有