python数据预处理_数据预处理与特征工程(Python版)

作者：向日葵渴望 | 来源：互联网 | 2023-09-18 14:45

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。1缺失值1.1检查是否存在缺失值#显示表格中每一列的信息data.info()#直接判断是否存在空

数据和特征决定了机器学习的上限&＃xff0c;而模型和算法只是逼近这个上限而已。

1 缺失值

1.1 检查是否存在缺失值

#显示表格中每一列的信息 data.info()#直接判断是否存在空值 data.isnull() data.isnull().sum(axis&＃61;1).sort_values(ascending&＃61;False)#计算每一列的缺失率 data.apply(lambda x:sum(x.isnull())/len(x))

1.2 缺失值的过滤

#删除缺失值 data.dropna(inplace&＃61;True)#根据具体要求进行更加精准的过滤 data.dropna(subset&＃61;[&＃39;记录日期&＃39;],how&＃61;&＃39;any&＃39;,inplace&＃61;True) #删除缺失记录日期的数据项#直接删除某一列 data.drop([&＃39;记录日期&＃39;],axis&＃61;1,inplace&＃61;True)#直接删除某一行 data.drop(drop_record_index,inplace&＃61;True)

1.3 缺失值的填充

data.fillna(value&＃61;0,inplace&＃61;True) #具体的填充值由我们自己根据具体的情况来设计

2 重复值

2.1 检查是否存在重复值

#观察是否存在重复值 data.duplicated()#详细计算重复值的个数 data.duplicated().sum()

2.2 重复值的过滤

#删除重复值&＃xff0c;但是不修改原数据 data.drop_duplicates()#删除重复值&＃xff0c;并修改原数据 data.drop_duplicates(inplace&＃61;True)

3 数据的无量纲化

在机器学习算法实践中&＃xff0c;我们往往有着将不同规格的数据转换到同一规格&＃xff0c;或者不同分布的数据转换到同一分布的需求&＃xff0c;这种需求统称为无量纲化。无量纲化可以帮助我们提升模型精度&＃xff0c;避免一个取值范围特别大的特征对距离计算造成的影响。

数据的无量纲化可以是线性的&＃xff0c;也可以是非线性的。线性的无量纲化包括去中心化处理&＃xff08;Zero-centered或者Mean-subtraction&＃xff09;和缩放处理&＃xff08;Scale&＃xff09;。去中心化的本质是让所有记录减去一个固定值&＃xff0c;即让数据样本平移到某个位置。缩放的本质是通过除以一个固定值&＃xff0c;将数据固定在某个范围之中&＃xff0c;取对数也是一种缩放处理。在数据的无量纲化的过程中往往是将去中心化和缩放这两种方法结合在一起使用。

常用的一种数据无量纲化的方法是将数据按照最小值中心化后&＃xff0c;再按照极差进行缩放&＃xff0c;数据会收缩到0到1之间&＃xff0c;所以这个过程也叫做数据归一化&＃xff08;Normalization&＃xff09;。归一化之后的数据服从正太分布。

#数据准备 import pandas as pddata &＃61; [[-1,2],[-0.5,6],[0,10],[1,18]] pd.DataFrame(data)

#数据的归一化 scaler &＃61; MinMaxScaler() #实例化 scaler &＃61; scaler.fit(data) #本质上是生成min(x)与max(x) result &＃61; scaler.transform(data) #通过接口导出结果 result

#将归一化后的结果逆转 scaler.inverse_transform(result)

#使用feature_range实现将数据缩放到[0&＃xff0c;1]之外的其他范围。 scaler &＃61; MinMaxScaler(feature_range&＃61;[5,10]) result &＃61; scaler.fit_transform(data) result

另一种常用的方法是将数据减去均值&＃xff0c;再按照标准差缩放&＃xff0c;数据就会服从标准正太分布。这个过程也被叫做数据标准化&＃xff08;Standardization&＃xff09;

#数据标准化 from sklearn.preprocessing import StandardScalerscaler &＃61; StandardScaler() #实例化 scaler.fit(data) #本质是生成均值和方差 x_std &＃61; scaler.transform(data) #通过接口导出结果 x_std

4 类别型特征的编码

pandas和sklearn都提供了对类别型特征进行编码的方法。

#one-hot编码 #以data数据集中的婚姻状况这一特征为例 marital_du &＃61; pd.get_dummies(data[&＃39;marital&＃39;],prefix&＃61;&＃39;marital&＃39;) marital_du.head(10) #映射 #以data数据集中的信贷违约这一特征为例,该特征主要有三种情况&＃xff1a;违约、未违约、未知 default &＃61; data[&＃39;default&＃39;].map({&＃39;no&＃39;:-1,&＃39;unknown&＃39;:0,&＃39;yes&＃39;:1}) default.head()

5 连续型特征的离散化&＃xff1a;二值化与分段

二值化&＃xff1a;根据阈值将连续型数据二值化&＃xff0c;大于阈值的值映射为1&＃xff0c;小于阈值的值映射为0。可以采用sklearn.preprocessing中的Binarizer方法来实现。

分段&＃xff1a;将某些连续型的数据分为不同的区间&＃xff0c;便于模型训练。在平常情况下&＃xff0c;我们可以采用sklearn.preprocessing中的KBinsDiscretizer方法来实现。

这些方法的具体使用方法可以参考scikit-learn中Preprocessing模块中的实例&＃xff0c;在这里不在做多余介绍。

6 特征选择

特征选择的方法主要有三类&＃xff1a;

过滤型 Filter
包裹型 Wrapper
嵌入型 Embeded

6.1 过滤型

6.1.1 方差过滤

通过特征本身的方差来对特征进行筛选。比如一个特征本身的方差很小&＃xff0c;就表示样本在这个特征上没有什么差异&＃xff0c;可能不同类别的样本在这个特征上体现不出什么区别&＃xff0c;即这个特征对于区分样本没有什么作用。消除方差小于某个阈值的特征对模型训练是很有帮助的。方差过滤可以通过sklearn.feature_selection中的VarianceThreshold方法来实现。

#数据准备 X &＃61; [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]] #方差过滤 from sklearn.feature_selection import VarianceThreshold selector &＃61;VarianceThreshold() #实例化&＃xff0c;不填参数阈值默认为0 x_var &＃61; selector.fit_transform(X)

6.1.2 相关性过滤

相关性过滤主要是通过某个指标去衡量特征与标签之间的相关性程度&＃xff0c;并以此进行特征选择&＃xff0c;过滤掉那些相关性不高的特征。其中&＃xff0c;衡量相关性的主要方法有&＃xff1a;

相关系数
假设检验&＃xff1a;卡方检验、F检验、t检验
互信息值(信息增益)

#数据准备 from sklearn.datasets import load_iris X, y &＃61; load_iris(return_X_y&＃61;True) #相关性过滤 from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 X_new &＃61; SelectKBest(chi2, k&＃61;2).fit_transform(X, y)#参数选择&＃xff1a;参数验证曲线 #假设我们的特征集X包含400个特征 %matplotlib inline import matplotlib.pyplot as pltscore &＃61; [] for i in range(390,200,-10):x_fschi &＃61; SelectKBest(chi2,k&＃61;i).fit_transform(X, y)once &＃61; cross_val_score(RFC(n_estimators&＃61;10, random_state&＃61;0),x_fschi,y,cv&＃61;5).mean()score.append(once) x_inx &＃61; range(390,200,-10) plt.plot(x_inx,score) plt.show()

6.2 包裹型

只有拥有coef_或者feature_importances_的模型才能使用包裹法来做特征选择。递归特征消除法基于权值系数或者特征重要性递归的剔除重要性程度低的特征&＃xff0c;保留重要的特征&＃xff0c;直到人为设定的特征数量&＃xff08;这个方法需要多次迭代计算&＃xff0c;消耗的时间比较多&＃xff09;。

6.2 嵌入法

只有拥有特征系数coef_或者特征重要性feature_importances_的模型才能使用嵌入法进行特征选择。直接去掉权值系数或者特征重要性小于某个阈值的特征&＃xff0c;这样做计算较快&＃xff0c;但是无法直接控制保留特征的数量。

#数据准备 import pandas as pd path &＃61; r&＃39;D:DataSetdigit_recognizertrain.csv&＃39; data &＃61; pd.read_csv(path) x &＃61; data.iloc[:,1:] y &＃61; data.iloc[:,0]#模型准备&＃xff0c;以随机森林为例 from sklearn.ensemble import RandomForestClassifier as RFC RFC_ &＃61; RFC(n_estimators&＃61;10, random_state&＃61;0)#嵌入法 from sklearn.feature_selection import SelectFromModel x_embedded &＃61; SelectFromModel(RFC_,threshold&＃61;0.005).fit_transform(x,y)

嵌入法在使用过程中需要我们人为的设定阈值&＃xff0c;如何选择一个合适的阈值呢&＃xff1f;

import numpy as np import matplotlib.pyplot as plt#所有的权重取值 RFC_IM &＃61; RFC_.fit(x,y).feature_importances_#参数验证曲线 from sklearn.model_selection import cross_val_score score &＃61; [] for i in threshold: #模型实例化并fit&＃xff0c;得到经过挑选选后的特征x_embedded &＃61; SelectFromModel(RFC_,threshold&＃61;i).fit_transform(x,y) once &＃61; cross_val_score(RFC_,x_embedded,y,cv&＃61;5).mean()score.append(once) plt.plot(threshold,score) plt.show()

基于参数曲线&＃xff0c;我们可以选择0.0067作为我们的阈值。

7 不均衡样本

7.1 不均衡样本的定义与问题

不均衡样本是指在分类任务中&＃xff0c;不同类别的训练样本数目相差很大。往往样本量少的一类是模型学习比较关心的一类。基于不均衡样本建立的模型会倾向于将新的样本判断为多数类&＃xff0c;即模型分类会更加偏向于多数类样本。而在很多场景下&＃xff08;如精准营销、信贷风控、癌症诊断&＃xff09;错判少数类样本往往比错判多数类样本造成的损失更大。另外&＃xff0c;在进行分类模型的训练时往往会比较关注两类样本的边界特性&＃xff0c;而样本的不均衡会导致两类样本的边界特性变得模糊&＃xff0c;不利于分类。

7.2 不均衡样本的处理方法

不均衡样本的处理可以参考imbalanced-learn库中的方法。处理不均衡数据集最常用方的几类方法&＃xff1a;

过采样(over-sampling)
欠采样(under-sampling)
组合采样法(combine)
集成方法(Ensemble methods)

7.2.1 过采样

随机过采样&＃xff1a;从样本少的类别中随时抽样&＃xff0c;再将抽样得来的样本添加到数据集中&＃xff08;相当于直接复制了原样本&＃xff09;。这种重复采样的方法有严重的弊端&＃xff0c;可能会导致模型严重的过拟合。
SMOTE&＃xff1a;基于k个近邻在少数类样本中进行插值来生成新的样本。这样做容易带来两个问题&＃xff1a;1.如果选取的少数类样本周围都是少数类样本&＃xff0c;则新生成的样本不会对分类提供太多有用信息&＃xff1b;2.如果选取的少数类样本周围都是多数类样本&＃xff0c;这类样本可能是噪声&＃xff0c;基于这个样本合成的新样本可能会周围多数类样本大部分重叠&＃xff0c;导致分类困难。总的来说&＃xff0c;我们总是希望新生成的少数类样本能处于两个类别的边界附近&＃xff0c;为分类提供足够的信息。
Border-line SMOTE&＃xff1a;先对少数类样本进行分类&＃xff1a;noise(所有的k近邻个样本都属于多数类)、danger(超过一半的k近邻样本属于多数类)、safe(低于一半的k近邻样本属于多数类)。然后只从处于danger状态的样本中随机选择&＃xff0c;并使用SMOTE算法生成新的样本。

7.2.2 欠采样

随机欠采样&＃xff1a;直接从多数类样本中随机抽取部分样本
NearMiss&＃xff1a;从多数类样本中选取最具代表性的样本进行训练。&＃xff08;比如选择到K近邻个少数类样本平均距离最近的多数类样本&＃xff09;
Tomek link&＃xff1a; 找不同类别样本之间距离最近的两个样本&＃xff0c;即这两个样本分属不同类别且互为最近邻。在这种情况下&＃xff0c;要么其中一个是噪声&＃xff0c;要么两个样本都在边界附近。通过移除Tomek link来清洗掉类间重叠样本&＃xff0c;使得互为最近邻的样本皆属于同一类别&＃xff0c;从而能够更好的进行分类。使用这个方法时要注意&＃xff0c;这个方式会同时删除多数类和少数类样本&＃xff0c;并且无法控制欠采样的数量。
Edited Nearest Neighbours(ENN)&＃xff1a;对于某个多数类样本&＃xff0c;如果其k个近邻点超过一般都不属于多数类&＃xff0c;这个样本很可能是噪声&＃xff0c;则这个样本就会被剔除。这个方法也无法控制欠采样的数量。

7.2.3 组合采样法

SMOTE&＃43;Tomek link&＃xff1a;先使用SMOTE进行过采样&＃xff0c;在此基础上使用Tomek link进行欠采样。
SMOTE&＃43;ENN&＃xff1a;先使用SMOTE进行过采样&＃xff0c;在此基础上使用ENN进行欠采样。

7.2.4 集成方法

EasyEnsemble&＃xff1a;将多数类样本随机划分成n个子集&＃xff0c;每个子集的数量等于少数类样本的数量&＃xff0c;这相当于欠采样。接着将每个子集与少数类样本结合起来分别训练一个模型&＃xff0c;最后将n个模型集成&＃xff0c;这样虽然每个子集的样本少于总体样本&＃xff0c;但集成后总信息量并不减少。
BalanceCascade&＃xff1a; 在训练过程集成学习基学习器的过程中不断剔除被分类正确的多数类样本&＃xff0c;并用于下一轮训练&＃xff0c;最终再将这些基学习器集成。(相当于是基学习器自动帮助我们筛选多数类样本)

推荐阅读

io
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
io
Java容器中的compareto方法排序原理解析

本文从源码解析Java容器中的compareto方法的排序原理，讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点，回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录，展示了整个讲解过程。 ... [详细]

蜡笔小新 2023-12-14 13:53:31
io
使用 Ubuntu 中的 Python 获取浏览器历史记录

使用Ubuntu中的Python获取浏览器历史记录原文: ... [详细]

蜡笔小新 2023-12-14 08:57:59
io
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
io
android studio生成jks,android studio生成 keystore 以及获取 SHA1值等

合并列值－合并为一列问题需求：createtabletab(Aint,Bint,Cint)inserttabselect1,2,3unionallsel ... [详细]

蜡笔小新 2023-12-11 12:32:55
io
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
io
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07
io
如何使用readlink获取文件的完整路径？

本文介绍了使用readlink命令获取文件的完整路径的简单方法，并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]

蜡笔小新 2023-12-09 17:28:17
io
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
io
利用PyTorch快速实现分类任务

关于如何快速定义自己的数据集，可以参考我的前一篇文章PyTorch中快速加载自定义数据（入门）_晨曦473的博客-CSDN博客刚开始学习P ... [详细]

蜡笔小新 2023-10-17 18:12:24
io
[翻译]PyCairo指南裁剪和masking

裁剪和masking在PyCairo指南的这个部分，我么将讨论裁剪和masking操作。裁剪裁剪就是将图形的绘制限定在一定的区域内。这样做有一些效率的因素࿰ ... [详细]

蜡笔小新 2023-10-17 17:18:21
io
python2个子线程等待_python并发编程之多线程2死锁与递归锁，信号量等...

一、死锁现象与递归锁进程也是有死锁的所谓死锁：是指两个或两个以上的进程或线程在执行过程中，因争夺资源而造成的一种互相等待的现象，若无外力作 ... [详细]

蜡笔小新 2023-10-17 14:12:31
io
逻辑回归_训练二元分类器

逻辑回归_训练二元分类器#训练一个二元分类器fromsklearn.linear_modelimportLogisticRegressionfromsklearnimport ... [详细]

蜡笔小新 2023-10-17 12:07:15
io
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
io
Python 可视化 | Seaborn5 分钟入门 (六)——heatmap 热力图

微信公众号：「Python读财」如有问题或建议，请公众号留言Seaborn是基于matplotlib的Python可视化库。它提供了一个高级界面来绘制有吸引力的统计图形。Seabo ... [详细]

蜡笔小新 2023-10-17 17:48:15

向日葵渴望

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章