如何在scikit-learn（sklearn）的管道中应用StandardScaler？

作者：华东师大中北文艺部 | 来源：互联网 | 2022-12-09 21:53

如何解决《如何在scikit-learn（sklearn）的管道中应用StandardScaler？》经验，为你挑选了1个好方法。

在下面的示例中，

pipe = Pipeline([
        ('scale', StandardScaler()),
        ('reduce_dims', PCA(n_compOnents=4)),
        ('clf', SVC(kernel = 'linear', C = 1))])

param_grid = dict(reduce_dims__n_compOnents=[4,6,8],
                  clf__C=np.logspace(-4, 1, 6),
                  clf__kernel=['rbf','linear'])

grid = GridSearchCV(pipe, param_grid=param_grid, cv=3, n_jobs=1, verbose=2)
grid.fit(X_train, y_train)
print(grid.score(X_test, y_test))

我正在使用StandardScaler()，这也是将其应用于测试集的正确方法吗？

1> makis..：

是的，这是正确的方法，但是您的代码中有一个小错误。让我为您分解一下。

当您将StandardScaler用作内部步骤时，Pipelinescikit-learn将在内部为您完成这项工作。

发生的情况可以描述如下：

步骤0：数据被分成TRAINING data并TEST data根据cv您在指定的参数GridSearchCV。

步骤1：将scaler其安装在TRAINING data

步骤2：scaler转换TRAINING data

步骤3：使用变换后的模型进行拟合/训练 TRAINING data

步骤4：scaler用于转换TEST data

第5步：predict使用transformed TEST data

注意：您应该使用grid.fit(X, y)和不 grid.fit(X_train, y_train)因为GridSearchCV会自动将数据分割为训练和测试数据（该内部发生）。

使用这样的东西：

pipe = Pipeline([
        ('scale', StandardScaler()),
        ('reduce_dims', PCA(n_compOnents=4)),
        ('clf', SVC(kernel = 'linear', C = 1))])

param_grid = dict(reduce_dims__n_compOnents=[4,6,8],
                  clf__C=np.logspace(-4, 1, 6),
                  clf__kernel=['rbf','linear'])

grid = GridSearchCV(pipe, param_grid=param_grid, cv=3, n_jobs=1, verbose=2, scoring= 'accuracy')
grid.fit(X, y)
print(grid.best_score_)
print(grid.cv_results_)

运行此代码后（调用时grid.fit(X, y)），您可以在grid.fit（）返回的结果对象中访问网格搜索的结果。该best_score_成员可以访问在优化过程中观察到的最佳分数，并best_params_描述获得最佳结果的参数组合。

重要编辑1：如果要保留原始数据集的验证数据集，请使用以下命令：

X_for_gridsearch, X_future_validation, y_for_gridsearch, y_future_validation 
    = train_test_split(X, y, test_size=0.15, random_state=1)

然后使用：

grid = GridSearchCV(pipe, param_grid=param_grid, cv=3, n_jobs=1, verbose=2, scoring= 'accuracy')
grid.fit(X_for_gridsearch, y_for_gridsearch)

否。如果您在整个数据集上使用“ GridSearchCV”，那么您已经在整个数据集上训练了超参数，并且不再具有用于验证模型的测试集。

推荐阅读

main
判断两个数组是否包含相同元素的Python函数

本文介绍了一个Python函数same_set，用于判断两个相等长度的数组是否包含相同的元素。函数会忽略元素的顺序和重复次数，如果两个数组包含相同的元素，则返回1，否则返回0。文章还提供了函数的具体实现代码和样例输入输出。 ... [详细]

蜡笔小新 2023-12-10 11:48:02
main
Java容器中的compareto方法排序原理解析

本文从源码解析Java容器中的compareto方法的排序原理，讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点，回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录，展示了整个讲解过程。 ... [详细]

蜡笔小新 2023-12-14 13:53:31
main
Java中vector的使用详解

本文详细介绍了Java中vector的使用方法和相关知识，包括vector类的功能、构造方法和使用注意事项。通过使用vector类，可以方便地实现动态数组的功能，并且可以随意插入不同类型的对象，进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下，使用vector类是一个很好的选择。 ... [详细]

蜡笔小新 2023-12-13 14:14:39
io
Python连接服务器失败：使用aiohttp模拟服务器出现错误问题及解决方法

本文介绍了在使用Python中的aiohttp模块模拟服务器时出现的连接失败问题，并提供了相应的解决方法。文章中详细说明了出错的代码以及相关的软件版本和环境信息，同时也提到了相关的警告信息和函数的替代方案。通过阅读本文，读者可以了解到如何解决Python连接服务器失败的问题，并对aiohttp模块有更深入的了解。 ... [详细]

蜡笔小新 2023-12-13 12:37:59
io
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
filter
Android自定义控件绘图篇之Paint函数大汇总

本文介绍了Android自定义控件绘图篇中的Paint函数大汇总，包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数，可以更好地掌握Paint的用法。 ... [详细]

蜡笔小新 2023-12-10 23:11:57
import
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07
range
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34
main
STL迭代器的种类及其功能介绍

本文介绍了标准模板库(STL)定义的五种迭代器的种类和功能。通过图表展示了这几种迭代器之间的关系，并详细描述了各个迭代器的功能和使用方法。其中，输入迭代器用于从容器中读取元素，输出迭代器用于向容器中写入元素，正向迭代器是输入迭代器和输出迭代器的组合。本文的目的是帮助读者更好地理解STL迭代器的使用方法和特点。 ... [详细]

蜡笔小新 2023-12-10 15:17:25
import
如何使用readlink获取文件的完整路径？

本文介绍了使用readlink命令获取文件的完整路径的简单方法，并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]

蜡笔小新 2023-12-09 17:28:17
spring
Python 教学 016

Python教学练习二Python1-12练习二一、判断季节用户输入月份，判断这个月是哪个季节？3，4，5月----春 ... [详细]

蜡笔小新 2023-12-09 08:28:13
main
颜色迁移（reinhard VS welsh）

不要谈什么天分，运气，你需要的是一个截稿日，以及一个不交稿就能打爆你狗头的人，然后你就会被自己的才华吓到。------ ... [详细]

蜡笔小新 2023-10-17 21:20:36
import
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
range
python – 矢量化searchsorted numpy

假设我有两个数组A和B,其中A和B都是mxn.我现在的目标是,对于A和B的每一行,找到我应该在B的相应行中插入A的第i行元素的位置.也就是说,我希望将np.digitize或np. ... [详细]

蜡笔小新 2023-10-17 18:15:17
main
利用PyTorch快速实现分类任务

关于如何快速定义自己的数据集，可以参考我的前一篇文章PyTorch中快速加载自定义数据（入门）_晨曦473的博客-CSDN博客刚开始学习P ... [详细]

蜡笔小新 2023-10-17 18:12:24

华东师大中北文艺部

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章