Python中的集成方法

作者：dmcm0010 | 来源：互联网 | 2023-10-13 13:27

Python中的集成方法原文:https://www.geek

Python 中的集成方法

原文:https://www.geeksforgeeks.org/ensemble-methods-in-python/

整体是指作为一个整体而不是单独看待的一组元素。集成方法创建多个模型，并将它们组合起来进行求解。集成方法有助于提高模型的鲁棒性/可推广性。在本文中，我们将讨论一些方法及其在 Python 中的实现。为此，我们从 UCI 存储库中选择一个 数据集 。

基本集成方法

1。平均法:主要用于回归问题。该方法包括独立建立多个模型，并返回所有模型的预测平均值。一般来说，组合输出比单个输出好，因为方差减少了。

在下面的示例中，训练了三个回归模型(线性回归、xgboost 和随机森林)，并对它们的预测进行了平均。最终的预测输出是 pred_final。

Python 3

# importing utility modules import pandas as pd from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error # importing machine learning models for prediction from sklearn.ensemble import RandomForestRegressor import xgboost as xgb from sklearn.linear_model import LinearRegression # loading train data set in dataframe from train_data.csv file df = pd.read_csv("train_data.csv") # getting target data from the dataframe target = df["target"] # getting train data from the dataframe train = df.drop("target") # Splitting between train data into training and validation dataset X_train, X_test, y_train, y_test = train_test_split( train, target, test_size=0.20) # initializing all the model objects with default parameters model_1 = LinearRegression() model_2 = xgb.XGBRegressor() model_3 = RandomForestRegressor() # training all the model on the training dataset model_1.fit(X_train, y_target) model_2.fit(X_train, y_target) model_3.fit(X_train, y_target) # predicting the output on the validation dataset pred_1 = model_1.predict(X_test) pred_2 = model_2.predict(X_test) pred_3 = model_3.predict(X_test) # final prediction after averaging on the prediction of all 3 models pred_final = (pred_1+pred_2+pred_3)/3.0 # printing the root mean squared error between real value and predicted value print(mean_squared_error(y_test, pred_final))

输出:

4560

2。最大投票:主要用于分类问题。该方法包括独立构建多个模型，并获得各自的输出，称为“投票”。投票数最多的类作为输出返回。

在下面的例子中，三个分类模型(逻辑回归、xgboost 和随机森林)使用 sklearn VotingClassifier 进行组合，该模型被训练并且具有最大投票的类被返回作为输出。最终的预测输出是 pred_final。请注意，这是一种分类，而不是回归，因此损失可能不同于其他类型的集成方法。

Python

# importing utility modules import pandas as pd from sklearn.model_selection import train_test_split from sklearn.metrics import log_loss # importing machine learning models for prediction from sklearn.ensemble import RandomForestClassifier from xgboost import XGBClassifier from sklearn.linear_model import LogisticRegression # importing voting classifier from sklearn.ensemble import VotingClassifier # loading train data set in dataframe from train_data.csv file df = pd.read_csv("train_data.csv") # getting target data from the dataframe target = df["Weekday"] # getting train data from the dataframe train = df.drop("Weekday") # Splitting between train data into training and validation dataset X_train, X_test, y_train, y_test = train_test_split( train, target, test_size=0.20) # initializing all the model objects with default parameters model_1 = LogisticRegression() model_2 = XGBClassifier() model_3 = RandomForestClassifier() # Making the final model using voting classifier final_model = VotingClassifier( estimators=[('lr', model_1), ('xgb', model_2), ('rf', model_3)], voting='hard') # training all the model on the train dataset final_model.fit(X_train, y_train) # predicting the output on the test dataset pred_final = final_model.predict(X_test) # printing log loss between actual and predicted value print(log_loss(y_test, pred_final))

输出:

231

让我们来看看更高级的集成方法

高级集成方法

集成方法广泛应用于经典的机器学习中。使用 bagging 的算法的例子是随机森林和 bagging 元估计器，使用 boosting 的算法的例子是 GBM、XGBM、Adaboost 等。

作为机器学习模型的开发者，强烈建议使用集成方法。集合方法被广泛应用于几乎所有的竞赛和研究论文中。

1。堆叠:是通过元模型(元分类器或元回归)组合多个模型(分类或回归)的集成方法。基础模型在完整的数据集上训练，然后元模型在从基础模型返回的特征(作为输出)上训练。堆叠中的基本模型通常是不同的。元模型有助于从基本模型中找到特征，以获得最佳的准确性。

算法:

将训练数据集分成 n 个部分

将基本模型(如线性回归)拟合到 n-1 个部分，并预测第 n 个部分。这是针对列车组的 N 个部分中的每个部分完成的。

然后在整个列车数据集上拟合基本模型。

该模型用于预测测试数据集。

对另一个基本模型重复步骤 2 至 4，这将为训练和测试数据集生成另一组预测。

使用列车数据集上的预测作为构建新模型的特征。

最终模型用于测试数据集

上进行预测

堆叠有点不同于基本的集合方法，因为它有一级和二级模型。首先通过用所有一级模型训练数据集来提取堆叠特征。然后，第一级模型使用列车堆叠特征来训练模型，然后该模型使用测试堆叠特征来预测最终输出。

Python 3

# importing utility modules import pandas as pd from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error # importing machine learning models for prediction from sklearn.ensemble import RandomForestRegressor import xgboost as xgb from sklearn.linear_model import LinearRegression # importing stacking lib from vecstack import stacking # loading train data set in dataframe from train_data.csv file df = pd.read_csv("train_data.csv") # getting target data from the dataframe target = df["target"] # getting train data from the dataframe train = df.drop("target") # Splitting between train data into training and validation dataset X_train, X_test, y_train, y_test = train_test_split( train, target, test_size=0.20) # initializing all the base model objects with default parameters model_1 = LinearRegression() model_2 = xgb.XGBRegressor() model_3 = RandomForestRegressor() # putting all base model objects in one list all_models = [model_1, model_2, model_3] # computing the stack features s_train, s_test = stacking(all_models, X_train, X_test, y_train, regression=True, n_folds=4) # initializing the second-level model final_model = model_1 # fitting the second level model with stack features final_model = final_model.fit(s_train, y_train) # predicting the final output using stacking pred_final = final_model.predict(X_test) # printing the root mean squared error between real value and predicted value print(mean_squared_error(y_test, pred_final))

输出:

4510

2。混合:它类似于上面解释的堆叠方法，但是不是使用整个数据集来训练基础模型，而是将验证数据集分开来进行预测。

算法:

将训练数据集拆分为训练、测试和验证数据集。

用训练数据集拟合所有基本模型。

预测验证和测试数据集。

这些预测被用作构建二级模型的特征

该模型用于测试和元功能

进行预测

# importing utility modules import pandas as pd from sklearn.metrics import mean_squared_error # importing machine learning models for prediction from sklearn.ensemble import RandomForestRegressor import xgboost as xgb from sklearn.linear_model import LinearRegression # importing train test split from sklearn.model_selection import train_test_split # loading train data set in dataframe from train_data.csv file df = pd.read_csv("train_data.csv") # getting target data from the dataframe target = df["target"] # getting train data from the dataframe train = df.drop("target") #Splitting between train data into training and validation dataset X_train, X_test, y_train, y_test = train_test_split(train, target, test_size=0.20) # performing the train test and validation split train_ratio = 0.70 validation_ratio = 0.20 test_ratio = 0.10 # performing train test split x_train, x_test, y_train, y_test = train_test_split( train, target, test_size=1 - train_ratio) # performing test validation split x_val, x_test, y_val, y_test = train_test_split( x_test, y_test, test_size=test_ratio/(test_ratio + validation_ratio)) # initializing all the base model objects with default parameters model_1 = LinearRegression() model_2 = xgb.XGBRegressor() model_3 = RandomForestRegressor() # training all the model on the train dataset # training first model model_1.fit(x_train, y_train) val_pred_1 = model_1.predict(x_val) test_pred_1 = model_1.predict(x_test) # converting to dataframe val_pred_1 = pd.DataFrame(val_pred_1) test_pred_1 = pd.DataFrame(test_pred_1) # training second model model_2.fit(x_train, y_train) val_pred_2 = model_2.predict(x_val) test_pred_2 = model_2.predict(x_test) # converting to dataframe val_pred_2 = pd.DataFrame(val_pred_2) test_pred_2 = pd.DataFrame(test_pred_2) # training third model model_3.fit(x_train, y_train) val_pred_3 = model_1.predict(x_val) test_pred_3 = model_1.predict(x_test) # converting to dataframe val_pred_3 = pd.DataFrame(val_pred_3) test_pred_3 = pd.DataFrame(test_pred_3) # concatenating validation dataset along with all the predicted validation data (meta features) df_val = pd.concat([x_val, val_pred_1, val_pred_2, val_pred_3], axis=1) df_test = pd.concat([x_test, test_pred_1, test_pred_2, test_pred_3], axis=1) # making the final model using the meta features final_model = LinearRegression() final_model.fit(df_val, y_val) # getting the final output final_pred = final_model.predict(df_test) #printing the root mean squared error between real value and predicted value print(mean_squared_error(y_test, pred_final))

输出:

4790

3。装袋:也叫自举法。基础模型在包上运行，以获得整个数据集的公平分布。包是数据集的一个子集，还有一个替换包，用于使包的大小与整个数据集相同。最终输出是在组合所有基础模型的输出后形成的。

算法:

通过替换选择观察值，从训练数据集中创建多个数据集

对每个创建的数据集独立运行一个基本模型

将所有基本模型的预测合并到每个最终输出中

打包通常只使用一个基本模型(在下面的代码中使用了 XGBoost 回归器)。

Python

# importing utility modules import pandas as pd from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error # importing machine learning models for prediction import xgboost as xgb # importing bagging module from sklearn.ensemble import BaggingRegressor # loading train data set in dataframe from train_data.csv file df = pd.read_csv("train_data.csv") # getting target data from the dataframe target = df["target"] # getting train data from the dataframe train = df.drop("target") # Splitting between train data into training and validation dataset X_train, X_test, y_train, y_test = train_test_split( train, target, test_size=0.20) # initializing the bagging model using XGboost as base model with default parameters model = BaggingRegressor(base_estimator=xgb.XGBRegressor()) # training model model.fit(X_train, y_train) # predicting the output on the test dataset pred = model.predict(X_test) # printing the root mean squared error between real value and predicted value print(mean_squared_error(y_test, pred_final))

输出:

4666

4。Boosting: Boosting 是一种顺序方法——它旨在防止错误的基础模型影响最终输出。该方法不是对基本模型进行组合，而是专注于构建一个依赖于前一个模型的新模型。一个新的模型试图消除前一个模型的错误。这些模型中的每一个都被称为弱学习者。最终模型(又称强学习者)是通过获取所有弱学习者的加权平均值而形成的。

算法:

取训练数据集的一个子集。

在这个数据集上训练基本模型。

使用第三个模型来预测整个数据集。

利用预测值和实际值计算误差。

用相同的权重初始化所有数据点。

对错误预测的数据点给予更高的权重。

制作另一个模型，用新模型进行预测，从而减少/纠正前一个模型所犯的错误。

同样，创建多个模型-每个连续的模型都会纠正前一个模型的错误。

最终模型(强学习者)是所有先前模型(弱学习者)的加权平均值。

Python 3

# importing utility modules import pandas as pd from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error # importing machine learning models for prediction from sklearn.ensemble import GradientBoostingRegressor # loading train data set in dataframe from train_data.csv file df = pd.read_csv("train_data.csv") # getting target data from the dataframe target = df["target"] # getting train data from the dataframe train = df.drop("target") # Splitting between train data into training and validation dataset X_train, X_test, y_train, y_test = train_test_split( train, target, test_size=0.20) # initializing the boosting module with default parameters model = GradientBoostingRegressor() # training the model on the train dataset model.fit(X_train, y_train) # predicting the output on the test dataset pred_final = model.predict(X_test) # printing the root mean squared error between real value and predicted value print(mean_squared_error(y_test, pred_final))

输出:

4789

注意:scikit-learn为集成方法提供了几个模块/方法。请注意，一种方法的准确性并不意味着一种方法优于另一种方法。本文旨在简要介绍集成方法，而不是对它们进行比较。程序员必须使用适合数据的方法。

推荐阅读

int
机器学习之贝叶斯垃圾邮件分类代码

本文介绍了贝叶斯垃圾邮件分类的机器学习代码，代码来源于https://www.cnblogs.com/huangyc/p/10327209.html，并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]

蜡笔小新 2023-12-10 12:24:15
format
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
int
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
go
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
format
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
int
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
int
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
int
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
int
Java中vector的使用详解

本文详细介绍了Java中vector的使用方法和相关知识，包括vector类的功能、构造方法和使用注意事项。通过使用vector类，可以方便地实现动态数组的功能，并且可以随意插入不同类型的对象，进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下，使用vector类是一个很好的选择。 ... [详细]

蜡笔小新 2023-12-13 14:14:39
int
如何从列表中删除所有零？

本文介绍了如何使用python从列表中删除所有的零，并将结果以列表形式输出，同时提供了示例格式。 ... [详细]

蜡笔小新 2023-12-13 13:02:00
int
Java学习笔记之面向对象编程（OOP）

本文介绍了Java学习笔记中的面向对象编程（OOP）内容，包括OOP的三大特性（封装、继承、多态）和五大原则（单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则）。通过学习OOP，可以提高代码复用性、拓展性和安全性。 ... [详细]

蜡笔小新 2023-12-13 08:44:30
int
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
int
Python爬虫技术基础篇面向对象高级编程（中）的多重继承

本文介绍了Python爬虫技术基础篇面向对象高级编程（中）中的多重继承概念。通过继承，子类可以扩展父类的功能。文章以动物类层次的设计为例，讨论了按照不同分类方式设计类层次的复杂性和多重继承的优势。最后给出了哺乳动物和鸟类的设计示例，以及能跑、能飞、宠物类和非宠物类的增加对类数量的影响。 ... [详细]

蜡笔小新 2023-12-12 16:19:02
int
H5游戏性能优化，调试技巧

本文介绍了H5游戏性能优化和调试技巧，包括从问题表象出发进行优化、排除外部问题导致的卡顿、帧率设定、减少drawcall的方法、UI优化和图集渲染等八个理念。对于游戏程序员来说，解决游戏性能问题是一个关键的任务，本文提供了一些有用的参考价值。摘要长度为183字。 ... [详细]

蜡笔小新 2023-12-10 15:40:37
search
python3 nmap函数简介及使用方法

本文介绍了python3 nmap函数的简介及使用方法，python-nmap是一个使用nmap进行端口扫描的python库，它可以生成nmap扫描报告，并帮助系统管理员进行自动化扫描任务和生成报告。同时，它也支持nmap脚本输出。文章详细介绍了python-nmap的几个py文件的功能和用途，包括__init__.py、nmap.py和test.py。__init__.py主要导入基本信息，nmap.py用于调用nmap的功能进行扫描，test.py用于测试是否可以利用nmap的扫描功能。 ... [详细]

蜡笔小新 2023-12-10 12:15:27

dmcm0010

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章