python随机森林筛选变量_一种基于随机森林的改进特征筛选算法

作者：iar2984165 | 来源：互联网 | 2023-10-12 20:50

刘云翔陈斌周子宜摘要：肝癌是一种我国高发的消化系统恶性肿瘤，患者死亡率高，威胁极大。而其预后情况通常只能通过医生的专业知识和经验积累来粗略

刘云翔陈斌周子宜

摘要&＃xff1a; 肝癌是一种我国高发的消化系统恶性肿瘤&＃xff0c;患者死亡率高&＃xff0c;威胁极大。而其预后情况通常只能通过医生的专业知识和经验积累来粗略判断&＃xff0c;准确率较差。因此文中在分析随机森林算法的基本原理的基础上&＃xff0c;提出一种改进的基于随机森林的特征筛选算法&＃xff0c;并应用Python编程设计了一个能够预处理数据、调用这些算法、控制各参数并展现测试结果的系统&＃xff0c;最终将该系统应用于肝癌预后预测&＃xff0c;比较分析了不同的算法、参数、内部策略对预测精度和计算性能的影响。研究结果表明&＃xff0c;随机森林相比剪枝过的决策树具备更好的泛化能力和训练速度&＃xff0c;改进的特征筛选算法能够在保证预测精度的前提下显著缩小特征集。

关键词&＃xff1a; 随机森林算法; 特征筛选; 肝癌预后预测; 决策树; 预测精度; 特征集

中图分类号&＃xff1a; TN911?34; TP3?05; TP312 文献标识码&＃xff1a; A 文章编号&＃xff1a; 1004?373X(2019)12?0117?05

Abstract&＃xff1a; Liver cancer is a malignant tumor of the digestive system highly occurred in China&＃xff0c; which causes high mortality of patients and great threat to their lives&＃xff0c; and its prognosis conditions are often roughly judged by doctors with their professional knowledge and experience accumulation&＃xff0c; which has poor accuracy. Therefore&＃xff0c; on the basis of analyzing the basic principle of the random forest algorithm&＃xff0c; an improved feature selection algorithm based on the random forest is proposed in this paper. The Python programming design is applied to design a system that can preprocess data&＃xff0c; recall the algorithms&＃xff0c; control various parameters and display test results. The system is applied to the prognosis prediction of the liver cancer. The influences of different algorithms&＃xff0c; parameters and internal strategies on the prediction accuracy and computing performance are compared and analyzed. The research results show that in comparison with the pruned decision tree&＃xff0c; the random forest has a better generalization ability and training speed&＃xff0c; and the improved feature selection algorithm can significantly reduce the feature set on the premise of guaranteeing the prediction accuracy.

Keywords&＃xff1a; random forest algorithm; feature selection; liver cancer prognosis prediction; decision tree; prediction accuracy; feature set

0 引言

肝癌是一种我国高发的消化系统恶性肿瘤&＃xff0c;患者死亡率在恶性肿瘤中高居第三&＃xff0c;威胁极大。该疾病的预后情况通常只能通过医生的专业知识和经验积累来粗略判断&＃xff0c;准确率较差&＃xff0c;对医生和患者都造成了不利影响。目前国内外对该方面进行预测的系统性研究甚少&＃xff0c;大多局限于某些具体指标对预后产生的意义&＃xff0c;更没有相应的模型或软件。但是国内尚无成熟的原发性肝癌数据库&＃xff0c;这可能和肝癌数据分散&＃xff0c;难以大批量获得有关。目前国内将数据挖掘应用于肝癌预后预测研究主要的尝试有申羽等人运用朴素贝叶斯算法[1]和于长春等人应用改进的神经网络算法[2]对原发性肝癌预后预测进行应用研究。随着医学上的数据采集设备不断更新换代&＃xff0c;基于大样本的数据挖掘技术将逐步在医学应用中崭露头角&＃xff0c;显现出了重要的实用价值和广阔的发展前景。

本文将随机森林算法应用于原发性肝癌的数据分析&＃xff0c;以期在临床上能够借助计算机进行预后预测&＃xff0c;帮助选择治疗方案。此外&＃xff0c;还改进并验证了一种基于随机森林的特征筛选算法&＃xff0c;以降低模型训练的开销和数据采集的难度。本文采用Python语言实现了上述算法的各个细节&＃xff0c;组织系统界面&＃xff0c;最终进行大量的测试&＃xff0c;详细分析不同参数和内部策略对性能、输出造成的影响&＃xff0c;对模型选择提供了建议。

本文數据来自第二军医大学东方肝胆医院&＃xff0c;共有588个病例和3个类别&＃xff0c;在专业人员的帮助下去除了很多无关指标&＃xff0c;每例剩余39个可用指标。

1 随机森林算法原理

随机森林是以决策树为基学习器的集成学习方法&＃xff0c;它包含多棵随机产生的决策树并将它们的预测结合输出[3?4]。随机森林采取了Bagging思想和特征子空间思想&＃xff0c;比单一决策树有更好的抗噪性&＃xff0c;并且不易过拟合&＃xff0c;可以显著提高泛化能力[3]。随机森林在Bagging思想的样本扰动基础上&＃xff0c;又加入了属性扰动&＃xff0c;即特征子空间思想&＃xff1a;在各决策树的每个节点上选取最佳划分特征时&＃xff0c;候选特征集都是从该节点的特征集中随机抽取的一个子集&＃xff0c;而不再是该处的整个特征集。特征子集的大小k决定了随机程度&＃xff0c;通常取[k&＃61;M]或[k&＃61;log2M&＃43;1]&＃xff0c;其中M是当前节点的特征总数。特别地&＃xff0c;当[k&＃61;1]时&＃xff0c;每个特征都是随机选取的;而当[k&＃61;M]时&＃xff0c;建立的是普通决策树。

由于每棵决策树的训练集和节点上的特征子集都是独立抽取&＃xff0c;所以它们的预测结果也是相互独立的。根据Bagging思想&＃xff0c;随机森林在分类时用简单投票法取各决策树的多数预测结果。随机森林构造的是多棵“随机”的决策树&＃xff0c;其中单棵的泛化能力通常低于在同样训练集上构造的普通决策树&＃xff0c;然而在集成后整体的性能往往会好于只用Bagging方法建立的随机森林&＃xff0c;因为各基学习器之间有更大的差异性&＃xff0c;可得随机森林中每一棵“随机”决策树的构建算法如下&＃xff1a;

初始化每个节点抽取的特征子集大小m

由于各决策树构建过程的随机性&＃xff0c;随机森林被证明不会过拟合[4]&＃xff0c;故每棵树都尽可能地生长而不需要剪枝。与此同时&＃xff0c;各分类器同质且相互独立&＃xff0c;因此随机森林的建立可以方便地并行完成&＃xff0c;速度较快。图1为随机森林的基本流程。

图1 随机森林的基本流程

2 基于袋外误差的特征选择

对于高维数据&＃xff0c;一般要进行降维或特征选择&＃xff0c;目的是降低模型学习的难度[5?8]。而冗余特征的存在使得特征选择更有必要性&＃xff0c;去除这些不相关的特征不但能降低学习的开销&＃xff0c;还能给数据采集提供便利。常见的特征选择方式有三类&＃xff1a;过滤式、包裹式和嵌入式。过滤式方法在建立学习器之前就对数据集进行特征选择&＃xff0c;再用筛选后的特征训练学习器;包裹式方法在候选特征子集上训练学习器&＃xff0c;用学习器的性能来评价所选的特征集;而嵌入式方法在训练学习器的同时就能完成特征选择。本节中随机森林的特征选择算法是一种基于袋外误差的包裹式方法。

2.1 特征重要性

随机森林定义了特征的重要性度量&＃xff0c;计算某特征X重要性的步骤如下&＃xff1a;

1) 对于随机森林中的决策树[Ti]&＃xff0c;计算它在自己袋外数据上的分类错误数[Ei]。

2) 在该决策树的袋外数据中对X的取值进行随机扰动&＃xff0c;重新计算其分类错误数[EXi]。

3) 令[i&＃61;1&＃xff0c;2&＃xff0c;…&＃xff0c;n]&＃xff0c;重复以上两步&＃xff0c;其中n是随机森林包含的决策树个数。

4) 特征X的重要性定义为&＃xff1a;

这样定义的依据是&＃xff1a;如果对某个特征加入噪声后模型的袋外误差显著提升&＃xff0c;则说明该特征对预测结果的影响较大&＃xff0c;从而有较高的重要性。

2.2 改进的特征选择算法

2010年Genuer R等人和2014年姚登举等人曾提出用随机森林进行特征选择的基本方法[5?6]&＃xff0c;本文在此基础上设计一种更加快捷的特征选择算法&＃xff0c;根据各轮筛选造成的误差增量(相对筛选前)来判断是否要继续筛选&＃xff0c;一旦它超过指定阈值就退出迭代&＃xff0c;并将上一轮筛选所得的特征集作为结果。這样做的依据是&＃xff0c;对于在不断缩减的特征集上训练出的模型&＃xff0c;它们的泛化性能一般呈降低趋势&＃xff0c;而其降低程度可以作为特征集的评价标准。该策略的实质是在给定误差范围内优先选择最小的特征子集&＃xff0c;而不是测试精度最高的&＃xff0c;从而能够尽早停止筛选&＃xff0c;节省大量时间。不将误差增量阈值简单置为0的原因是&＃xff0c;除了剔除不相关特征之外还希望去除一些弱相关特征&＃xff0c;而且这样也能容许每次测试的微小偏差。试验结果表明&＃xff0c;筛选后的特征集其实并不会产生像阈值那样大的误差增量&＃xff0c;在其上的测试精度可以与筛选前持平甚至更高。

由于交叉验证的过程中会产生多个随机森林&＃xff0c;故选择其中测试精度最高的一个来计算当前轮次的特征重要性顺序。计算特征重要性的流程图如图2所示。

图2 计算特征重要性的流程图

3 在肝癌数据上的应用和分析

3.1 数据概览和预处理

训练和测试数据为肝癌病例588例&＃xff0c;由第二军医大学东方肝胆医院提供&＃xff0c;在专业人士的帮助下去除了许多无关指标&＃xff0c;并将所有记录数值化。每个病例剩余39个匿名指标&＃xff0c;类标签有3种&＃xff1a;

1) 恶性肿瘤&＃xff0c;包含246例(41.8%);

2) 正常&＃xff0c;包含193例(32.8%);

3) 良性病变&＃xff0c;包含149例(25.3%)。

由于隐私保护、记录丢失等客观原因&＃xff0c;样本集缺失值较多&＃xff0c;共693处&＃xff0c;缺失值超过5个的样本被程序自动丢弃&＃xff0c;剩余519例。此外&＃xff0c;每个样本包含6个离散型指标&＃xff0c;下标分别为&＃xff1a;0&＃xff0c;16&＃xff0c;17&＃xff0c;18&＃xff0c;19&＃xff0c;20。

本文测试过程中的操作平台的配置为i7?3930k、16 GB内存&＃xff0c;开发和测试环境为WIN7 64 bit、Anaconda 5.1.0&＃xff0c;其中Python解释器版本3.6.5(64 bit)&＃xff0c;预处理数据结果如图3所示。

3.2 模型评估方法

由于是分类问题&＃xff0c;故模型的损失函数为0?1损失&＃xff0c;而模型的测试误差是其在测试集上的平均损失[9?11]。设模型f的输入是X&＃xff0c;Y是对应X的真实值&＃xff0c;测试样本容量为N&＃xff0c;则损失函数L、测试误差e和测试精度r的形式化定义如下&＃xff1a;

图3 读取的文件

模型的复杂度可以直接由代码段在同1台计算机上的运行时间衡量&＃xff0c;也可以通过决策树的叶节点个数来比较。记录的运行时间由Python计时器获得[9]。

推荐阅读

diff
单击后为什么远程通知操作无效？ - Why remote notification action is doing nothing after clicking?

IhaveconfiguredanactionforaremotenotificationwhenitarrivestomyiOsapp.Iwanttwodiff ... [详细]

蜡笔小新 2023-12-14 15:57:44
format
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
input
开源Keras Faster RCNN模型介绍及代码结构解析

本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构，包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]

蜡笔小新 2023-12-10 17:44:07
format
Python实验报告文档中的文件和数据格式化操作

本文介绍了Python语言程序设计中文件和数据格式化的操作，包括使用np.savetext保存文本文件，对文本文件和二进制文件进行统一的操作步骤，以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]

蜡笔小新 2023-12-10 17:02:16
tree
如何使用Python从工程图图像中提取底部的方法？

本文介绍了使用Python从工程图图像中提取底部的方法。首先将输入图片转换为灰度图像，并进行高斯模糊和阈值处理。然后通过填充潜在的轮廓以及使用轮廓逼近和矩形核进行过滤，去除非矩形轮廓。最后通过查找轮廓并使用轮廓近似、宽高比和轮廓区域进行过滤，隔离所需的底部轮廓，并使用Numpy切片提取底部模板部分。 ... [详细]

蜡笔小新 2023-12-10 10:48:49
format
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新 2023-12-09 08:30:08
main
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
case
详解 Python 的二元算术运算，为什么说减法只是语法糖？[Python常见问题]

原题|UnravellingbinaryarithmeticoperationsinPython作者|BrettCannon译者|豌豆花下猫（“Python猫 ... [详细]

蜡笔小新 2023-10-17 15:28:24
input
词向量计算文本相似度,通过词向量求文本相似度

基于词向量计算文本相似度1.测试数据：链接：https:pan.baidu.coms1fXJjcujAmAwTfsuTg2CbWA提取码：f4vx2.实验代码：imp ... [详细]

蜡笔小新 2023-10-17 12:10:15
python
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
python
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
tree
开发笔记:源码分析ConcurrentHashMap与HashTable（JDK1.8）

本文由编程笔记#小编为大家整理，主要介绍了源码分析--ConcurrentHashMap与HashTable（JDK1.8）相关的知识，希望对你有一定的参考价值。　　Concu ... [详细]

蜡笔小新 2023-10-17 21:45:25
tree
Python15行代码实现免费发送手机短信，推送消息「建议收藏」

Python15行代码实现免费发 ... [详细]

蜡笔小新 2023-10-17 20:46:15
random
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
main
第五章：集合01

第三章：集合01一：集合的框架结构图1.集合和数组的区别：2.Collection集合的方法：publicclassCol ... [详细]

蜡笔小新 2023-10-17 16:13:57

iar2984165

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章