RapidMiner数据挖掘入门

1 简介
RapidMiner原名Yale&＃xff0c;它是用于数据挖掘、机器学习、商业预测分析的开源计算环境。根据KDnuggets在2011年的一次投票显示&＃xff0c;从使用率来看该软件比之R语言还要略胜一筹。因为其具备GUI特性&＃xff0c;所以很适合于数据挖掘的初学者入门。

RapidMiner提供的数据挖掘和机器学习程序包括&＃xff1a;数据加载和转换&＃xff08;ETL&＃xff09;&＃xff0c;数据预处理和可视化&＃xff0c;建模&＃xff0c;评估和部署。数据挖掘的流程是以XML文件加以描述&＃xff0c;并通过一个图形用户界面显示出来。RapidMiner是由Java编程语言编写的&＃xff0c;其中还集成了WEKA的学习器和评估方法&＃xff0c;并可以与R语言进行协同工作。

2 学习资源
软件的帮助菜单中自带了26个tutorial&＃xff0c;可以帮助用户进行基本入门。另外在sample有也有不错的案例数据和流程可供参考学习。从官方网站可以下载到一份简单的用户手册&＃xff0c;另外还有相应的资源站提供了很好的视频教程。

3 基本概念
rapidminer中的功能均是通过连接各类算子&＃xff08;operataor&＃xff09;形成流程(process)来实现的&＃xff0c;整个流程可以看做是工厂车间的生产线&＃xff0c;输入原始数据&＃xff0c;输入出模型结果。算子可以看做是执行某种具体功能的函数&＃xff0c;不同算子有不同的输入输出特性。

大体上有这样几类算子&＃xff1a;

流程控制类&＃xff0c;是为了实现循环和条件功能。
数据输入和输出类&＃xff0c;是为了实现数据交换。
数据转换类&＃xff0c;包括各种数据抽取、清洗整理功能&＃xff1b;
建模类&＃xff0c;包括分类回归建模&＃xff0c;关联分析、聚类分析、集成学习等功能。
评估类&＃xff0c;包括多重交叉检验&＃xff0c;自助法检验等功能

软件有两个主要的工作区&＃xff0c;一个是流程设计工作区&＃xff0c;本区左侧可以看到各类算子和库&＃xff0c;中间的主流程设计区&＃xff0c;下方是错误提示区&＃xff0c;右侧是参数设置区。另一个是结果显示工作区。

将算子拖入主流程工作区后&＃xff0c;它会以一个方箱形式呈现&＃xff0c;不同的颜色暗示着不同的函数功能。箱体左侧是输入接口&＃xff0c;对应着输入类型的缩写。右侧对应输出接口和相应缩写。左下角会有三种颜色的状态灯&＃xff0c;红灯表示关于该算子的设置错误&＃xff0c;黄灯表示设置正常但还未进行过执行操作&＃xff0c;绿灯表示设置正常且已经进行过执行操作。

在建模时&＃xff0c;变量&＃xff08;attributes&＃xff09;会分为两个大类&＃xff0c;普通变量称为regular,而目标变量称为label。这在有监督学习时需要特别留意。从数据特征来分&＃xff0c;又可分为数值变量numeric&＃xff0c;分类变量nominal&＃xff0c;其中又有两值分类变量binominal&＃xff0c;多值分类变量polynominal。不同的算子对于输入数据的类型有着不同的要求&＃xff0c;这点需要在算子帮助中仔细阅读。

4 建模一般流程

新建一个库&＃xff08;Repository&＃xff09;
选择需要的算子&＃xff08;operator&＃xff09;放入主流程(main process)中
设置算子相关参数 (parameter)
进行算子连接
执行流程以得到结果

rapidminer数据挖掘入门之二&＃xff1a;数据导入、预处理和绘图

1 基本概念
当安装软件时rapidminer会问你新建库文件在所在地&＃xff0c;也就是Repositories&＃xff0c;它相当于是用户的所有资料存放地。库中主要存放两种资料&＃xff1a;一种是建模需要的数据&＃xff08;Data&＃xff09;&＃xff0c;另一种是建模用到的模型&＃xff0c;或称为流程&＃xff08;Processes&＃xff09;。在安装完软件后&＃xff0c;用户可以从Repositories下面看到sample文件&＃xff0c;里面提供了用来练习用的数据和模型。

2 数据导入
数据导入有两种方式&＃xff1a;
第一种是在Repositories菜单中点击import&＃xff0c;可以读取CSV等五种格式数据&＃xff0c;导入后以data形式存在库中&＃xff0c;可随时拖拽到主流程图中调用&＃xff0c;将会显示为Retrieve。

第二种是以算子&＃xff08;Operators&＃xff09;形式导入&＃xff0c;从算子中的import类中可以选择十几种导入算子拖拽到主流程图中&＃xff0c;然后在设置窗口确定资料来源。

3 数据预处理
数据预处理主要通过Data Transformation算子实现中&＃xff0c;其中包括了这样几个大类&＃xff1a;

重定义&＃xff0c;在数据导入时软件会让你定义哪些属于预测变量&＃xff0c;哪些属于响应变量&＃xff0c;如果在导入阶段没有定义&＃xff0c;则可以在预处理阶段用&＃xff08;Set Role&＃xff09;算子进行再定义&＃xff0c;否则会无法进行分类建模。
数据类型转换&＃xff0c;数据大致上可分为数值&＃xff08;numerical&＃xff09;、两类(Binomial)、多类(Polynomial)数据&＃xff0c;有时候希望相互转换&＃xff0c;这就要用到Type Conversion类的算子来处理。
数据标准化&＃xff0c;标准化数据和还原是经常用到的功能&＃xff0c;分别对应Normalize和De-Normalize算子&＃xff0c;
数据的清理&＃xff0c;有这样几种数据可能是需要清理的&＃xff0c;一是离群点&＃xff0c;通过Detect Outier进行检测&＃xff1b;二是缺失数据&＃xff0c;通过Replace Missing Values进行处理&＃xff1b;三是近似于常数的变量&＃xff0c;通过Remove Useless Attribute算子来处理&＃xff1b;四是相关度很高的变量&＃xff0c;用Remove Correlated Atributes算子处理。
数据抽样&＃xff0c;通过sample算子实现。

4 数据绘图

绘图是在result overview窗口中实现&＃xff0c;我们以著名的鸢尾花数据为例。首先将库中sample下的iris拖入Main Process&＃xff0c;然后将其进行标准化&＃xff0c;再点击大三角符号进行运算。软件会自动转到结果窗口&＃xff0c;在该窗口选择plot view就可以选择多种绘图方式&＃xff0c;下图就是所绘制的三维散点图&＃xff1a;

rapidminer数据挖掘入门之三&＃xff1a;特征选择

在一般数据分析条件下&＃xff0c;样本集合就类似一个Excel表格&＃xff0c;每个样本数据排为一行&＃xff0c;而纵列则代表了样本不同的特征或属性。有时候样本数据的特征过多&＃xff0c;甚至特征数超过样本数就形成所谓的“维灾难”。

维数过高对于大多数回归分类模型来说是难以忍受的&＃xff0c;而且这么高维特征可能会大大干扰训练效果、降低分类性能&＃xff0c;因此有必要采取措施进一步地降低特征空间的维数。降维过程包括两类方法&＃xff1a;一种是特征选择又称为子集选择&＃xff0c;即从最初的N个特征中选取n个特征&＃xff0c;而这n个特征可以更简洁、更有效地表示样本的信息。另一种是数据变换&＃xff0c;即把N个原始特征变换为n个新的特征&＃xff0c;例如主成分分析、投影寻踪方法。

特征选择的一般思路是&＃xff1a;构造一个评估函数&＃xff0c;对特征子集中的每一个特征进行独立的评估&＃xff0c;使每一个特征得到一个评估分&＃xff0c;然后对所有特征按照其评估分大小进行排序&＃xff0c;选取满足阀值的预定数目个特征形成特征子集。

从使用方法上&＃xff0c;特征选择又分为过滤器&＃xff08;Filter&＃xff09;方法和嵌入&＃xff08;Wrapper&＃xff09;方法&＃xff0c;Filter是独立于分类器训练的&＃xff0c;而Wrapper是结合分类器的效果进行选择的。Filter处理速度快&＃xff0c;而Wrapper比较准确&＃xff0c;但丧失了数据的一般性。rapidminer就采用Wrapper方法。

我们首先在Repositories中选择sample->processes->04_Attributes->10_ForwardSelect。该例子中用的方法是以前向搜索为选择顺序&＃xff0c;以回归均方误为评估指标进行特征选择。

点击运行&＃xff0c;然后观察结果窗口&＃xff0c;在ProcessLog标签下观察散点图&＃xff0c;纵轴选performance&＃xff0c;横轴选generation&＃xff0c;可以观察到在选择3个变量时&＃xff0c;均方误达到最低&＃xff0c;从ExampleSet标签可以看到最终选择了a1,a2,a3,这三个变量。

rapidminer数据挖掘入门之四&＃xff1a;建模和评价&＃xff08;完&＃xff09;

rapidminer中提供了大量的建模方法或学习器&＃xff0c;可用于不同情况下的回归和分类问题。从常见的线性回归、决策树到神经网络和支持向量机。此外还提供了集成学习器&＃xff0c;即将多个学习器组合使用以提高预测能力&＃xff0c;例如Bagging和Boosting&＃xff0c;以及Stacking。

这些学习器都可以看做是一个黑箱&＃xff0c;输入数据&＃xff0c;输出模型和预测结果。在使用这些学习器时要注意的一点就是&＃xff1a;不同的学习器需输入的数据类型不同。以Decision Tree学习器为例&＃xff0c;它可以输入numerical attributes&＃xff08;数值数据自变量&＃xff09;、binominal attributes&＃xff08;两分类数据自变量&＃xff09;、polynomial attributes&＃xff08;多分类数据自变量&＃xff09;&＃xff0c;以及polynominal label&＃xff08;多分类数据因变量&＃xff09; binominal label&＃xff08;两分类数据因变量&＃xff09;&＃xff0c;但它不能处理numerical label&＃xff08;数值数据因变量&＃xff09;。这些信息都可以在学习器上通过帮助信息了解。

在建模时&＃xff0c;我们通常会将样本数据分为两个部分&＃xff0c;一半做为训练样本&＃xff0c;另一半做为检验样本&＃xff0c;那么这如何来进行呢&＃xff1f;首先还是将iris数据拖入&＃xff0c;在后面加上split data算子&＃xff0c;该算子将数据分为两个等份&＃xff0c;一部分数据连接到decision tree用于建模&＃xff0c;另一部分连接到apply model算子用于模型检验。还需要将decision tree算子的输出连接到apply model算子的输入&＃xff0c;将apply model的lab输出连接到performance进行检验评价&＃xff0c;最后将mod输出和per输出都连接到右边墙上即可。然后点击运行三角键就可以得到最终的结果输出。整个连接图应该如下图所示&＃xff1a;

另一种常用的检验方法是cross-validation&＃xff08;交叉检验&＃xff09;&＃xff0c;以十重交叉检验为例&＃xff0c;也就是将全部数据随机地分为等量的十份&＃xff0c;选择其中的9份作为训练数据&＃xff0c;剩下1份作为检测数据来评价模型。然后更换其中的1份数据&＃xff0c;重复实验。这样得到10组不同的评价指标&＃xff0c;最后综合评判模型的表现。在rapidminer中需要用X-Validation算子来实现这一功能。流程图如下所示&＃xff0c;