学习总结之数据挖掘三大类六分项

作者：Lora1201 | 来源：互联网 | 2018-06-07 03:20

DataMining可分为三大类六分项来说明：Classification和Clustering属于分类区隔类；Regression和Time-series属于推算预测类；Association和Sequence则属于序列规则类。Classification是根据一些变量的数值做计算，再依照结果作分类。（计算的结果最后会

Data Mining可分为三大类六分项来说明： Classification和Clustering属于分类区隔类； Regression和Time-series属于推算预测类； Association和Sequence则属于序列规则类。 Classification是根据一些变量的数值做计算，再依照结果作分类。（计算的结果最后会

Data Mining可分为三大类六分项来说明：

Classification和Clustering属于分类区隔类；

Regression和Time-series属于推算预测类；

Association和Sequence则属于序列规则类。

Classification是根据一些变量的数值做计算，再依照结果作分类。（计算的结果最后会被分类为几个少数的离散数值，例如将一组数据分为 "可能会响应" 或是 "可能不会响应" 两类）。Classification常被用来处理如前所述之邮寄对象筛选的问题。我们会用一些根据历史经验已经分类好的数据来研究它们的特征，然后再根据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类数据可能是来自我们的现有的客户数据，或是将一个完整数据库做部份取样，再经由实际的运作来测试；譬如利用一个大型邮寄对象数据库的部份取样来建立一个Classification Model，再利用这个Model来对数据库的其它数据或是新的数据作分类预测。

Clustering用在将数据分群，其目的在于将群间的差异找出来，同时也将群内成员的相似性找出来。Clustering与Classification不同的是，在分析前并不知道会以何种方式或根据来分类。所以必须要配合专业领域知识来解读这些分群的意义。　　

Regression是使用一系列的现有数值来预测一个连续数值的可能值。若将范围扩大亦可利用Logistic Regression来预测类别变量，特别在广泛运用现代分析技术如类神经网络或决策树理论等分析工具，推估预测的模式已不在止于传统线性的局限，在预测的功能上大大增加了选择工具的弹性与应用范围的广度。

Time-Series Forecasting与Regression功能类似，只是它是用现有的数值来预测未来的数值。两者最大差异在于Time-Series所分析的数值都与时间有关。Time-Series Forecasting的工具可以处理有关时间的一些特性，譬如时间的周期性、阶层性、季节性以及其它的一些特别因素（如过去与未来的关连性）。

Association是要找出在某一事件或是数据中会同时出现的东西。举例而言，如果A是某一事件的一种选择，则B也出现在该事件中的机率有多少。（例如：如果顾客买了火腿和柳橙汁，那么这个顾客同时也会买牛奶的机率是85%。）

Sequence Discovery与Association关系很密切，所不同的是Sequence Discovery中事件的相关是以时间因素来作区隔（例如：如果A股票在某一天上涨12%，而且当天股市加权指数下降，则B股票在两天之内上涨的机率是 68%）。

Data Mining在各领域的应用非常广泛，只要该产业拥有具分析价值与需求的数据仓储或数据库，皆可利用Mining工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售业、直效行销界、制造业、财务金融保险、通讯业以及医疗服务等。

于销售数据中发掘顾客的消费习性，并可藉由交易纪录找出顾客偏好的产品组合，其它包括找出流失顾客的特征与推出新产品的时机点等等都是零售业常见的实例；直效行销强调的分众概念与数据库行销方式在导入Data Mining的技术后，使直效行销的发展性更为强大，例如利用Data Mining分析顾客群之消费行为与交易纪录，结合基本数据，并依其对品牌价值等级的高低来区隔顾客，进而达到差异化行销的目的；制造业对Data Mining的需求多运用在品质控管方面，由制造过程中找出影响产品品质最重要的因素，以期提高作业流程的效率。

近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测（Fraud Detection）都很有兴趣，这些行业每年因为诈欺行为而造成的损失都非常可观，Data Mining可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易，达到减少损失的目的。财务金融业可以利用Data Mining来分析市场动向，并预测个别公司的营运以及股价走向。Data Mining的另一个独特的用法是在医疗业，用来预测手术、用药、诊断、或是流程控制的效率。

一般而言，Data Mining的理论技术可分为传统技术与改良技术两支。传统技术以统计分析为代表，统计学内所含序列统计、概率论、回归分析、类别数据分析等都属于传统数据挖掘技术，尤其Data Mining 对象多为变量繁多且样本数庞大的数据，是以高等统计学里所含括之多变量分析中用来精简变量的因素分析（Factor Analysis）、用来分类的判别分析（Discriminant Analysis），以及用来区隔群体的分群分析（Cluster Analysis）等，在Data Mining过程中特别常用。

在改良技术方面，应用较普遍的有决策树理论（Decision Trees）、类神经网络（Neural Network）以及规则归纳法（Rules Induction）等。决策树是一种用树枝状展现数据受各变量的影响情形之预测模型，根据对目标变量产生之效应的不同而建构分类的规则，一般多运用在对客户数据的分析上，例如针对有回函与未回含的邮寄对象找出影响其分类结果的变量组合，常用分类方法为CART（Classification and Regression Trees）及CHAID（Chi-Square Automatic Interaction Detector）两种。类神经网络是一种仿真人脑思考结构的数据分析模式，由输入之变量与数值中自我学习并根据学习经验所得之知识不断调整参数以期建构数据的型样(patterns)。类神经网络为非线性的设计，与传统回归分析相比，好处是在进行分析时无须限定模式，特别当数据变量间存有交互效应时可自动侦测出；缺点则在于其分析过程为一黑盒子，故常无法以可读之模型格式展现，每阶段的加权与转换亦不明确，是故类神经网络多利用于数据属于高度非线性且带有相当程度的变量交感效应时。　　

规则归纳法是知识发掘的领域中最常用的格式，这是一种由一连串的「如果…/则…（If / Then）」之逻辑规则对数据进行细分的技术，在实际运用时如何界定规则为有效是最大的问题，通常需先将数据中发生数太少的项目先剔除，以避免产生无意义的逻辑规则。

推荐阅读

自然语言处理
深度学习与神经网络——邱锡鹏

深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络：一种以（人工)）神经元为基本单元的模型深度学习：一类机器学习问题，主要解决贡献度分配问题知识结构：路线图：顶 ... [详细]

蜡笔小新 2023-10-16 05:57:42
深度学习
分享篇：第十届“泰迪杯”数据挖掘挑战赛农田害虫图像识别（特等奖）一

1.1赛题背景昆虫的种类浩如烟海，农田常见的昆虫是人工生态系统的重要组成部分。分辨益虫和害虫，保留益虫，消灭害虫，对于减轻害 ... [详细]

蜡笔小新 2023-10-15 19:37:42
自然语言处理
必备核心算法神经网络通俗讲解

深度学习传统算法VS人工智能算法传统算法：都是人为去计算人工智能算法：部分人为需要做的事情交由机器去做【把更多的问题简单化】IT的发展比较高端的就是A ... [详细]

蜡笔小新 2023-10-13 13:37:46
深度学习
吴恩达 Deep learning 第一周深度学习概论

知识点1.Relu（RectifiedLinerUints整流线性单元）激活函数：max(0,z)神经网络中常用ReLU激活函数，与机器学习课程里面提到的sigmoid激活函数 ... [详细]

蜡笔小新 2023-10-13 13:13:17
数据挖掘
数据仓库、LODP、OLAP

数据仓库:也称为企业数据仓库，是一种数据存储系统，它将来自于不同数据源的数据进行结构化数据聚合起来，用于业务智能领域的比较和分析 ... [详细]

蜡笔小新 2023-10-16 16:39:29
数据挖掘
使用python进行自动化打分

数据挖掘研讨课结束了，这门课的考核方法是每个同学根据班里面同学的课堂表现打分，然后老师再取截断平均值作为最后的分数。于是我就想，能否用p ... [详细]

蜡笔小新 2023-10-16 12:18:20
数据挖掘
未来大行其道的仿真×××机器人，你会花10万块钱买一个吗？

这两天小编在追脑洞科幻剧《西部世界》，看到下面这一幕时↓↓不禁让小编想起了“仿真机器人”。今日无写作灵感的小编，立马用超级写手Giiso写作机器人小智& ... [详细]

蜡笔小新 2023-10-16 11:17:12
数据挖掘
NLPIR语义智能平台指引未来文本挖掘的发展方向

　　数据挖掘作为近年来新兴的一门计算机边缘学科，其在国内外引起了越来越多的关注。并且随着数据挖掘技术的不断改进和数据挖掘工具的不断完善，数据挖掘必将在各行各业中得到广泛的应用。　　 ... [详细]

蜡笔小新 2023-10-15 21:37:37
tensorflow
bat大牛带你深度剖析android 十大开源框架_请收好！5大领域，21个必知的机器学习开源工具...

全文共3744字，预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]

蜡笔小新 2023-10-15 15:52:17
算法
大数据学习入门难，给初学者支招

大数据学习入门难，给初学者支招 ... [详细]

蜡笔小新 2023-10-15 08:30:02
数据挖掘
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56
算法
数据可视化技术的应用，行业优秀案例分享

数据可视化并不是什么新型技术，二十世纪50年代电子计算机图形学的初期，就可以利用软件建立出了第一批图形图表。伴随着近几年来大数据备受关注， ... [详细]

蜡笔小新 2023-10-14 13:12:48
深度学习
sqlserver触发器写法_技术书籍荐读不可错过的SQL Server数据库书单来袭！

朱熹读书之法，在循序渐进，熟读而精思。2019年转眼就要过去了，这一年，你读了哪些书，得到了哪些收获ÿ ... [详细]

蜡笔小新 2023-10-14 10:40:34
数据挖掘
未来几年，商业智能的大趋势介绍

1.数据科学家将消亡熟悉数据分析将是普通业务人员的基本技能，能利用好数据价值去做规划的企业组织将更成功，忽略数据重要性的将被逐渐淘汰。2.云端商业智 ... [详细]

蜡笔小新 2023-10-14 10:06:14
算法
产教融合，共塑未来”，CIE 2018 中国 IT 教育博鳌论坛盛大落幕

2018年11月10-11日，为期两天的“2018中国IT教育博鳌论坛”落下帷幕。2018年11月10-11日，为推动中国IT人才引进与培养࿰ ... [详细]

蜡笔小新 2023-10-13 19:31:55

Lora1201

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章