python机器学习决策树详细介绍

作者：李国龙度_476 | 来源：互联网 | 2017-05-14 02:44

这篇文章讲述python机器学习决策树详细介绍

决策树（Decision Trees ，DTs）是一种无监督的学习方法，用于分类和回归。

优点：计算复杂度不高，输出结果易于理解，对中间值缺失不敏感，可以处理不相关的特征数据
缺点：可能会产生过度匹配的问题
适用数据类型：数值型和标称型　　source code下载　　https://www.manning.com/books/machine-learning-in-action

运行demo　　　　

关键算法

if so return 类标签;

else

　　寻找划分数据集的最好特征
　　划分数据集
　　创建分支节点
　　for 每个分支节点
　　　　调用函数createBranch并增加返回结果到分支节点中
return 分支节点

对应代码

def createTree(dataSet,labels):
　　classList = [example[-1] for example in dataSet] 不是dataset[-1] ｛dataset倒数第一元素｝，而这时里，dataset每一个元素里的倒数第一元素
　　if classList.count(classList[0]) == len(classList): 如果返回分类List count类型一样，则返回该类型！在子节点是否可分类如是一类型返回否则递归往下分类
　　　　return classList[0]#stop splitting when all of the classes are equal
　　if len(dataSet[0]) == 1: #stop splitting when there are no more features in dataSet 如果只有一个元素
　　　　return majorityCnt(classList)
　　bestFeat = chooseBestFeatureToSplit(dataSet) 　　　　选择最好的特征索引
　　bestFeatLabel = labels[bestFeat] 　　　　而得到这个label flippers 还是 no surfaces 呢
　　myTree = {bestFeatLabel:{}} 　　　　然后创建该最好的分类的子树
　　del(labels[bestFeat]) 　　删除了该最好分类
　　featValues = [example[bestFeat] for example in dataSet]
　　uniqueVals = set(featValues) 　　　　set是归类，看只有多少种类
　　for value in uniqueVals:
　　　　subLabels = labels[:] #copy all of labels, so trees don&＃39;t mess up existing labels
　　　　myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
　　return myTree

在划分数据集之前之后信息发生的变化称为信息增益，划分数据集的最大原则是将无序的数据变得更加有序。这里理解成切饼原理：

0.5509775004326937 = += prob * calcShannonEnt(subDataSet) 分开的子集后，的概率*香农滴，得到的和，原来的整体的香浓滴比

# 数据越接近，香浓熵值越少，越接近0 ，越不同，越多分逻辑，香浓熵就越大
# 只计算 其dataSet的featVec[-1] 结果标签
def calcShannonEnt(dataSet):

0.4199730940219749 infoGain = baseEntropy - newEntropy

总结：　　

　　一开始，看代码看不懂，不明白到底是要做什么！分类，我们的目标是把一堆数据分类，以label来标签上。
像k邻近 classify([0, 0], group, labels, 3) 意思是，把新数据[0,0] 按k=3的邻近算法在 group,labels数据里的分类！ group与label对应！

后面看到了

最后，再用一段话来讲讲决策树：

　　决策树本质上：是加快效率！用‘最大最优’划分第一个否定标签，而肯定标签要继续划分！而否定，直接返回叶结点答案！而对应的其它维度就不继续判断！

理论上，即使不用决策树算法，就盲目穷举，就是每次都把数据所有维度轮一次！而有最后个标签答案！维度数*数据个数！为复杂度！这是对记忆的匹配回答！合适专家系统！预测未出现的情况能力差！但数据量大，速度快，也能有智能的感觉！因为是对过去经验的重演！然而它是死的？不，它不是死的！穷举是死的，但决策树是动态的！学习的！变化树！至少它的建成是动态的！当数据不完全时，它也可能是不完全的！当一个判断可以解决就用一个判断，不能就再需要一个！维度增加！

以上就是python机器学习决策树详细介绍的详细内容，更多请关注第一PHP社区其它相关文章！

推荐阅读

import
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
import
无损压缩算法专题——LZSS算法实现

本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程，以及代码中的注释。 ... [详细]

蜡笔小新 2023-12-13 19:47:31
import
Java的集合及其实现类详解

本文介绍了Java的集合及其实现类，包括数据结构、抽象类和具体实现类的关系，详细介绍了List接口及其实现类ArrayList的基本操作和特点。文章通过提供相关参考文档和链接，帮助读者更好地理解和使用Java的集合类。 ... [详细]

蜡笔小新 2023-12-13 14:12:18
import
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
import
词袋模型的通俗介绍

词,袋, ... [详细]

蜡笔小新 2023-12-12 08:20:03
import
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
import
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
ip
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
import
机器学习之贝叶斯垃圾邮件分类代码

本文介绍了贝叶斯垃圾邮件分类的机器学习代码，代码来源于https://www.cnblogs.com/huangyc/p/10327209.html，并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]

蜡笔小新 2023-12-10 12:24:15
import
机器学习算法代码实现——线性回归

前言：拿到一个案例，去分析：它该是做分类还是做回归，哪部分该做分类，哪部分该做回归，哪部分该做优化，它们的目标值分别是什么。再挑影响因素，哪些和分类有关的影响因素，哪些和回归有关的 ... [详细]

蜡笔小新 2023-10-17 19:58:52
ip
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
ip
数模国赛报名参加方法及建议

本文介绍了数模国赛的报名参加方法，包括学校报名和自己报名的途径。同时给出了建模竞赛的建议，重在历练的同时掌握方法以及弥补自己的短板。此外，还分享了论文的结构和模型求解部分的注意事项，包括数学命题的表述规范和计算方法的原理等。 ... [详细]

蜡笔小新 2023-12-13 18:52:24
ip
Thrift教程初级篇——RPC框架Thrift的安装环境变量配置与第一个实例

本文介绍了RPC框架Thrift的安装环境变量配置与第一个实例，讲解了RPC的概念以及如何解决跨语言、c++客户端、web服务端、远程调用等需求。Thrift开发方便上手快，性能和稳定性也不错，适合初学者学习和使用。 ... [详细]

蜡笔小新 2023-12-13 17:36:52
import
计算机网络初识及通信流程分析

本文介绍了计算机网络的定义和通信流程，包括客户端编译文件、二进制转换、三层路由设备等。同时，还介绍了计算机网络中常用的关键词，如MAC地址和IP地址。 ... [详细]

蜡笔小新 2023-12-13 16:50:29
import
商汤科技面试——CV算法面经详解及相关问题讨论

本文详细介绍了商汤科技面试中涉及的CV算法面经内容，包括CornerNet的介绍与CornerPooling的解决方案、Mimic知识蒸馏的实现方式、MobileNet的特点、普通卷积和DW PW卷积的计算量推导、Residual结构的来源等。同时还讨论了在人脸关键点和检测中的mimic实现方式、pose对人脸关键点的提升作用、目标检测中可能遇到的问题以及处理检测类别冲突的方法。此外，还涉及了对机器学习的了解程度和相似度分析的问题。 ... [详细]

蜡笔小新 2023-12-11 11:14:03

李国龙度_476

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章