当前位置: 开发笔记 > 前端 > 正文

决策树、bagging、boosting算法思想

作者：mobiledu2502853787 | 来源：互联网 | 2023-07-03 20:32

本文内容主要以算法思想为主，介绍决策树原理，从决策树迁移到集成学习主要是由于随机森林比较好使，引出了bagging和它的亲戚boostin

本文内容主要以算法思想为主，介绍决策树原理，从决策树迁移到集成学习主要是由于随机森林比较好使，引出了bagging和它的亲戚boosting。有趣的思想包括：决策树的信息熵、随机森林的泛化性能、boosting的改变样本分布与前向分步思想

1.决策树

人类判断的机制：由上及下逐级决策，将大问题化为多个子问题。

决策树机制：选择不同的划分属性，将问题逐步划分建成一棵树状图。

由根结点（原始问题）、内结点（子问题）、叶节点（最终决策）组成，具有处理未见实例的能力，泛化能力强。

1.1 算法步骤

决策树利用递归生成，生成过程包含三种递归返回：

1）当前结点所含样本属于同一类别

2）当前属性集为空或者当前样本在所有属性上相等

3）当前结点所含样本为空

具体的算法实现过程这篇文章讲的很好：决策树分类算法原理分析及代码实现

决策树类算法有GBDT(Gradient Boosting DT）、XGBDT、随机森林

1.2 信息熵与基尼指数

信息熵：通过样本集合的不确定性度量样本集合的纯度（信息熵是什么）

$Ent(D)=-\sum_{k=1}^{\left | y \right |}p_{k}log_{2}p^{_{k}}$

Ent(D)越大，不确定性越高，纯度越低。

信息增益：就决策树来说，对公式的理解可以是划分前后不确定性的差值，也就是使用a划分属性带来的纯度提升

$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{\left | D^{v} \right |}{\left | D \right |}Ent(D^{v})$

决策树学习算法ID3（1986）用信息增益来选择划分属性，C4.5（1993）用信息增益率来选择划分属性

基尼指数：随机从D中抽取两个样本，其类别标记不一致的概率作为纯度的判定，不一致的概率越大，纯度越低。

$Gini(D)=\sum_{k=1}^{\left | y \right |}\sum_{k&＃39;\neq k}p_{k}p_{k&＃39;}=1-\sum_{k=1}^{\left | y \right |}p_{k}^{2}$

CART（1984）采用基尼指数来选择划分属性

2. bagging与随即森林

bagging：主要是通过样本的扰动引入基学习器的多样性。利用bootstrap从原始数据集中采样得到不同的数据集，分别训练不同的及学习器模型，再根据结合策略结合

随机森林：基于决策树的bagging，主要是通过样本扰动和属性扰动引入多样性。除了样本集的抽取，还在属性划分过程中引入随机性，不对所有样本进行最优选择，而是先随机选择某些属性，再从随机的属性中选择最优属性。

3. boosting

前向分步训练：基学习器的学习不是并行的，下一个基学习器的学习会用到上一个基学习器的先验知识。

更新样本分布：样本集的抽取不是随机的，而是根据本次基学习器的结果改变本次所使用的训练样本集的分布，用于下一个基学习器的学习。

此外，基学习器的结合策略也可以根据每步训练结果进行改进，如AdaBoost使用的加权平均法中的基学习器分配权重就是根据每一步基学习器的训练结果得到。

推荐阅读

正则
PRML读书会第十四章 Combining Models（committees，Boosting，AdaBoost，决策树，条件混合模型）...

主讲人网神（新浪微博:豆角茄子麻酱凉面）网神(66707180)18:57:18大家好，今天我们讲一下第14章combiningmodel ... [详细]

蜡笔小新 2023-10-17 17:04:24
vue
【珍藏】2019年最新Vue相干佳构开源项目库汇总

媒介本文的前身是源自github上的项目awesome-github-vue,但由于该项目上次更新时候为2017年6月12日，许多内容早已逾期或是许多近期优异组件未被收录，所以小肆 ... [详细]

蜡笔小新 2023-10-17 14:33:46
vue
提升Python编程效率的十点建议

本文介绍了提升Python编程效率的十点建议，包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间，提高编程效率。同时，还提供了相关参考链接供读者深入学习。 ... [详细]

蜡笔小新 2023-12-14 21:51:04
html
ng2bootstrapprimeNG

http:valor-software.comng2-bootstraphttps:www.primefaces.orgprimeng#autocomplete转载于:https: ... [详细]

蜡笔小新 2023-12-09 20:57:51
html
org.gwtbootstrap3.client.ui.Icon.addDomHandler()方法的使用及代码示例

本文整理了Java中org.gwtbootstrap3.client.ui.Icon.addDomHandler()方法的一些代码示例，展示了Icon.ad ... [详细]

蜡笔小新 2023-10-17 22:46:43
json
bootstrap模态框动态赋值， ajax异步请求数据后给id为queryInfo的模态框赋值并弹出模态框（JS）...

查询单个functionquery(id){$.ajax({url:smallproductServlet,async:true,type:POST,data:{typ ... [详细]

蜡笔小新 2023-10-17 19:40:17
html
Shell脚本自动发布springboot到docker容器中

1.脚本功能1）自动替换jar包中的配置文件。2）自动备份老版本的Jar包3）自动判断是初次启动还是更新服务2.脚本准备进入ho ... [详细]

蜡笔小新 2023-10-17 19:08:29
view
javascript – RTL布局中的bootstrap datepicker无法正常工作

RTL布局中的bootstrapdatepicker工作不正常,我正在使用这个bootstrapdatepickerhttp:bootstrap-datepicker.readth ... [详细]

蜡笔小新 2023-10-17 18:57:35
view
初识java关于JDK、JRE、JVM 了解一下

初识java关于JDK、JRE、JVM 了解一下 ... [详细]

蜡笔小新 2023-10-17 17:17:17
view
Elastic Search 7.0 添加数据提示提示503错误

ElasticSearch成功安装完毕。测试数据添加出现{ error:{ root_cause ... [详细]

蜡笔小新 2023-10-17 15:46:32
css
基于SpringBoot打造在线教育系统（6）– 二级分类模块UI篇

这一节来做二级分类，为了快速开发，一级分类只做新增，暂时不考虑修改和删除，如果一定要删，就去数据库删吧。我们接下来，需要通过一级分类，获取所有的二级分类。开始 ... [详细]

蜡笔小新 2023-10-17 15:30:11
css
宋宝华：用systemd-nspawn运行最轻量级容器

systemd-nspawn可以创建最轻量级的容器（ns的意思就是namespace），本文的实验平台是Ubuntu16.04，x86_64机器。本文的目的是：在Ubuntu中用syst ... [详细]

蜡笔小新 2023-10-17 14:49:15
css
ipad可以开发python_这15个应用,程序员用iPad照样可以编程!

1、DashAPI文档Dash是一个API文档浏览器，使用户可以使用离线功能即时搜索无数API。程序员使用Dash可访问iOS，MacOS， ... [详细]

蜡笔小新 2023-10-17 10:15:42
html
Bootstrap3 排版缩略语

Bootstrap3 排版缩略语 ... [详细]

蜡笔小新 2023-10-17 09:02:39
html
cisco路由器的寄存器值（忘记密码时要进机器时候用的）

本文摘要配置目的：寄存器配置用于更改路由器启动过程。配置目的：寄存器配置用于更改路由器启动过程。启动位由4位16进制寄存器组成格式：0xA ... [详细]

蜡笔小新 2023-10-16 19:59:28

mobiledu2502853787

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章