热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

adaboostmhmatlab,adaboost、adaboost.m1、adaboost.m2简介

集成学习常见的两种集成方案为bagging和boosting,其中bagging是一种基于投票的并行方案,boosting是一种基于改变原始数据集分布的

集成学习常见的两种集成方案为bagging和boosting,其中bagging是一种基于投票的并行方案,boosting是一种基于改变原始数据集分布的迭代串行方案(某些环节也可并行)。bagging的代表算法为随机森林,boosting的代表算法有adaboost、gbdt、xgb等。

121980ea415d

bagging方案图:从训练集从进行子抽样组成每个基模型所需要的子训练集,对所有基模型预测的结果进行综合产生最终的预测结果

121980ea415d

boosting方案图:训练过程为阶梯状,基模型按次序一一进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果:

AdaBoost算法有AdaBoost.M1和AdaBoost.M2两种算法,AdaBoost.M1是我们通常所说的Discrete AdaBoost,而AdaBoost.M2是M1的泛化形式。adaboost是由Yoav Freund和Robert E. Schapire 首先提出来的一种用于二分类问题的集成方法;紧接着出现的Adaboost.M1将二分类扩展到多分类问题;而AdaBoost.M2不仅可以处理多分类问题,还引入了置信度的概念,进一步扩展了AdaBoost算法;AdaBoostMH算法则是基于AdaBoost.M1算法的一种标签转化方案的多标签算法。关于AdaBoost算法的一个结论是:当弱分类器算法使用简单的分类方法时,boosting的效果明显地统一地比bagging要好.当弱分类器算法使用C4.5时,boosting比bagging较好,但是没有前者明显。后来又有学者提出了解决多标签问题的AdaBoost.MH和AdaBoost.MR算法,其中AdaBoost.MH算法的一种形式又被称为Real Boost算法---弱分类器输出一个可能度,该值的范围是整个R, 和与之相应的权值调整,强分类器生成的AdaBoost算法。事实上:Discrete AdaBoost是指,弱分类器的输出值限定在{-1,+1},每个弱分类器有相应的权值,从而构成一个强分类器。adaboost采用的集成方式是对基分类器的结果进行加权求和,如果结果大于0则样本被分为正类,如果结果小于0则样本被分为负类。adaboost算法要做的就是每次迭代过程中,赋予被错误分类的样本更大的权重。

1). adaboost算法

121980ea415d

adaboost算法要做的就是每次迭代过程中,赋予被错误分类的样本更大的权重

最终一个样本的预测值为:

121980ea415d

adaboost采用的集成方式是对基分类器的结果进行加权求和,如果结果大于0则样本被分为正类,如果结果小于0则样本被分为负类

从算法步骤中我们可以看出,权重的更新方式为:

121980ea415d

如果一个样本被上一个分类器正确分类,那么它的权重将乘以e**-at(大于0小于1),如果这个样本被上一个分类器错误分类,那么它的权重将乘以e**at。也就是说错误分类的样本权值相对于正确分类的样本权值扩大了e**2at倍,而e**2at=(1-et)/et。常用的改变权重方式为样本抽样和标签系数转化。

2).adaboost.m1算法

121980ea415d

adaboost算法对权值更新函数做了更改使其适用于多分类问题

adaboost.m1算法和adaboost算法的不同点在于:

a.H(x)的形式发生了变化,没用使用sign()映射转化,但是其本质任然没有发生改变,任然可以看做是对基分类器的分类结果进行头片产生最终结果,而且基分类器的权重本质上也为ln(1-et)/et。

b.两者的本质区别在于第10步,对比我们可以发现为了适应多分类问题,adaboost的权值更新函数做了一定的调整。权值更新方案为:

如果一个样本被上一个分类器错误分类,那么它的权重不变,如果这个样本被上一个分类器正确分类,那么它的权重将乘以et/(1-et),也就是说错误分类的样本权值相对于正确分类的样本权值扩大了(1-et)/et倍(因为如果更改分类错误样本我们不知道其具体偏向哪个类别错误)。

3).adaboost.m2算法

121980ea415d

在adaboost.M2中算法对基分类器的输出形式做出了限制,给定一个样本,基分类器对c1到cm的类都输出一个介于0和1之间的值,表示这个样本属于某个类的概率,且这些值相加等于1

adaboost.M2的思路还是提高难以被正确分类的样本的权重,例如样本可以被分为A,B,C三类,某个样本xi真实类别标签为A,第k轮分类器对xi的分类结果为:

类别                                 A                             B                             C

概率                                0.1                          0.5                           0.6

显然当前基分类器对这个样本的分类不理想,那么adaboost.M2算法会根据步骤8来计算计算当前基分类器的误差,接着步骤10会修改错误类B,C的权重,进而在下一次迭代的步骤6中更新这个样本的权重。



推荐阅读
  • 提升Python编程效率的十点建议
    本文介绍了提升Python编程效率的十点建议,包括不使用分号、选择合适的代码编辑器、遵循Python代码规范等。这些建议可以帮助开发者节省时间,提高编程效率。同时,还提供了相关参考链接供读者深入学习。 ... [详细]
  • 本文比较了eBPF和WebAssembly作为云原生VM的特点和应用领域。eBPF作为运行在Linux内核中的轻量级代码执行沙箱,适用于网络或安全相关的任务;而WebAssembly作为图灵完备的语言,在商业应用中具有优势。同时,介绍了WebAssembly在Linux内核中运行的尝试以及基于LLVM的云原生WebAssembly编译器WasmEdge Runtime的案例,展示了WebAssembly作为原生应用程序的潜力。 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 本文介绍了闭包的定义和运转机制,重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则,闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文介绍了C#中生成随机数的三种方法,并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法,但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数,进一步突显了这个问题。文章指出,随机数生成在任何编程语言中都是必备的功能,但Random类生成的随机数并不可靠。最后,提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]
  • 如何用UE4制作2D游戏文档——计算篇
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了如何用UE4制作2D游戏文档——计算篇相关的知识,希望对你有一定的参考价值。 ... [详细]
  • JavaScript设计模式之策略模式(Strategy Pattern)的优势及应用
    本文介绍了JavaScript设计模式之策略模式(Strategy Pattern)的定义和优势,策略模式可以避免代码中的多重判断条件,体现了开放-封闭原则。同时,策略模式的应用可以使系统的算法重复利用,避免复制粘贴。然而,策略模式也会增加策略类的数量,违反最少知识原则,需要了解各种策略类才能更好地应用于业务中。本文还以员工年终奖的计算为例,说明了策略模式的应用场景和实现方式。 ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • Voicewo在线语音识别转换jQuery插件的特点和示例
    本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件,该插件具有快速、架构、风格、扩展和兼容等特点,适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
author-avatar
巴香香
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有