当前位置: 开发笔记 > 后端 > 正文

正反例极不平衡的数据集的采样

作者：O臭煊儿O | 来源：互联网 | 2023-10-12 15:03

正负样本不均匀如何处理？转自http:www.alidata.orgarchives205------------------------------------------

正负样本不均匀如何处理？

转自http://www.alidata.org/archives/205

-----------------------------------------------------------------------

今天在网上看到有人讨论这个问题，原问题描述如下：

    类不均衡问题是“分类型数据挖掘”（我就直接按照目标变量来定义概念了哈）实际项目中很常见的一类问题，毕竟生活中像UCI上那种正负类样本点数据基本差不-多的情况是很少见的，至少在我所做过的两个项目中，所遇到的数据情况都是应该属于类极不均衡问题（正负类样本点的比例大致在1:100左右，在这里我将少类样本-定义为正类点，多类样本定义为负类点。由于项目原因，就不介绍具体背景了，反正无非就是在客户中发现有具有潜在风险的客户之类的）。
    在有些算法中（主要是基于信息熵或GINI系数进行分类的算法），这种类极不均衡问题会带来算法失效的结果，例如：在使用DT算法进行分类的时候，类不均衡问题-会使得树无法继续生长，当然，通过调整阈值或设定树的最小层数也可以强制使得树继续生长，但对于大量的数据而言，这种做法多少有些拍脑袋的嫌疑。
    在有些算法中（主要是基于样本点距分划面距离的算法），类不均衡问题会导致分划面的位置过于偏向于正类点的位置，例如：SVM方法中，以线性SVM为例，如果对-于正负类样本点采用同样的惩罚系数的话，可能最终结果是分化面基本上把几乎所有的正类点和负类点都划在分划面的一侧，使得最终的结果都为负类点。
    在这些算法中，对于不均衡类问题都无法得到很好的解决。其实从一种比较通俗的角度来想，数据挖掘无非就是定义一个“规则”，这个规则或者是一堆的IF…ELSE-，或者就直接是一个简单或复杂的函数式，或是两者的结合。数据挖掘的训练过程就是寻找一个在全局或局部最优的“规则”来刻画某种想要的“模式（PATTERN）-”（在本案例中就是刻画潜在的风险客户的特征）。当类不均衡问题出现的时候，模型在训练过程中，最终找到的那种刻画方式往往会倾向于最显著的那种“规则”，当负-类点的的数量多到一定程度的时候，便把正类点的那种“模式”给淹没掉了。所以我们必须采用抽样的方式来使得正类点的“模式”再显现出来，所以，一种解决方式便是-通过分层抽样，来使得正负类样本点的数量比例维持在一个可接受的范围内，（听过一种说法是维持在1:10左右，但不知道这个比例也是拍脑袋得来的还是怎么证明得-到的）。

我的做法是这样的——如果正例（有欺诈）与反例（无欺诈）的原始比例是1：1000——因为决策树既能分辨正例又能分辨反例，如果反例的某些个分支既大又精确，那就把反例的那些个分支统统砍掉，砍完了（即把欺诈概率极小的人排掉）再用剩下的数据（此时再无抽骗的风险了）做一个决策树。

推荐阅读

svm
PRML读书会第十四章 Combining Models（committees，Boosting，AdaBoost，决策树，条件混合模型）...

主讲人网神（新浪微博:豆角茄子麻酱凉面）网神(66707180)18:57:18大家好，今天我们讲一下第14章combiningmodel ... [详细]

蜡笔小新 2023-10-17 17:04:24
svm
Java项目管理工具及配置教程推荐

本文介绍了一些Java开发项目管理工具及其配置教程，包括团队协同工具worktil，版本管理工具GitLab，自动化构建工具Jenkins，项目管理工具Maven和Maven私服Nexus，以及Mybatis的安装和代码自动生成工具。提供了相关链接供读者参考。 ... [详细]

蜡笔小新 2023-12-13 06:45:16
svm
[导入]IT从业人员必看的10个论坛

IT方面的论坛太多了，有综合，有专业，有行业，在各个论坛里混了几年，体会颇深，以前是论坛哪里人多 ... [详细]

蜡笔小新 2023-12-12 11:32:26
package
CEPH LIO iSCSI Gateway及其使用参考文档

本文介绍了CEPH LIO iSCSI Gateway以及使用该网关的参考文档，包括Ceph Block Device、CEPH ISCSI GATEWAY、USING AN ISCSI GATEWAY等。同时提供了多个参考链接，详细介绍了CEPH LIO iSCSI Gateway的配置和使用方法。 ... [详细]

蜡笔小新 2023-12-12 10:10:14
package
读书的目的及学习算法的重要性

本文讨论了读书的目的以及学习算法的重要性，并介绍了两个算法：除法速算和约瑟夫环的数学算法。同时，通过具体的例子和推理，解释了为什么x=x+k序列中的第一个人的位置为k，以及序列2和序列3的关系。通过学习算法，可以提高思维能力和解决问题的能力。 ... [详细]

蜡笔小新 2023-12-10 20:15:26
package
python可以做什么工作好Python入门后，想要从事自由职业可以做哪方面工作？

Python入门后，想要从事自由职业可以做哪方面工作？1.爬虫很多人入门Python的必修课之一就是web开发和爬虫。但是这两项想要赚钱的话 ... [详细]

蜡笔小新 2023-10-17 16:29:09
package
支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度

介绍在我们学习机器算法的时候，可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器，但你要明白这些兵器是需要在合适的时间合理 ... [详细]

蜡笔小新 2023-10-17 16:21:13
package
机器学习之数据均衡算法种类大全+Python代码一文详解

目录前言一、为什么要做数据均衡？二、数据场景1.大数据分布不均衡2.小数据分布不均衡三、均衡算法类型1.过采样2.欠采样3.组合采样四、算法具体种类1 ... [详细]

蜡笔小新 2023-10-15 23:34:41
package
Stanford机器学习第九讲. 聚类

原文：http:blog.csdn.netabcjenniferarticledetails7914952本栏目（Machinelearning）包括单参数的线性回归、多参数的线性 ... [详细]

蜡笔小新 2023-10-15 16:17:01
package
开源真香离线识别率高 Python 人脸识别系统

本文主要介绍关于python,人工智能,计算机视觉的知识点，对【开源真香离线识别率高Python人脸识别系统】和【】有兴趣的朋友可以看下由【000X000】投稿的技术文章，希望该技术和经验能帮到 ... [详细]

蜡笔小新 2023-10-14 15:43:38
package
产教融合，共塑未来”，CIE 2018 中国 IT 教育博鳌论坛盛大落幕

2018年11月10-11日，为期两天的“2018中国IT教育博鳌论坛”落下帷幕。2018年11月10-11日，为推动中国IT人才引进与培养࿰ ... [详细]

蜡笔小新 2023-10-13 19:31:55
package
吴恩达 Deep learning 第一周深度学习概论

知识点1.Relu（RectifiedLinerUints整流线性单元）激活函数：max(0,z)神经网络中常用ReLU激活函数，与机器学习课程里面提到的sigmoid激活函数 ... [详细]

蜡笔小新 2023-10-13 13:13:17
package
必备核心算法神经网络通俗讲解

深度学习传统算法VS人工智能算法传统算法：都是人为去计算人工智能算法：部分人为需要做的事情交由机器去做【把更多的问题简单化】IT的发展比较高端的就是A ... [详细]

蜡笔小新 2023-10-13 13:37:46
package
搞定问题描述的5W2H法是什么

作者：拿破仑的DO君来源：数据氧气数据氧气的第27篇原创，预计阅读6min作为职场人士，我们在做分析以及工作时，常常在想如何快速解决问题。可能会忽略一点，解决问题中基础很重要，是对 ... [详细]

蜡笔小新 2023-10-13 13:12:00
分布式
Spark面试题汇总大全

1RDD简介RDD是Spark最基本也是最根本的数据抽象，它具备像MapReduce等数据流模型的容错性，并且允许开发人员在大型集群上执行基于内存的计 ... [详细]

蜡笔小新 2023-10-13 12:55:35

O臭煊儿O

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章