如何处理分类中的训练数据集不均衡问题_训练数据不平衡-程序员宅基地

技术标签: python  计算机视觉-深度学习  深度学习  # Mask-RCNN  人工智能  

本文参考自:http://blog.csdn.net/heyongluoyao8/article/details/49408131,有删改。

什么是数据不均衡?

在分类中,训练数据不均衡是指不同类别下的样本数目相差巨大。举两个例子:
①在一个二分类问题中,训练集中class 1的样本数比上class 2的样本数的比值为60:1。使用逻辑回归进行分类,最后结果是其忽略了class 2,将所有的训练样本都分类为class 1。
②在三分类问题中,三个类别分别为A,B,C,训练集中A类的样本占70%,B类的样本占25%,C类的样本占5%。最后我的分类器对类A的样本过拟合了,而对其它两个类别的样本欠拟合。
实际上,训练数据不均衡是常见并且合理的情况。举两个例子:
①在欺诈交易识别中,绝大部分交易是正常的,只有极少部分的交易属于欺诈交易。
②在客户流失问题中,绝大部分的客户是会继续享受其服务的(非流失对象),只有极少数部分的客户不会再继续享受其服务(流失对象)。
那么训练数据不均衡会导致什么问题呢?
如果训练集的90%的样本是属于同一个类的,而我们的分类器将所有的样本都分类为该类,在这种情况下,该分类器是无效的,尽管最后的分类准确度为90%。所以在数据不均衡时,准确度(Accuracy)这个评价指标参考意义就不大了。实际上,如果不均衡比例超过4:1,分类器就会偏向于大的类别。

五种解决办法:

1,扩充数据集

首先想到能否获得更多数据,尤其是小类(该类样本数据极少)的数据,更多的数据往往能得到更多的分布信息。

2,对数据集进行重采样

过采样(over-sampling),对小类的数据样本进行过采样来增加小类的数据样本个数,即采样的个数大于该类样本的个数。
欠采样(under-sampling),对大类的数据样本进行欠采样来减少大类的数据样本个数,即采样的个数少于该类样本的个数。
采样算法容易实现,效果也不错,但可能增大模型的偏差(Bias),因为放大或者缩小某些样本的影响相当于改变了原数据集的分布。对不同的类别也要采取不同的采样比例,但一般不会是1:1,因为与现实情况相差甚远,压缩大类的数据是个不错的选择。

3,人造数据

一种简单的产生人造数据的方法是:在该类下所有样本的每个属性特征的取值空间中随机选取一个组成新的样本,即属性值随机采样。此方法多用于小类中的样本,不过它可能破坏原属性的线性关系。如在图像中,对一幅图像进行扭曲得到另一幅图像,即改变了原图像的某些特征值,但是该方法可能会产生现实中不存在的样本。
有一种人造数据的方法叫做SMOTE(Synthetic Minority Over-sampling Technique)。SMOTE是一种过采样算法,它构造新的小类样本而不是产生小类中已有的样本的副本。它基于距离度量选择小类别下两个或者更多的相似样本,然后选择其中一个样本,并随机选择一定数量的邻居样本对选择的那个样本的一个属性增加噪声,每次处理一个属性。这样就构造了许多新数据。
SMOTE算法的多个不同语言的实现版本:
•Python: UnbalancedDataset模块提供了SMOTE算法的多种不同实现版本,以及多种重采样算法。
•R: DMwR package。
•Weka: SMOTE supervised filter。

4,改变分类算法

使用代价函数时,可以增加小类样本的权值,降低大类样本的权值(这种方法其实是产生了新的数据分布,即产生了新的数据集),从而使得分类器将重点集中在小类样本身上。刚开始,可以设置每个类别的权值与样本个数比例的倒数,然后可以使用过采样进行调优。
可以把小类样本作为异常点(outliers),把问题转化为异常点检测问题(anomaly detection)。此时分类器需要学习到大类的决策分界面,即分类器是一个单个类分类器(One Class Classifier)。
由Robert E. Schapire提出的”The strength of weak learnability”方法,该方法是一个boosting算法,它递归地训练三个弱学习器,然后将这三个弱学习器结合起形成一个强的学习器。算法流程如下:
•首先使用原始数据集训练第一个学习器L1。
•然后使用50%在L1学习正确和50%学习错误的那些样本训练得到学习器L2,即从L1中学习错误的样本集与学习正确的样本集中,循环采样一边一个。
•接着,使用L1与L2不一致的那些样本去训练得到学习器L3。
•最后,使用投票方式作为最后输出。
那么如何使用该算法来解决数据不均衡问题呢? 假设是一个二分类问题,大部分的样本都是true类。
•让L1输出始终为true。
•使用50%在L1分类正确的与50%分类错误的样本训练得到L2,即从L1中学习错误的样本集与学习正确的样本集中,循环采样一边一个。因此,L2的训练样本是平衡的。
•接着使用L1与L2分类不一致的那些样本训练得到L3,即在L2中分类为false的那些样本。
•最后,结合这三个分类器,采用投票的方式来决定分类结果,因此只有当L2与L3都分类为false时,最终结果才为false,否则true。
以下方法同样会破坏某些类的样本的分布:
•设超大类中样本的个数是极小类中样本个数的L倍,那么在随机梯度下降(SGD,stochastic gradient descent)算法中,每次遇到一个极小类中样本进行训练时,训练L次。
•将大类中样本划分到L个聚类中,然后训练L个分类器,每个分类器使用大类中的一个簇与所有的小类样本进行训练得到。最后对这L个分类器采取少数服从多数对未知类别数据进行分类,如果是连续值(预测),那么采用平均值。
•设小类中有N个样本。将大类聚类成N个簇,然后使用每个簇的中心组成大类中的N个样本,加上小类中所有的样本进行训练。
如果不想破坏样本分布,可以使用全部的训练集采用多种分类方法分别建立分类器而得到多个分类器,投票产生预测结果。

5,尝试其它评价指标

我们已经知道了“准确度(Accuracy)”这个评价指标在数据不均衡的情况下有时是无效的。因此在类别不均衡分类任务中,需要使用更有说服力的评价指标来对分类器进行评价。
详见: http://blog.csdn.net/login_sonata/article/details/54288653
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_15615505/article/details/109578910

智能推荐

出租车计费,修改了计费表,每到4就会自动进一位变为5。_出租车遇4跳表算法-程序员宅基地

文章浏览阅读2.6k次,点赞3次,收藏20次。今天看到一道题挺有意思的。作者不是我。作者:gsgfsgdfg链接:https://www.nowcoder.com/discuss/654309?type=all&order=time&pos=&page=1&channel=-1&source_id=search_all_nctrack来源:牛客网题目:出租车计费,修改了计费表,每到 4 就会自动进一位变为 5 。例如:计费到 4 ,进位到 5计费到 39,进位到 50计费到 39._出租车遇4跳表算法

计算机操作系统有哪几个管理功能,操作系统管理功能有哪几种-程序员宅基地

文章浏览阅读5.9k次。操作系统最重要的功能就是对内存、用户、设备等的管理了,那么管理功能具体是怎样完成的呢。下面由学习啦小编为大家整理了操作系统的五大管理功能的相关知识,希望对大家有帮助!操作系统五大管理功能系统是管理和控制计算机系统中的所有硬件、软件资源,合理地组织计算机工作流程,并为用户提供一个良好的工作环境和友好的接口。计算机系统的主要硬件资源有处理器、存储器、外部设备,软件资源以文件形式存在外存储器上。因此从资..._操作系统具有接口管理功能

arcgis里怎么转换坐标系(转载)_arcgis转换坐标系-程序员宅基地

文章浏览阅读4.5w次,点赞17次,收藏93次。1、首先我们要查看数据当前坐标系统是什么,我们点击“开始”,然后点击“ArcGIS”目录下的“ArcCatalog”,从而打开电脑里的打开ArcCatalog。2、打开了软件后我们找到数据所在位置。3、然后右键点击数据集,打开“图层属性”界面。4、选择“XY坐标系”选项卡,查看数据的当前坐标系统。GCS_WGS_1984,即世界级地理坐标系(World Geodetic System 1984),是为GPS全球定位系统使用而建立的坐标系统,也是全球所有卫星所用的坐标系统,主要参数是地球经纬度。5、接_arcgis转换坐标系

Spring注解@Controller 详解_org.springframework.stereotype.controller-程序员宅基地

文章浏览阅读1.6k次。一个简单的基于注解的 Controller 使用过低版本 spring MVC 的读者都知道:当创建一个 Controller 时,我们需要直接或间接地实现 org.springframework.web.servlet.mvc.Controller 接口。一般情况下,我们是通过继承 SimpleFormController 或 MultiActionController 来_org.springframework.stereotype.controller

神经网络与深度学习第三周总结-程序员宅基地

文章浏览阅读291次,点赞8次,收藏3次。在语义分割中,每个像素都可以被分类为不同的类别,如“道路”、“人”、“汽车”等,也可以使用不同的颜色表示不同的类别,从而更清楚地了解图像中每个像素所代表的物体或区域。单次前向传播的工作原理:在YOLO算法中,目标检测是通过单次前向传播来完成的,这相较于其他需要多次迭代或区域提议的目标检测算法(如R-CNN系列)具有显著的速度优势。简化的网络结构:YOLO使用了简化的卷积神经网络结构,减少了参数数量和计算量,从而提高了速度。先验框和锚框:YOLO引入了先验框和锚框的概念,通过预定义的框来辅助目标定位和分类。

MSP432P401R 速成(电赛必备)-程序员宅基地

文章浏览阅读3.7k次,点赞16次,收藏195次。【代码】MSP432P401R 速成(电赛必备)_msp432p401r

随便推点

一文盘点深度学习13个常见问题(附详细解答&学习资源)-程序员宅基地

文章浏览阅读2k次,点赞2次,收藏6次。作者:VIDHYA小组翻译:陈之炎校对:顾佳妮本文共4700字,建议阅读10+分钟。本文为你解答关于入门深度学习的问题,并列出了大量的资源让你起步学习。概述从Facebo..._深度学习初学者常有的疑问

【数字IC/FPGA】书籍推荐(1)----《轻松成为设计高手--Verilog HDL实用精解》_轻松成为设计高手verilog-程序员宅基地

文章浏览阅读3.3w次,点赞32次,收藏35次。【数字IC/FPGA】书籍推荐(1)----《轻松成为设计高手--Verilog HDL实用精解》_轻松成为设计高手verilog

LK流程-----基于MTK平台_lk mtk i2c 6762-程序员宅基地

文章浏览阅读3.8k次,点赞5次,收藏27次。一、LK简介Lk的主要功能: 1、初始化硬件模块,比如时钟,中断,UART,USB,LCD,PMIC,eMMC等。打开MMU,使能I/D-cache,加速lk执行,显示logo、充电相关。 2、从emmc的boot分区取出boot.img解压,将根文件系统(ramdisk)、zImage加载到DRAM; 3、解析dtb,写入到DRAM指定区域; 4、关闭MMU、irq_lk mtk i2c 6762

frps 多个_使用frp工具实现内网的穿透以及配置多个ssh和web服务-程序员宅基地

文章浏览阅读1.3k次。frp简介frp 是一个可用于内网穿透的高性能的反向代理应用,支持 tcp, udp 协议,为 http 和 https 应用协议提供了额外的能力,且尝试性支持了点对点穿透。环境准备ssh连接1. 需要一台可以直接访问外网的服务器,比如阿里云服务器(服务端)2. 需要做内网穿透的服务器,比如公司内部的局域网测试服务器(客户端)web访问3. 需要额外的已经备案的域名下载地址安装步骤客户端跟服务端都..._frps多对一

哈夫曼字符串编码c语言实现,哈夫曼编码-C语言实现-程序员宅基地

文章浏览阅读2.2k次,点赞2次,收藏19次。实验目的:(1) 掌握二叉树的定义;(2) 掌握哈夫曼树和哈夫曼编码算法的实现。???实验内容:实现一个哈夫曼编码系统,系统包括以下功能:(1) 字符信息统计:读取待编码的源文件SourceFile.txt,统计出现的字符及其频率。附:SourceFile.txt文件内容为U ARE THE BEST IN MY HEART(2) 建立哈夫曼树:根据统计结果建立哈夫曼树。(3) 建立哈夫曼码表:利..._给出字符串中每个字符的哈夫曼编码的码字c语言

java输出流文件_Java基础之文件的输入输出流操作-程序员宅基地

文章浏览阅读1.2k次。在介绍输入输出流之前,首先需要了解如何创建文件,创建文件夹以及遍历文件夹等各种操作,这里面不在一一介绍,主要介绍的是文件的输入输出流操作。在起初学习文件操作之前,总是喜欢将输入输出弄混淆,后来通过看一些书以及一些视频,有了一些自己的心得体会,随后介绍一下,以便在我以后忘记的时候可以温习一下。1.流的概念及分类Java将所有传统的流模型(类或抽象类),都放在了Java.io包中,用来实现输入输出的功..._java输出流输出文件

推荐文章

热门文章

相关标签