不平衡数据的随机平衡采样bagging算法分类研究
- 格式:doc
- 大小:25.50 KB
- 文档页数:7
机器学习中的样本不平衡问题解析过采样欠采样集成方法应对策略在机器学习中,样本不平衡问题是指在数据集中各个类别的样本数量存在明显差异的情况。
这种问题在许多实际应用中都非常常见,比如银行欺诈识别、罕见疾病检测等。
样本不平衡问题的存在会对训练出的机器学习模型产生较大的影响,因此需要采取一些方法来解决这个问题。
下面将对过采样、欠采样和集成方法三种常用的解决方案进行详细的介绍和分析。
1. 过采样方法过采样是指通过增加少数类样本数量,来达到类别平衡的目的。
其核心思想是通过复制已有的少数类样本,使得少数类样本的数量增加到与多数类样本接近。
最常用的过采样方法是SMOTE算法(Synthetic Minority Over-sampling Technique),它基于样本之间的相似性来生成新的少数类样本。
具体来说,SMOTE算法会选择两个相邻的少数类样本,然后在它们之间的线段上随机选择一个点,生成一个新的少数类样本。
虽然过采样方法可以有效增加少数类样本的数量,但也存在一些问题。
首先,过采样可能导致模型过分关注少数类样本,忽视了多数类样本,这会导致模型的泛化能力下降。
其次,过采样可能引入噪音样本,这些噪音样本可能会干扰模型的训练过程,影响模型的性能。
2. 欠采样方法欠采样是指通过减少多数类样本数量,来达到类别平衡的目的。
与过采样不同的是,欠采样方法是通过删除部分多数类样本来实现的。
最常用的欠采样方法是随机欠采样,即随机选择一部分多数类样本进行删除。
此外,还有一些基于聚类的欠采样方法,比如K-means算法、DBSCAN算法等,它们通过聚类的方式选择多数类样本进行删除。
与过采样方法类似,欠采样方法也存在一些问题。
首先,欠采样可能会丢失一部分有用信息,因为删除多数类样本时可能会删除一些重要的特征。
其次,欠采样可能会导致训练集中多数类样本的分布不均匀,这会对模型的训练产生不利影响。
3. 集成方法集成方法是指通过组合多个基分类器来解决样本不平衡问题。
处理不平衡的图像识别数据集近年来,图像识别技术得到了长足的发展,已经被广泛应用于各个领域。
然而,对于不平衡的图像数据集的处理仍然是一个具有挑战性的问题。
不平衡的图像识别数据集指的是在数据集中不同类别的样本数量差异较大,可能导致模型对少数类别的效果不佳。
本文将从数据采集、数据预处理、算法调优等方面论述如何处理不平衡的图像识别数据集,以提高模型的性能和鲁棒性。
1. 数据采集在处理不平衡的图像识别数据集时,数据采集是非常重要的一环。
首先,要确保数据集的代表性,即尽可能包含各个类别的样本。
其次,可以采用数据增强技术,如旋转、平移、缩放、镜像等操作,增加少数类别的样本数量,从而缓解数据集的不平衡性。
另外,可以使用迁移学习的方法,将已有的大规模数据集中的特征迁移到目标数据集中,以增加其多样性。
2. 数据预处理在进行图像识别之前,需要对数据进行预处理。
对于不平衡的数据集,可以采用欠采样或过采样的方法进行处理。
欠采样即删除一部分多数类别样本,使得不同类别的样本数量尽可能平衡。
过采样则是通过复制或合成少数类别的样本,使其数量接近多数类别的样本数量。
需要注意的是,过度的欠采样或过采样可能导致信息损失或过拟合问题,因此选择合适的采样比例是很重要的。
3. 算法调优在处理不平衡的图像识别数据集时,算法的选择和调优也是至关重要的。
一种常见的方法是使用集成学习。
集成学习可以通过组合多个分类器的结果,提高整体分类性能。
常见的集成学习方法有随机森林、AdaBoost、Bagging等。
另外,可以采用基于实例的分类器,如SVM、KNN等。
这些方法能够更好地处理不平衡数据集,并提高模型的泛化能力。
4. 监督学习与无监督学习的结合除了传统的监督学习方法,还可以尝试结合无监督学习技术。
无监督学习可以从数据中自动学习特征或类别信息,并发现隐含的数据分布。
通过结合监督学习和无监督学习,可以更好地处理不平衡数据集,并提高模型的性能。
综上所述,处理不平衡的图像识别数据集需要多方面的考虑。
在深度学习领域,数据不平衡问题是一个常见的挑战。
不平衡数据指的是训练数据集中某一类别的样本数量远远多于其他类别的样本数量。
这种不平衡会导致模型对于少数类别的学习效果较差,因为模型在训练过程中更容易偏向于数量较多的类别。
在现实生活中,很多问题都存在类别不平衡,比如在金融领域,欺诈交易的样本数量远远少于正常交易的样本数量。
那么,如何解决深度学习中的不平衡数据问题呢?一、数据采样技术数据采样是一种常见的解决不平衡数据的方法。
常用的数据采样技术包括欠采样(undersampling)和过采样(oversampling)。
欠采样指的是从多数类样本中随机选取一部分样本,使得多数类样本的数量与少数类样本数量相近。
这种方法的缺点是会导致信息的丢失,因为删除多数类样本会降低模型的学习能力。
然而,如果处理得当,欠采样仍然是一种有效的方法。
过采样是指增加少数类样本的数量,使其与多数类样本数量相近。
这种方法的常见做法是复制少数类样本或生成合成样本。
复制方法简单易行,但可能导致模型对重复样本的过拟合。
生成合成样本可以通过一些算法来实现,比如SMOTE(Synthetic Minority Over-sampling Technique)和ADASYN(Adaptive Synthetic Sampling)。
这些算法通过在两个或多个最近邻样本之间插值生成新的样本,从而增加少数类样本的数量。
二、算法调整技术在深度学习中,不仅可以通过调整数据来解决不平衡问题,还可以通过算法调整来提高模型的性能。
下面介绍两种常见的算法调整技术。
1. 权重调整(Weighting)权重调整是一种简单而有效的方法,通过赋予不同类别的样本不同的权重来平衡数据。
通常,权重与类别的倒数成正比,即少数类别的样本权重较高,多数类别的样本权重较低。
在损失函数中,加上权重对应的项,以降低对少数类别的错误分类惩罚,提高对多数类别的错误分类惩罚。
这种方法可以在不改变模型结构的情况下,有效地解决不平衡数据问题。
如何解决支持向量机算法中的数据不平衡问题在机器学习领域,支持向量机(Support Vector Machine,SVM)是一种非常常用的分类算法。
然而,当数据集中的不同类别样本数量差异较大时,即数据不平衡问题,SVM算法可能会受到影响并导致分类结果不准确。
因此,解决SVM算法中的数据不平衡问题是非常重要的。
数据不平衡问题指的是数据集中不同类别的样本数量差异较大。
例如,在二分类问题中,一个类别的样本数量远远多于另一个类别。
这种情况下,SVM算法可能会偏向于多数类别,而对少数类别进行较差的分类。
解决这个问题的方法有很多,下面将介绍几种常用的方法。
1. 重采样方法重采样方法是通过改变数据集中不同类别样本的数量比例来解决数据不平衡问题。
其中,欠采样方法通过减少多数类别样本的数量,使其与少数类别样本数量接近。
而过采样方法则通过增加少数类别样本的数量,使其与多数类别样本数量接近。
这些方法可以通过随机选择样本或者基于一定规则进行选择样本。
2. 样本生成方法样本生成方法是通过生成新的样本来增加少数类别的样本数量。
其中,SMOTE(Synthetic Minority Over-sampling Technique)是一种常用的样本生成方法。
SMOTE算法通过在少数类别样本之间进行插值,生成新的样本。
这样可以增加少数类别样本的数量,并且保持数据分布的一致性。
3. 样本权重调整方法样本权重调整方法是通过调整样本的权重来解决数据不平衡问题。
在SVM 算法中,可以通过设置样本的权重来平衡不同类别样本的影响。
通常情况下,少数类别样本的权重会设置为较大值,以增加其对分类结果的影响。
而多数类别样本的权重可以设置为较小值,以减小其对分类结果的影响。
4. 集成学习方法集成学习方法是通过结合多个分类器的结果来解决数据不平衡问题。
其中,Bagging和Boosting是两种常用的集成学习方法。
Bagging算法通过随机采样生成多个分类器,并通过投票的方式来决定最终的分类结果。
不平衡数据分类算法的研究与改进引言:在现实生活和工作中,我们经常会遇到一些数据集呈现出不平衡分布的情况,即其中一类样本数量明显多于其他类。
这种不平衡数据分类问题给传统的机器学习算法带来了挑战,因为它们往往倾向于将样本分类为占优势的类别,而对于少数类别的样本则表现出较差的分类效果。
因此,研究如何有效处理不平衡数据分类问题,对于提高机器学习算法的应用性能具有重要意义。
一、不平衡数据分类问题的挑战不平衡数据分类问题是指在数据集中一类样本数量远远超过其他类别样本数量的情况。
这种数据的不均衡分布会导致传统的分类算法存在一系列挑战。
1. 数据分布不均导致样本分类偏倚传统的分类算法是基于样本的多数规则进行分类的,即将样本归为数量占优势的类别。
当数据集中存在数量悬殊的类别时,算法倾向于将样本归为占优势的类别,而忽略了少数类别的样本。
这种分类偏倚导致了不平衡数据分类问题。
2. 少数类样本的识别困难由于少数类样本数量较少,传统分类算法在处理这些样本时往往会出现较低的分类准确率。
少数类样本在整个数据集中所占比重小,因此算法难以学习到少数类的特征,进而导致识别困难。
3. 不平衡数据分类问题的评估困难不平衡数据分类问题在评估时也带来了困难。
由于少数类别样本数量较少,直接使用分类准确率作为评估指标容易产生误导。
因此,需要寻找合适的评估指标来评估分类算法在不平衡数据集上的性能。
二、不平衡数据分类算法的研究进展针对不平衡数据分类问题,研究者们提出了一系列改进算法以提高分类性能。
这些算法主要包括数据重采样方法、基于代价敏感的分类方法以及集成学习方法等。
1. 数据重采样方法数据重采样方法主要通过增加少数类样本或者减少多数类样本来平衡数据集。
常见的数据重采样方法包括过采样和欠采样。
过采样方法通过复制少数类样本或生成合成样本来增加样本数量;欠采样方法通过删除多数类样本来减少样本数量。
然而,过采样容易导致过拟合问题,而欠采样则会丢失大量的样本信息,因此如何进行合理的数据重采样仍然是一个挑战。
不平衡数据的处理方法不平衡数据是指在机器学习任务中,不同类别的样本数量差异较大,其中一类样本数量远远多于另一类样本的情况。
不平衡数据会对模型的训练和性能产生较大的影响,因为模型可能倾向于学习数量较多的类别,而忽略数量较少的类别。
针对不平衡数据,有一些常用的处理方法,如下所述:1.重采样方法:- 过采样(Over-sampling):通过复制从少数类别中采样得到的样本,来增加少数类别的样本数量。
例如,最简单的过采样方法是随机复制少数类别样本,直到两个类别的样本数量相等。
常用的过采样方法有SMOTE、ADASYN等。
- 欠采样(Under-sampling):通过删除多数类别中的样本,来减少多数类别的样本数量。
例如,最简单的欠采样方法是随机删除多数类别样本,直到两个类别的样本数量相等。
欠采样可能会导致丢失多数类别样本中的重要信息,因此需要谨慎使用。
- 结合过采样和欠采样:结合使用过采样和欠采样的方法,来同时增加少数类别的样本数量和减少多数类别的样本数量。
常用的方法有SMOTEENN、SMOTETomek等。
2.设置类别权重:-对于不平衡数据,可以通过设置类别权重来调整模型的训练过程和性能评估。
通常,设置权重时会将多数类别样本的权重设为较小的值,将少数类别样本的权重设为较大的值。
这样可以使模型更加关注少数类别,提高对少数类别的识别能力。
3.生成合成样本:- 合成样本(Conditional Generative Adversarial Networks):通过生成合成的少数类别样本,来增加少数类别的样本数量。
合成样本的生成可以利用生成对抗网络(GANs)的方法。
GANs通过训练生成器和判别器的对抗过程,生成逼真的合成样本。
4.算法调整和集成学习:-调整算法参数:对于支持向量机(SVM)、决策树、随机森林等模型,可以通过调整算法参数来改善不平衡数据的分类效果。
例如,可以调整决策树中的分割标准、支持向量机中的惩罚参数等。
集成学习中的Bagging算法概述Bagging算法是集成学习中一种常用的方法,旨在通过集合多个基础分类器的预测结果来提高整体的分类准确性。
本文将对Bagging算法进行概述,介绍其原理、优点和应用领域。
Bagging(Bootstrap aggregating)算法的核心思想是通过自助采样(bootstrap sampling)和多个基学习器的集成来减小模型的方差,提高模型的鲁棒性。
具体步骤如下:1. 数据集采样:从原始训练集中使用有放回的随机采样(bootstrap sampling)方法生成多个采样集合。
每个采样集合的大小与原始训练集一样,但样本中可能有重复。
2. 基学习器训练:对于每个采样集合,使用基础学习算法(如决策树、SVM 等)来训练一个基学习器。
由于采样集合中可能出现冗余和噪声,每个基学习器可能会学到略微不同的知识。
3. 集成预测:对于新的未知样本,通过将所有基学习器的预测结果进行投票或取平均,来进行最终的集成预测。
这样可以抵消单个基学习器的错误,提高整体的分类准确度。
Bagging算法的优点在于能有效降低过拟合风险,并提高模型的鲁棒性和稳定性。
具体而言,有以下几个方面:1. 方差减小:通过集成多个基学习器的预测结果,Bagging算法能够减小模型的方差,降低模型对训练数据的过拟合程度。
2. 鲁棒性提升:多个基学习器的集成可以减小训练数据中的随机噪声和异常样本对模型的影响,提高模型的鲁棒性。
3. 算法简单:Bagging算法本身的实现相对简单,只需要采样数据集和训练多个基学习器,不需要大量的调参和优化。
Bagging算法在实践中被广泛应用于各种机器学习任务中,特别是在分类和回归问题上。
以下是一些典型的应用领域:1. 基于决策树的Bagging算法(Random Forest)在图像识别、物体检测和推荐系统等领域取得了很好的效果。
由于决策树具有良好的可解释性和抗噪能力,与Bagging算法结合能够更进一步提高模型的分类准确性和鲁棒性。
如何处理神经网络中的数据不平衡问题神经网络在机器学习领域具有广泛的应用,但是在实际应用中,我们经常会遇到数据不平衡的问题。
数据不平衡是指在训练集中不同类别的样本数量差异较大,这会导致神经网络对少数类别的样本学习不足,从而影响模型的性能和泛化能力。
本文将探讨如何处理神经网络中的数据不平衡问题。
一、了解数据不平衡的原因数据不平衡问题常见于许多领域,例如医学诊断中的罕见疾病、金融欺诈检测中的欺诈交易等。
数据不平衡的原因主要有两个方面:一是数据采集的偏差,即某些类别的样本更难获取,导致其数量较少;二是样本分布的不均匀,即某些类别的样本在整个数据集中分布不均匀。
二、采用重采样方法重采样是处理数据不平衡问题的常见方法之一。
重采样的目的是通过增加或减少样本数量,使不同类别的样本数量达到平衡。
常见的重采样方法包括过采样和欠采样。
1. 过采样过采样是指增加少数类别样本的数量,使其与多数类别样本数量接近。
常用的过采样方法有随机复制、SMOTE(Synthetic Minority Over-sampling Technique)等。
随机复制是指随机从少数类别样本中复制出新的样本,但这种方法容易导致过拟合问题。
SMOTE算法则是通过对少数类别样本进行插值,生成新的合成样本。
SMOTE算法通过计算少数类别样本之间的距离,选择相邻样本进行插值,从而生成新的样本。
这种方法可以有效增加少数类别样本的数量,并且减少过拟合的风险。
2. 欠采样欠采样是指减少多数类别样本的数量,使其与少数类别样本数量接近。
常用的欠采样方法有随机删除、Tomek链接等。
随机删除是指随机从多数类别样本中删除一部分样本,但这种方法容易丢失重要信息。
Tomek链接是一种通过计算样本之间的距离,删除多数类别样本的方法。
Tomek链接的思想是删除多数类别样本和少数类别样本之间的Tomek链接,从而减少多数类别样本的数量。
三、使用类别权重类别权重是一种通过调整样本权重的方法,使得模型更加关注少数类别样本。
机器学习中的数据不平衡问题处理方法研究在机器学习中,数据不平衡问题是一个普遍存在的挑战。
数据不平衡指的是训练数据集中不同类别的样本数量差异很大,可能导致模型对于少数类别的样本预测能力较差。
解决数据不平衡问题对于构建准确且鲁棒的机器学习模型至关重要。
本文将介绍一些常用的数据不平衡问题处理方法,并评估它们的优缺点。
一、欠采样方法欠采样方法是通过减少多数类别的样本数量来平衡数据集。
其中一种常见的欠采样方法是随机欠采样,即随机删除多数类别的样本,使得多数类别和少数类别的样本数量接近。
然而,随机欠采样可能会导致信息丢失,因为删除了许多原始数据中的有用信息。
为了克服信息丢失的问题,可使用更复杂的欠采样方法,如Tomek 链接和CNN。
Tomek链接通过删除多数类别和少数类别之间的Tomek 链接样本来进行欠采样。
Tomek链接指的是某两个不同类别样本之间的最近邻,而这两个样本的标签不同。
CNN是一种基于聚类的欠采样方法,它通过聚类多数类别样本并删除每个簇中距离簇中心最远的样本来进行欠采样。
优点:欠采样方法简单易懂,易于实施。
缺点:欠采样可能会导致信息丢失,且在处理大规模数据集时计算开销较大。
二、过采样方法过采样方法是通过增加少数类别的样本数量来平衡数据集。
其中一种常见的过采样方法是随机过采样,即通过复制少数类别的样本来增加其数量。
然而,随机过采样可能导致模型对于少数类别的样本过于拟合,从而降低模型的泛化能力。
为了解决过拟合问题,可以使用更复杂的过采样方法,如SMOTE 和ADASYN。
SMOTE通过合成新的少数类别样本来进行过采样,具体方法是对于每个少数类别样本,选择其k个最近邻样本,并在其与这些最近邻样本之间的线段上随机插入新样本。
ADASYN是SMOTE的扩展,它根据样本类别的不平衡程度对每个少数类别样本分配不同的采样权重。
优点:过采样方法能够增加数据集中少数类别的样本数量,提高模型对于少数类别的预测能力。
解决深度学习中的不平衡数据问题引言:在深度学习领域,不平衡数据问题是一个常见而严重的挑战。
由于现实中数据分布的不均衡性,某些类别的样本数量会远远少于其他类别,导致模型在处理不平衡数据时,存在着倾向性和偏差。
本文将探讨如何解决深度学习中的不平衡数据问题,为模型训练和分类任务提供可行的解决方案。
1. 数据重采样:数据重采样是解决深度学习中不平衡数据问题的常用方法之一。
通过增加少数类别的样本数量或减少多数类别的样本数量,可以使得不同类别之间的数据更加平衡。
具体而言,数据重采样技术包括过采样和欠采样两种方法。
过采样:过采样是通过复制少数类别的样本来增加其数量,从而使得各个类别之间样本的比例更加平衡。
最简单且效果较好的过采样方法是随机复制,即随机选择某个少数类别的样本,并将其复制到数据集中,直至两个类别的样本数量达到一定比例。
另一种过采样方法是SMOTE,它通过插值的方式生成新的样本,从而增加少数类别的样本数量。
然而,过多的过采样可能导致模型对少数类别的过拟合,从而影响分类性能。
欠采样:欠采样是通过删除多数类别的样本来减少其数量,以达到数据平衡的目的。
欠采样的方法包括随机欠采样、TomekLinks和NearMiss等。
随机欠采样是最简单的方法,它随机地选择多数类别的样本,并将其从数据集中删除。
TomekLinks和NearMiss是基于样本距离的欠采样方法,它们通过选择样本之间的特定关系删除多数类别的样本。
但欠采样可能会丢失一些重要信息,导致分类性能的下降。
2. 集成学习方法:集成学习方法也是解决不平衡数据问题的有效手段。
通过组合多个分类器的预测结果,可以提高整体分类性能,并减少模型对特定类别的偏差。
具体而言,集成学习方法包括投票法、Boosting和Bagging等。
投票法:投票法是一种简单而直接的集成学习方法,它通过将多个分类器的预测结果进行投票,选取得票数最多的类别作为最终的分类结果。
在解决不平衡数据问题时,可以考虑使用加权投票法,给少数类别的分类器赋予更高的权重,从而增加其对最终结果的影响力。
不平衡数据的随机平衡采样bagging算法分类研究作者:季梦遥袁磊来源:《贵州大学学报(自然科学版)》2017年第06期摘要:不平衡数据广泛存在于现实世界中,严重影响了传统分类器的分类性能。
本文提出了随机平衡采样算法(random balance sampling,RBS),并以此为基础提出了随机平衡采样bagging算法(RBSBagging)用于解决不平衡数据集的分类问题。
最后,采用6组UCI数据集对提出的分类算法进行验证,结果表明本文提出的RBSBagging算法可以较好地解决不平衡数据集的分类问题。
关键词:不平衡数据;采样;bagging算法中图分类号:TP311.11文献标识码: A在现实世界的应用领域中,不平衡数据广泛存在。
例如:在故障诊断[1-2]中,故障的机率远远低于正常运行情况,此类情况还广泛分布于网络入侵[3-5]、疾病诊断[6-7]、信用卡欺骗[8-9]等。
在分类问题中,分类对象的样本分布通常是不均匀的,即某一类的样本数目远远大于其他类的样本数目,称之为不平衡数据集。
在不平衡数据集中,样本较少的类称之为少数类,样本较多的类称之为多数类,而且少数类通常包含更加重要的有用信息。
然而,传统的机器学习算法大都基于样本的数据分布是均匀的,分类器对整体的预测准确性较高,但对少数有用信息的预测准确率却十分低。
例如:网络入侵的历史数据中,只有1%的入侵记录,其余99%的非入侵记录。
传统分类算法对所有网络运行分类为非入侵,其分类准确率可高达99%,但对1%的有用信息的分类准确率却十分低。
因此,如何提高不平衡数据集有用信息的分类准确率成了机器学习领域的一个研究热点和难点。
目前,不平衡数据集的分类问题受到很多学者的关注。
如,文献[10]提出采用随机抽取不平衡数据集中少数类的数据,增加至新数据集中,从而增加少数类在不平衡数据集中的比例,即随机过采样技术,但容易引起过拟合的问题[11-12]。
隨机欠采样算法与文献[10]相反,即随机减少多数类的样本个数,但是其可能会造成有用多数类信息的丢失。
集成分类学习算法是通过集成多个基分类器组成一个组合分类器,从而提高集成分类器的学习效果,最常用的是Boosting算法和bagging算法[13]。
其中,bagging算法实现简单、泛化能力强,被广泛用于处理不平衡数据集问题,如OverBagging、UnderBagging、SMOTEBagging[14]等。
但依然会存在着过拟合、信息丢失、学习时间过长等问题。
为解决上述问题,本文提出了一种全新的数据再平衡算法——随机平衡数据采样算法(Random Balance Sampling,RBS),并将该采样算法与bagging算法相结合,构建了随机平衡采样bagging算法(RBSBagging),结果证明该算法可以很好地解决不平衡数据集的分类问题。
1数据定义与评价标准为了便于描述,本文特做如下数据定义。
n表示多数类(negative,负类样本),p表示少数类(positive,正类样本),m=n+p,p≥2。
不平衡数据集不平衡率(imbalance ratio,IR=多数类个数/少数类个数=n/p)。
原始数据集为S={(x1,y1),(x2,y2),…,(xm,ym)},原始训练集为St={(x1,y1),(x2,y2),…,(xt,yt)},原始测试集为T={(x1,y1),(x2,y2),…,(xz,yz)},子训练集为Sk={(x1,y1),(x2,y2),…,(xk,yk)},k2随机平衡采样算法2.1随机平衡采样数据集生成过采样、欠采样、SMOTE算法都是通过不同程度地加入或减少少数类或多数类样本个数,从而达到重新再平衡不平衡数据集的采样算法。
这几种算法对最佳新数据集的数据构成判断比较复杂,并且直接影响分类器的性能。
为了克服该问题,本文提出了随机平衡采样算法,该算法是一种完全依靠随机率(random ration,RR)改变不平衡数据集不平衡率(imbalance ratio,IR=RR=多数类个数/少数类个数)的数据再平衡采样算法,其中RR的变化完全是随机的,如图1所示。
从图1可以看出,原始不平衡数据集的RR=5,当循环次数T=2,3,…I时的RR完全是随机的,其中包括RR=8、RR=0.125和RR=4。
不平衡数据的随机平衡采样bagging算法分类研究随机平衡采样算法是一种随机改变IR的数据再平衡采样算法,其算法描述如下:输入:原数据集S={(x1,y1),(x2,y2),…,(xm,ym)},yi∈Y={-1,+1},xi∈X∈Rn输出:新的数据集S′1. totalSize←S2. SN←{(xi,yi)∈S|yi=-1}3. SP←{(xi,yi)∈S|yi=+1}4. majoritySize←SN5. minoritySize←SP6. newMajoritySize←[2,totalSize-2]之间的随意整数//随机产生多数类;7. newMinoritySize←totalSize ̄newMajoritySize//随机产生少数类;8. if newMajoritySize9. S′←SP10. S′←S′+newMajoritySize11. S′←S′+SMOTe(newMinoritySize ̄MinoritySize)//SMOTE(newMinoritySize ̄MinoritySize)表示用SMOTE算法产生|newMinoritySize ̄MinoritySize|少数类样本;12. else13. S′←SN14. S′←S′+newMinoritySize15. S′←S′+SMOTE(newMajoritySize ̄MajoritySize)//SMOTE(newMajoritySize ̄MajoritySize)表示用SMOTE算法产生|newMajoritySize ̄MajoritySize|多数类样本;16. end if17. 输出S′可以看出,随机平衡采样并未改变不平衡数据集的大小,从而克服了欠采样算法丢失有用信息和SMOTE算法由于数据集的扩张导致学习时间加长的缺陷。
2.2理论支撑随机平衡采样算法的主要目的是重新平衡原始的不平衡数据集,平衡后的数据集包含部分原始数据样本和人工合成的样本两部分。
但是原始不平衡数据集中少数类或多数类入选平衡后的数据集的概率却不相同,其中少数类入选新数据集的概率为:p+=1m-3∑p-1i=2ip+∑m-2i=p1=1m-3m-p+22-1p。
(1)在新生成的数据集中,每个类至少包含两个样本。
因此,少数类就有n-3(从2到m-2)种大小的包含在新生成的数据集中。
∑p-1i=2ip表示当少数类减少时,新生成的数据集包含少数类的概率,即从p个少数类样本中随机选取i个样本入选新生成数据集的概率。
∑m-2i=p1表示当少数类增加时少数类入选新生成数据集的概率。
同理,可得p-=1m-3m-n+22-1n。
(2)从式(1)(2)可知,当p≤n时,p-≤p+,p+≥0.75,p-≥0.50,即当数据集不平衡时,尤其是少数类远小于多數类时,少数类入选新生成数据集的概率要大于多数类入选数据集的概率,并且少数类入选的概率大于等于0.75,多数类入选的概率大于等于0.50。
这样随机平衡采样算法从理论上保证:(1)新生成的数据集增加了有用的少数信息的比例;(2)改变了欠采样过程中多数类中有用信息被抛弃的缺点。
2.3随机平衡采样bagging算法Bagging算法是一种被广泛使用的集成学习算法[13],其主要思路是通过对训练集进行不同的处理方式,训练得到差异性的分类器。
其主要方法是从原始数据集中随机有放回地选取若干个样本构成新的训练集,用分类算法训练生成分类器,如此反复地抽取生成若干个分类器,形成集成分类器。
然后用新来的数据对生成分类器集进行测试,投票选出分类结果。
随机平衡采样bagging算法本质是bagging算法的一种改进算法,主要用于处理不平衡数据集的分类问题,其算法描述如下:输入:原数据集S={(x1,y1),(x2,y2),…,(xm,ym)}S,原训练集St,原始测试集T,迭代次数I,随机平衡采样算法RBS,弱分类器h(x,y)C4.5输出:集成分类器H(x)1. 初使化原训练集St;2. for i=1 (I)3.Si=RBS(St)//构造子训练集Sk;4.hi=C4.5(Si)//用弱分类算法C4.5训练得到弱分类器;5. end for6. 输出:H(x)=argmax∑Ii=1hi(x)//集成分类器;7. 使用集成分类器对新来样本Tz进行分类;8. 返回H(x)=argmax∑Ii=1hi(x)//投票返回分类结果;3实验与分析本文采用6组UCI数据来验证RBSBagging算法在处理不平衡数据集方面的性能。
实验分别从AUC、F ̄Measure、ROC曲线与OverBagging、UnderBagging、SMOTEBagging三种算法作对比评估分析。
在本实验中,基分类器为C4.5决策树,结果验证选用10-层交叉验证,每种集成分类器模型的分类器个数设定为20。
3.1评价标准不平衡数据集分类的目标是需要分类模型在不影响多数类学习精度的前提下,对少数类样本有较高的分类精度。
因此,传统机器学习中以总体分类精度作为评价标准的评价机制不适用于不平衡数据集的分类评价。
现有研究提出多种评价标准,如基于混淆矩阵的单评估指标、返回率、ROC曲线[15-16]、成本曲线等,混淆矩阵定义如表1所示。
本文采用的评价标准为基于混淆矩阵的F值和ROC曲线来衡量分类器的分类准确率,用Q ̄statistics[17]来衡量分类量的鲁棒性。
其中,Qi,j=(ad-bc)/(ad+bc),Qi,j∈[-1,1]。
表1混淆矩阵预测为正类预测为负类正类样本正确正例a错误负例b负类样本错误正例c正确负例d3.2实验数据本文的实验数据均来自于UCI数据集,所有数据集均为二分类数据集。
为了更好的验证提出的分类算法,本文对采用的UCI数据集进行了部分修改,使不平衡率的范围更加广泛,从而更加符合现实世界。
本文所采用的数据集如表2所示,其不平衡率范围为1.86到58.4。
3.3结果与分析首先用表2所示的6组UCI数据对本文提出的随机平衡采样bagging算法进行性能测试,尤其是少数类的分类准确率,并与文献提出的OverBagging、UnderBagging、SMOTEBagging 算法进行比较,实验结果如表3所示。
从表3、图2可以看出本文提出的RBSBagging算法在处理不平衡数据集方面具有一定的优势。