代价敏感决策树
- 格式:doc
- 大小:294.50 KB
- 文档页数:11
风险管理之决策树风险管理是企业管理中至关重要的一个方面,它涉及到识别、评估和应对各种可能影响企业目标实现的潜在风险。
为了更有效地应对风险,企业通常会采用决策树作为一种决策支持工具,帮助管理者在面临复杂情况下做出明智的决策。
什么是决策树决策树是一种模拟人类决策过程的树形结构模型,它通过节点、分支和叶子节点的形式对决策进行建模。
决策树的根节点代表一个决策问题或情景,分支代表选择或决策的可能路径,叶子节点表示最终的决策结果或结论。
在风险管理中,决策树可以帮助管理者分析不同决策选项的风险和收益,以便做出最优的决策。
利用决策树进行风险管理步骤一:确定决策问题在利用决策树进行风险管理时,首先需要明确当前所面临的决策问题。
这可能涉及到投资决策、项目选择、风险防范等方面的问题。
在确定决策问题后,可以开始构建决策树。
步骤二:构建决策树构建决策树的过程包括定义决策变量、确定决策树节点、设置节点之间的关系等步骤。
在这一步中,需要考虑潜在的风险因素和可能的决策选择,以及它们之间的关系。
通过建立决策树,管理者可以清晰地展示决策路径,有助于分析各种选择对企业风险的影响。
步骤三:评估风险和收益一旦决策树建立完成,接下来就是评估不同决策路径的风险和收益。
这可能涉及到制定风险评估标准、收益估算等工作。
通过对每种决策路径的风险和收益进行评估,管理者可以更清晰地了解各种选择的优劣势,有助于做出理性的决策。
步骤四:制定决策策略最后一步是制定具体的决策策略。
在制定决策策略时,管理者需要考虑到不同决策路径的风险和收益,并根据企业的战略目标和风险承受能力做出最终的决策。
决策策略应该能够最大化企业的利益,并有效管理风险。
通过以上步骤,企业可以利用决策树实现更有效的风险管理,提高决策质量,降低潜在风险。
然而,应该意识到决策树只是一种工具,最终的决策还是需要结合管理者的经验和判断力来做出。
因此,在风险管理过程中,建议不仅仅依赖于决策树,还应结合实际情况综合考虑,以达到更好的决策效果。
决策树的数学原理决策树是一种常用的机器学习算法,它通过将数据集划分为不同的分支,逐步生成一棵树状结构,从而实现对数据的分类和预测。
本文将介绍决策树的数学原理,包括信息增益、基尼指数和决策树的生成过程。
一、信息增益在构建决策树时,我们需要选择最佳的属性来进行分割。
信息增益是一种衡量属性对决策结果贡献程度的指标,信息增益越大,表示属性的划分结果对结果的影响越大。
信息增益的计算基于信息熵的概念。
信息熵衡量了数据集的混乱程度,熵越大表示数据集越不纯净。
在决策树的构建中,熵的计算公式为:$$ H(D) = -\sum_{i=1}^{n}p_i\log_2p_i $$其中,$D$表示数据集,$n$表示数据集中类别的数量,$p_i$表示第$i$个类别的概率。
对于某一属性$A$,我们将数据集$D$基于属性$A$的取值划分为多个子集$D_v$,每个子集对应一个取值$v$。
属性$A$对数据集$D$的信息增益定义如下:$$ Gain(A) = H(D) - \sum_{v=1}^{V}\frac{|D_v|}{|D|}H(D_v) $$其中,$V$表示属性$A$的取值数量,$|D_v|$表示子集$D_v$的样本数量。
通过比较不同属性的信息增益,我们可以选择最佳的属性作为决策树的分割标准。
二、基尼指数另一种常用的属性选择指标是基尼指数。
基尼指数衡量了数据集的不纯度,越小表示数据集越纯净。
对于某一属性$A$,基尼指数的计算公式为:$$ Gini(A) = \sum_{v=1}^{V}\frac{|D_v|}{|D|}Gini(D_v) $$其中,$V$表示属性$A$的取值数量,$|D_v|$表示子集$D_v$的样本数量。
选择最佳属性时,我们需要计算每个属性的基尼指数,并选择基尼指数最小的属性作为划分标准。
三、决策树的生成过程决策树的生成通常通过递归的方式进行。
生成过程可以分为以下几个步骤:1. 若数据集$D$中的样本全属于同一类别$C$,则以$C$为叶节点,返回决策树;2. 若属性集$A$为空集,即无法再选择属性进行划分,将数据集$D$中样本数量最多的类别作为叶节点,返回决策树;3. 对于属性集$A$中的每一个属性$A_i$,计算其信息增益或基尼指数;4. 选择信息增益或基尼指数最大的属性$A_j$作为划分标准,生成一个根节点;5. 根据属性$A_j$的取值将数据集$D$划分为若干子集$D_v$;6. 对于每个子集$D_v$,递归地生成决策树,将子树连接到根节点上;7. 返回决策树。
I SSN1673—9418C O D E N JK Y T A8Jour nal of C o m p ut er S c i e nce a nd Fr ont i er s1673—941812007/01(03)-0314-11基于相对等待时间的代价敏感决策树水袁鼎荣,张师超+,朱晓峰,张晨Y U A N D i ngr ong,Z H A N G Shi chao+,Z H U X i aof eng,Z H A N G C hen E-m ai l:fcs t@pu bl i c2.bt a.net.cn —ht t p://w w w.ce aj.or gT e l:+86一l o-51616056广西师范大学计算机科学与信息工程学院。
广西桂林541004C o U e g e of C o m pu t er S c i e nceand Tec hnol ogy。
G uangxi N o r m al U n i ve r s i t y,G ui l i n,G uan gxi541004,C h i na+Cor r esp on di n g aut hor:E-m ai l:zha ngsc@m ai l box.gxn u.e du.caY U A N D i ngr ong,Z H A N G Shi chao,Z H U X i ao f eng,et a1.C ost-s en s i t i ve deci s i o n t re es bas ed on r e l a-t i ve w ai t i ng t i m e.Jour nal of C om p ut er Sci ence a nd Fr ont i er s,2007,1(3):314-324.A bs t r ac t:The pape r def i nes a‘r el at i ve w ai t i ng t i m e co s t’,an d com bi nes i t w i t h‘t est cost’as‘t angi b l e c os t’.T hen a pr i nci pl e i s pr es ent ed f or se l e ct i ng spl i t t i ng a t t r i but e s,i n w hi ch t hose at t ri but e s t ha t m axi m al l y decr ease i nt angi bl e cos t(i.e.,‘m i scl a ssi fi cat i on cos t’)i n an uni t of t a ngi bl e c os t,w i l l be f i r st l y s el ect ed a sspl i t t i ng at t r i but es.Furt herm or e,cos t-sens i t i ve deci si on t r ees w i t h r el at i vew ai t i ng t i m e cos t i s pr opos ed bycom bi ni ng t he s eque nt i al t es t st r a t eg y w i t h bat ch t es t s t rat eg y.Ex per i m ent al r e sul t s dem ons t r at e t ha t t he m et hod outper for m s t he exi s t i ng m et h ods not on l y at t he decr eas e of i nt a ngi bl e cost,b ut al s o at t he quant i t y of t he t angi bl e cos t.O n t he ot her hand,t he r e sul t s sho w t h at it is nec e ss a ry t o co ns i der t he r el at i ve w ai t i ng t i m e cos t w hen bui l di ng c ost-se ns i t i ve deci si on t r ees.K ey w or d s:cos t-s ens i t i v e;deci si on bee s;s pl i t t i ng a t t ri but es;w ai t i ng t i m e;t i m e-s en s i t i v e摘要:首先引入相对等待时间代价,将它与测试代价一起称为有形代价,利用单位有形代价中无形代价(即误分类代价)降低最多的原则选择分裂属性;然后结合序列测试策略和批量测试策略建立相对等待时间代价敏感决策树。
决策树决策树法(Decision Tree)决策树(decision tree)一般都是自上而下的来生成的。
每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
决策树就是将决策过程各个阶段之间的结构绘制成一张箭线图,我们可以用下图来表示。
选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。
从根到叶子节点都有一条路径,这条路径就是一条“规则”。
决策树可以是二叉的,也可以是多叉的。
对每个节点的衡量:1) 通过该节点的记录数2) 如果是叶子节点的话,分类的路径3) 对叶子节点正确分类的比例有些规则的效果可以比其他的一些规则要好。
决策树的构成要素[1]决策树的构成有四个要素:(1)决策结点;(2)方案枝;(3)状态结点;(4)概率枝。
如图所示:总之,决策树一般由方块结点、圆形结点、方案枝、概率枝等组成,方块结点称为决策结点,由结点引出若干条细支,每条细支代表一个方案,称为方案枝;圆形结点称为状态结点,由状态结点引出若干条细支,表示不同的自然状态,称为概率枝。
每条概率枝代表一种自然状态。
在每条细枝上标明客观状态的内容和其出现概率。
在概率枝的最末稍标明该方案在该自然状态下所达到的结果(收益值或损失值)。
这样树形图由左向右,由简到繁展开,组成一个树状网络图。
决策树对于常规统计方法的优缺点优点:1)可以生成可以理解的规则;2)计算量相对来说不是很大;3) 可以处理连续和种类字段;4) 决策树可以清晰的显示哪些字段比较重要。
缺点:1) 对连续性的字段比较难预测;2) 对有时间顺序的数据,需要很多预处理的工作;3) 当类别太多时,错误可能就会增加的比较快;4) 一般的算法分类的时候,只是根据一个字段来分类。
决策树的适用范围[1]科学的决策是现代管理者的一项重要职责。
我们在企业管理实践中,常遇到的情景是:若干个可行性方案制订出来了,分析一下企业内、外部环境,大部分条件是己知的,但还存在一定的不确定因素。
代价敏感学习方法综述代价敏感学习方法是一种机器学习方法,它可以根据错误分类的代价来调整模型的权重。
通过将不同类别的错误分类赋予不同的代价值,代价敏感学习方法可以使得模型更加关注于重要的错误分类。
本文将综述代价敏感学习方法的原理、应用领域和研究进展。
代价敏感学习方法的原理是基于一个假设:不同类别的错误分类对应的代价是不同的。
例如,在医学诊断中,将正常病人错误分类为患有重大疾病的错误可能会造成严重的后果,而将患有重大疾病的病人错误分类为正常病人的错误可能相对较轻微。
因此,我们希望模型能更加关注于将患有重大疾病的病人正确分类,并降低将正常病人错误分类的概率。
代价敏感学习方法可以用于多种机器学习算法,包括决策树、支持向量机、神经网络等。
其中,决策树是最常用的方法之一、在决策树中,代价敏感学习方法可以通过调整树的划分过程来使得不同类别的错误分类具有不同的代价。
具体而言,代价敏感学习方法可以通过调整划分准则来使得错误分类代价较高的类别更容易被划分到更高层的节点,从而减少错误分类的概率。
除了决策树,代价敏感学习方法还可以与其他机器学习方法相结合。
例如,在支持向量机中,代价敏感学习方法可以通过调整不同类别样本的权重来改变模型的决策边界,从而降低错误分类的概率。
在神经网络中,代价敏感学习方法可以通过调整不同类别样本的损失函数权重来改变模型的学习规则,从而使得模型更加关注于重要的错误分类。
目前,代价敏感学习方法在研究领域有许多进展。
一方面,研究人员正在开发新的代价敏感学习算法,以提高模型的性能和效率。
例如,一些研究人员正在研究如何自动选择不同类别的错误分类代价,而不是人工设定代价值。
另一方面,研究人员还在研究如何应用代价敏感学习方法于更复杂的场景,如多类别分类和迁移学习。
此外,一些研究人员还在探索如何结合代价敏感学习方法和其他机器学习方法,以进一步提高模型的性能。
综上所述,代价敏感学习方法是一种可以根据错误分类的代价来调整模型权重的机器学习方法。
处理类别不平衡数据的机器学习方法在机器学习中,类别不平衡数据是指训练集中各个类别的样本数量存在较大的不平衡性。
这种情况在许多现实世界的问题中都很常见,例如罕见疾病的诊断、网络异常行为检测等。
由于数据不平衡可能导致模型的预测结果存在偏见,因此需要采用一些机器学习方法来处理这类问题。
本文将介绍一些常用的处理类别不平衡数据的机器学习方法。
一、采样方法采样方法是一种常见的处理类别不平衡数据的方法,它通过增加少数类样本或减少多数类样本的方式来平衡数据集。
常见的采样方法有过采样和欠采样。
1. 过采样过采样通过增加少数类样本的数量来平衡数据集。
其中一种常见的过采样方法是SMOTE(Synthetic Minority Over-sampling Technique),它通过在少数类样本之间进行插值来产生新的合成样本。
通过SMOTE生成的合成样本可以增加训练集的多样性,使得模型更好地识别出少数类样本。
此外,还有一些改进的SMOTE算法,如Borderline-SMOTE和ADASYN,它们都是在原始SMOTE算法的基础上做了改进,进一步提高了生成合成样本的质量。
2. 欠采样欠采样通过减少多数类样本的数量来平衡数据集。
一种常见的欠采样方法是随机欠采样,它从多数类样本中随机地删除一些样本使得多数类样本和少数类样本的数量接近。
然而,随机欠采样可能会导致丢失一些重要的多数类样本信息。
为了解决这个问题,我们可以使用一些基于聚类或决策边界的欠采样方法,例如NearMiss和ENN(Edited Nearest Neighbor)。
这些方法通过选择具有代表性的多数类样本来减少多数类样本的数量,从而保留了重要的多数类样本信息。
二、集成方法集成方法是将多个学习器进行组合以提高预测性能的方法。
在处理类别不平衡数据时,集成方法可以通过将少数类样本的重要性增加来提高预测模型对少数类样本的识别能力。
常见的集成方法有Bagging、Boosting和Stacking等。
不平衡数据分类方法综述随着大数据时代的到来,越来越多的数据被收集和存储,其中不平衡数据成为了一个普遍存在的问题。
不平衡数据指的是在分类问题中,不同类别的样本数量差别很大,例如欺诈检测、疾病诊断、文本分类等领域。
不平衡数据分类问题的存在会导致分类器的性能下降,因此如何有效地处理不平衡数据分类问题成为了研究的热点之一。
本文将综述当前常用的不平衡数据分类方法,包括基于采样的方法、基于代价敏感的方法、基于集成的方法、基于生成模型的方法和基于深度学习的方法。
一、基于采样的方法基于采样的方法是指通过对训练集进行采样来平衡不同类别的样本数量。
其中包括欠采样和过采样两种方法。
1. 欠采样欠采样是指随机删除多数类的样本,使得多数类和少数类样本数量接近。
常用的欠采样方法包括随机欠采样、聚类欠采样和Tomek链接欠采样。
随机欠采样是指从多数类中随机删除一些样本,使得多数类和少数类样本数量相等。
聚类欠采样是指将多数类样本聚类成若干个簇,然后从每个簇中随机删除一些样本。
Tomek链接欠采样是指删除多数类和少数类之间的Tomek链接样本,Tomek链接样本是指在样本空间中距离最近的一个多数类样本和一个少数类样本。
欠采样方法的优点是可以减少训练时间和存储空间,但是也有一些缺点。
首先,欠采样会导致信息丢失,可能会削弱多数类样本的代表性。
其次,欠采样可能会引入噪声,因为删除样本是随机的。
2. 过采样过采样是指对少数类样本进行复制或合成,使得多数类和少数类样本数量接近。
常用的过采样方法包括随机过采样、SMOTE和ADASYN。
随机过采样是指随机复制少数类样本,使得多数类和少数类样本数量相等。
SMOTE是指对每个少数类样本找到若干个最近邻样本,然后随机合成新的少数类样本。
ADASYN是指对每个少数类样本计算其与多数类样本的密度比,然后根据密度比生成新的少数类样本。
过采样方法的优点是可以保留所有的少数类样本和信息,但是也有一些缺点。
首先,过采样可能会引入冗余样本,因为合成样本是基于原始样本的。
一种基于NNIA多目标优化的代价敏感决策树构建方法赵士伟;卓力;王素玉;沈兰荪【期刊名称】《电子学报》【年(卷),期】2011(039)010【摘要】本文提出了一种基于非支配邻域免疫算法(NNIA,Nondominated Neighbor Immune Algorithm)多目标优化的代价敏感决策树构建方法.将平均误分类代价和平均测试代价作为两个优化目标,然后利用NNIA对决策树进行优化,最终获取了一组Pareto最优的决策树.对多个测试集的测试结果表明,与C4.5算法和CSDB(Cost Sensitive DecisionTree)算法比较,本文方法不仅在平均误分类代价和平均测试代价两方面均可以取得优于两者的性能,而且获得的决策树具有更小的规模,泛化能力更强.%A novel method of constructing the cost-sensitive decision trees based on multi-objective optimization is proposed in this paper. The average misclassification cost and the average test cost are treated as the two optimization objectives. NNIA (Non dominated Neighbor Immune Algorithm) is exploited to optimize the decision trees. And some Pareto decision trees are finally ob tained. Experimental results show pared with the C4.5 algorithm and CSDB (Cost Sensitive Decision Tree) algorithm, the proposed method in this paper can not only outperform these two methods in terms of the two above objectives but also achieve smaller size of the decision trees and stronger generalization ability.【总页数】6页(P2348-2352,2396)【作者】赵士伟;卓力;王素玉;沈兰荪【作者单位】北京工业大学信号与信息处理研究室,北京100124;北京工业大学信号与信息处理研究室,北京100124;北京工业大学信号与信息处理研究室,北京100124;北京工业大学信号与信息处理研究室,北京100124【正文语种】中文【中图分类】TP391【相关文献】1.基于关联度的代价敏感决策树生成方法 [J], 刘春英2.一种基于代价敏感学习的故障电弧识别方法 [J], 殷浩楠;竺红卫;丁鑫;王一闻3.一种基于决策树模型的音库构建和基元选取方法 [J], 叶振兴;蔡莲红4.一种基于改进DRNN网络的决策树构建方法 [J], 郭娜;田亚菲;郝洁;贾存丽5.一种基于代价敏感集成决策树的不平衡数据分类方法研究 [J], 张珏;田建学;董婷因版权原因,仅展示原文概要,查看原文内容请购买。
用于欺诈检测的一种代价敏感决策树方法Yusuf Sahin a, Serol Bulkan b, Ekrem Duman ca Department of Electrical & Electronics Engineering, Marmara University, Kadikoy,34722 Istanbul, Turkeyb Department of Industrial Engineering, Marmara University, Kadikoy, 34722 Istanbul,Turkeyc Department of Industrial Engineering, Ozyegin, Cekmekoy, 34794 Istanbul, Turkey 关键词:代价敏感建模信用卡欺诈检测决策树分类可变误分类代价摘要:随着信息技术的发展,欺诈行为遍布世界各地,这导致了巨大的经济损失。
虽然诸如CHIP&PIN等欺诈预防机制已经被开发应用于信用卡系统,但这些机制并不能阻止一些最常见的欺诈类型,比如在虚拟POS机上的信用卡欺诈使用,或者是所谓的在线信用卡欺诈邮购。
所以,欺诈检测成为了一种必不可少的工具,并且可能是阻止此类欺诈类型的最佳方法。
在此次研究中,提出了一种全新的代价敏感决策树方法,它将在每个非叶节点选择分裂属性时最小化误分类代价之和,其在现实世界信用卡数据集上的性能可以与那些众所周知的传统分类模型相比较。
在这种分类方法中,误分类代价将取不同的值。
结果表明,在给定的问题集上使用已知的性能指标,比如准确度和真阳性率,此代价敏感决策树算法胜过现有公知的方法,而且针对特定的信用卡欺诈检测领域,还新定义了一种代价敏感指标。
因此,通过在欺诈检测系统中实施该方法,可以更好的减少由于欺诈交易造成的金融损失。
1.引言欺诈可以被定义为为了取得财务或个人利益的非法或刑事欺骗。
两种避免由于诈骗活动导致欺诈和损失的机制是欺诈预防以及欺诈检测系统。
欺诈预防是以防止欺诈行为发生为目标的主动机制。
欺诈检测系统在诈骗者越过欺诈预防系统并且开始一个欺诈交易时发挥作用。
有关欺诈领域以及检测技术的综述可以在Bolton and Hand (2002), Kou, Lu, Sirwongwattana, and Huang (2004), Phua, Lee, Smith, and Gayler (2005), Sahin and Duman (2010)的研究中找到。
其中最知名的欺诈领域是信用卡系统。
可以通过许多方法进行信用卡欺诈,如简单盗窃,申请欺诈,伪造卡片,从未达卡问题(NRI)以及在线诈骗(在持卡人不存在的情况下)。
在网络诈骗中,交易是通过远程完成的,并且只需要信用卡信息。
由于网络的国际可用性和易用性,用户可以在互联网交易中隐藏自身位置以及身份,所以通过该媒介发生的欺诈行为正在快速增长。
信用卡欺诈检测有很多以前已经完成的研究。
关于信用卡系统以及欺诈领域非技术性知识的一般背景可以分别从Hanagandi, Dhar, and Buescher (1996) and Hand and Blunt (2001)学习。
在这个领域中,最常用的欺诈检测方法有规则归纳技术,决策树,人工神经网络(ANN),支持向量机(SVM),逻辑回归以及诸如遗传算法的启发式算法。
这些技术可以单独使用,也可以通过集成以及元学习技术协同使用来构建分类器。
大多数信用卡欺诈检测系统在使用监督算法,比如神经网络(Brause, Langsdorf, & Hepp, 1999; Dorronsoro, Ginel, Sanchez, & Cruz, 1997; Juszczak, Adams, Hand, Whitrow, & Weston, 2008; Quah & Sriganesh, 2008; Schindeler, 2006; Shen, Tong, & Deng, 2007; Stolfo, Fan, Lee, Prodromidis, & Chan, 1997; Stolfo, Fan, Lee, Prodromidis, & Chan, 1999; Syeda, Zhang, & Pan, 2002; Prodromidis, Chan, & Stolfo, 2000),ID3、C4.5和C&RT一类的决策树技术(Chen, Chiu, Huang, & Chen, 2004; Chen, Luo, Liang, & Lee, 2005;Mena, 2003;Wheeler & Aitken, 2000)以及支持向量机(Gartner Reports, 2010; Leonard, 1993)。
信用卡欺诈检测是一个非常困难,但也很受欢迎的亟待解决的问题。
总是仅有有限数量有关犯罪交易的数据。
同时,也有可能存在诈骗者进行符合正常(合法)行为模式(Aleskerov, Freisleben, & Rao, 1997)的交易通过的情况。
此外,该问题还有很多限制。
首先,正常和诈骗行为的表现不断地改变。
其次,新欺诈检测方法的发展变得更加困难是由在欺诈检测中交换思想的事实造成的,尤其是信用卡欺诈检测因为安全和隐私问题被严格限制。
第三,数据集不一定是可用的,其结果往往是截尾的,这使得它们难以评估。
甚至,一些研究使用合成产生的数据进行(Brause等, 1999; Dorronsoro 等, 1997)。
第四,信用卡欺诈数据集是高度倾斜集。
最后,该数据集正在不断发展,使得正常和诈骗行为的表现总是在变化(Bolton & Hand, 2002; Kou等, 2004; Phua et al., 2005; Sahin & Duman, 2010)。
因此,信用卡欺诈检测仍然是一个流行的,具有挑战性以及困难的研究课题。
Visa关于欧洲国家的信用卡欺诈报告指出在2008年,大约50%的信用卡欺诈损失是由于在线欺诈(Ghosh & Reilly, 1994)。
许多文献报道了大量不同国家的损失(Bolton & Hand, 2002; Dahl, 2006; Schindeler, 2006)。
因此,新方法提高了在这一领域的分类器性能兼有经济意义与研究贡献。
基于这个领域的特性,定义一个新的代价敏感方法是改善的最佳途径之一。
虽然传统的机器学习技术在许多分类问题上一般是成功的,但是具有高准确度或最小化误分类误差并不总是开发分类器的目标。
在现实世界的机器学习问题领域的应用中,有各种类型的代价参与,Turney定义了其中的九种主要类型(Turney, 2000)。
然而,大多数机器学习文献并不采取任何这些代价的考虑,仅仅剩下的一小部分考虑了误分类代价。
Turney还指出误分类误差的代价在分类中具有独特的地位(Turney, 2000)。
而根据ML-netll项目(European Network of Excellence in Machine Learning)的技术路线图,代价敏感学习据称是在机器学习研究的未来中一个非常流行的课题(Saitta, 2000; Zhou & Liu, 2006)。
因此,通过构建代价敏感分类器来改善分类器在欺诈检测系统中的性能是一个使大量经济损失恢复的最好办法。
此外,客户的忠诚度和信任度也将有所增加。
并且代价敏感分类器已经被证明能够有效处理类不平衡问题(Thai-Nghe, Gantner, & Schmidt-Thieme, 2010; Zhou & Liu, 2006)。
大量过去的研究是在恒定的误分类代价矩阵或者由一些恒定的合成误分类代价组成的代价矩阵上进行的;然而,每个假阴性(FN)具有它固有的独特的误分类代价。
因此,每个假阴性(FN)应当以某种方式排列来显示误分类代价的差异。
例如,具有较大交易量的或者更大可用额度的欺诈交易应该比具有较小数量或可用额度的更需要被检测。
恒定代价矩阵或者不变代价矩阵的组合不能描述这个场景。
所以,本研究是在可变误分类代价的分类问题工作中,将这样的情况纳入考虑的开拓者之一。
这项研究的目的是填补信用欺诈检测文献的一项空白。
在此研究中,开发了一个新的代价敏感决策树归纳算法,它将在树的每个非叶节点选择分裂属性时最小化误分类代价之和,并且分类性能可以与那些无论是代价不敏感还是代价敏感的具有固定误分类代价率的传统分类方法相比较,比如传统决策树算法,人工神经网络和支持向量机。
结果表明,就诈骗交易的辨别和防止可能的损失量而言,这个代价敏感决策树算法在我们现实世界数据集上的表现优于现有公知的方法。
在信用卡欺诈检测中,误分类代价以及欺诈的优先序基于个人记录来区别不同。
其结果是,常见的性能指标,如准确率,真阳性率(TPR)或者甚至曲线下面积(AUC)并不适合评估模型的性能,因为它们接受每个欺诈是具有相同优先级,不管欺诈交易量或者当时交易中用卡的可用信用额度是多少。
应该使用一个使用有意义的方式按序排列欺诈交易以及检查模型在最小化总经济损失时性能的全新性能指标。
一旦诈骗者得到使用信用卡进行诈骗交易的机会,他们通常消耗完一张信用卡的可用信用额度。
因此,一个欺诈交易的经济损失可以假定为交易前卡的可用信用额度,而不是交易的数量。
这样,模型在测试集上的性能比较可以使用新定义的代价敏感性能指标挽回损失率(SLR),也就是从欺诈交易中信用卡可用额度之和的潜在经济损失中挽回的百分比。
为了显示我们观点的正确性,在模型性能的比较中,代表模型性能的真阳性率(TPR)的值也会给出。
本文的其余部分安排如下:第二章节给出机器学习中代价敏感方法的回顾;第三章节给出对于信用卡数据的结构的一些见解;第四章节给出新开发的代价敏感决策树算法的细节;第五章节给出结果以及对结果的简短讨论;第六章节总结本研究。
2.机器学习中的代价敏感方法有不同方法用于构建将代价敏感性考虑在内的分类模型。
第一个通过改变过采样或欠采样的训练数据分布来建立代价敏感分类模型,使得该集合中数据的代价可以表现出例子的形态。
一些研究试图通过分层来克服误分类代价问题;以及当数据集不平衡时复制或丢弃样本(Japkowicz, 2000; Kubat & Matwin, 1997)。
然而,这些研究人员假设代价矩阵的内容是固定的数字,而不是依赖记录的值。
研究人员如Domingos 试图建立像MetaCost的机制去将代价不敏感分类器转换为代价敏感分类器(Domingos, 1999; Elkan, 2001)。