代价敏感决策树模板_第1页
代价敏感决策树模板_第2页
代价敏感决策树模板_第3页
代价敏感决策树模板_第4页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、代价敏感决策树模板精选资料用于欺诈检测的一种代价敏感决策树方法YusufSahina,SerolBulkanb,EkremDumancaDepartmentofElectricalElectronicsEngineering,MarmaraUniversity,Kadikoy,Istanbul,TurkeybDepartmentofIndustrialEngineering,MarmaraUniversity,Kadikoy,Istanbul,TurkeycDepartmentofIndustrialEngineering,Ozyegin,Cekmekoy,Istanbul,Turkey关键词

2、:代价敏感建模信用卡欺诈检测决策树分类可变误分类代价摘要:随着信息技术的发展欺诈行为遍布世界各地这导致了巨大的经济损失。虽然诸如 CHIPPIN 等欺诈预防机制已经被开发应用于信用卡系统但这些机制并不能阻止一些最常见的欺诈类型比如在虚拟POS 机上的信用卡欺诈使用或者是所谓的在线信用卡欺诈邮购。所以欺诈检测成为了一种必不可少的工具并且可能是阻止此类欺诈类型的最佳方法。在此次研究中提出了一种全新的代价敏感决策树方法它将在每个非叶节点选择分裂属性时最小化误分类代价之和其在现实世界信用卡数据集上的性能可以与那些众所周知的传统分类模型相比较。在这种分类方法中误分类代价将取不同的值。结果表明在给定的问题

3、集上使用已知的性能指标比如准确度和真阳性率此代价敏感决策树算法胜过现有公知的方法而且针对特定的信用卡欺诈检测领域还新定义了一种代价敏感指标。因此通过在欺诈检测系统中实施该方法可以更好的减少由于欺诈交易造成的金融损失。引言欺诈可以被定义为为了取得财务或个人利益的非法或刑事欺骗。两种避免由于诈骗活动导致欺诈和损失的机制是欺诈预防以及欺诈检测系统。欺诈预防是以防止欺诈行为发生为目标的主动机制。欺诈检测系统在诈骗者越过欺诈预防系统并且开始一个欺诈交易时发挥作用。有关欺诈领域以及检测技术的综述可以在BoltonandHand(),Kou,Lu,Sirwongwattana,andHuang(),Phua

4、,Lee,Smith,andGayler(),SahinandDuman()的研究中找到。其中最知名的欺诈领域是信用卡系统。可以通过许多方法进行信用卡欺诈如简单盗窃申请欺诈伪造卡片从未达卡问题( NRI )以及在线诈骗(在持卡人不存在的情况下)。在网络诈骗中交易是通过远程完成的并且只需要信用卡信息。由于网络的国际可用性和易用性用户可以在互联网交易中隐藏自身位置以及身份所以通过该媒介发生的欺诈行为正在快速增长。信用卡欺诈检测有很多以前已经完成的研究。关于信用卡系统以及欺诈领域非技术性知识的一般背景可以分别从 Hanagandi,Dhar,andBuescher()andHandandBlunt(

5、)学习。在这个领域中最常用的欺诈检测方法有规则归纳技术决策树人工神经网络( ANN )支持向量机( SVM )逻辑回归以及诸如遗传算法的启发式算法。这些技术可以单独使用也可以通过集成以及元学习技术协同使用来构建分类器。大多数信用卡欺诈检测系统在使用监督算法比如神经网络( Brause,Langsdorf,Hepp,Dorronsoro,Ginel,Sanchez,Cruz,Juszczak,Adams,Hand,Whitrow,Weston,QuahSriganesh,Schindeler,Shen,Tong,Deng,Stolfo,Fan,Lee,Prodromidis,Chan,Stolf

6、o,Fan,Lee,Prodromidis,Chan,Syeda,Zhang,Pan,Prodromidis,Chan,Stolfo,)ID 、C 和 CRT 一类的决策树技术( Chen,Chiu,Huang,Chen,Chen,Luo,Liang,Lee,Mena,WheelerAitken,)以及支持向量机( GartnerReports,Leonard,)。信用卡欺诈检测是一个非常困难但也很受欢迎的亟待解决的问题。总是仅有有限数量有关犯罪交易的数据。同时也有可能存在诈骗者进行符合正常(合法)行为模式( Aleskerov,Freisleben,Rao,)的交易通过的情况。此外该问题还有

7、很多限制。首先正常和诈骗行为的表现不断地改变。其次新欺诈检测方法的发展变得更加困难是由在欺诈检测中交换思想的事实造成的尤其是信用卡欺诈检测因为安全和隐私问题被严格限制。第三数据集不一定是可用的其结果往往是截尾的这使得它们难以评估。甚至一些研究使用合成产生的数据进行(Brause 等,Dorronsoro等,)。第四信用卡欺诈数据集是高度倾斜集。最后该数据集正在不断发展使得正常和诈骗行为的表现总是在变化( BoltonHand,Kou 等,Phuaetal,SahinDuman,)。因此信用卡欺诈检测仍然是一个流行的具有挑战性以及困难的研究课题。Visa 关于欧洲国家的信用卡欺诈报告指出在年大约

8、的信用卡欺诈损失是由于在线欺诈(GhoshReilly,)。许多文献报道了大量不同国家的损失( BoltonHand,Dahl,Schindeler,)。因此新方法提高了在这一领域的分类器性能兼有经济意义与研究贡献。基于这个领域的特性定义一个新的代价敏感方法是改善的最佳途径之一。虽然传统的机器学习技术在许多分类问题上一般是成功的但是具有高准确度或最小化误分类误差并不总是开发分类器的目标。在现实世界的机器学习问题领域的应用中有各种类型的代价参与Turney 定义了其中的九种主要类型(Turney,)。然而大多数机器学习文献并不采取任何这些代价的考虑仅仅剩下的一小部分考虑了误分类代价。Turney

9、 还指出误分类误 差的代价 在分类 中具有独 特的地 位( Turney,)。而根据MLnetll项目( EuropeanNetworkofExcellenceinMachineLearning)的技术路线图代价敏感学习据称是在机器学习研究的未来中一个非常流行的课题( Saitta,ZhouLiu,)。因此通过构建代价敏感分类器来改善分类器在欺诈检测系统中的性能是一个使大量经济损失恢复的最好办法。此外客户的忠诚度和信任度也将有所增加。并且代价敏感分类器已经被证明能够有效处理类不平衡问题( ThaiNghe,Gantner,SchmidtThieme,ZhouLiu,)。大量过去的研究是在恒定的

10、误分类代价矩阵或者由一些恒定的合成误分类代价组成的代价矩阵上进行的然而每个假阴性( FN)具有它固有的独特的误分类代价。因此每个假阴性( FN)应当以某种方式排列来显示误分类代价的差异。例如具有较大交易量的或者更大可用额度的欺诈交易应该比具有较小数量或可用额度的更需要被检测。恒定代价矩阵或者不变代价矩阵的组合不能描述这个场景。所以本研究是在可变误分类代价的分类问题工作中将这样的情况纳入考虑的开拓者之一。这项研究的目的是填补信用欺诈检测文献的一项空白。在此研究中开发了一个新的代价敏感决策树归纳算法它将在树的每个非叶节点选择分裂属性时最小化误分类代价之和并且分类性能可以与那些无论是代价不敏感还是代

11、价敏感的具有固定误分类代价率的传统分类方法相比较比如传统决策树算法人工神经网络和支持向量机。结果表明就诈骗交易的辨别和防止可能的损失量而言这个代价敏感决策树算法在我们现实世界数据集上的表现优于现有公知的方法。在信用卡欺诈检测中误分类代价以及欺诈的优先序基于个人记录来区别不同。其结果是常见的性能指标如准确率真阳性率( TPR)或者甚至曲线下面积(AUC )并不适合评估模型的性能因为它们接受每个欺诈是具有相同优先级不管欺诈交易量或者当时交易中用卡的可用信用额度是多少。应该使用一个使用有意义的方式按序排列欺诈交易以及检查模型在最小化总经济损失时性能的全新性能指标。一旦诈骗者得到使用信用卡进行诈骗交易

12、的机会他们通常消耗完一张信用卡的可用信用额度。因此一个欺诈交易的经济损失可以假定为交易前卡的可用信用额度而不是交易的数量。这样模型在测试集上的性能比较可以使用新定义的代价敏感性能指标挽回损失率( SLR)也就是从欺诈交易中信用卡可用额度之和的潜在经济损失中挽回的百分比。为了显示我们观点的正确性在模型性能的比较中代表模型性能的真阳性率( TPR)的值也会给出。本文的其余部分安排如下:第二章节给出机器学习中代价敏感方法的回顾第三章节给出对于信用卡数据的结构的一些见解第四章节给出新开发的代价敏感决策树算法的细节第五章节给出结果以及对结果的简短讨论第六章节总结本研究。机器学习中的代价敏感方法有不同方法

13、用于构建将代价敏感性考虑在内的分类模型。第一个通过改变过采样或欠采样的训练数据分布来建立代价敏感分类模型使得该集合中数据的代价可以表现出例子的形态。一些研究试图通过分层来克服误分类代价问题以及当数据集不平衡时复制或丢弃样本( Japkowicz,KubatMatwin,)。然而这些研究人员假设代价矩阵的内容是固定的数字而不是依赖记录的值。研究人员如 Domingos 试图建立像 MetaCost 的机制去将代价不敏感分类器转换为代价敏感分类器( Domingos,Elkan,)。根据一些研究报告过采样对于不平衡数据集的学习是有效的( JapkowiczStephen,Japkowiczetal

14、,Maloof,)。但是过采样增加了训练的时间并且因为它创建了不少较小类样本的拷贝所以可能会导致过拟合问题( Chawla,Bowyer,Kegelmeyer,DrummondHolte,)。不同于过采样欠采样试图减少较多类的样本数量以便于实现训练集数据关于类分布的平衡。一些研究表明欠采样善于处理不平衡数据问题( DrummondHolte,JapkowiczStephen,Japkowiczetal,Maloof,)。第二种方法是当建立分类模型时将代价敏感性考虑在内调整廉价类的阈值使得昂贵类样本的误分类更加困难以此最小化误分类代价( LangfordBeygelzimer,Maloof,Sh

15、engLing,ZhouLiu, )。过采样欠采样和调整阈值不会更改算法因此可以被用于几乎所有的算法( Ma,Song,Hung,Su,Huang,)。然而前两者会改变模型算法的输入而后者会改变由该算法构建的模型的输出( ZhouLiu,)。就如调整阈值在学习算法中对昂贵类增加学习速率如果这样可以使模型更多地学习高代价的样本而不是低代价的( KukarKononenko,Wan,Wang,Ting,)。最后一种考虑代价敏感性的方法是修改代价不敏感学习算法或定义一个新的代价敏感算法。如果该算法是一个基于决策树的这可以通过要么使用代价敏感方式分裂或用代价敏感方法剪枝或提供额外的代价调整函数来完成。

16、虽然许多研究人员使用不同的启发式方法来建立代价敏感决策树( Breiman,Friedman,Olshen,Stone,Brodley,Draper,Brodley,Utgoff,)有些人使用不同的技术来剪枝使用误分类代价按传统方法建立的决策树( Bradford,Kunz,Kohavi,Brunk,Brodley,Knoll,Nakhaeizadeh,Tausend,)。信用卡数据的结构在这项研究中使用的信用卡数据是从一个银行的信用卡数据仓库中使用所需的权限获取的。信用卡数据仓库中的以往数据被用来形成表示客户卡使用情况的数据集市。数据集市中的数据被用于形成在建模阶段使用的训练集和测试训练模型

17、阶段使用的测试集。原始数据的时间区间共有个月用于形成具有大约万条信用卡交易的训练集。这个数据关于正常和欺诈交易的分布是高度倾斜的。这个月期间用于建立我们样本数据包括条诈骗记录以及大约万条正常记录这个比例大概是 :。所以为使模型能够学习这两类样本我们使用分层抽样去下采样合法记录到一个有意义的数字。我们试着采样到不同的合法欺诈比值。此外所有属于过去个月时间段的数据包括含有条欺诈交易的大约条交易记录直接包含在测试集中。测试集中的所有交易都通过分类方法得分。训练和测试集的数据分布在表中给出。每一张信用卡的交易数量都与其它的不同但是每条交易记录都是相同的固定长度并且包含相同的字段。Hand 和 Blun

18、t 给出了一个信用卡数据特点的描述(HandBlunt,)。虽然一些客户可能拥有超过一张的信用卡但是每张卡被视为一个独特的配置文件因为拥有超过一张卡的客户出于不同的目的通常在不同的客户配置文件中使用每张卡。每张卡的配置文件中包含了能够透露用卡行为特征的变量。这些变量可以表示针对位置时间或者交易发生地点类型的信用卡交易模式。欺诈检测系统使用分类模型通过鉴别与给出卡使用的配置文件的显著偏差去检测诈骗活动。这些变量不仅从交易本身而且还从卡过往的交易历史中派生。我们的内容将提及使用的变量类型但是出于对隐私保密性和安全性的担忧我们是不被允许谈论变量的完整列表。这些变量是五个主要变量类型中的一个:所有的交

19、易统计地区统计商户类型统计基于时间交易额的统计以及基于时间的交易数量统计。一些变量可以表述为交易类型商户类别码 POS输入模式 PIN 输入能力卡类型卡域以及卡使用国家。所有交易统计类型中的变量大体上透露了持卡人使用卡的一般信息。区域统计类型的变量给出有关地理区域的持卡人消费习惯。属于商户类型统计的变量显示持卡人在不同商户类别使用卡的情况。基于时间的统计类型变量鉴别出卡关于使用额度或使用频率与时间范围关系的使用信息。当评估信用卡的一个新交易时通过这些变量可以鉴别出其与卡正常使用信息的偏差从而给出欺诈使用的信号。所以对于每一张卡的每一笔交易这些变量每一个都需要计算并且包含在测试集中。代价敏感决策

20、树方法对现实世界分类问题进行建模的最大问题之一是数据分布不平衡而且在信用卡欺诈检测的情况下识别属于较少类的记录比识别属于较多类的记录更为重要。解决该问题的一个有效方法是代价敏感建模使得误分类较少类记录的代价比误分类较多类的记录更大。在本文中给出了开发一个代价敏感决策树算法去识别信用卡欺诈交易的细节。在公知的决策树算法中分裂条件要不是对代价和类分布不敏感就是代价固定为恒定比率如此使得将欺诈交易分类为正常(假阴性 FN)的代价是将正常交易分类为欺诈(假阳性FP)的 N 倍。此外在这些算法中误分类的代价仅在剪枝过程中纳入考虑而归纳过程并不考虑。这里有一些以前针对代价敏感树归纳做的研究其中误分类的代价

21、仅仅依赖于类( DrummondHolte,aDrummondHolte,bLing,Sheng,Yang,Liu,)或者是个别样本自身( Duman?z?elik,Ling,Yang,Wang,Zhang,)。就我们所知这是在信用卡欺诈检测中使用不同的误分类代价来探索代价敏感决策树归纳算法特定应用组合的第一项工作。表关于类别的数据分布集合记录实际记录数量集合中记录数量训练集正常欺诈测试集正常欺诈在信用卡交易中每次欺诈交易会产生一个不同的代价所以对每一笔欺诈交易使用一个固定的误分类代价并不适合我们的问题。从而我们对每笔交易使用一个不同的代价这是它们自身固有的。除非诈骗者提交的第一笔欺诈交易没有

22、被检测到否则他们在获得使用卡进行交易的可能后通常在随后的交易中花完信用卡里所有可用的信用额度。他们一般设法用平均四到五次交易来实现这个目标( Duman?z?elik,)。因此将欺诈交易鉴定为合法的实际代价就和交易中信用卡使用的可用信用额度一样大。故而一笔欺诈记录的误分类代价被定义为交易中信用卡使用的可用信用额度而不是交易量和预先定义的固定的代价值。另外这个假设在代价和每笔欺诈交易之间做出了区分。换句话说检测出使用有高额可用信用额度的卡进行的欺诈交易比使用有低额可用信用额度的卡进行的欺诈交易能挽救更多的损失。如此检测到的第一笔欺诈交易的优先级比第二笔高。因此每个假阴性都有不同的误分类代价同时对

23、于模型性能的应该使用代价敏感指标评价而不是基于检测到欺诈数量的指标如式 ()中给出的新定义的能够反映挽回的所有可用信用额度所占百分比的指标 SLR。其中 k 表示被检测到的欺诈数f 表示欺诈的总数(CFN)j 表示 FNj的误分类代价()经典的决策树模型并不适用于依据个别交易确定可变误分类代价的情况。因此我们开发了一种新的代价敏感决策树算法其决策树学习算法中的分裂条件受各个误分类代价改变的影响。我们算法使用的代价指标在表中给出。对于正常交易的误分类代价( CFP)我们的算法假定一个固定的误分类代价是由一些特定的程序和采访银行工作人员与领域专家找到的。该算法取交易中所用卡在交易前的可用信用额度作

24、为欺诈交易的误分类代价( CFN)。这里新定义的代价敏感决策树学习算法选择一个节点分裂变量的方法是如果一个分裂是可能的那么一定是基于总误分类代价的减少而不是杂质的减少。我们假设 FP 是实际上是正常的交易被错误分类为欺诈的而 FN 是实际上是欺诈的交易被错误分类为合法的。开始时训练集中所有的交易都被分配给树的根节点。首先计算该节点的代价。在决策树中一个节点上的所有交易都可以被分类为要不是欺诈的那么就是合法的。因此无论是将节点上的交易标记为欺诈( CP)的总误分类代价还是将交易标记为正常的( CN)总误分类代价都需要计算。为了计算法 CP 和 CN 我们使用四种不同的方法: CS 直接代价(CS

25、DirectCost)CS 类概率(CS ClassProbability)CS 基尼(CSGini )和 CS 信息增益( CS InformationGain)。在 CS 直接代价方法中我们在代价计算函数中不整合任何不纯性度量并且仅通过使用独立降低总期望分类代价的方法来寻找最佳分裂。这种代价方法是从Ling等(),ZubekandDietterich(),Greiner,Grove,andRoth()处受到的启发。这种方法选择能够最大程度上减少总误分类代价的变量来替代使用不纯性度量寻找分裂变量。在将交易标记为正常( CN)的情况下总误分类代价是该节点每个欺诈表使用的代价指标实际值预测值阳性

26、(欺诈)阴性(合法)阳性(欺诈)真阳性(TP)(误分类代价 =)假阴性(FN)(误分类代价 =CFN)阴性(合法)假阳性( FP)(误分类代价 =CFP)真阴性( TN)(误分类代价 =)记录的可用信用额度 (CFN)i) 之和。将合法交易标记为欺诈只会造成一个对于每个合法交易相同的观测代价( CFP)。因此在该方法中只有误分类代价在树归纳和分类中使用。假设有“ f”个欺诈记录和“ n”个正常(合法)记录它们落在一个节点上那么“ N”(N=fn )给出该节点记录总数 CP 和 CN 的计算在下面的式()和式()中给出: ()()不同于 CS 直接代价方法不管数据的类分布以及节点的不纯性仅仅使用

27、期望的总误分类代价去寻找当前节点的最佳分裂的情况传统的决策树归纳技术使用类分布或者在某些方面使用不纯性度量来寻找下一层的分裂。因此使用下面的方法在代价敏感分裂机制的节点上添加类分布以及不纯性的影响我们使用从著名的传统决策树算法IDC 和 CRT 中得到的启发修改寻找分裂的误分类代价计算。这些传统的决策树方法使用不纯性度量去选择分裂属性和分裂值。ID(Prodromidis 等,)使用熵和信息增益而之后的C 使用增益比CRT(WheelerAitken,)则使用基尼用于不纯性度量。对于二类问题期望信息(熵)与基尼的计算方法在下面的式()中给出: ab 其中 pi 表示类 i 的相对频率()在 C

28、S 类概率方法中类的相对频率(类概率)被集成到代价计算函数中用于增加类分布对该节点代价的影响。由于该节点上某类的相对频率增大那么在该节点就会有更多的记录属于这个类。因此若使用如 ID 和 C 决策树方法中的相应不纯性度量该节点上的记录将会被分配给此类。又因为我们决定根据误分类代价标签该节点所以我们应该将该类的代价与它类的相对频率相乘这样使得我们将更多的降低拥有更高相对频率类的代价。故而我们将减少选择有较高频率类的代价。顺便说一下我们倾向于在节点上用更高频率的类。在 CS 类概率方法中 CP 和 CN 的计算方法由下面的式 ()和式()给出:()()在 CS 基尼方法中受到 CRT 中使用的基尼

29、不纯性度量的启发类概率的平方被集成到代价计算函数中以另外一种方法来增加类分布对于节点代价的影响。我们将一个类的代价与它类相对频率的平方相乘从而比 CS 类概率方法能更多的降低高相对频率类的代价。在 CS 基尼方法中 CP 和 CN 的计算方法由下面的式()和式()给出:()()在 CS 信息增益方法中受到 ID 使用的信息增益不纯性度量的启发相对类概率的负对数被集成在代价计算函数中以另外一种方式来增加类分布对于节点代价的影响。因为相对频率的对数是非正值所以我们乘以负使其变为非负。在 CS 信息增益方法中 CP 和 CN 的计算方法由下面的式()和式()给出:()()在每一种情况下计算误分类代价

30、之后如式()所示选择具有最小代价的情况作为该节点误分类代价。节点上的交易被分配给具有最小总期望误分类代价的类( N=正常F=欺诈)。由于将欺诈标记为欺诈和将合法标记为合法的误分类代价为所以它们是不会被包括在误分类代价的计算中。该节点被标记为具有最小总误分类代价的标记类见式()。()EMBEDEquationKSEE*MERGEFORMATEMBEDEquationKSEE*MERGEFORMAT()在找到每个类的误分类代价之后被发现是欺诈的或是正常的类概率如下面的式()和式()所示。因为分类算法基于误分类代价所以当一个类的误分类代价更大时成为另一个类的概率越大。因此这导致误分类代价越小的类将被

31、选择作为该节点的类。在一个节点一个类的误分类代价越大那么该节点上的记录属于该类的可能性越小。故而在一个类误分类代价和该类可能性 (P)之间存在某种反比关系。()()从根节点开始每一个节点都会检查在该节点分裂中最适合使用的变量如果一个分裂是可能的那么将会尽可能的减少总误分类代价。根据变量类型分裂一个节点的方法如下:多分裂用于特征而二元分裂用于数值(范围)变量。在发现上述每个子节点(CCN)的代价之后分裂后子层的总代价(CT)就如式()所示(假设分裂后有m 个子节点)。相比使用诸如增益率的公式我们更喜欢在分裂之后直接划分子节点的数目因为( Liu,Sheng 等,)表示这样做不仅克服了信息增益的缺

32、点同时建立了面向增益比的实际问题。()分裂之后子节点代价之和除以子节点的数目使得相比导致更少分裂节点的变量不会偏向选择造成更多分裂节点的变量。如果子层的总代价比父节点的代价要小那么就会有误分类代价的减少这个分裂就是要使用的候选。针对每个输入变量使用每一个可能的分裂在候选分裂中寻找最佳代价降低并且在子层给出最佳代价降低的分裂将被选为该节点的分裂。如果没有能造成代价降低的候选分裂或者一个节点上的交易数目低于允许的最小交易数目那么父节点将会被标记为一个叶节点。通过节点的误分类代价计算不仅仅是该节点的类还有该节点上的交易是欺诈还是正常的概率也会被发现。结果和讨论在真实世界的例子中大多数信用卡操作管理部

33、门只有有限的员工来监测欺诈警报。所以许多欺诈检测系统应该展示其在一个固定数量欺诈警报情况下的最佳性能。就我们而言我们的数据供应商银行仅仅检查所有交易的。因此我们根据分类模型给出的记录欺诈可能性对记录在测试集中进行排序并在测试集前的风险交易中比较模型的性能。因为每个欺诈记录的代价是不同的所以每一个每一笔欺诈应该根据其代价进行优先排序。从而检测一个具有高代价的欺诈应该比检测一个低代价的欺诈更为重要。于是应该根据误分类代价来评估模型的性能也就是说比如准确度或精度(或真阳率 TPR)一类的常见性能指标并不适合评价像这种情况一样拥有不同误分类代价的模型的性能。这就是为什么在测试集上使用挽回损失率( SL

34、R)来比较性能其表示从欺诈交易用卡的可用信用额度的潜在经济损失中挽回的百分比。为了表明我们观点的正确性模型性能的TPR 值与 SLR 值一同给出。表ANN模型性能的统计学分析ModelNMeanStddevStderrormeanGroupstatisticsSLRDynamicQuickTPRDynamicQuickIndependentsamplestestLevenestestforequalityofvariancesttestforequalityofmeansFSigtdfSig(tailed)MeandifferenceStderrordifferenceConfidencein

35、tervalofthedifferenceLowerUpperSLREqualvariancesassumedEqualvariancesnotassumedTPREqualvariancesassumedEqualvariancesnotassumed在本次研究中在使用相同方法和不同参数开发的模型中选择表现出最佳性能的模型并且将它们的性能与本研究中定义的使用代价敏感决策树算法建立的模型性能相比较。于是在 SPSSPASWModeler 中使用传统决策树方法建立的模型中选择六种模型。这些模型是使用CCARTCHAID 带有固定代价比 :的 CHAID(误分类一个欺诈记录的代价是误分类合法记录的

36、倍)ExhaustiveCHAID( CHAID 一个详细展现预测变量合并和测试的扩展)以及带有 :代价比率的 ExhaustiveCHAID 。在人工神经网络模型中两个性能最佳的模型是在SPSSPASWModeler中使用动态和快速网络建立的。在这个快速的方式中训练了一个单隐层前馈BP 神经网络。默认情况下该网络具有一个最多包含(*(nino) )神经元的隐藏层其中 ni 表示输入神经元的数量no 表示输出神经元的数量。该网络采用反向传播方法训练。在动态方法中又训练了一个单隐层前馈神经网络然而网络的拓扑结构在训练时发生了改变神经元不断加入以提升性能直到该网络达到期望的准确率。有两个地方需要动

37、态训练:寻找拓扑结构和训练最终网络。对于不同的个测试结果中的每一个动态和快速方法在测试集上的性能统计是最好的。在 TPR 和 SLR 方面并没有发现这两种人工神经网络方法的性能有统计学意义上的差别。详细的分析在表中给出。同时还在使用 SVM 方法建造的模型中选择一个有最佳性能的模型。所有被选择模型的性能在表中给出。在使用传统方法建造的被选择模型中人工神经网络模型在欺诈捕获或 TPR 方面表现出了最佳性能并且其中一个在SLR 方面有最佳性能。然而在 TPR 和 SLR 方面三个代价敏感决策树模型的性能优于所有其它模型。我们的 CS 直接代价方法仅仅使用误分类代价去建造树故表现出最差的性能。尽管以

38、前的研究指出只使用预期误分类代价的方法性能优于许多传统的代价敏感方法( Ling 等,)图和图给出的我们的结果表示我们不能仅仅使用误分类代价去分类而且应该描绘类分布和数据不纯性在某些方面对我们代价计算的影响。表模型性能模型 TPTPRSLR动态平均动态最佳动态最差快速平均快速最佳快速最差 CCRTCHAIDExhaustiveCHAIDSVM (多项式) CS 直接代价( CFP=)CS 类概率( CFP=)CS 基尼( CFP=)CS 信息增益( CFP=)CFP 表示假阳性的代价。图和图给出了在 TPR 和 SLR 这两方面使用如此组合构建的代价敏感决策树模型表现出最佳性能。对于人工神经网络模型和代价敏感决策树模型虽然性能 TPR 十分接近欺诈捕获的差别也十分小但在模型性能 SLR 上有巨大的差别也就是说通过这些模型能恢复的经济损失量有巨大的不同。此外因为不将任何类分布和不纯性度量纳入考虑 CS 直接代价显示出在 TPR 和 SLR 上有最差性能。通过图和图给出的代价敏感决策

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论