贝叶斯网络预测信用卡欺诈行为_第1页
贝叶斯网络预测信用卡欺诈行为_第2页
贝叶斯网络预测信用卡欺诈行为_第3页
贝叶斯网络预测信用卡欺诈行为_第4页
贝叶斯网络预测信用卡欺诈行为_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、.数说任务室 jiayounet:.;贝叶斯网络预测信誉卡欺诈行为 贝叶斯网络运用1一、实际阐明1 贝叶斯网络的运用运用贝叶斯网络,可以经过将察看到并记录下的数据与实践常识结合起来构建概率模型,以经过运用外表看上去不相关的属性确定发生的能够性,找出一个结果究竟与哪些影响变量相关,或者说,终究是什么要素影响了结果。贝叶斯分类模型承继了贝叶斯网络的优点并具有良好的分类精度,正遭到越来越多的关注,并广泛的运用在欺诈识别、客户管理、医学诊断上、互联网搜索上,比如,利用贝叶斯分类模型建立客户的等级分类,如信誉等级、忠实等级,当新客户出现时,即可以按该分类模型对其等级情况做出分类预测。又比如本文所例举的,

2、根据信誉卡用户的信誉记录及相关信息建立用户的信誉模型,并监测哪些用户会做出贷款拖欠的行为。2 贝叶斯网络模型1贝叶斯原理统计学分成两派,一派是传统的频率学派,一派是贝叶斯派,可以在统计学界自成一派,可见其影响。贝叶斯的中心思想在于一个公式P(A|X)=P(X|A)P(A)/P(X)其中A是随机变量,X是数据,P(X|A)是似然,P(A)是先验分布,P(A|X)是后验分布,P(X)是一个数。这个公式的意义在于,我们可以经过一个阅历的概率,加上数据的实际,来得出一个后验的概率,也就是说“阅历+数据=结果。那么将这个原理用在贝叶斯网络上,即将先验贝叶斯网络和数据相结合而得到一个后验贝叶斯网络。那么什

3、么是贝叶斯网络?2贝叶斯网络模型概述贝叶斯网络(Bayesian network),又叫概率因果网络、信任网络、知识图等,是一种有向无环图。一个贝叶斯网络由两个部分构成,一个是具有K个节点的有向无环图,图中有节点和衔接节点的有向边,节点代表随机变量,有向边代表了节点间的相互关联关系。另一个是与每个节点相关的条件概率表Conditional Probabilities Table,CPTP,它表示了节点和父节点之前的相关关系,这个关系就是条件概率。那么由这个图G和概率表P构成的网络就是贝叶斯网络,贝叶斯网络有如下假设或者规定:给定一个父节点,那么它的子节点独立于任何非这个子节点的后代节点和其构成

4、的任何节点子集。即假设用A(V i)表示非V i后代节点构成的任何节点子集,用(V i)表示V i的直接双亲节点,那么p(Vi|A(Vi),(V i)=p(Vi|(Vi)在这个假定下,变量Vi的结合概率就是:给定每个节点的父节点情况下,每个节点条件概率只积,如图中的结合概率为p(V1,V2,.,V6)=p(V6|V5)p(V5|V2,V3)p(V4|V2)p(V3|V1)p(V2|V1)p(V1)这就是贝叶斯网络和其网络的概率。我们可以让贝叶斯网络经过数据不断的学习修正,上次修正的贝叶斯网络又是下次学习的先验贝叶斯网络,继续的学习使得网络更能表达数据的意义,即,让数据来说话!2树加强朴素贝叶斯

5、网络模型概述虽然贝叶斯网络有良好的逻辑性、预测性、并在处置复杂问题上有很大的优势,但它的假设还是带给了它一定的局限性还记得刚刚说的贝叶斯网络那拗口的假设?给定一个父节点,那么它的子节点独立于任何非这个子节点的后代节点和其构成的任何节点子集。近年来,很多学者对贝叶斯网络模型做了改良,其中一个重要的改良模型就是树加强的朴素贝叶斯网络模型Tree Augmented Nave Bayes,英文简称TAN。TAN放松了独立性的假设,它的中心在于:除了父节点之外,每个节点还可以有一个节点的边指向它。 树加强的朴素贝叶斯主要用来分类,由于他允许一个节点被除父节点之外的另一个节点指向,因此有更高的分类精度。

6、但是TAN要求节点,即随机变量均为离散型,因此有必要将延续的变量离散化,但这却损失了延续变量中包含的信息。3马尔科夫链贝叶斯网络模型概述马尔科夫毯贝叶斯网络模型Markov Blanket Algorithms,事前不对节点之前做边指向,换句话说,初试图是一个只需节点没有边的空图,而后经过一定的检验来识别变量之间的条件独立,并逐渐识别出贝叶斯网络的构造。但这也会带来计算的复杂性,并破费更长的时间,一个方法是用特征选择过程Feature Selection来挑选对目的变量关系显著的变量。二、案例分析1 案例阐明某银行希望根据现有的客户贷款拖欠数据,来预测未来哪些潜在客户能够在归还贷款时有问题,以

7、便对这些“不良风险的客户减少贷款,或者为他们提供其他产品。现有的客户数据包含了当前贷款拖欠情况default、客户年龄age、受教育程度ed、职业employ、家庭地址address、收入income、负债率debtinc、信誉卡债务creddebt,其他债务othdebt和三个其他相关变量preddef1、preddef2、preddef3,如今用SPSS CLEMENTINE对已有的数据进展三种贝叶斯网络模型的建模TAN、马尔科夫毯贝叶斯网络、特征选择的马尔科夫毯贝叶斯网络,并同时用人工神经网络模型建模,以比较这四个模型的分类效果。2 软件实现 运用CLEMENTINE读入数据,并将def

8、ault的字段方向改为输出,用过滤节点过滤掉无效的空值。接着用对数据创建TAN、马尔科夫毯贝叶斯网络、特征选择的马尔科夫毯贝叶斯网络,和人工神经网络也可以用来预测。3 结果阐明1TAN模型如以下图:可以看出,TAN模型创建的结果是变量preddef2对能否拖欠贷款最重要,其次是变量preddef1和其他负债情况othdebt2马尔科夫毯模型结果如下:可以看出,马尔科夫毯模型结果是变量preddef3对能否拖欠贷款最重要,其次是变量preddef2和preddef1. 3特征选择的马尔科夫毯模型结果如下:由于进展了特征选择,图中可以看出只选择了两个变量,对拖欠贷款最重要的是preddef2。4人工神经网络结果:人工神经网络结果是preddef2对能否拖欠贷款最重要,其次是变量preddef1,地址address。5四种模型效果评价CLEMENTINE提供了“分析节点,以评价模型的预测效果。将分析节点添参与流,执行得到评价结果如下:可以看出,准确率最高的是马尔科夫毯模型,在数据学习后,对现有数据中贷款的拖欠情况预测的正确率是86.29%,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论