基于贝叶斯网络的信用评估模型_第1页
基于贝叶斯网络的信用评估模型_第2页
基于贝叶斯网络的信用评估模型_第3页
基于贝叶斯网络的信用评估模型_第4页
基于贝叶斯网络的信用评估模型_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于贝叶斯网络的信用评估模型

近年来,随着我国经济的快速发展,信用消费逐渐出现。住房抵押贷款、汽车租赁、信用卡等个人消费贷款要注意信用担保。个人信用制度作为国家信用体系的一部分,正是个人信用消费得以伸展的平台。个人信用评估作为个人信用制度的组成部分,其主要目的就是对可能引起信用风险的因素进行定性分析、定量计算,以测量消费者的违约概率,为授信方决策提供依据。由于信用评估的重要性和问题本身的复杂性,已有许多方法和技术被建议,如判别分析、回归分析、数学规划法、决策树、最邻近方法和神经网络等。然而,所有这些模型的建立都是基于判决两类样本点损失相同的情况。而事实上,将违约类样本点误判为不违约给银行带来的损失和将不违约类样本点误判为违约类样本点给银行带来的损失是不同的。以往的研究往往集中于提高模型在测试样本上的分类精度,而没有考虑两类误判成本是不同的情况,在实际使用过程中常常造成对风险估计不足。因此,有必要采用最小总风险准则(MOR)代替最小错误概率准则(MPE)来进行分类。贝叶斯网络分类器作为一种概率型分类器,继承了贝叶斯网络的优点,并具有良好的分类精度和语义表达能力,受到越来越多研究者的关注,并积极拓展它的应用领域,现已广泛应用于模式识别、数据挖掘、垃圾邮件处理和医学诊断。近来,该方法也开始应用到管理领域,如客户关系管理领域的客户分类、客户欺诈和对市场细分方面的研究。由于该分类器容易结合损失函数实现最小化总风险分类的目标,本文在介绍贝叶斯分类原理、贝叶斯网络及其分类器基本原理的基础上,结合考虑损失函数的情况,初探将该方法运用到消费者的信用评估中,用MOR来代替MPE对两分类问题进行识别,在最小总风险条件下给出未知类的类别;然后使用两个真实数据进行了实证研究;最后给出了结论及今后的研究方向。1类型l和分类方法,分为以下几种类型设U={X,C}是随机变量有限集。其中:X={X1,…,Xn}是属性变量集;C是类变量,取值为{c1,…,cl};xi是属性Xi的取值。样本xi=(x1,…,xn)属于ci的概率,由贝叶斯定理可表示为P(C=cj|X=xi)=P(C=cj)×P(X=xi|C=cj)/P(X=xi)=P(cj)×P(x1,…,xn|cj)/P(x1,…,xn)=γ×P(cj)×P(x1,…,xn|cj)(1)其中:γ是正则化因子;P(cj)是类cj的先验概率;P(x1,…,xn|cj)是类cj关于xi的似然。由概率的链式法则,式(1)可以表示为Ρ(cj|x1,⋯,xn)=γ×Ρ(cj)×n∏i=1Ρ(xi|x1,⋯,xi-1,xi+1,⋯,xn,cj)P(cj|x1,⋯,xn)=γ×P(cj)×∏i=1nP(xi|x1,⋯,xi−1,xi+1,⋯,xn,cj)(2)给定训练样本集D={u1,…,uN},分类任务的目标是对训练样本集D进行分析,确定一个映射函数f:(x1,…,xn)→C,使得对任意未知类别的实例x=(x1,…,xn)可以标定类标签。最小错误概率准则,即贝叶斯最大后验概率准则:给定某一实例x=(x1,…,xn),贝叶斯分类器选择后验概率P(cj|x1,…,xn)最大的类作为该实例的类标签,即Ρ(ci|x)=maxj=1,⋯,lΡ(cj|x)P(ci|x)=maxj=1,⋯,lP(cj|x),则判定x为ci。2贝叶斯决策原则在分类的决策中,使错误概率达到最小是重要的,但实际上,有些问题需要考虑一个比错误概率更为广泛的概念——风险。在个人信用评估中,对消费者信贷的分类不仅要考虑尽可能作出正确的判断,而且还要考虑到作出错误判断时会带来什么后果。在信用评估中,如果把信用良好的客户误判为信用差的客户固然会使银行损失一笔收益,但如果把原本是信用差的客户错判为信用良好,就会造成更大损失。显然这两种不同的错误判断所造成损失的严重程度是有显著差别的,后者的损失比前者更严重。如果要使误判风险最小化,就要考虑损失函数(lossfunction)。损失函数精确地阐述了每种行为所付出的代价大小,并且用于将概率转换为一种判决。令{α1,…,αa}表示有限的a种可能采取的行为集,损失函数λ(αi|cj)描述类别状态为cj时采取行动αi的风险。假定观测到某个特定模式x将采取行为αi,如果真实类别状态为cj,定义在类别状态为cj采取行为αi将有损失为λ(αi|cj),P(cj|x)是x实际类别状态为cj时的概率,与行为αi相关的条件期望损失为R(αi|x)=E[λ(αi|cj)]=l∑j=1λ(αi|cj)Ρ(cj|x)R(αi|x)=E[λ(αi|cj)]=∑j=1lλ(αi|cj)P(cj|x);i=1,…,a(3)用决策理论的术语来表达,一个预期的损失被称为一次风险,R(αi|x)称为条件风险。由于x是随机向量的观察值,对于x的不同观察值,采取决策αi时,其条件风险的大小是不同的。所以究竟采用哪一种决策将随x的取值而定。这样决策α可以看成随机向量x的函数,记为α(x),其本身也是一个随机变量,可以定义期望风险为R=E=∑RP(x)(4)其中:期望风险R反映对所有x的取值采取相应决策α(x)所带来的平均风险;而条件风险R(αi|x)只是反映了对某一x的取值采取决策αi所带来的风险。显然要求的是采取一系列的决策行动α(x)使期望风险R最小。如果在采取每一决策或行动时条件风险都最小,则对所有的x作出决策时,其期望风险也必然最小,这样的决策就是最小总风险准则。最小总风险准则为R(αk|x)=mini=1,⋯,aR(αi|x)R(αk|x)=mini=1,⋯,aR(αi|x),则α=αk。使错误概率和总风险达到最小的两种贝叶斯决策规则存在着密切联系。设损失函数为式(5)中λ(αi|cj)对于正确决策,即i=j没有损失;而对于任何错误决策,其损失均为1。这样定义的损失函数称为0-1损失函数。根据式(4),条件风险为R(αi|x)=l∑j=1λ(αi|cj)Ρ(cj|x)=l∑j=1,j≠iΡ(cj|x)R(αi|x)=∑j=1lλ(αi|cj)P(cj|x)=∑j=1,j≠ilP(cj|x)(6)其中:l∑j=1,j≠iΡ(cj|x)∑j=1,j≠ilP(cj|x)表示对x采取决策cj的条件错误概率。所以在0-1损失函数中,使R(αk|x)=mini=1,⋯,aR(αi|x)R(αk|x)=mini=1,⋯,aR(αi|x)的最小总风险贝叶斯决策等价于最小错误率贝叶斯决策。由此可见,MPE就是在0-1损失函数条件下的MOR。为便于使用,考虑将上述结论应用于两类问题的结果。假设行为α1对应于类别判决c1,行为α2对应于判决c2。为了简化符号,以λij=λ(αi|cj)表示当实际类别为cj时误判为ci所引起的损失。如果写出式(3)所给的条件风险,可得R(α1|x)=λ11P(c1|x)+λ12P(c2|x)(7)R(α2|x)=λ21P(c1|x)+λ22P(c2|x)(8)如果R(α1|x)<R(α2|x),则判定x为c1;否则相反。3贝叶斯网络分类器3.1核心网络模型参数集贝叶斯网络是由随机变量集合U={X1,…,Xn}组成的联合概率分布的编码,形式上是一对二元组B=〈G,Θ〉。G是一有向无环图,它的节点对应随机变量X1,…,Xn,有向边代表变量之间的相依性。图的结构G编码了独立性假设:给定每个节点的父节点的条件下,该节点独立于它的非自子孙节点。Θ代表了这个网络的量化参数集,每一个参数对应于Xi的每一种可能取值xi,pa(xi)∈Pa(Xi)。其中:Pa(Xi)是Xi在G中父变量的集合;pa(xi)是Pa(Xi)的一个构成。B在U上定义了惟一的联合概率分布:ΡB(X1,⋯‚Xn)=n∏i=1ΡB[Xi|Ρa(Xi)]PB(X1,⋯‚Xn)=∏i=1nPB[Xi|Pa(Xi)](9)学习贝叶斯网络的首要任务是对一个定义在U上的训练样本集D={u1,…,uN},寻找最匹配D的网络结构B。一旦获得了网络结构B,就可以估计参数Θ。用贝叶斯网络作为分类工具,实际上就是用贝叶斯网络求解式(2)。由于贝叶斯网络表达了变量集的联合概率分布,只要确定了变量集的贝叶斯网络结构和属性变量的条件概率分布,就可以求得P(cj|x1,…,xn)。根据对网络结构的不同假定,可以分为朴素贝叶斯分类模型、通用贝叶斯分类模型以及树增强贝叶斯分类模型。3.2基于matlab的训练分类器朴素贝叶斯分类模型(naiveBayesianclassificationmodel,NB)采用了最简单的贝叶斯网络结构,将类节点强制作为其他属性的父(根)节点,并假定各属性节点在已知类的条件下相互独立。其拓扑结构如图1所示。每个属性Xi只与类变量C相关,因此式(2)中的P(xi|x1,…,xi-1,xi+1,…,xn,cj)简化为P(xi|cj),即Ρ(cj|x1,⋯,cn)=γ×Ρ(xj)×n∏i=1Ρ(xi|cj)P(cj|x1,⋯,cn)=γ×P(xj)×∏i=1nP(xi|cj)(10)由于属性的排列顺序不影响概率分布P(cj|x1,…,xn),不失一般性可以假定前q个属性为离散属性,(q+1)~n为连续属性,则有Ρ(xk≤Xk<xk+Δ|C=cj)=xk+Δ∫xkf(xk∶μcj,σcj)dxkP(xk≤Xk<xk+Δ|C=cj)=∫xkxk+Δf(xk∶μcj,σcj)dxk(11)由导数的定义:limΔ→0Ρ(xk≤Xk<xk+Δ|C=cj)/Δ=f(xklimΔ→0P(xk≤Xk<xk+Δ|C=cj)/Δ=f(xk:μcj,σcj)(12)P(xk≤Xk<xk+Δ|C=cj)≈f(xj:μcj,σcj)Δ(13)式(10)可以写为Ρ(cj|x1,⋯,xn)=γ×Ρ(cj)×q∏i=1Ρ(xi|cj)n∏k=q+1f(xk|cj)ΔP(cj|x1,⋯,xn)=γ×P(cj)×∏i=1qP(xi|cj)∏k=q+1nf(xk|cj)Δ(14)其中:P(xi|cj)为离散属性变量Xi类条件概率分布;f(xk|cj)为连续属性变量Xk的类条件概率密度函数。因子Δ出现在式(14)的每一个类,当进行正则化后,Δ将被抵消。故式(14)又可以写为Ρ(cj|x1,⋯,xn)=β×Ρ(cj)×q∏i=1Ρ(xi|cj)×n∏k=q+1f(xk|cj)P(cj|x1,⋯,xn)=β×P(cj)×∏i=1qP(xi|cj)×∏k=q+1nf(xk|cj)(15)其中:β=1/P(x1,…,xq)×f(xq+1,…,xn|x1,…,xq)。通过属性变量集的类条件概率分布,NB将离散属性变量和连续属性变量统一在概率分布中,简洁地实现了对特征属性的编码。训练分类器时,NB首先按照类标签把训练样本集分成几个子集Dj(1≤j≤l),用训练样本集估计每个类的先验概率,一般可以按P(C=cj)=Ni/N进行估算。其中:Ni是在子数据集C=ci的样本数;N为训练集样本总数。然后在每个由cj标定的子集对类条件属性的概率进行估计。对类条件属性的概率估计方法为:对每一个离散属性,可以根据最大似然估计准则,取P(Xj=xjk|C=ci)=Nijk/Ni。其中:Nijk为事件Xj=xjk在子数据集C=ci上发生的频数;Ni是子数据集C=ci的样本数。对于连续属性,通常假定服从正态分布,则式(15)中的f(xk|cj)为f(xk|cj)=g(xk∶μk,cj,σk,cj)=[1/(√2πσk,cj)]exp[(xk-μk,cj)2/(2σ2k,cj)](16)f(xk|cj)=g(xk∶μk,cj,σk,cj)=[1/(2π−−√σk,cj)]exp[(xk−μk,cj)2/(2σ2k,cj)](16)μk,cj=(1/n)j∑x∈Djxkμk,cj=(1/n)j∑x∈Djxk(17)σk,cj=[1/(nj-1)]∑x∈Dj(xk-μk,cj)2σk,cj=[1/(nj−1)]∑x∈Dj(xk−μk,cj)2(18)NB的最大特点是不需要搜索网络结构,只需简单地计算训练集中各个离散属性值发生的频率数或对连续离散属性采用正态分布假定,就可以估计出每个属性的概率估计值或概率密度,因而效率特别高。理论上,它在满足其限定条件下是最优的,针对其较强的限定条件,可以尝试着减弱它以扩大最优范围,从而产生新的分类器。3.3用gbn进行分类通用贝叶斯网络分类器(generalBayesiannetworkclassifier,GBN)将类节点和属性节点作为同等地位的网络节点,根据选定的评分函数和样本数据训练出贝叶斯网络,直接作为分类器。用GBN进行分类的过程实际上就是将属性节点作为证据节点引入到贝叶斯网络中,求得类节点后验概率的过程。在贝叶斯网络中,把某节点的父节点、子节点及子节点的父节点称为该节点的马尔可夫覆盖。根据有向马尔可夫覆盖的性质,一个节点取某个值的概率只受其马尔可夫覆盖节点的影响,而与其余节点无关。这样一些可能对分类有重要意义的变量,由于被归于马尔可夫覆盖以外,而影响不到分类节点。多数情形下,经过学习的GBN比NB的分类效果要差,尤其当属性较多时效果更差。另外,GBN是一个无约束的贝叶斯网络,其结构学习本身就是一个NP-complete问题,目前条件下不可能搜索整个空间。事实上,只有在属性个数极少的情况下才具有实用价值。3.4最大权重的建立NB直接面向分类目标,网络结构简洁明了,但其属性变量间完全独立的条件使其难以适用于实际情况。GBN克服了NB属性变量间相互独立假设的限制,通过对数据的学习找到它们的相关性,但却由于马尔可夫覆盖节点的影响排除了某些可能对分类有意义的关键属性。增强型朴素贝叶斯分类器正是基于此的改进,其中最简单的一种为树增强型朴素贝叶斯分类器(treeaugmentednaiveBayesianclassifier,TAN)。该分类器以类变量作为所有属性节点的父节点,而属性节点之间构成一个树型结构,如图2所示。它的Pa(C)=Ø,且Pa(Xi)除C以外至多有一个其他的属性,每个属性除由类变量指向它的弧外至多可以有一个相关的弧指向它。由于限制了相关弧的数目,可以进行有效的学习。这类模型已由Geiger给出了证明,并用Chow和Liu学习树结构的贝叶斯网络算法进行学习。构造TAN网络结构的算法如下:a)计算每对属性变量i≠j的条件互信息熵I(Ai;Aj|C)。其中:I(Ai;Aj|C)=∑xi,xj,cˆΡD(ai,aj,c)log(ˆΡD(ai,aj|c)/[ˆΡD(ai|c)ˆΡD(aj|c)])Aj|C)=∑xi,xj,cPˆD(ai,aj,c)log(PˆD(ai,aj|c)/[PˆD(ai|c)PˆD(aj|c)])。ˆΡD(⋅)PˆD(⋅)是训练样本中·事件发生的经验频率。b)构造一个完全无向图,它的顶点是属性变量。标注Xi和Xj相连接边的权重为I(Ai;Aj|C)。c)建立一个最大的权重跨度树。d)选择根节点,并设置所有弧的方向由根节点指出,把无向树转换为有向树(根节点的选择不改变网络结构的对数似然)。e)增加一个类变量节点及类变量节点与属性节点之间的弧。步骤a)的计算复杂度为O(n2×N),c)的计算复杂度为O(n2×logn),N为训练样本数。由于通常有N>logn,时间复杂度为O(n2×N)。建立最大权重跨度树的方法是:首先把边按权重由大到小排序;然后遵照选择的边不能构成回路的原则,按照边的权重由大到小的顺序选择边,由此构成的树便是最大权重跨度树。按照以上方法构造的TAN是考虑了分类精度和计算时间复杂度的一种折中。实验证明,通常其具有比NB更好的分类精度而所付出的代价并不大,因此获得了广泛应用。4以最小风险准则为识别模型的学习算法对于实际问题,最小总风险贝叶斯决策可按下列步骤进行:a)在已知P(cj)、P(x|cj)(j=1,…,l)以及给出待识别的x的情况下,根据式(1)计算出后验概率P(cj|x)。b)利用计算出的后验概率及损失函数,按式(3)计算采取αi(i=1,2,…,a)的条件风险R(αi|x)。其中:R(αi|x)=l∑j=1λ(αi|cj)Ρ(cj|x)R(αi|x)=∑j=1lλ(αi|cj)P(cj|x);i=1,2,…,a(19)c)对式(19)中得到的a个条件风险值R(αi|x)(i=1,…,a)进行比较,找出使条件风险最小的决策αk,即R(αk|x)=mini=1,⋯,aR(αi|x)R(αk|x)=mini=1,⋯,aR(αi|x)(20)则αk就是最小总风险贝叶斯决策。从上面的步骤可以看出,在已知损失函数的情况下,问题的关键在于要计算符合实际情况的先验概率P(cj)和类条件概率P(x|cj)。由前面的论述可知,贝叶斯网络可以表达全联合概率分布,而且贝叶斯网络的结构和参数可以通过从数据中学习的方法获得。一旦获得了贝叶斯网络分类模型,再按照最小风险准则进行分类决策已经是非常简单的问题了。下面给出用贝叶斯网络按最小风险准则决策的算法:a)根据训练样本选择贝叶斯网络分类模型B,并训练分类模型B。b)根据给定的损失函数对未知类别的样本x计算R(ci|x)=l∑j=1λ(ci|cj)ΡB(cj|x);i=1,2,…,l(21)其中:R(ci|x)是判定x为ci类的风险;PB(cj|x)是根据贝叶斯网络B计算得到的x为cj类的概率;λ(ci|cj)是x实际为cj而误判为ci产生的损失。c)比较R(ci|x)(i=1,…,l),选择R(ci|x)值最小的ci作为x对应的类。5实验5.1澳大利亚信用数据的属性本文以德国和澳大利亚信用数据为例进行了实证研究。其中德国信用数据记录1000条;定义了两类人,第一类(goodcredit)样本700个,第二类(badcredit)样本300个,每个样本有20个属性(信用信息指标),详细指标如表1所示。其中2-5-8-11-13-16-17为定量属性,其余的为定性属性。澳大利亚信用数据与德国信用数据相似,但两类人的数量相对比较均衡,第一类为307,第二类为383。为了保护商业机密,公开的数据对属性名和定性的属性值作了符号代换,共有15个属性。其中,定量属性6个;定性属性9个。下面的实验对以上两个数据集均采用德国信用数据中的成本矩阵,即λ11=λ22=0,λ12=1,λ21=5。5.2算法的层交叉验证正如前文所述,GBN分类性能通常较差且在巨大的结构空间进行结构搜索本身就是NP-complete问题,因此本文仅对NB与TAN进行实证研究。由于TAN不能处理连续属性,采用了Fayyad等人基于信息熵的离散化方法对连续变量进行了离散化处理;各类的先验概率,即式(2)中的P(ci)按训练样本中的各类占训练样本总数的比例计。为了客观地评价分类器的性能,最小化数据间相关性的影响,改进计算结果的可靠性,采用10层交叉验证进行了计算。样本按比例随机分成10个等份,每次保留独立的一份作为测试集,取其余的九份作为训练集,轮换计算10次。每次的测试集均不相同,分别采用MPE和MOR进行了计算,用10次计算误分率的平均值作为最终误分率,结果如表2所示。表2中good和bad分别为第一类和第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论