




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于svm的信用风险评估中的拒真纳伪错误平衡控制研究
信用风险评估是管理银行信用风险的重要基础工作。现在,国际上广泛使用的评估模型主要包括统计模型和神经网络模型。在评估该模型时,我们不可避免地会犯两个错误,即拒绝真和假。这两个错误对银行信贷业务的影响是很大的不同。然而,统计模型和神经网络模型并不能直接控制这两个错误的分布,也不能影响它们在实际应用中的影响。鉴于此现状,本文在统计学习理论的基础上,采用了一种新的通用学习方法,即支持向量机作为银行信用风险评估的工具,重点研究了信用风险评估中这两个错误的平衡。在本文中,我们介绍了“损失比例系数”,该系数用于调整“第一和第二错误之间的惩罚系数的比率”。此外,本文还分析了第一个错误与第二个错误之间的经济意义差异,并给出了一个合理的价值范围。实验结果表明支持向量机可以在不同的错误类别上采用不同的惩罚系数,从而有效控制“拒真纳伪”两类错误的分布.本文提出的模型较客观地反映了信用风险评估的目的和本质,具有现实意义.1评估可靠风险的两个错误1.1犯三类错误所导致的概率在统计学的假设检验中由于样本的随机性,在进行判断时可能犯两类错误,一是当假设H0为真时,拒绝了它,称为犯第一类错误,其发生的概率或称拒真概率,记作α=P{X∈W|H0为真}(1)其中W是一个检验的拒绝域.另一是当假设H0不真时,而接受了它,称为犯第二类错误,其发生的概率或称纳伪概率,记作β=P{X∉W|H0不真}(2)犯这两类错误所造成的影响常常很不一样.以银行根据企业的信用度判断是否给该企业贷款为例,原假设为H0(该企业信用较差).此时,犯第二类错误会使银行损失一笔利息收入,但犯第一类错误可能导致所贷款项无法收回.我们希望根据历史样本的检验结果做出的预测使犯两类错误的概率都尽可能小,但实际上是不可能的.由于两类错误之间存在制约关系:当其它条件不变时α减小必导致β增大;反之,β减小则α增大.因此,在样本容量一定的情况下,不能同时控制犯两类错误的概率大小.在统计检验中,一般采取限制第一类错误的概率,即选一个正数作为α的上限,这个正数通常称为检验水平或显著水平.其他常用的解决方法是:增大样本容量,尽量采用单边检测等.在实际应用时,必须根据客观事物的背景,恰当选取合适的α或合适的β.1.2评估银行信用风险的两个错误1.2.1被商应性:“违约”企业或“法”企业构建一个适用的信用风险评估模型是商业银行进行正常业务运转的有力保障.我们将需要评判的企业分为:财务状况良好,银行对其发放贷款风险较小的企业;财务状况较差,若给予贷款,其违约的可能性较大的企业.为了简约起见,在本文中分别简称为“履约”企业和“违约”企业.影响模型性能的主要因素之一是误判率,即:将“违约”企业评判为“履约”企业,和将“履约”企业评判为“违约”企业这两类错误所引起的.根据常规,本文中我们将“违约”企业评判为“履约”企业称为第一类错误,将“履约”企业评判为“违约”企业称为第二类错误.信用风险评估中出现的两类错误是统计学中两类错误在具体应用中的一种表现,因此具有上述两类错误的基本性质:由于样本的随机性及样本容量的有限性,无法同时控制犯两类错误的概率α和β都很小.大多数信用风险评估研究一味的强调整体的准确率,却忽视了两类错误对商业银行信贷业务的不同影响,以至实际应用效果并不理想,因此有必要对这两类错误进行深入的分析和探讨.就本文所讨论的问题而言,对于银行犯第二类错误至多损失一笔利息收入,而犯第一类错误则面临着本金无法收回的巨大风险,因此第一类错误的危害性要远比第二类错误严重.Altman的研究指出:第一类错误造成的损失为第二类错误损失的20倍到60倍.两类错误之间的制约关系及对实际问题的不同影响,要求我们在开发企业信用评估系统时,除了提高系统的整体评估准确率以外,还要尽可能的规避风险较大的第一类错误.1.2.2计算当前信用风险的一般方法和错误目前国际上广泛采用的信用风险评估模型主要有统计模型和神经网络模型.1关于统计分析不足基于统计的判别方法中多元判别分析法(MDA)和Logit模型最受青睐.统计方法的引入克服了传统比例分析法综合分析能力差,定量分析不足等缺点,但也存在要求样本数据有一定的规模、方法的可用性与建立分类模型时所需的多个假设和条件紧密相关等许多问题.如MDA就要求数据服从多元正态分布和等协方差,而现实中大量数据严重违背这些假定.因此统计方法在现实应用中很难达到理想的效果.2学习时的评估问题神经网络(NN,NeuralNetwork)是一种对样本数据分布无任何要求的非线性技术,克服了统计方法的较强假设条件要求,能有效解决非正态分布、非线性的信用评估问题.但NN有其自身难以克服的缺陷,如:网络结构难以确定,往往要使用试算的方法来选择;训练时易陷入局部极值;存在过学习与欠学习的问题;而且模型一般不具有直接可解释性.更遗憾的是,上述传统的MDA评估模型以及NN评估模型都无法直接控制两类错误的分布,使其在实际应用中的效果不够理想,而基于小样本学习理论的通用学习算法——支持向量机(SVM,SupportVectorMachine)能够对不同的错分类型采用不同的惩罚系数,从而达到控制错分的分布,是一种较理想的评估工具.2支持向量机的信用风险评估模型2.1最优分类面的生成SVM是针对两类模式识别问题而提出的,它能较好地解决小样本、非线性、高维数和局部极小点等实际问题.在线性可分情况下SVM寻找以最大间隔将两类样本正确分开的最优分类超平面,对于两类样本分类这样一个不适定问题,统计学习理论指出:最优分类面具有最好的推广性能.分类超平面方程的一般形式可写为x·w+b=0,对它进行归一化,使得对线性可分的样本集(xi,yi),其中xi∈Rd,yi∈{+1,-1},i=1,…,n,满足yi[(w·xi)+b]-1≥0,i=1,…,n(3)此时分类间隔等于2/‖w‖,因此使间隔最大等价于使‖w‖2最小.满足条件(3),且使12∥w∥212∥w∥2最小的超平面叫做最优分类超平面;使式(3)中等号成立的训练样本点称作支持向量.该优化问题还可以转化为对偶问题,即转化为一个不等式约束下二次函数寻优的问题,从而存在惟一解.解上述问题后得到的最优分类函数是f(x)=sgn{(w⋅xi)+b}=sgn{∑i=1nα∗iyi(xi⋅x)+b∗}(4)f(x)=sgn{(w⋅xi)+b}=sgn{∑i=1nαi*yi(xi⋅x)+b*}(4)其中,αi*为每个样本对应的Lagrange乘子;根据Karush-Kuhn-Tucker条件,只有一部分(通常是很少部分)α*i不为零,其对应的样本就是支持向量;b*是分类阈值,可以用任一个支持向量求得,或通过两类中任意一对支持向量取中值求得.在样本集线性不可分的情况下,可以在条件(3)中增加松弛项ξi≥0,使成为yi[(w·xi)+b]-1+ξi≥0i=1,…,n(5)并极小化目标函数(w,ξ)=12∥w∥2+C[∑i=1nξi](6)(w,ξ)=12∥w∥2+C[∑i=1nξi](6)即构造一个软间隔,折衷考虑最少错分样本和最大分类间隔,从而得到一个广义的最优分类面;其中C>0是一个常数,它控制对错分样本惩罚的程度.2.2分类函数的生成在SVM模型中,我们可以对第一类错分和第二类错分的样本分别进行统计,因此可以针对信用风险评估中两类错误间存在的差异,进一步考虑在目标函数中对它们分别采用不同的惩罚系数C1和C2(C1,C2>0),并通过对C1,C2的调整来控制两类错误的分布.此时目标函数的具体表达式改为:(w,ξ)=12∥w∥2+C1∑{j:yj=−1,[(w⋅xj)+b]=1}ξj+C2∑{m:ym=1,[(w⋅xm)+b]=−1}ξm(7)(w,ξ)=12∥w∥2+C1∑{j:yj=-1,[(w⋅xj)+b]=1}ξj+C2∑{m:ym=1,[(w⋅xm)+b]=-1}ξm(7)其中C1表示第一类错误的惩罚系数,C2表示第二类错误的惩罚系数.对一般的复杂分类问题,可以通过一个非线性映射,将样本数据变换到一个特征空间F,然后在这个特征空间使用线性分类器分类.一般来说,这种非线性变换比较复杂,不易实现.但事实上,只要采用满足Mercer条件的内积核函数K(xi,xj)代替原空间中的内积,就可以实现某一非线性变换后的线性分类,从而避开了非线性变换的具体形式.此时分类函数变为:f(x)=sgn{∑i=1nα∗iyiK(xi,x)+b∗}(8)f(x)=sgn{∑i=1nαi*yiΚ(xi,x)+b*}(8)3在评估可靠性风险时,对两个错误的平衡3.1数据集的整理对于SVM模型,由于采用式(7)作为目标函数,可将两类错误之间的差异体现在所建立的模型中,从而控制错分的分布.本文采用SVM作为商业银行信用风险评估的建模工具,其具体做法是:在约束条件(5)下极小化目标函数(7),实际决策函数为式(8).我们用企业财务状况来衡量其信用风险,根据常用的准则以及专家的建议,从偿债能力、盈利能力、经营能力3大方面来考察企业的财务状况,并根据福建省某商业银行提供的2003年度客户资料,随机抽取了270家“履约”企业与270家“违约”企业,构成了一个规模为540家企业的样本集;再从样本集中随机抽取50%(270家,“履约”、“违约”各135家)作为训练样本集,用于构造SVM模型;其余的50%(270家,“履约”、“违约”各135家)作为测试样本集,用于检验模型的泛化能力,具体模型的建立可参阅文献.在这里假设“履约”企业的类别属性y为“1”,“违约”企业的类别属性y为“-1”,选取适当的C1,C2来控制两类错误的分布.分别对惩罚系数相同(C1=C2)及不同(C1=γ*C2,γ=1~60)的情况进行了建模,其中γ(γ>0)称为损失比例系数.根据文献的建议,本文采用最常用的径向基函数作为核函数,具体形式如下:K(x,xi)=exp{-|x-xi|2/σ2}(9)为了更好地研究损失比例系数γ对模型性能的影响,我们经验地将核函数K(x,xi)的宽度参数σ2的取值固定在10,然后通过交叉验证确定惩罚系数C1及γ的取值.本文使用了OSUSVMClassifierMatlabToolbox3.00工具包进行仿真,其中γ取1~12时两类错误与模型整体准确率的变化趋势如图1所示(为便于作图仅用整体错误率来表示模型的性能).3.2模型测试结果由图1结合实验数据可以看出:当不考虑两类错误之间的差异,即引入相同的惩罚系数时,模型在测试样本集上的整体准确率为89.63%,第一类错误率为6.30%,第二类错误率为4.07%,前者大于后者,因此这个模型不够理想.调整惩罚系数,随着γ的增大,在测试样本集上第一类错误逐渐减少,第二类错误逐渐增大;当γ增大到3时两类错误基本平衡(两类错误率均为4.07%),且这时模型整体准确率达到91.85%.当γ大于4时第一类错误率开始低于第二类错误率,当γ继续增大到8时第一类错误率已降到3.33%.这一现象很好地说明:在SVM中,通过调整两类错分的惩罚系数,确实可以控制两类错误的分布率.我们还对损失比例系数为20,30,40,50,60的情况进行了测算.实验结果表明,随着损失比例系数γ的继续增大,第一类错误进一步减小,第二类错误进一步增大.实际上可以通过参数的调整,控制第一类错误的概率达到非常小,但这时第二类错误率会大幅度上升,使模型的整体准确率变得很低,失去了使用的价值.考虑问题的实际应用背景,较理想的信用风险评估模型应该要尽可能地避免第一类错误引起的贷款损失,但同时也要考虑到第二类错误引起的盈利损失,毕竟盈利才是最终的目的.因此,评价一个模型的好坏应从模型在测试集上的整体准确率和第一类错误率两方面来衡量,在整体准确率相当的情况下,显然第一类错误率越低越好.考察图1中的整体错误率:当对第一类错误引入较大的惩罚系数时,整体错误率开始并没有上升,反而还有少许的下降;当γ大于3时整体错误率开始上升,第一类错误率逐渐降低,综合地考虑整体准确率和第一类错误率,γ取值3~8较为合适.从经济学意义上看,商业银行信用风险评估中第一类错误的成本要远远高于第二类错误(根据Altman的研究,第一类错误成本是第二类错误成本的20~60倍).本文采用的模型在选取一个合适的损失比例系数γ时,既保证银行进行信用风险评估时将“违约企业”误判为“履约企业”和将“履约企业”误判为“违约企业”的概率比较小(即整体准确率较高),又有效的控制了评估中犯第一类错误造成贷款本金无法收回的巨大风险;同时使犯第二类错误带来的盈利损失也不致太大.当然,不同的银行可根据自己的实力及经营理念,选取适合本银行发展的最佳损失比例系数γ.4svm方法的应用“拒真纳伪”两类错误是许多实际应用领域研究的重要问题,如何控制两类错
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年综合类-中学教育学-第四章教育目的历年真题摘选带答案(5卷单选100题合辑)
- 2025年综合类-中医内科主治医师-肝胆疾病历年真题摘选带答案(5套单选100题合辑)
- 2025年综合类-中医内科主治医师-中医肛肠学主治医师-中医肛肠科学历年真题摘选带答案(5卷单选100题合辑)
- 山东装卸管理办法规定
- 天津爆竹烟花管理办法
- 天使投资基金管理办法
- 学校加班误餐管理办法
- 2025年综合类-上海住院医师中医儿科-儿科住院医师-儿科住院医师综合练习历年真题摘选带答案(5卷单选题百道集合)
- 小学档案材料管理办法
- 安徽民政资金管理办法
- GB/T 18606-2001气相色谱-质谱法测定沉积物和原油中生物标志物
- GB 2811-1989安全帽
- 《中国近现代史纲要》 课件 第十一章 中国特色社会主义进入新时代
- 酒店Opera培训资料(42P)
- 金字塔原理(完整版)
- 中国大学生心理健康量表(CCSMHS)
- “扬子石化杯”第36届中国化学奥林匹克(初赛)选拔赛暨2022年江苏赛区复赛试题及答案
- 公共经济学ppt课件(完整版)
- 汽车可靠性教学课件汇总完整版电子教案全书整套课件幻灯片(最新)
- 浙江省引进人才居住证申请表
- DB62∕T 4134-2020 高速公路服务区设计规范
评论
0/150
提交评论