第三讲:信用评级模型_第1页
第三讲:信用评级模型_第2页
第三讲:信用评级模型_第3页
第三讲:信用评级模型_第4页
第三讲:信用评级模型_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三讲:信用评级模型主讲:梁满发工作目标信用评级就是对贷款申请者进行信用评估,目的是减少贷方(银行、投资公司、信用卡公司)的金融风险。信用评级模型还可用于人才甄聘、绩效考核、投资风险评估、犯罪识别等工作中。现在我们以某金融机构对客户信用卡申请审批工作为背景,运用数据挖掘方法建立信用评分的模型,对申请者给以信用评分,产生一个自动决策系统帮助决定接受或拒绝信用申请。我们把信用合格者视为响应,不合格者视为非响应。我们要作信用评级就是寻找信用合格者与不合格者之间的行为模式或社会背景的差别,以此来判别某种特定的申请者信用。因此,我们必须要有足够的高质量的客户信用观察数据,既要包括足够的响应和非响应,以及

2、相应的客户金融行为信息和社会背景信息,这些信息可是区别不同信用者因素。在此,我们有某德国银行的客户信用的历史数据,数据文件名为SAMPSIO.DMAGECR。数据含有1000个申请者观察,其中有21个变量, good_bad是表示信用的二值响应变量。它是从银行内部一个更大的数据库中抽样出来的,原数据库中仅有10的响应(信用不合格者),为了有足够的响应数据供分析,才取了重抽样方式,抽取的样本中响应占样本数的30。除good_bad变量外的其它20变量意义如下:社会人口变量Marital:性别与婚姻状况Age:年龄Resident:在现住所的居住年数Telephon:电话号码个人和金融变量Chec

3、king:银行帐户情况Savings:存款数量History:使用信用卡情况Property:财富、保险情况Coapp:担保情况Job:职业类型Employed:工作年限Foreign:是否是外国职员债权人财产变量Housing:房产情况Depends:动产数Existcr:在本银行是否有信用卡具体贷款变量Amount:信用卡保证金Purpose:贷款目的Duration:贷款期Installp:可支配收入情况Other:其它资产VariableModel RoleMeasurementDescriptionageinputintervalage in yearsamountinputinte

4、rvalcredit amountchecking inputnominal or ordinalstatus of existing checking account 1: . 0 DM2: 0 = . = 200 DM4: no checking accountcoapp inputnominalother debtors/guarantors 1: none2: co-applicant3: guarantordependsinputintervalnumber of dependentsdurationsinputintervalduration in monthsemployed i

5、nputordinalpresent employment since 1: unemployed2: . 1 year3: 1 = . 4 years4: 4 = . = 7 yearsexistcrinputintervalnumber of existing credits at this bankforeign inputbinaryforeign worker 1: yes2: nogood_badtargetbinarycredit ratinghistory inputordinalcredit history 0: no credits taken / all credits

6、paid back duly1: all credits at this bank paid back duly2: existing credits paid back duly till now3: delay in paying off in the past4: critical account / other credits existing (not at this bank)housing inputnominalhousing 1: rent2: own3: for freeinstallpinputintervalinstallment rate in percentage

7、of disposable incomejob inputordinaljob 1: unemployed / unskilled non-resident2: unskilled resident3: skilled employee / official4: management / self-employed / highly qualified employee / officermartial inputnominallpersonal status and sex 1: male - divorced / separated2: female - divorced / separa

8、ted / married3: male - single4: male - married / windowed5: female - singleother inputnominalother installment plans 1: bank2: stores3: noneproperty inputnominal or ordinalproperty 1: real estate2: if not 1, building society savings agreement / life insurance3: if not 1 or 2, car or others4: unknown

9、 / no propertypurpose inputnominalpurpose 0: new car1: used car2: furniture / equipment3: radio / television4: domestic appliances5: repairs6: education7: vacation8: retraining9: businessx: othersresidentinputintervalpresent residence sincesavings inputnominal or ordinalstatus of existing saving acc

10、ount or bonds 1: . 100 DM2: 100 = . 500 DM3: 500 = . = 1,000 DM5: unknown / no saving accounttelephon inputbinarytelephone 1: none2: yes, registered under the customers name具体工作目标:具体工作目标:()找出影响信用重要因素,决定信用评级考查的重要内容;()建立信用评分模型,找出信用高或信用低的人群特征;()编写信用评分模型程序代码;()计算申请者的信用得分,并完成准批还是拒绝工作。数据抽样插入input data sou

11、rce节点,选取SAMPSIO库中的DMAGECR 数据文件;因全部的数据文件仅为1000个观察样本,所以选择全部的数据建模;数据集设为角色;在数据中,good_bad变量反映了客户信用的响应变量,因此,预备选择good_bad为建模模型的目标变量,修改good_bad变量为Target角色。Interval变量有三个(durations、 amount和age),其它均为分类变量。观察good_bad变量直方图:从图中看出,不可信任的客户有“bad”表示,即响应。而我们习惯把响应值定为“1”,因此,需要把doog_bad变量重编码,即“bad”对应”“,“good”对应“0”。新变量命名为g

12、ood_badn。另外,从图中知目标变量响应比例为30,这个比例不符合一般申请人群响应的比例。这是由于为了得到足够的响应来分析响应行为,以重抽样方式得到的样本。虽然不影响建模,但建模时应加以注意。经调查,申请者总体中约为10人为有信用风险,90为没有信用风险。数据变换插入Create Variable节点作数据变换;定义反映信用响应的新响应变量good_badn,作为建模的目标变量。我们观察Duration变量的分布:从直方图中知, Duration变量值从472,值太多,不利于信用模型的解释。因此,为了简化分析,即使丢失一点信息,我们还是应该将Duration变量化为二值变量。一方面,因Du

13、ration变量的平均值为20左右,分布偏左态;另一方面,金融行业习惯将贷款分为”长期贷款“和”短期贷款“的概念。因此,决定将“贷款期”超过18月的称为“长期贷款”,变量值对应为“1”;将“贷款期”低于18月的称为“短期贷款”,变量值对应为“0”。新变量命名为“deadline”。因为Checking变量有四个值,信息冗余,不利解释响应变量,因此,我们将Checking拆分为两个变量,即good_Checking表示”好帐户“,即“余额大于200马克”为1,其它为0; bad_Checking表示”坏帐户“,即“负余额”为1,其它为0。因marital变量含有性别和婚姻的信息,这两个信息都是个

14、人基本信息,如果将它们提出为独立变量,可能对响应预测有利,因此,我们将marital分为两个变量,即sex表示客户性别maritals表示客户婚姻状况设置变量角色信用评级就是要用申请者个人信息预测响应,这里good_badN就是样本的响应变量,即设置为target角色,其它设为input角色。但创建的新变量的信息代替了旧变量信息,所以在后面建模中要去掉旧变量,即把good_bad、checking、duration、marital设置为rejected角色。 good_badN、good_checking、bad_checking、sex、martials五变量New Measurement设

15、为binary。数据探测首先,我们要初步了解目标变量和其它变量的分布,目的是:u数据是否存在大量的缺失值;u数据是否可能存在严重影响建模稳定性的奇异数据;u变量服从的分布是否适合模型条件。其次,我们要作一般变量与目标变量的交叉分析,以了解其它变量与目标变量的相关性和优势率。目的是:u选择建模重要变量,减少参与建模的变量,提高计算效力;u检查变量间的共线性性,提高模型精度;u为模型解释作好准备。因数据文件仅有三个区间变量,没有缺失值,DURATION和AGE没有明显奇异值,仅需观察AMOUNT变量的分布。偏态数据作对数变换后(即LOG(AMOUNT)),数据表现出正态分布,奇异值也仅为最小值。变

16、量变换将AMOUNT变量作对数变换,变换后的变量命名为LAMOUNT,并把它角色设置为input,而AMOUNT变量角色设置为rejected。下面我们探索其它变量与目标变量的关联强度,这是寻找变量在识别响应中的效果的工作。虽然,一元分析不能完全提示变量间的关系,但它是建立多元分析模型的重要基本步骤。为了了解调查响应变量和22个探索性变量中每个变量的关联,我们插入variableselection节点,选择TargetAssociations栏作优势率分析。选择卡方Pearson统计量作为判别量,其它参数默认。变量筛选运行结果:变量筛选树状结构图从图中可看出:前面部分变量是与目标变量有显著相关

17、性,后面没有。设置目标函数信息在实际中,如果我们正确地识别出不可信顾客,减少的损失将远远大于正确识别出可信顾客带来的收益,因此,我们要定义一个适合实际需要的决策损失矩阵,以损失最小化为决策目标,决定顾客信用级别等级的判别阀值。本例分析假设:n接受一个有信誉的申请者将获得1美元赢利,但拒绝他将平均损失1美元;n接受一个没有信誉的申请者将平均损失5美元,拒绝就没有损失;n目标函数选择以损失最小化;n申请者的总体中响应比例是10,即响应的先念概率为0.1。操作参数选择如下:目标选择:最小损失;“接受”一个“不可信者”则损失5元;“接受”一个“可信者”则损失-1元。响应先验概率为0.1,非响应先验概率

18、为0.9。数据过滤操作参数如下(默认选择)数据过滤是发现和处理数据中的奇异值,以免奇异值影响建模。插入Filter Outliers节点来完成这项工作。建模数据集划分由于样本数据较少,我们将以随机抽样的方式,把原数据的60样本划分为训练集,40分为效验集。大多数定性变量响应模型的基本元素是logistic回归模型。设niYPii, 2 , 11一个logistic回归模型说明事件拟合概率的一个合适函数是现有解释变量观测值的线性函数:ikkiiiixbxbxba22111log左边定义拟合概率的logit函数,即 iiiit1loglog回归预测模型1 , 0exp1exp22112211ikk

19、iiikkiiixbxbxbaxbxbxbau选择Logstic回归模型u选择逐步回归法u不选择交互项u其它用默认选项影响因子得分(Effect T-scores )是参数的估计值除以估计量的标准差。参数估计值从结果中可看出:history=1( 这家银行的所有信用卡都超时还贷), history=0( 没有信用卡或所有的信用卡都超时还贷), savings=1(存款小于100马克)是响应最大正相关的前三个因素。savings=4(存款大于1000马克),BAD_CHECKING=0(支票帐户余额大于0), history=2( 到现在为止,这家银行的所有信用卡都未超时还贷)是响应最大负相关的

20、前三个因素。神经网络预测模型神经网络模型适合处理描述性和预测性数据挖掘。尽管还在争议神经网络的真实智能,但是现在它已毫无疑问地成为了有用的统计模型,而且神经网络显示了显著的拟合观察数据的能力,尤其是对于带有不完整信息,错误和不准确信息的高维数据库和数据集。1x2x神经元模型:nx12w1jw2jwnj1电位2激活的函数神经元j的电位:nijijijwxP1第j人神经元的输出: jjPfy 阶梯激活函数(还有线性和Sigmoid激活函数): jjjjjPPPf神经网络以层次方式组织,它有三种类型的层:输入、输出或隐层。神经网络有多层加权神经元,称为多层感知器。一个两层的网络有一个隐层,输入层有n

21、个神经元,隐层有h个神经元,输出层有p个神经元。权重wik(i=1,n;k=1,h)连接输入层节点和隐层节点;权重zkj(k=1,h;j=1,p)连接隐层节点和输出节点。kiikikjkkjkjwxfzgzhgy有监督学习的网络:有监督学习的网络:假定每一个观测数据(xi,ti)描述,神经网络输出yi=f(xi),使距离d(yi,ti)的各最小。无监督学习的网络:无监督学习的网络:假定每一个观测数据xi描述,将数据集分成子集,使得属于同一子集的xi比较接近,它是一个分类问题。模型迭代停止,使模型过度似合可能性最小。决策树预测模型mnllmmiyny11树模型是先将观测数据分到不同组中,再获得每

22、组的得分。树模型分成回归树和分类树,回归树的响应变量是连续的;分类树的响应变量是离散型定量变量或定性变量。回归树生成的拟合值:分类树生成的拟合概率:mnllmmiyn11划分规则:选择划分规则意味着从现有的方法中选择了一个分类器,选择最好的划分。错分不纯性kmnlklmmMnyyIIm1,1)(Gini不纯性 mkiimGI12)(1熵不纯性 mkiiimEI1)(log剪枝:当没有停机准则时,根据因变量的数值和级别值、树模型可以一直增长直到每一个节点都包含相同的观测数据,这显然不是一个简约的划分。因此,当树达到一定规模时,很有必要停止树的增长,最终得到的理想树模型应既简约又准确。CART剪枝方法:首先树构成最大尺寸,这可能使树的叶子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论