信用评分模型的理解和学习_第1页
信用评分模型的理解和学习_第2页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、信用评分模型的理解和学习本文将围绕以下几点进行介绍:信用风险信用评分信用评分模型建立的基本流程信用风险我们先说一下,风险管理的发展历程,风险管理最早起源于美国。1931年由美国管理协会保险部最先倡导风险管理,后面在全球流行开来,随着互联网的迅猛发展,大数据、数据挖掘和机器学习等新兴技术开始出现,让风险管理更为精准。他们通过收集银行系统本身的征信数据以及用户在互联网上的的各种数据,包括人际关系、历史消费行为、身份特征等,通过大数据“画像”技术,对用户进行全面的定位,由此来预测用户的履约能力、降低信贷风险。什么是信用风险?说简单点就是违约风险,是指借款人或交易的对方因种种原因,不愿或无力履行合同条

2、件而构成违约,致使银行、投资者或交易对方遭受损失的可能性。近年来消费金融一直在迅速增长,比如汽车贷款,住房贷款,信用卡贷款,小额贷款等,增长趋势迅猛,对于可自动化对风险评估非常有必要的,通过对申请人信用评分来降低风险信用评分信用评分基本原理是什么呢?基于对大数据的统计分析,根据客户的资料信息,对客户信用进行评估(打分)信用的风险评级:申请者评级:个人客户申请融资类业务时提交的数据进行评级,(A卡)行为评级:个人客户的历史行为数据进行评级,对客户可能出现的逾期、延期等行为进行预测(B卡)催收评级:对业务中存量客户是否需要催收的预测(C卡)欺诈评级:业务中新客户可能存在的欺诈行为的预测(F卡)信用

3、评分卡以一种分数的手段来衡量风险概率的方式,分数高代表信用越好根据信用评级的,分为四种评分卡:申请评分卡,行为评分卡,催收评分卡,欺诈评分卡本文以申请评分卡模型为例申请人信用评分条件说明在申请人信用评分中,贷方需要对申请人是否会在未来一段时间12个月内出现90天以上的逾期支付进行评估。信用评分模型建立的基本流程明确问题在开发信用风险模型之前,首先要明确我们需要解决的问题,确定是哪类问题,是申请人评分卡模型,还是行为评分卡模型,本文主要以申请评分卡模型,主要目的是区分好坏客户。数据获取银行自有的数据和第三个机构数据(芝麻信用等)数据清洗缺失值处理:缺失比较少可以用均值,众数,中位数等填充;也可以

4、用机器学习模型来填充缺失值(常见算法有随机森林,决策树,kNN等),通过算法来拟合数据。异常值处理:首先要对异常值进行检测:可以用四分位数(结合可视化,箱线图,散点图等观测数据),基于统计学的方法:例如基于正态分布的一元离群点检测方法;距离算法:LOF检测,通过对每个点p和其领域点的密度来判断点是否为异常点。然后处理异常值:删除异常值;视为缺失值,用缺失值的处理方法处理;平均值来修正;不处理。异常值和缺失值处理,一定要结合实际情况。数据探索获得变量数据的分布状况等特征选择变量选择,对变量离散化,筛选出对目标变量影响最显著的指标特征选择,在数据中是非常中重要,目的在于帮助我们挑选出最有意义的特征

5、。具体特征选取方法可参考这两篇文章:机器学习特征选择简明指南,结合Scikit-learn介绍几种常用的特征选择方法-罗兵-博客园信用评分模型的变量选择中,一般采用特征分箱的方法对特征进行离散化,让模型更加稳定,再通过woe编码,用通过基尼系数或信息价值IV找到显著特征项,具体woe和IV学习参考这两篇文章数据挖掘模型中的IV和WOE详解-CSDN博客,InformationValue(IV)&WeightofEvidenee(WOE)-BankingCaseStudy。模型建立WOE转化证据权重WOE转化,将筛选后的变量转为为WOE值,便于信用评分逻辑回归模型建立在信用评分卡建模中,

6、用到最常用的方法就是逻辑回归,通过Logistc回归分析,预测好坏客户的概率。Logistic回归在信用评分卡开发中起到核心作用。由于其特点,以及对自变量进行了证据权重转换(WOE),Logistic回归的结果可以直接转换为一个汇总表,即所谓的标准评分卡格式.逻辑回归的本质就是将线性回归预测的值转换为0-1的概率值,简单说明下,考虑具有N个独立变量的向量x=(,.),设条件概率P(y=1|x)=p为根据某件事x发生概率,通过下面回归模型表示为:其中某件事x不发生概率为:事件发生比:,客户的违约概率P=经过对数转化,模型评估K-S指标,ROC和AUC,评估模型的区分能力、预测能力、稳定性,具体参

7、考ROC、K-S,教你巧妙使用模型评价指标如何评估一个机器学习模型ROC值一般在0.5-1.0之间。值越大表示模型判断准确性越高,即越接近1越好。ROC=0.5表示模型的预测能力与随机结果没有差别,AUC系数越高,模型的风险区分能力越强。KS值表示了模型正负区分开来的能力。值越大,模型的预测准确性越好。一般,KS>0.2即可认为模型有比较好的预测准确性,KS值只能反映出哪个分段是区分最大的,而不能总体反映出所有分段的效果,因果AUC值更能胜任。信用评分将Logistic模型转换为标准评分的形式评分标准:变量的值决定了该变量所分配的分值,总分就是各变量分值的和评分卡设定的分值刻度可以通过将

8、分值表示为违约和正常概率比对数的线性表达式为:为模型参数,式中的常数A、B的值可以通过将两个已知或假设的分值带入计算得到。通常情况下,需要设定两个假设:(1)给某个特定的比率设定特定的预期分值;(2)确定比率翻番的分数(PDO)根据以上的分析,我们首先假设比率为x的特定点的分值为P。贝此匕率为2x的点的分值应该为P+PDO。代入式中,可以得到如下两个等式:假设设定评分卡刻度使得比率为1:20(违约正常比)时的分值为50分,PDO为10分,代入式中求得:B=14.43,A=6.78(阀值的设定需根据行业经验不断跟踪调整则分值的计算公式可表示为:评分卡刻度参数A和B确定以后,就可以计算比率和违约概率,以及对应的分值了。通常将常数A称为补偿,常数B称为刻度。式中:变量x1.xn是出现在最终模型中的自变量,即为入模指标。由于此时所有变量都用WOE转换进行了转换,将自变量进行转化式中为第i行第j个变量的WOE,为已知变量;为逻辑回归方程中的系数,为已知变量;为二元变量,表示变量i是否取第j个值。Score表

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论