下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据建模:个人信用分是如何计算出来的? 无论是金融、互联网企业亦或运营商,都在基于多年积累的大数据搭建个人征信评分体系,不仅用于自身,也在提供给其他征信机构做为个人信用评估标准。那么,个人的信用分到底是如何计算出来的呢?笔者相信不同的信用分有不同的计算方法,无论是FICO评分、芝麻信用亦或其它信用分,这些评分既可以很简单,也可以很复杂,使用的建模方法各不同,但也总是会遵循一些基本的原则,这里笔者就信用分计算的一些关键技术作简要介绍,希望于你有益。一、业务分析我们在构建信用评分的时候,首先当然要定义何谓信用高,何谓信用低的用户,这是建模的起点,银行会基于用户的还贷历史来确定高低信用用户,但如果是
2、第三方企业,则需要基于自身的业务特点定义出类似的高低信用用户,即正负样本,比如运营商可能会基于通信欠费来确定高低信用用户的样本,当然这也是远远不够的,需要从更多的途径获取,比如可以免费获取法院公示的老赖名单等。二、变量初选身份特征、消费能力、信用历史、行为偏好及人脉关系是当前业界评估信用的五个方面,很多信用评分体系都基于此而来,当然,不同行业由于数据不同,因此形成的具体明细指标肯定也有明显的差异,比如针对身份特征,可能选择的具体指标包括婚姻、年龄、职业、性别等等,诸如运营商可以有几十个指标来表征身份特征,五个方面的涉及的具体指标更是多达上百个,因此,关键的下一步就是如何删选合适的变量。三、特征
3、删选很多新手喜欢用越多的变量来建模,以为多多益善,其实不然,变量筛选的目在于去除对于模型预测准确提升无效甚至影响模型预测效果的无用变量, 比如两个相关变量的同时存在往往会导致准确性下降。特征的选择有很多方式,比如IV值的判断,这里以随机森林来示例,随机森林算法能够输出每个变量对模型预测的重要性大小,重要性越大代表该变量对于提升模型预测准确度所做贡献就越大,反之如果重要度值为负,就代表该变量加入会降低模型预测准确度,所以在该步骤直接选择基于模型输出结果来完成变量筛选,以下是示例:经过随机森林初步筛选,和变量预测探索分析,最终五个维度共输入XX个变量分别进入模型训练。四、算法选择一般会采用logi
4、stic分类算法,在输入数据形式的标准与线性回归基本一致。在选择逻辑回归时,注意要进行数据预处理,最主要是两点:1、 离散变量哑变量处理。离散变量不适用于线性分类模型中,建议转化为0,1类变量,例如用户行业字段,存在8个类别(学生、工人、公务员),经过哑变量转化处理的话,该字段转化为8个变量:是否学生,是否工人,是否公务员)。2、 变量线性化处理。对于线性分类算法,指标与目标变量之间呈现线性关系,对于变量的预测效果会更好,但实际数据往往都是非线性表示,因此为提升模型预测效果,需要针对连续型且非单调性变量进行WOE处理,用WOE值替换指标值,以实现数据之间的线性关系。WOE计算公式为 WOE=l
5、n(%good/%bad),其中%good表示违约用户构成。%bad表示好样本用户构成。以资金字段为例:接下来就是用逻辑回归进行模型训练,从而获得概率值。五、评分卡转换1、评分卡刻度那么如何将概率值转化为评分呢,其实怎么算都可以,这里采用评分卡转换的方式,具体网上都有详细解释,这里简要讲下,违约与正常比率被定义为一个记录被划分为违约的估计概率与被划分为正常的估计概率之间的比率,将估计违约概率用p表示,估计正常概率为1-p。因此可定义发生比:Odds=p/(1-p)评分卡设定的分值刻度是可以将分值表示为比率(Odds)的线性表达式来定义。如下所示:Score=A-B*log(Odds)其中:A,
6、B都为常数。其中A成为补偿分数,B称为刻度,它们可以通过两个已知或者假设的分值代入计算得到,一是在某个特定比率设定特定的预期分值,二是指定比率翻番的分数(PDO)。首先,设定比率y的特定点的分值为P0,然后,比率为2y的点的分值为P0 PDO,代入上式可以得到如下两个等式:P0=A-B*log(y)P0 PDO=A-B*log(2y)解上述两方程中的常数A和B,可以得到:B=PDO/log(2)A=P0 B*log(y)在这里可以借鉴标准FICO信用分与违约率的定义,比如B=58,A=437,计算分数公式则为:Score=437-58*log(Odds)最终可以得到该模型的评分卡刻度情况最终结
7、果,如下表所示:2、分值分配对于logistic回归算法,odds也可以表示为:log(Odds)=B0 B1*X1 B2*X2 BnXn由此可得:Score=437-58*(B0 B1*X1 B2*X2 BnXn)由于建模过程所有变量都有使用WOE转换,因此可以将分值分配到每个变量取值上去,以下是示例:这样,我们就得到了用户的信用各个变量取值的信用分值。六、确定五个维度的权重用户的信用分总分是基于五个大维度综合权重计算获得的,当前每个大维度信用分(该维度涉及很多变量)已经可以通过前面计算得到,总信用分表达式如下:Total_score=a1*score1 a2*score2 a3*score
8、3 a4*score4 a5*score5。网上公开的芝麻信用的五个大维度的最终权值是信用历史(35%)、行为偏好(20%)、履约能力(25%)、身份特质(15%)及人脉关系(5%),各类信用评分体系权重肯定是不同的,因为有不同的约束条件,需要计算得到a1,a2,a3,a4,a5。七、模型效果评估信用评分模型主要从准确性,区分度等方面来进行评估。1、准确性:感受性曲线下面积(ROC_AUC)是一个从整体上评价模型准确性的指标,是感受性曲线(ROC)与横轴之间的面积。相比于其他评价指标,感受性曲线(ROC)具有一定的稳定性,它不会因为正负样本分布的变化而产生不同的曲线。感受性曲线(ROC)通过真
9、阳率(True Positive Rate, TPR)和假阳率(False Positive Rate, FPR)两个指标进行绘制,感受性曲线(ROC)示意如图1所示,感受性曲线下面积(ROC_AUC)取值范围为0,1,取值越大,代表模型整体准确性越好。2、区分度:区分度指标(KS)是度量具体模型下正常样本和违约样本分布的最大差距,金融领域评估信用模型的一个核心方法,首先按照样本的信用分数或预测违约率从小到大进行排序,然后计算每一个分数或违约率下好坏样本的累计占比,正常和违约样本的累计占比差值的最大值即为区分度指标(KS),区分度指标(KS)的示意如图所示,区分度指标(KS)小于0.2代表模型准确性差,超过0.75则代表模型准确性高。可以看到,信用分的计算过程借助了一般的建模方法,也有其自身的特点,信用分要建的好,还有很多的工作要做:一是为了让信用分具备可解释性,需要量化每个变量每个区间的信用分值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年湖南省高考生物试卷真题(含答案解析)
- 2024至2030年中国开背式焊服行业投资前景及策略咨询研究报告
- 2024至2030年中国尼龙蓝网数据监测研究报告
- 2024至2030年中国动态补偿控制器行业投资前景及策略咨询研究报告
- 2024至2030年中国光盘数据监测研究报告
- 2024年中国碗袋两用油炸方便面生产线市场调查研究报告
- 2024年中国田螺市场调查研究报告
- 2024年中国法式陈列柜市场调查研究报告
- 让孩子更自信更有成就感-培养孩子自信提高学习
- 高中物理第二章磁场第五节磁性材料课件新人教版选修1-
- 试用期员工转正规章制度(8篇)
- 2023-2024学年全国小学二年级上数学人教版期中考试试卷(含答案解析)
- 3上修改病句练习
- 2024年广东茂名高州市教师发展中心和高州市教育事务中心选聘历年高频难、易错点500题模拟试题附带答案详解
- 2024年建筑继续教育-一级建造师继续教育考试近5年真题集锦(频考类试题)带答案
- 广西七市联考2025届高三上学期10月摸底测试 历史 含答案
- 大学生职业发展与就业指导 课件 模块3、4 职业世界探索、大学生就业和未来发展的主要方式
- 教育家精神引领高校教师成长的解释框架、认知坐标与行动路径
- Unit3 My Weekend Plan(教学设计)-2024-2025学年人教PEP版英语六年级上册
- 2024年山东“大学习、大培训、大考试”试题库
- 2024年中国诚通控股集团限公司总部公开招聘高频考题难、易错点模拟试题(共500题)附带答案详解
评论
0/150
提交评论