版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、个人信用评估指标筛选中主成分分析法的应用互联网金融论文第七篇:个人信用评估指标筛选中主成分分析法的应用关键词:互联网金融; 信用风险; 个人信用评估; 主成分分析法;一、引言随着国民信用消费需求的不断上升,互联网技术的不断更新,互联网金融行业得到了飞速的发展。互联网金融行业在模式不断丰富、规模不断扩大的同时,也面临着诸多亟待解决的问题。由于在客户群体的选择和产品类型的定位上与传统商业银行存在巨大差异,同时缺乏有效的客户信用评估体系,互联网金融平台面临比传统银行更高的交易对手违约风险,这一现象严重阻碍了互联网金融个人信贷业务的发展。如今产生个人信用数据的各类电商平台、社交平台的数量不断增加,信用
2、数据的规模呈现爆炸式增长,不同于标准的经过财务核实的银行数据,互联网的信用数据是非标准化的,个人信用风险也呈现出不同的特点,信息不对称现象更加明显。个人信用风险的评估大致经过数据清洗、输入变量的生成和建模进行风险评估这样几个阶段,无论是传统的信用风险评估还是基于互联网大数据的信用风险评估,输入变量的质量都会直接影响风险评估模型的预测效果。由于传统信贷和互联网金融的数据特征不同,互联网金融的数据覆盖维度广且数据较为稀疏,单项数据的信用评估价值密度较低,单变量的风险区分能力较弱1,因而基于大数据的信用评估指标也会有所不同。对输入的评估指标进行有效筛选,可以减少模型训练时间和数据搜集成本,提高模型预
3、测精度,构建有效的互联网金融信用风险评估体系。二、互联网金融平台信用风险评估指标体系的现状大部分互联网金融平台的大数据应用得并不成熟,借款人的电商购买记录,社交网络信息等数据来源的匮乏,会给互联网金融平台的信用评价带来严重的滞后和误判。很少有平台在信用风险评价指标中完全涵盖了借款人的职业信息、电商数据、线下行为数据、征信数据等指标。国内的互联网金融平台指标体系的设计主要参考了国外平台的信用评估指标体系,如FICO评分模型和Prosper指标体系,评估大类基本一致,主要分为用户的基本信息、工作信息、历史交易信息、偿还贷款能力信息、借款信息等。在一级指标上主要继承传统商业银行和国外网贷平台的指标体
4、系,但在二级指标如所在城市类型、工作年限、房产情况、社交媒体活跃度、社交关系密度等方面,侧重点各不相同。国外互联网金融平台的信用评估指标体系则不局限于借款人的基本信息和历史借贷信息,普遍比国内研究者更关注借款人与借贷平台直接相关的借款信息:如在该借贷平台的贷款金额、所获贷款年利率、还款期限以及逾期金额等指标。在个人基本信息方面,对性别、婚姻状况、学历和工作行业的关注不高,相对更关注工资范围、是否有房、居住地、年龄、职业、照片等。对项目投资人数、社交媒体文本描述状况、平台注册时长等关注度较低。三、个人信用风险评估指标的PCA筛选方法由于互联网金融信用风险涉及的指标众多,部分指标之间呈现出较高的关
5、联性,容易引起数据冗余问题,影响评估效果,因此需要对评估指标进行降维处理。本文采用主成分分析法对评估模型的指标进行降维筛选。主成分分析法通过观察原指标集合之间的内容结构关系,将原本相互之间具有一定相关性的众多指标重新组合成一个新的、互不相关的指标集合。对于一个特征矩阵来说,通过将其对角化产生特征根及特征向量,将其在标准正交基上投影,该特征向量方向上的投影长度就对应到其特征值,特征数值越大说明对应的特征向量所携带原有数据的信息越多,通常在特征筛选过程中,选择特征值累计贡献率85%的指标就能满足大多数研究的需求。主成分分析法的优点在于得到的新的综合指标之间相互独立,减少数据冗余,且权数的计算基于数
6、据分析得到的指标内部结构关系,不受主观因素干扰。四、数据选取及实证分析文中数据来自Prosper Loan Data数据集,使用MARLAB软件进行实验,首先对所获得数据进行预处理,然后利用主成分分析方法筛选数据指标,确定最终输入模型的变量,最后采用粒子群算法优化的支持向量机模型(PSO-SVM)进行验证。(一)数据预处理1. 数据清洗。本文采集美国P平台2005年至2014年间部分信贷数据,数据集包含11万余条原始记录,首先对数据进行清洗,一是无意义字段的舍弃,如原始数据中部分管理识别符号的变量,以及关于贷款申请、批准日期、规定的还款日期等对于本次研究没有任何意义的字段。
7、二是缺失数据的处理,对缺失值达到一半以上、严重影响了数据真实性的字段进行了直接剔除。对于缺失率较小的数据进行补齐,连续型数据用中位数补齐,对离散型数值变量使用众数补齐。三是噪声数据的处理,为对整个数据表进行了遍历,通过将数据值与标准数据的对比,找出噪声数据,并用众数对其进行替换。在对原始数据集进行以上一系列操作后,数据集剩余指标51个,其中输入变量指标50个,输出变量指标1个。如表1所示:表1 清洗后数据字段及描述对照表下载原表2. 数据赋值。一是对输入变量的赋值:借款人信息特征中包含定量信息和定性信息,对定性信息需要在数据准备过程中做离散化处理。对定性数据分别取0和1。二是对输出变量的赋值:
8、在Prosper数据集中,借款人的借款状态共有12种,为实现SVM二分类效果,实验前需要将输出变量转化为1或-1的状态。由于无法判断处于Current(正常还款中);状态的贷款最终会不会违约,所以在研究时,将状态为Current的样本进行了删除;同理,Cancelled(交易取消);的数据也进行删除。从风险发生的可能性出发,笔者把剩余10类数据归为两个大类:第一大类good;(只包含Completed、FinalPaymentInProgress两种数据);第二大类bad;(包含Defaulted、Chargedoff和所有的Past Due,共8种数据)。将good;和bad;两个类的数据分
9、别编码为1和-1。3. 数据标准化。由于数据集各个特征值的区间范围和数据纲量不同,为了避免因数据差异过大对预测结果产生干扰,影响模型性能,本文选择将数据归一到0,1,采用的归一化公式如下式:其中,X ∈0,1表示数据归一化后的结果,X表示数据原始值,和分别表示X所在数据列中的最小值和最大值。4. 数据缩减。经过上述一系列处理后,原数据集还剩下共43878条数据,其中守约样本39730条,违约样本4148条,守约样本与违约样本比例为9.58:1。本文按照与原始数据结构分布接近的9:1选取比例进行分层随机抽样,得到包含5000条样本的实证数据集,其中包括4500条守约样本和500条违约样
10、本。(二)基于主成分分析的指标筛选在经过清洗后个人信用指标仍然还有50个,较多的特征数虽然注重了指标的多样化,但冗余指标会直接影响模型的评估效率和分类效果。因此使用主成分分析(Principal Component Analysis,PCA)方法进行指标筛选,一般情况下,在选择主成分时只需要所选择的主成分满足累加方差贡献值达到85%即可。首先,将获得的新数据集中的所有数据特征汇总到一个1000*50维的特征矩阵里,并通过对这个特征矩阵进行计算得到一个50*50的特征相关矩阵:其中rij代表各个特征之间的相关系数,计算公式如下式:在得到相关系数矩阵后,在MATLAB中调用pcacov函数根据相关
11、系数做主成分分析矩阵,计算出相关系数矩阵的特征值向量和主成分贡献率,最后将这些特征值向量和主成分贡献值降序排列,计算得到主成分的累计贡献值,得到的主成分提取结果如表2所示。表2 个人信用评估指标变量的PCA提取结果下载原表经过筛选,前21个变量累计方差贡献率已经超过了85%,对已得到的主成分列表进行反归一,由此得到经过主成分分析后被提取出的输入变量特征,最终确定的21个变量如表3:表3 最终输入变量表下载原表(三)PSO-SVM建模分析为了验证本文提出的筛选方法的有效性,采用PSO算法对SVM进行优化,建立PSO-SVM模型进行验证。PSO-SVM模型选择已被证明具有较强的非线性映射能力的RB
12、F核函数,在参数的优化上,利用PSO对全局和个体的搜索能力来寻找最优的C和σ。本文选用模型的整体分类精度以及第一类误判率、第二类误判率来对模型的分类效果进行评价。(四)实证结果将处理后的Prosper数据按照7:3的比例划分为包含3500样本的训练数据和包含1500样本的测试数据。其中,训练样本中,守约客户(类别标签为1;)样本3150条,违约客户(类别标签为-1;)样本350条;测试样本中,守约客户样本1350条,违约客户样本150条。PSO-SVM模型对测试样本分类结果如表5所示,测试样本数据量为1500,预测正确的样本有1394个,将守约客户判断正确的准确率为93.111%,
13、将违约客户判断正确的准确率为91.333%。模型分类准确率结果汇总至表4。表4 PSO-SVM模型分类精度预测结果下载原表从表4结果可见,采用主成分分析法筛选变量进行模型测试,第一类误判率6.889%;第二类误判率8.667%;模型整体分类准确率为92.933%(1394/1500)。实验结果表明PCA能够提高SVM模型的整体预测精度,对降低模型的第一类误判率和第二类误判率都具有较明显的效果。五、结论在评估互联网金融个人信用风险时,评估指标的选取和模型构建应当考虑互联网金融的数据来源和数据特征。主成分分析法对于减少数据冗余,降低数据维度,保留原有指标内部结构关系方面具有明显的优点,在互联网金融
14、信用风险评估的指标选择上具有较好的适用性。如果能有效地运用定量的科学的方法从数据中选择判别性好、冗余低的特征集,将为构建合理有效的信用风险评估体系提供重要的依据。这也将是今后学者们不断探索和深入研究的课题。在前文的个人信用评估指标变量的PCA提取结果中可以看到,Porsper的评价指标中并没有国内金融机构在进行信用评估时普遍关注的一些指标,如性别、年龄、婚姻状况、教育背景等人口描述性特征。比起个人基本情况,Porsper平台更关注借款人的信用数据,以及与平台产品相关的信息包括产品类型、贷款利率、还款期限等。方差贡献率排在前几位的特征值是借款人在Prosper平台的信用评分、过去7年的违约次数、
15、信用等级、信用卡信用总额以及每月贷款支付等。而国内金融机构普遍较为关注上述人口描述性特征,特别是对借款人履约能力有较大关联的家庭稳定情况和工作具体情况。由此可见国内外金融机构在指标选取时侧重点有较大差异,有研究者认为这种差异的产生主要是受到各国人文历史和传统文化的影响。这些人口描述性特征的判别性如何需要进一步的实证检验。参考文献1朱良平.基于大数据的信用风险评分模型辨析J.中国金融电脑,2016(3).2Fritz S and Hosemann D.Restructuring the Credit Process:Behavior Scoring for Deutsche Bank s Ger
16、man.CorporatesJ.International Journal of Intelligent Systems in Accounting,Finance&management,2000.9:9-21.3Joos P,Banhoof L,Ooghe H,and Sierens N.Credit classification:A comparison of logit models and decision treesA.10th European Conference on Machine Learning,Workshop notes:Application of machine learning and data mining in financeC.TU Chemnitz,Germany:1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 开放获取科技期刊管理新动向
- 期货公司税务筹划指南
- 电子商务外协产品管理办法
- 家具制造业质量异常管理策略
- 桌球室墙面施工协议
- 别墅装修隔层施工合同
- 军工级元器件选用管理办法
- 广告宣传居间人管理规则
- 电力设施安装简易合同
- 建筑改造安全施工合同范本
- 厂房租赁合同范本版(18篇)
- 能源中国学习通超星期末考试答案章节答案2024年
- 2024广东省云浮市郁南县财政局工程造价类专业人员招聘4人高频难、易错点500题模拟试题附带答案详解
- 人工智能时代高等院校教师信息素养提升研究
- 商家联盟合作方案
- 广东省广州市2021年中考英语真题(含答案)
- 《应用统计学》(第4版)-自测试卷及答案A卷
- 公司法课件(新员工)
- GB/T 10082-2024轨道车重型轨道车
- 山东省青岛市2023-2024学年七年级上学期期末考试数学试题(含答案)
- 专题13隐圆问题(原卷版+解析)
评论
0/150
提交评论