银行业数据分析案例_第1页
银行业数据分析案例_第2页
银行业数据分析案例_第3页
银行业数据分析案例_第4页
银行业数据分析案例_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

案例分析一:银行用户行为预测问题:预测信贷客户是否有可能拖欠债款算法:异常值检验、相关性分析、逻辑回归、神经网络、SVM某银行想建立模型来预测信贷客户是否有可能拖欠债款,收集了其已有信贷客户中的数百条信息,包括年龄、教育水平、当前工作年限、当前居住年限、债务占收入的比例、信用卡负债、其他负债,请根据这些数据为该银行寻找合适的模型以用来做预测。数据源:风险识别.xlsx数据预览:分析:STEP1:探索性分析初步分析数据,发现不存在缺失值,正负样本均衡,不需要特殊处理。且根据题意, 这是一个自变量为连续值的二分类问题,可选用逻辑回归,神经网络,SVM等模型来做预测。STEP2:逻辑回归模型分析数据清洗:考虑到异常值可能为特殊人群,也不做处理。数据转换:数据皆为数值型数据,不需要转换相关性分析:逻辑回归对变量多重共线性敏感,以还款拖欠情况为因变量,其他变量为自变量,将自变量做相关性分析。由相关性矩阵可以看到,变量之间虽然也有相关,但不是很强,因此可以进行逻辑回归。数据标准化:采用最大-最小标准化处理模型训练:训练集:测试集=80%:20%模型评估:训练集:测试集:可以看到,训练误差不大,测试集的Accuracy,AUC,准确率和召回率都挺好,说明模型拟合不错。其中类别为1的召回率为0.81STEP3:神经网络模型分析数据预处理:步骤如前模型训练:训练集:测试集=80%:20%模型评估:训练集:测试集:可以看到,训练误差不大,测试集的Accuracy,AUC,准确率和召回率都挺好,说明模型拟合不错。其中类别为1的召回率为0.87。STEP4:SVM模型分析数据预处理:步骤如前模型训练:训练集:测试集=80%:20%模型评估:训练集:测试集:可以看到,训练误差不大,测试集的Accuracy,AUC,准确率和召回率都挺好,说明模型拟合不错。其中类别为1的召回率为0.83。本案例中,我们比较关心“还款拖欠情况”为1的情况,故主要选择类为1的召回率最大的模型,即神经网络算法来预测。案例分析二:银行不良贷款预测目标:建立模型来预测银行不良贷款算法:相关性分析、线性回归一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2016年的有关业务数据。请根据这些数据判断是否可选用线性回归模型来预测该银行的不良贷款。数据源:不良贷款.xlsx数据预览:分析:STEP1:数据预处理采用的多元线性回归模型对变量多重共线性非常敏感,所以首先对变量作相关性分析,排除变量共线影响。相关性分析:根据问题描述,以不良贷款为因变量,其他变量为自变量,将自变量用相 关系数矩阵做相关性分析。可以看到,贷款项目个数与各项贷款余额相关系数为0.848,已非常接近1,说明两个变量存在很高的线性相关性,故去除其中一个变量-贷款项目个数。STEP2:用多元线性回归模型分析根据上述分析,将不良贷款y,与贷款余额x1,累积应收贷款x2和固定资产投资额x4,采用线性回归模型分析,结果如下:由上可得,R方和调整R方分别为0.797和0.768,说明模型拟合效果还好;且通过了T检验和t检验,因此该模型可以投入预测分析。由第一张表格“系数”列所示,x1,x2,x4的回归系数分别为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论