版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于数据挖掘技术的农村金融客户评级的相关文献调研小报告摘要: 近年来,我国的金融机构越来越重视自身的信息化建设。农村金融机构在支持农业发展解决农户贷款难,促进农民增收,发展农业现代化方面发挥了重要作用。而另一方面,其自身超过商业银行数倍的不良资产率阻碍其在农村经济发展建设中的作用发挥。因此全面准确的评估农户的还款能力,对农户信用进行评级,拒绝不符合条件的客户,将是各农村金融机构避免风险,减少损失的一个重要手段。而随着社会经济的不断发展,农村经济中“农户”的概念外延不断扩展,传统的评价体系自身的问题尚未解决,已不适宜与用到现在的“农户”概念。数据挖掘技术自上世纪八十年代末提出之后,首先便被应用于
2、金融与经济领域,并在信用评分模型构建中发挥着广泛而且重要的作用。随着数据的飞速膨胀数据仓库的发展又促进数据挖掘更深入的应用。本次文献调研的目的是梳理总结相关文献中涉及评级体系构建的算法模型。关键字:信用评级,数据挖掘,算法模型;0.引言 农村金融机构一直以服务”三农”为宗旨,有力地支持了“三农”经济发展,其自身也得到了较快发展。但由于内外因素的影响,部分农村信用社不良贷款“双高”局面长期居高不下,不利于实现稳健良性发展目标,同时也削弱了对经济发展的助推功能。2014年8月15日,银监会发布的初步统计数据显示,截至6月末,国有商业银行不良贷款余额3957亿元,不良贷款率1.05,而全国农村信用社
3、不良贷款余额3809 亿元,不良贷款比例为3.8%。而具体到省份,特别是信用贷款,据某省农村信用社统计,其2011 社辖内信用贷款约为580亿元,其中不良贷款约为230 亿,信用违约比达40%。不难看出农村金融机构进一步化解不良贷款、改善资产质量任务压力较大。因此,如何借助科技的力量加强不良贷款管理,有效解决不良贷款问题是农村金融机构在改革发展过程所必须面临解决的问题。农村金融机构与国外先进的商业银行相比,点多面广,管理难度大,不良贷款比例较高。目前虽然农村信用社建立了庞大的客户信息库和业务数据,但是还局限于对数据的存储、记账、查询、报表功能等,把大量的数据作为一种静态的档案来管理,没有把它当
4、成一种重要的可以进行知识发现和决策支持的资源来利用,缺乏对其内在规律的挖掘,导致重要信息的流失和资源的浪费。但也为利用数据挖掘技术提供了可能。1.客户信用风险评级方法的发展:最原始的评级方法是专家评分法,其所依据的信息最初是主观评价,从3C 评价原则(品德Character、能力 capacity、担保 collateral)到今天的5C和1S、5W评价原则。5C和1S,即特征(Character)、能力(Capacity)、资本(Capital)、抵押担保(Collateral)、生活状况(Condition)、稳定性(Stability)。5W,即借款人(Who)、借款用途(Why)、还款
5、期限(When)、担保物(What)及如何还款(How)。这些评价在内容上都十分类似,共同点都是将道德品质、还款能力、资产实力、担保和经营环境如何还款等要素逐一进行评分,让银行信贷人员对借款人的整体状况有比较清晰的认识,信贷人员通过对借款人五个方面进行综合评估,最后得出信用等级,根据信用等级以作为是否贷款、贷款标准的确定和贷后跟踪监测期间的政策调整依据。使用这种方法对评估人的综合业务能力,专业水平要求较高,但农信社信贷人员素质普遍不高,在打分时有很大的主观随意性,造成评分出现较大偏差。信用评分法将借款人的特征进行量化,形成一套指标体系,克服了主观随意性的风险。2.国外研究现状: 尽管大家都知道
6、21世纪是数据挖掘发展的黄金时代,但在实际应用领域,数据挖掘的发展远不如其在理论和技术方面的研究,数据挖掘的实际应用任重道远。数据挖掘在金融信用风险预测方面,国外许多金融机构表现的很积极,但是由于金融信息的保密性,一般很少公布具体数据挖掘细节。但据美国软件商提供的报告称:FCC国家银行、美国第一银行、美联储、联邦住房贷款抵押公司等重要金融机构都在致力于数据挖掘在金融系统的应用。主要运用以下五种方法:(1)、判别分析法 第一个把统计学方法运用于个人信用评估领域的研究人员是 David Durand,他把 Fisher提出的判别分析应用于个人信用评估,用来判别好客户和坏客户,它的原理是使用统计方法
7、来对整体中的各个组的特征进行分类。William Fair和Earl Isaacs利用判别分析法建立了 FICO 评分系统。并成为如今主要的个人信用评分体系。FICO系统被认为是衡量个人风险的“黄金标准”。FICO 信用评分模型基本思想是把申请人的历史信用资料与数据库中借款人的信用习惯进行比较,来判断申请人与违约、恶意透支、甚至申请破产等特征的借款人是否相似,是比较成熟和完善的信用模型。因 FICO 评分模型建立的基础是发达的个人信用制度,而我国目前由于个人信用制度还不完善,且FICO具体的评分模型和算法都不为人所知,在我国推广的难度较大。(2)、回归分析法 回归分析法(包括线性回归和 Log
8、istic回归)也是应用较广泛的模型。Kasper Roszbach和Sveriges Riksbank利用线性回归分析设计了一种评价未偿还贷款的评分卡,用于评估消费信贷的信用风险。但是现行回归方法用于信用评分存在明显缺陷,即回归方程两边变量的取值范围可能不一致。Logistic 回归模型则是对线性回归模型的改进,回归方程两边的取值可取任意值。Joachim Thaler和Stam意识到可以将线性规划方法应用到分类问题。Thomas从理论上把Freed和Glover 的线性规划方法推广到多目标线性数据分类方法,并成功应用于信用卡数据挖掘中。(3)、神经网络法 Odom首次将神经网络的方法引入信
9、用风险评测中,Edelman用多感知器神经网络模型来预测银行的存款和贷款的稳健度。Sarle等用神经网络来分析客户的信贷指数。神经网络方法得到研究者和学者的广泛关注,已被证明是一种可以普遍使用的方法。虽然神经网络用于信用等级分类取得了一定的效果,但它最大的缺点在神经网络模型缺乏较好的可解释性和理解性,造成了使用上的困难。Corinna and Vapnik提出的支持向量机在解决小样本、非线性及高维模式识别中表现出许多特有优势,解决了在神经网络方法中无法避免得到局部极值的情况。Martens将 SVM 用于判别规则的提取中,使得信用评分模型具有更好的可解释性。(4)、遗传算法 遗传算法是一种通过
10、模拟自然进化过程搜索最优解的方法。Greene和Smith把 GA 运用到了信用风险评估中,但在实际应用中遇到了困难,在于 GA 中定长编码机制在处理复杂问题特别是包括连续性变量时编码过长,耗费机时。Koza改进了GA算法,提出了GP算法(遗传规划法),克服了定长编码机制的局限性。(5)、决策树算法 决策树算法第一次由 Makowski应用于个人信用评分。此后 Sewartand Whittaker则用决策树来对信用进行预测。近来,Lee等运用决策树技术研究最小化信用风险问题。 3.国内研究现状: 国内对信用评分的研究也经历了从定性研究为主,到定性和定量相结合的过程。传统的研究多以主观的专家判
11、别法为主,以银行从业专家以及信贷员的经验为主要依据,如中国邮政储蓄银行信用评级二级指标有 15 项,其中定量指标有 9 项,权重为61,定性指标有6项,权重为39。虽然评估因素相对全面,并注意了信用评分方法的实施,但是评估主观因素影响依旧较大,缺乏合理性与公平性。定性指标所占权重仍然较大,且标准不一,信贷人员评估水平高低直接影响信用评定的好坏,导致信用评级不但没有扩大可以获得贷款的农户比例,反而把许多农户阻挡在信用户称号之外,让他们更得不到贷款。目前国内学者构建信用评分模型采用的技术大部引进国外。 与国外金融机构和软件生产商对金融数据挖掘的研究势头相比,由于市场经济结构,商业银行发展年限较短等
12、原因国内在这方面的发展研究还处于起步阶段。信用风险评测方面的短板很有可能影响到未来商业银行贷款业务的发展。近年来,国内在金融风险评级方面的数据挖掘研究也在逐渐增加,例如,运用BP神经网络技术、运用向量机、运用Apriori算法对信用风险进行评估预测,也有运用Logistic回归模型构建违约概率测算模型。尽管研究很多,但是投入实际应用的很少。关于决策树算法及时间任务分配 经文献调查发现,信用评级的研究多涉及金融、计算机与数学的结合。期刊类文章偏向于对算法的研究。硕博论文则更多注重评级体系的计算机系统实现。 下图为基于数据挖掘技术客户信用风险评级体系的结构框图。目前运用较多的数据挖掘算法是决策树算
13、法,神经网络算法以及谱聚类算法,其中对决策树算法的研究文献较为丰富。(1)、决策树算法 在诸多分类方法中,决策树是一种常用!直观的快速分类方法决策树分类方法采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同的属性值判断从该节点向下的分支,在决策树的叶结点得到结论。最经典的决策树算法是ID3算法,其核心思想是在决策树的构建过程中采取基于信息增益的特征选择策略,即选取具有最高信息增益的属性作为当前节点的分裂属性,使得对结果划分中的样本分类所需要的信息量最小以此构造与训练数据一致的一棵决策树,从而保证了决策树具有最小的分支数量和最小的冗余度。但由于存在搜索工程中无法回溯等问题,现今
14、所采用的算法多是从ID3发展而来的C4.5及C5.0算法。(2)、时间任务分配 时间有限未能对各类算法有深入了解,并且只对中文文献做了粗浅阅读。所以将接下来的任务主要放到文献调研以及对决策树算法的理解与掌握,将重点放到框图中评级分类模型模块。结合自身实际制定未来四周时间任务分配表。一二三四五六日周工作安排24252627282930311外出继续文献调研,一周一篇外文文献2外出3外出4外出5678了解决策树模型的基本思想9101112131415信用评级的理论要求及决策树算法阅读(ID3,C4.5,C5.0)16171819202122信用评级的理论要求及决策树算法阅读(ID3,C4.5,C5
15、.0)5.SIPT题目分级过程中的决策树算法研究决策树算法与神经网络算法在分级过程中的比较分析6.选题原因 针对数据的分级系统在国内尚处于起步阶段,更多还停留在算法的研究上。农村金融机构正在向信息化迈进,并且有大量的数据等待开发整理,为数据挖掘技术的应用提供了可能。当社会的信息化程度迈向大数据时代后,对信息分级评级的需求量会大大加大,而不仅仅是金融机构。目前更多针对金融系统的信用评级体系在大数据时代会有更大的拓展空间。7.参考文献1王贝.农户借贷特征及影响因素实证研究D.山东大学,2014.2李炎.大数据时代银行业监管手段的探索D.西南财经大学,2014.3叶晓明.数据挖掘技术在农村商业银行信贷的应用研究D.中南大学,2013.4张成.数据挖掘技术在金融审计中的研究与应用D.安徽大学,2014.5田野.基于相似性挖掘的金融数据分析系统的研究与应用D.上海交通大学,2012.6郑曼.基于SAS系统的税务数据挖掘研究D.郑州大学,2012.7王超.基于数据挖掘的农信社不良贷款台账管理系统设计与实现D.湖南大学,2014.8龙亚平.数据挖掘在农信社客户关系管理中的应用研究D.湖南大学,2012
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生态城市交通可持续发展方案
- 2024-2025学年高二物理上学期期中考点大串讲(鲁科版2019)专题04 闭合电路欧姆定律【考题猜想】(30题15大类型)(含答案及解析)
- 承揽合同范本(2篇)
- 江西省房屋装修施工合同指南
- 一年级新生艺术教育实施方案
- 钢结构拆除及搬迁施工方案
- 乡镇道路交通安全施工方案
- 山东省劳务合同范文(2篇)
- 湛江2024年07版小学英语第六单元期末试卷
- 高中教师学期教学工作总结
- DB51T 2968-2022 经济开发区安全风险评估导则
- 社会网络分析课件
- 小学生学习兴趣和习惯培养课件
- 保安公司客户满意度调查表
- 课间安全教育主题班会课件
- 民法典 婚姻家庭编课件
- 电气工程及其自动化专业人才需求调研报告(新)5100字
- 公务员考试行测答题卡
- 消失模工序工艺作业指导书
- 广西壮族自治区北海市各县区乡镇行政村村庄村名明细居民村民委员会
- 老年人能力评定总表(含老年人日常生活活动能力、精神状态与社会参与能力、感知觉与沟通能力、老年综合征罹患情况)
评论
0/150
提交评论