




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、金融(jnrng)数据挖掘案例分析课程设计报告(bogo)题 目:基于贝叶斯分类技术(jsh)的贷款风险预测学生姓名: 学 号: 系别班级: 专业(方向): 指导教师: 年 月日基于(jy)贝叶斯分类技术的贷款风险预测摘要(zhiyo)本文主要研究了朴素贝叶斯算法在贷款风险预测上对策应用。是一种基于最大后验概率的最优朴素贝叶斯在贷款风险的预测。思想是以训练集样本在不同朴素贝叶斯的后验概率作为反馈信息(xnx),从训练样本中选取部分最优样本,抛弃部分含有噪音的样本,作为最优的朴素贝叶斯算法。关键词: 朴素贝叶斯 ;贷款风险;预测。AbstractThis paper mainly studies
2、 the application of Countermeasures of naive Bayes algorithm in the loan risk prediction. Is a kind of forecast based on the maximum posterior probability optimal naive Bias on loan risk. Thought is the training set samples in different Bayesian posterior probability as the feedback information,sele
3、ct the part of the optimal sample from the training samples, discard somenoisy samples, as naive Bayes optimal.Keywords: naive Bias; loan risk; prediction.引言: HYPERLINK /view/62273.htm t _blank 贷款风险通常是对贷款人而言的。从 HYPERLINK /view/62273.htm t _blank 贷款人角度来考察,贷款风险是指贷款人在经营贷款业务过程中面临的各种损失发生的可能性。 HYPERLINK /
4、view/62273.htm t _blank 贷款风险是可以度量的,贷款风险具有可测性,可以通过综合考察一些因素,在贷款发放之前或之后,测算出 HYPERLINK /view/3366773.htm t _blank 贷款本息按期收回的概率。所谓 HYPERLINK /view/5563326.htm t _blank 贷款风险度就是指衡量贷款风险程度大小的尺度,贷款风险度是一个可以测算出来的具体的 HYPERLINK /view/2154943.htm t _blank 量化指标,它通常大于零小于1,贷款风险度越大,说明 HYPERLINK /view/3366773.htm t _bla
5、nk 贷款本息按期收回的可能性越小,反之,贷款风险度越小,说明贷款本息按期收回的可能性越大。1.朴素贝叶斯分类预测方法 贝叶斯分类(fn li)算法是统计学的一种 HYPERLINK /view/8348989.htm t _blank 分类(fn li)方法,它可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。通过分类算法的比较研究发现,一种称作朴素贝叶斯分类的简单贝叶斯分类算法可以与判定树和神经网络分类算法相媲美。用于大型数据库,贝叶斯分类也已表现出高准确率与高速度。朴素贝叶斯分类假定一个属于值对给丁磊的影响独立于其他属性的值。这一假定称作类条件独立。做此假定是为了简化所需计算(
6、j sun),并在此意义下成为“朴素的”。1.1贝叶斯定理 设X是类标号未知的数据样本。设为某种假定,如数据样本属于某特定的类。对于分类问题,我们希望确定给定观测数据样本,假定成立的概率。是后验概率,或条件下的后验概率。例如,假定数据样本域由水果组成,用他们的颜色和形状描述。假定表示红色和圆的,表示假定是苹果,则反映当我们看到是红色并使圆的时,我们对是苹果的确信程度。作为对比,是先验概率,或得先验概率。对于以上的例子,它是任意给定的数据样本为苹果的概率,而不管数据样本看上去如何。后验概率比先验概率基于更多的信息(如背景知识)。是独立于的。类似的,是条件下,的后验概率。即是说它是已知是苹果,是红
7、色并且是圆的概率。是的先验概率。使用上面的例子,它是由水果集取出一个数据样本是红的和圆的的概率。贝叶斯定理就是提供了一中由,,和计算后验概率的方法。贝叶斯定理是:(1)1.2 朴素(p s)贝叶斯分类朴素(p s)贝叶斯分类或简单贝叶斯分类的工作过程如下:每个数据样本(yngbn)用一个维特征向量表示,分别描述对个属性样本的个度量。假定有个类。给定一个未知的数据样本(即没有类标号),分类法将预测属于具有最高后验概率(条件下)的类。即是说,朴素贝叶斯分类将位置的样本分配给类,当且仅当 这样,最大化。其中最大的对应的类成为最大后验假定。根据贝叶斯定理(1) (2)由于对于所有类为常熟,只需要最大即
8、可。如果类的先验概率未知,则通常假定这些类是等概率的,即,并据此对最大化。否额,可最大化。注意,类的先验概率可以用计算,其中是类中的训练样本数,而是训练样本总数。给定具有许多属性的数据集,计算的开销可能非常大。为降低计算的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间不存在依赖关系。这样 (3)概率可以由训练样本估值。其中如果是分类属性,则,其中是在属性上具有值的类的训练样本数,而是中的训练样本数。2 基于贝叶斯分类(fn li)的贷款风险预测本文以某企业的装款为案例来说明贝叶斯分类预测(yc)一个未知样本的分类工作过程。2.1 描述(mio sh)数据
9、数据样本表示对企业还款能力产生的影响,用一个7维特征向量表示, 分别描述为以下7个变量因素:资产报酬率,企业规模,核心企业信用度,上下游企业合作密切度,营业活动收益质量,有形资产债务率,还款风险,由于要考察的是贷款企业的还款风险 因此,目标类为还款风险,整理,收集所得数据库的主要属性见表1表1属性名取值资产投资率企业规模核心企业信用度上下游合作密切度营业活动收益质量有形资产债务率还贷风险15,815,90,9040,40高,低 2.2 预处理数据某银行2007年申请贷款企业的信息数据在表2中。数据样本用属性资产报酬率、企业规模、核心企业信用度、上下游企业合作密切度、营业活动收益质量、有形资产债
10、务率、还带风险描述。把表2中的数据作为训练数据样本,根据表2中数据,预测未知样本某个申请贷款企业(资产报酬率=“15”,企业规模=“大”,核心企业信用度=“高”,上下游合作密切度=“中”,营业活动收益质量=“90”,有形资产债务率=“40”)的还贷风险。表2序号资产报酬率企业规模核心企业信用度上下游企业合作密切度营业活动收益质量有形资产债务率还贷风险115中高高9040低28-15中高高9040低38-15大高低9040高49040高515小高中9040低78-15小低中9040低88大低中9040高99040高1015大高高9040低1115中低高9040低1215小低低9040高138-1
11、5大低中9040高148-15小高低9040低2.3 挖掘(wju)数据要预测(yc)(资产(zchn)报酬率=“15”,企业规模=“大”,核心企业信用度=“高”,上下游合作密切度=“中”,营业活动收益质量=“90”,有形资产债务率=“40”)的还贷风险,需要最大化。训练数据集包含资产报酬率、企业规模、核心企业信用度、上下游企业合作密切度、营业活动收益质量、有形资产债务、还贷风险这几个属性,其中还贷风险为类标号属性,有两个取值高,低。设对应类还贷风险=“高”,而对应类还贷风险=“低”。每个类的先验概率可以根据训练样本计算:为计算(j sun),我们计算下面(xi mian)的条件概率:使用以上
12、概率(gil),得到显而易见,的可能性最大,因此,对于样本,朴素贝叶斯分类预测还款风险=“低”。利用挖掘软件得出(d ch)如下结果:图1 依赖(yli)关系网络视图通过图1可以(ky)知道“还款风险”主要受“上下游企业合作密切度”和“营业活动收益质量”属性影响。图2 最强连接图2说明影响“还款风险”最主要的属性是“营业收益质量”。图3 属性(shxng)配置文件视图图4 属性(shxng)特征视图 由图3图4可以(ky)看出,在“还款风险”属性值为“低”的记录中,营业活动收益质量=“90”,上下游企业合作密切度=“高” 的记录比较多。图5 属性对比视图图5可以看出,“营业活动收益质量”=“9
13、0”更倾向于“还款风险”=“低”; “上下游企业合作密切度”=“高”更倾向于“还款风险”=“低”。3.结论朴素贝叶斯分类算法成立的前提是属性独立假定,即假定各属性之间互相独立, 这一假定称作类条件独立。作此假定是为了简化所需计算,并在此意义下称为“朴素的”。贝叶斯分类的效率如何?理论上讲,与其他所有分类算法相比,贝叶斯分类具有最小的出错率。然而,实践中并非总是如此。这是由于对其应用的假定 (如类条件独立)是不容易达到的。然而,种种实验研究表明,与判定树和神经网络分类算法相比,在某些领域该分类算法可以与之媲美,在处理海量数据时也表现出了较高的分类准确性和运算性能。在本文金融供应链中信用风险的各变量之间也存在一定的关系。比如资产报酬率和营业活动收益质量等,从结果看来,朴素贝叶斯仍在金融供应链信用风险预测中取得了很好的效果,这样也就促进了金融机构在发放贷款时候的信用管理,为金融机构和中小企业之间合作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 45360-2025棉及化纤纯纺、混纺印染布检验、标志与包装
- 三打操作教学设计
- 冬季小学生防溺水教育
- 如何提高自我学习与成长能力计划
- 如何康复重症患者护理
- 加强营销渠道管理减少资源浪费计划
- 家校合作增强班级凝聚力计划
- 全面提升学生综合素质计划
- 幼儿园小班的教学目标设定计划
- 深度解析2024陪诊师考试内容:试题及答案
- 人事行政管理培训课程
- 量具能力准则Cg-Cgk评价报告
- GB/T 43392-2023地铁防灾系统安全性能测试与评估方法
- 全宋词目录完整版本
- 诺基亚改革与失败案例分析
- 福建师范大学地理科学学院859人文地理学历年考研真题汇编(含部分答案)
- 单原子催化剂
- 九十年代生活
- GB/T 20688.4-2023橡胶支座第4部分:普通橡胶支座
- bilibili内容审核笔试题
- 手术室护理实践指南之术中保温(手术科培训课件)术中低体温的预防
评论
0/150
提交评论