基于贝叶斯方法的保险赔付问题研究 - BIDM.STAT.FJU.EDU.TW - ╱_第1页
基于贝叶斯方法的保险赔付问题研究 - BIDM.STAT.FJU.EDU.TW - ╱_第2页
基于贝叶斯方法的保险赔付问题研究 - BIDM.STAT.FJU.EDU.TW - ╱_第3页
基于贝叶斯方法的保险赔付问题研究 - BIDM.STAT.FJU.EDU.TW - ╱_第4页
基于贝叶斯方法的保险赔付问题研究 - BIDM.STAT.FJU.EDU.TW - ╱_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、LOGO 基于贝叶斯分类的保险赔付基于贝叶斯分类的保险赔付问题研究问题研究王王 旭旭 刘刘 冬冬石石 磊磊 朱建旭朱建旭Company LogoContents贝叶斯分类方法简介贝叶斯分类方法简介建模误判率与预测误判率建模误判率与预测误判率朴素贝叶斯模型朴素贝叶斯模型 贝叶斯网络模型贝叶斯网络模型多种模型比较与解释多种模型比较与解释 Company Logo贝叶斯分类法简介贝叶斯分类法简介 v 分类方法的目标是构造一个分类器,通过分析由属性描述的样本分类方法的目标是构造一个分类器,通过分析由属性描述的样本(或实例,对象等)来将一个未知样本分到几个预先已知的类中。(或实例,对象等)来将一个未知样

2、本分到几个预先已知的类中。v 基于机器学习基于机器学习(Machine Learning)的自动分类方法常用的有最的自动分类方法常用的有最近邻分类、回归模型、决策树、推导规则、贝叶斯分类、神经网络、近邻分类、回归模型、决策树、推导规则、贝叶斯分类、神经网络、支持向量机以及相关反馈等。支持向量机以及相关反馈等。v 贝叶斯分类法贝叶斯分类法由于具有由于具有坚实坚实的的数学理论基础数学理论基础以及以及综合先验信综合先验信息息和和数据样本信息数据样本信息的能力,是公认的较为的能力,是公认的较为有效有效和和常用常用的一种分的一种分类方法。类方法。Company Logo贝叶斯分类法简介贝叶斯分类法简介v

3、 贝叶斯分类通过有指导的学习对属性集和类变量之间的概贝叶斯分类通过有指导的学习对属性集和类变量之间的概率关系进行建模。率关系进行建模。v 基于贝叶斯理论的分类方法,目前主要由两个分支构成:基于贝叶斯理论的分类方法,目前主要由两个分支构成: 一个是朴素贝叶斯分类器;一个是朴素贝叶斯分类器; 一个是贝叶斯网络分类器一个是贝叶斯网络分类器。Company Logo朴素贝叶斯分类器朴素贝叶斯分类器v 朴素贝叶斯分类器朴素贝叶斯分类器(Naive Bayesian Classifier,NBC)是一种是一种有监督的学习方法。有监督的学习方法。v 朴素贝叶斯分类器用产生的概率估计来替代类预测,即对于每一个

4、类朴素贝叶斯分类器用产生的概率估计来替代类预测,即对于每一个类值,估计具有某些类属性值的实例属于这个类的条件概率,最终将实值,估计具有某些类属性值的实例属于这个类的条件概率,最终将实例归入条件概率最大的类别当中。例归入条件概率最大的类别当中。v 朴素贝叶斯假定一个属性的值对给定类的影响独立于其他的属性值。朴素贝叶斯假定一个属性的值对给定类的影响独立于其他的属性值。Company Logo朴素贝叶斯分类器朴素贝叶斯分类器v朴素贝叶斯建模过程可以分为以下朴素贝叶斯建模过程可以分为以下3步:步:(1)设样本有)设样本有n个属性个属性(A1,A2,An),类变量,类变量C有有m个不同的值个不同的值C1

5、,C2,Cm,X是一个未知类别的样本;是一个未知类别的样本;(2)根据贝叶斯定理得知:)根据贝叶斯定理得知: ;(3)模型将未知类别的样本)模型将未知类别的样本X归到类归到类Ci中,当且仅当中,当且仅当P(Ci|X) P(Cj|X),对对于所有的于所有的j成立(成立(1jm,ji),即),即P(Ci|X)最大。最大。v在属性条件独立的假设下,每一个属性变量都以类变量作为唯一的父在属性条件独立的假设下,每一个属性变量都以类变量作为唯一的父节点,就得到朴素贝叶斯分类器。节点,就得到朴素贝叶斯分类器。Company Logo贝叶斯网络贝叶斯网络 v 贝叶斯网络是一种通过提供图形化的结构简洁易懂的展现

6、当贝叶斯网络是一种通过提供图形化的结构简洁易懂的展现当类属性类属性变量变量相关相关时的概率分布的方法;时的概率分布的方法;v 贝叶斯网络用贝叶斯网络用条件概率条件概率的形式表示变量间相互影响的程度,最终通的形式表示变量间相互影响的程度,最终通过过贝叶斯概率贝叶斯概率对某一事件未来可能发生的概率进行估计。对某一事件未来可能发生的概率进行估计。Company Logo贝叶斯网络图三大特点贝叶斯网络图三大特点v图中的每一个节点代表一个属性,节点之间通过箭头连接,箭头末端图中的每一个节点代表一个属性,节点之间通过箭头连接,箭头末端表示被影响因素(父母),箭头所指向的变量为影响因素(子女),表示被影响因

7、素(父母),箭头所指向的变量为影响因素(子女),通过箭头形成有向无环图。通过箭头形成有向无环图。v每一个节点旁边均有一个概率表,称为条件概率分布:每一个节点旁边均有一个概率表,称为条件概率分布: A:若节点:若节点X没有父母,则表中为先验概率没有父母,则表中为先验概率P(X);B:若节点:若节点X只有一个父母只有一个父母Y,则表中为条件概率,则表中为条件概率 ;C:若节点:若节点X有多个父母有多个父母 ,则,则 。v在贝叶斯网络中,如果某节点的父母已知,那么它将条件独立于它的在贝叶斯网络中,如果某节点的父母已知,那么它将条件独立于它的所有非后代节点。所有非后代节点。12,kY YY12(,)k

8、P X Y YY()PX YCompany Logo贝叶斯网络贝叶斯网络v贝叶斯网络的贝叶斯网络的建模过程建模过程通常包括两个步骤:通常包括两个步骤: 1、创建网络结构;、创建网络结构; 2、估计每个节点概率表中的概率值;、估计每个节点概率表中的概率值;v贝叶斯网络的贝叶斯网络的学习过程学习过程亦包括两个步骤:亦包括两个步骤: 1、学习类变量与属性变量之间的结构关系;、学习类变量与属性变量之间的结构关系; 2、学习属性变量之间的关系。、学习属性变量之间的关系。Company Logo贝叶斯网络贝叶斯网络v结构学习的结构学习的k2算法算法v参数估计方法参数估计方法极大似然估计极大似然估计v建模建

9、模误判率误判率= (训练集误判数(训练集误判数+测试集误判数)测试集误判数)/(训练集样本数(训练集样本数+测试集样本数)测试集样本数)v预测预测误判率误判率= 预测误判样本数预测误判样本数/预测样本总数预测样本总数 Company Logo数据分析数据分析变量选择变量选择数据集划分数据集划分数据简介数据简介贝叶斯模型贝叶斯模型输出结果输出结果Company Logo数据简介数据简介v 数据集中包含了从数据集中包含了从1981年起至年起至2002年止投保了伤害险和健康险的年止投保了伤害险和健康险的投保人基本信息和到截止日期时的赔付信息;投保人基本信息和到截止日期时的赔付信息;v 研究目的是使用

10、多个属性信息来构造模型,通过模型来计算赔付概率,研究目的是使用多个属性信息来构造模型,通过模型来计算赔付概率,最终对是否赔付进行预测和分类;最终对是否赔付进行预测和分类;v 该数据集共含该数据集共含94785条记录,有赔付记录的占条记录,有赔付记录的占3.66%,每条记录,每条记录均包含均包含29个变量,其中个变量,其中X1至至X28为属性变量(投保人基本信息),为属性变量(投保人基本信息),X29是两分类的类别变量(是两分类的类别变量( 赔付状况),除理赔总金额与被保人关赔付状况),除理赔总金额与被保人关系两个变量外,其他变量均无缺失值。系两个变量外,其他变量均无缺失值。Company Lo

11、go训练集、测试集和外推集的划分训练集、测试集和外推集的划分v将数据集拆分为两部分:将数据集拆分为两部分:前 65535条数据(约占2/3)作为第一部分: 采用随机抽样的手段将其均分均分为训练集训练集和测试集测试集; 抽样原理保证单个数据集的代表性。后29250条数据(约占1/3)作为第二部分 : 看作具有未知结构的外推集,用以检验模型的预测能力。Company Logo变量选择变量选择序号变量名剔除原因X1保额与x20(保额组别)重复X2保障年期指示与x3(保障年期)重复X4缴费年期指示与x5(缴费年期)重复X14投保年龄与x19(年龄组别)重复X16要被保人关系缺失过多,既有数据类别过于单

12、一X18已缴保费与x21(已缴保费组别)重复X25理赔总金额通过x26(理赔件次)和x28(理赔金组别)可大致判断X26理赔件次理赔在前,理赔件次在后,因此对是否理赔无影响X27投保件次全部记录均为1,无实质意义控制变量选择控制变量选择初始变量选择初始变量选择Company Logo变量选择变量选择最终确定引入模型变量最终确定引入模型变量Company Logo朴素贝叶斯模型朴素贝叶斯模型 1 2 3 4 5 6 7 8 91011121314训练集error_rate = 0.0523测试集error_rate = 0.0505建模误判率(0.0532+0.0505)*7729/65535=

13、0.0122预测误判率=Company Logo基于基于k2算法的贝叶斯网络算法的贝叶斯网络训练集error_rate = 0.0254 测试集error_rate = 0.0264 建模误判率(0.0254+0.0264)*7729/65535=0.0061 预测误判率=0.0532 1 2 3 4 5 6 7 8 Company Logo基于关联规则(和先验知识)的贝叶斯网络基于关联规则(和先验知识)的贝叶斯网络 1 2 3 4 5 6 7 8 91011121314 1 2 3 4 5 6 7 8 91011121314训练集error_rate = 0.0254 测试集error_rate = 0.0264 建模误判率(0.0254+0.0264)*7729/65535=0.0061 预测误判率=0.0469 Company Logo多个模型结果比较多个模型结果比较模型名称训练集误判率测试集误判率建模误判率预测误判率Cart分类与回归树0.03490.03490.0082朴素贝叶斯0.0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论