数据挖掘技术在保险业务中的应用_第1页
数据挖掘技术在保险业务中的应用_第2页
数据挖掘技术在保险业务中的应用_第3页
数据挖掘技术在保险业务中的应用_第4页
数据挖掘技术在保险业务中的应用_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第25卷第3期 2008年3月 计算机应用与软件Co m puter Applicati o ns and Soft w are Vo l 25No . 3M ar . 2008数据挖掘技术在保险业务中的应用王伟辉 耿国华 陈 莉(西北大学信息科学与技术学院 陕西西安710069摘 要 随着保险业的快速发展, 保险公司积累了大量的业务数据, 急需一种有效的技术方法发现这些海量数据中蕴涵的潜在知识, 为管理决策提供依据。数据挖掘技术是目前国际上的一个研究热点, 可以实现保险业务数据的知识化。分析了我国保险业务的发展现状, 介绍了数据挖掘相关技术及其在保险业务中的应用, 重点描述了使用判定树技术进

2、行保险客户风险分析的过程。关键词 数据挖掘 保险业务 客户风险分析 判定树APPLICATION OF DATA M IN ING TO INS URANCE BUSINESSW ang W eihui Geng Guohua Chen Li(School o f Infor m ation S cience and Technol ogy, Nort hw est Un i v e rsit y, X i an 710069, Shaanx i , Ch i na Abstrac t W ith the rap i d deve l op m ent o f i nsurance indus

3、try , a l o t o f busi ness data are accu m u l ated by insurance co m panies . It s i m pe rativeand necessary to fi nd an effecti ve technique to explore and d iscove r the potenti a l kno w ledge from the enor m ous a m ount o f data , w hich i s helpful for busi ness dec i s i on m ak i ng . D a

4、 ta m i n i ng i s a hot research area i n the wo rl d . It can be used to acqu ire the kno w ledge . T he status quo of i nsur ance busi ness i n Ch i na i s analyzed . Som e o f the data m i n i ng m ethods and the ir app licati ons to i nsurance bus i ness are i ntroduced . The process o f custo

5、m er risk ana l ysis by us i ng D ec isi on tree is described i n detai. l K eywords D ata m i n i ng Insurance busi ness Custom er risk ana l ys i s D ecisi on tree据管理应用的普遍现状是:汇集了大量客户信息和业务数据, 但因为缺乏挖掘数据背后隐藏知识的手段和工具, 而导致 数据爆炸但有效信息贫乏 、 信息繁杂但业务知识孤立 , 这种局面若无改观, 保险公司将会长期处于 低智商 的业务运行状态。目前各大保险公司都在投入巨资进行数据大

6、集中, 旨在实现从业务数据化到业务知识化。以数据挖掘为基础的数据仓库、决策支持系统的建设, 在未来数年中将受到保险公司的追捧。0 引 言随着计算机技术的迅速发展, 自二十世纪末开始, 保险行业兴起了信息化热潮, 各大保险公司纷纷投入巨资相继开发了业务信息系统, 实现了业务数据化。保险信息系统经过多年发展, 已逐步成熟完善, 并积累了大量宝贵的数据资源, 如何处理这些海量数据, 更好地汇总、分析这些历史数据并从中挖掘出业务内在规律, 将其变为有用的信息和商机, 将会主导未来相当长时间内各个保险公司的工作战略。现有信息管理系统中的数据分析工具无法给出答案。因为无论是查询、统计还是报表, 其处理方式

7、都是对指定数据进行简单数字处理, 而不能对数据所包含的内在信息进行提取。因此必须寻求一种有效的分析手段, 数据挖掘技术符合这一要求。保险公司积累下来的海量历史数据, 为数据挖掘应用打下了坚实基础, 数据挖掘技术的相对成熟也为数据挖掘应用奠定了技术基础。2 数据挖掘概念和技术2. 1 数据挖掘的概念数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程1。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系, 是近年来发展起来的一门涉及面很广的交叉学科, 融合了人工智能、数理统计、数据库等方面的最新进展,

8、 它的应用遍及金融、零售、电信、保险等众多领域, 发展前景十分广阔。1 保险业发展现状信息化被视作金融业的生命线, 对保险公司来讲, 数据如同企业生命体中生生不息的血脉。近10年来国内保险业信息一直处于加速度状态, 人保、人寿、平安等大型保险公司和新成立的小型保险公司在信息化方面的投入都不遗余力。但在巨资进行信息化的同时, 信息化技术组合中更为锐利、高效和复杂的数据仓2. 2 数据挖掘方法和技术数据挖掘的技术很多, 相应的实现方法也很多, 总的来说,数据挖掘方法和技术可以分为以下8大类:(1 归纳学习方法 是当前重点研究方向, 研究成果较多,收稿日期:2006-02-16。王伟辉, 博士生,

9、主研领域:数据库与知识库。从采用的技术上看, 分为两大类:判定树方法和集合论方法。(2 仿生技术 典型的方法是神经网络方法和遗传算法。(3 公式发现 是数据挖掘的一项重要内容, 它主要是从数据中找出数据变量之间的函数关系, 求得相应的数学公式。(4 统计分析方法 它是建立在传统的数理统计基础上。在数据库字段之间存在两种关系:函数关系和相关关系, 对它们的分析可采用判别分析、因子分析、相关分析、多元回归分析及偏最小二乘回归方法等。(5 关联规则 是发现一个事物与其他事物间的相互关联性或相互依赖性。由A gra w a 、l m i e li ns k i 、Sw a m i 首先提出1, 是数据

10、挖掘研究的重要内容。(6 模糊集方法 提供了在高抽象层处理的便利。一般地, 模糊逻辑在基于规则的系统中的使用涉及:(1 将属性值转换成模糊值; (2 对于给定的新样本, 可以使用多个模糊规则; (3 组合上面得到的和, 得到一个系统返回的值。(7 可视化技术 是利用计算机图形学和图像技术, 数据转换成图形或图像在屏幕上显示出来, 并进交互处理的理论、方法和技术。(8 融合方法 是将不同算法或同一算法下使用不同参数得到的结果进行合并, 从而得到比单一算法更优越的结果。保险企业制定经营战略具有极高的指导意义, 是关系到保险企业能否生存与发展、企业市场营销战略制定与实现的首要问题, 本文就以机动车辆

11、险客户风险分析主题为例说明数据挖掘在保险业务中的应用。3. 3. 2 理解并准备挖掘数据确定挖掘主题后, 接着理解企业现有应用系统及其数据, 准备数据。数据挖掘的处理对象是海量数据, 这些数据一般存储在数据库系统中, 是长期积累的结果, 但往往不适合直接在这些数据上面进行挖掘, 需要做数据准备工作, 包括数据选择、净化、转换、数据缩减等步骤。如果挖掘的对象是数据仓库, 那么这些工作往往在生成数据仓库时已经准备好。数据准备是非常重要的一个步骤, 是否做好将影响数据挖掘的效率和准确度以及最终模式的有效性3。车辆保险数据库包括客户信息表、保单信息表及理赔信息表等。各表信息如表1至表3所示。表1 个人

12、客户信息表客户编号姓名年龄性别学历职业地区收入婚姻状况驾龄联系电话联系地址E m ail表2 保单信息表保单号客户车辆行驶使用销售险种保费保额编号种类区域性质渠道表3 理赔信息表理赔编号保单号经办人理赔金额出险类别理赔日期是否理赔工号生效日期投保日期3 数据挖掘在保险业的应用3. 1 数据挖掘可以解决的典型保险业问题保险业是典型的知识密集型行业, 是最适合推行知识管理与数据挖掘技术的行业之一, 数据挖掘所能解决的保险问题主要包括:客户风险分析, 客户群体划分, 交叉销售, 客户流失分析及欺诈发现等。在数据准备阶段, 首先根据直观经验去除数据中的冗余信息, 例如个人姓名、性别、联系电话、经办人工

13、号等, 统计一定时间内个人进行机动车辆险理赔的次数。在理赔信息表、保单信息表的基础上, 根据保单号获取投保人的理赔次数。经过数据整理工作。得到一张个人理赔信息表。如表4所示。表4 个人理赔信息表编号性别年龄驾龄理赔次数平均赔付率3. 2 数据挖掘方法论目前已有很多成熟的数据挖掘方法论, 为实际应用提供了理想的指导模型。CR ISP DM 就是公认的、较有影响的方法论之一。CR ISP DM 强调, 数据挖掘不单是数据的组织或者呈现, 也不仅是数据分析和统计建模, 而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。CR ISP DM 将整个挖掘过程分为以下六个阶段:业务理解、数据理解

14、、数据准备、建模、2评估和部署实施。在实际项目中, CR ISP D M 模型中的数据理解、数据准备、建模、评估并不是单向运作的, 而是一个多次反复、多次调整、不断修订完善的过程。图1为CR ISP DM 方法论模型示意图。3. 3. 3 数据挖掘算法设计1 客户特征分析 机动车辆风险因素主要有驾驶人员、车辆自身、地理环境、社会环境、经营管理等风险。经对国内外大量经验数据研究发现:车辆事故发生的概率与驾驶人员本身有着密切关系, 影响驾驶人员安全驾驶的主要因素! ! ! 即基于客户特征的风险指标包括:年龄、性别、驾龄等。2 算法 在进行客户风险划分时, 可以选用多种算法, 本文主要介绍基于判定树

15、的客户风险分类算法。从商业角度看, 判定树可以视为对原始数据的分割。判定树的树结构和生成规则都非常简单, 而且将判定树模型转化为S Q L 形式在关系数据库中显示也非常容易。为此可以将判定树技术运用到客户分析中, 找到决策的关键因素。判定树方法 判定树是一个类似于流程图的树结构, 其中图1 CR ISP D M 方法论模型每个内部节点表示对一个属性的测试, 每个分支表示一个测试输出, 而每个树叶节点代表类或类分布。为了对未知的样本分类, 样本的属性值在判定树上测试。路径由根到存放该样本预测的叶节点。树的生成采用自上而下的递归分治法。如果当前训练子集合中的所有实例是同类的, 构造一个节点, 节点

16、内容即是该类别。否则, 根据某种策略选择一个属性, 按照该属性的不, 分为若重3. 3 数据挖掘过程3. 3. 1 理解业务、确定挖掘主题根据CR ISP DM 模型, 首先应进行业务理解, 寻找数据挖掘的目标和问题。保险业务问题包括客户风险分析、客户群体划,复此过程, 直到当前集合中的实例是同类的为止。本文采用判定树的基本算法I D 3, 它以自顶向下递归、各个击破的方式构造判定树。其理论清晰、方法简单、学习能力较强, 适合于处理大规模的学习问题, 在世界广为流传, 得到极大关注4。其算法描述如下:算法:由给定的训练数据产生一棵判定树1。输入:训练样本sa m ples , 由离散值属性表示

17、; 候选属性的集合attri bute_lists输出:一棵判定树。方法:(1 创建节点N; (2 if sa m ples 都在同一个类C then ; (3 返回N 作为叶节点, 以类C 标记; (4 if attri bute_list 为空then ;(5 返回N 作为叶节点, 标记为samp l es 中最普遍的类; (6 选择attri bute_list中具有最高信息增益的属性test_at tr i bute ;(7 标记节点N 为test_attr i bute ;(8 for each test_attri bute 中的已知值a i ;(9 由节点N 长出一个条件为tes

18、t_attr i bu te=a i 的分枝; (10 设s i 是sa mp l es 中test_attri bute=a i 中的样本的集合; (11 设s i 为空then ;(12 加上一个树叶, 标记为samp l es 中最普通的类; (13 e l se 加上一个由G enerate _decisi on _tree(s , bute _i attri li st test_attri bute 返回的节点。3. 3. 4 执行算法生成知识这步是数据挖掘的关键步骤, 也是技术难点。根据保险业务特点, 可以挖掘其分类模型、关联规则, 找出理赔过的投保人有什么特征, 没有理赔过的投

19、保人有什么特征。进行理赔概率分析及趋势预测, 从而提供风险控制规则。属性选择量度在树的每个节点上使用信息增益度量选择测试属性。选择具有最高信息增益的属性作为当前节点的测试属性。该属性使得对结果划分中的样本分类所需的信息量最小, 并反映划分的最小随机性或 不纯性 。这种信息理论方法使得对一个对象分类所需的期望侧试数目达到最小, 并确保找到一棵简单的树。定义 设S 是s 个数据样本的集合。假定类标号属性具有m 个不同值, 定义m 个不同类C i (i =1, 2, , m 。设s i 是类C i 的样本数。其中P i 是任意样本属于C i 的概率, 并用s i /sj 估计。对一个给定的样本分类所

20、需的期望信息为:I(s 1, s 2, , s m =-I (s 1j , s 2j , , s m j =-#pi=1milog 2(p i (3其中p ij =s ij /|S j |是S j 中的样本属于类C i 的概率。属性A 的信息增益是:G a i n (A =I (s 1, s 2, , s (4 m E (A算法计算每个属性的信息增益。具有高信息增益的属性选作给定集和S 的测试属性。创建一个节并以该属性标记, 对属性的每个值创建分枝, 并据此划分样本。表5 理赔表训练数据I D 123456789101112131415性别M al e年龄驾龄理赔次数平均赔付率>221&

21、gt;21>21211>2>2112105. 24%38. 23%83. 89%110. 35%36. 39%32. 49%24. 83%52. 83%130. 83%15. 32%72. 49%64. 83%52. 13%105. 85%123. 32%C l ass :ri sk H i gh Lo w H i gh H i gh Lo w Lo w Lo w Lo w H i gh Lo w H i gh H i gh Lo w H i gh H i gh<=30<=5Fe m ale 3140510M al e M al e M al e>40>

22、;=10<=30<=53140510Fe m ale <=30<=5Fe m ale <=30<=5M al e M al e M al e3140<=5<=30<=5>40>=10Fe m ale 3140<=5M al e>40510Fe m ale 3140<=5M al e M al e3140510<=30<=5类标号属性risk 由2个不同值(即H igh , L ow , 因此有2个不同的类(m =2 。设类C 1对应于H i gh , 类C 2对应于low 。类C 1有8个样本, 类

23、C 2有7个样本。我们首先使用式(1 计算对给定样本分类所需的期望信息:I (s 1, s 2 =I(8, 7 =-=-#pi=13ilog 2(p i 87log 28-log 27=0. 991515然后, 计算每个属性的期望信息。这里先计算 平均赔付率 每个样本值的发生理赔情况分布。同理, 按照平均赔付率分析, 由于算法ID3要求所有的属性是分类的或离散化的, 所以要将 平均赔付率 、 驾龄 值离散化。如图2所示。#p log (p i2ii=1m(1设属性A 具有v 个不同值a 1, a 2, , a v 。可以用属性A 将S 划分为v 个子集S 1, S 2, , S v ,其中,

24、S j 包括S 中这样一些样本, 它们在A 上具有值a j 。如果A 选作测试属性, 则这些子集对应于由包含集合S 的节点生长出来的分枝。设s ij 是子集S j 中类C i 的样本数。由A 划分成子集的期望信息为:E (A =#vj =1s 1j +s mjI (s 1j , , s m j s(2图2 属性 平均赔付率 具有最高信息增益这里(S 1j +S 2j +S m j /s是第j 个子集的权。 对于给定的子集S j , 期望信息为:(页第3期季丽红等:基于改进射线矢量法的手部轮廓与手势实时跟踪方法判定树(见图3 。2074 结 语本文改进的射线法能准确地跟踪手的运动和手形的变化,

25、具有很好的鲁棒性和实时性。但该方法对于背景颜色与肤色相近的视频运动目标的分割尚需进一步研究和改进。参考文献图3 机动车辆险客户风险划分的I D3判定树1Vol ody myr K i ndratenko . Devel op m en t and app li cati on of i m age anal ysistec hn iques for i d entifi cati on and clas s ification of m icroscopic Parti cl es EB /OL.http :/www.ncs a . u i uc . edu /k i nd r /phd/in

26、d ex . pd. f 2001-11-6/2006-2-20.2RAFAEL C GONZ ALEZ , R I CHARD E W OODS . D i g i tal i m age p rocessing second ed iti on M.Beiji ng :Pubis h i ng H ou se of E lectron ics In du stry , 2002:647 648.3徐艳敏, 张星明, 刘晓红, 苏曙. 基于色彩聚类的肤色分割方法研究J.广州航海高等专科学校学报, 2004, 12(1:24 25.4GREG W ELCH, GARY BISHOP . An

27、i ntroducti on t o kal m an filt erEB /OL .http :/www.cs . un c . edu /W elch /med i a /pdf/kal m an _i n tro . pd. f 2001/2006-2-20.5A MURAT TEKALP. D i gital v i deo processi ngM.B eiji ng :Pub is h i ngH ou se ofE lectronics Industry , 1995:460-461.由算法返回的最终判定树(图4, 可以用I F THEN 形式来表示其中蕴含的知识。沿着由根节点到

28、树叶节点的路径,由判定树提取分类规则提取的规则是:I F 平均赔付率<=50% TH EN r i sk :LowI F 平均赔付率=%50%100% AND 理赔次数>2 TH E N r i sk :H i ghI F 平均赔付率=%50%100% AND 理赔次数<=2 TH E N r i sk :LowI F 平均赔付率>100% THEN risk :H i gh由此我们可以将客户按照风险级别进行分类, 即分为 H i gh , L o w 两类。根据以上规则, 就可以制定不同的费率。根据判定树和投保人的详细信息, 可以预测一段时间内理赔概率的大小, 并相应

29、制订某类投保人的保险费率。3. 3. 5 规则模式的评估与解释从3. 3. 4得到的规则模式, 经过评估可能存在冗余或无关的模式, 这时需要将其剔除; 也有可能模式不满足实际的要求, 这时则需要回退到发现过程的前面阶段, 如重新选取数据, 采用新的数据变换方法, 设定新的参数, 甚至换一种挖掘算法等等。评估可以根据管理人员多年的经验, 有些模式也可以直接用数据来检验其准确性。对于挖掘的正确结果要做出解释, 分析其合理性, 为保险公司提供风险管理决策的依据。(上接第125页然后, 计算每个属性的期望信息。先计算 平均赔付率 的每个样本值发生理赔情况分布。对于平均赔付率=%<=50%:S 11=0 S 21=5I (S 11, S 21 =I (0, 5 =0对于平均赔付率=%50%100%:S 12=3 S =2I (s 12, s 22 =I (3, 2 =-3l og 5232-log 2552=0. 975对于平均赔付率=%>100%:S 13=5 S 23=0I (S 13, S 23 =I (5, 0 =0由式(2, 如果样本按 平均赔付率 划分, 对一个给定的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论