新华保险-理赔反欺诈预警识别平台项目POC分析报告_第1页
新华保险-理赔反欺诈预警识别平台项目POC分析报告_第2页
新华保险-理赔反欺诈预警识别平台项目POC分析报告_第3页
新华保险-理赔反欺诈预警识别平台项目POC分析报告_第4页
新华保险-理赔反欺诈预警识别平台项目POC分析报告_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

新华保险理赔反欺诈预警识别平台项目POC分析报告初稿严格保密1八月20141 整体整体规划与分析思路12 样本数据描述分析53 低风险案件识别模型114 后续工作19页码章节标题目录整体整体规划与分析思路章节11新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析工作计划(7.24-7.31)工作方法1.1项目整体规划

2ExecutiveSummary新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析总体目标:有效识别和抓取低风险案件通过业务规则鉴定低风险案件新华现状通过数据挖掘平台找出低风险案件特征PwC方法理赔案件简易案件非自动审核自动审核低风险案件D1D2D3D4D5D6获取数据及主题分析数据探索和模型建立模型结果检验与解释撰写项目分析报告业务规则和挖掘模型的交互价值验证章节1–整体整体规划与分析思路1.2整体分析思路

3ExecutiveSummary新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析定义分析主题现有规则分析现有案件及来源建立分析数据市集建立预测模型低风险案件定义字段诊断12345模型评估6业务解释7

针对新华2014年1月到5月的简易小额自动案件(低风险案件)数据,从赔案出险人对应的既往赔付数据、保单数据、保全数据、续期数据样本,进行低风险案件的模型识别,并对2014年6月赔案进行低风险模型识别,整体风险思路如下:

分析业务规则案件的差异性分析整理数据分析宽表数据探索及挖掘评价指标及模型比较规则解释及分析章节1–整体整体规划与分析思路保戶信息保单保全理赔案件理赔信息

1.3POC所用到的表与字段概览简单帐金额责任外金额意外细节拒付信息报案日期出险日期保单生效日保额总理赔次数缴费次数险种名称缴费金额保全生效日期保全业务类型出险机构治疗情况申请人关系性别生日数据类型共六张表:97个变量理赔类型4新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析ExecutiveSummary章节1–整体整体规划与分析思路5新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析章节2样本数据描述分析2.1数据探索分析

新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析规则发现低风险案件在案件类型集中度过滤出疾病医疗和意外医疗案件风险标记同一赔案号下有唯一低风险标记对赔案号去重数据关联将理赔与保单、保全、续期等表相关联,并构建30多个衍生变量。理赔数据过滤筛选低风险案件关注:疾病医疗和意外医疗中训练样本筛选数量变化1007067673164498只针对疾病医疗和意外医疗的理赔案件进行低风险识别,同一赔案号下的风险值唯一.在一个赔案下,构建衍生变量如:每个赔案下的保单数,最大账单金额,平均的意外到保单生效时间间隔等。6章节2–样本数据描述分析2.1数据探索分析其他:附加(2014)B款意外医疗

附加吉瑞重症监护津贴

附加医疗

吉瑞综合意外伤害保险

康健华安医疗保险

康健吉顺定期防癌

康健荣尊定期防癌险种与目标变量之间的相关性分析各个险种上的低风险占比不一样。险种有可能成为影响变量。所有分析案件中,低风险的占比平均值为37.3%,其中有三个险种高于平均值,主要是:附加意外伤害医疗 附加意外医疗 住院费用(2007)图中展示,2014年1月-2014年6月期间,各险种的分布比较稳定,故险种不存在的季节性因素的影响,从而使得评分结果的表现趋稳。

各险种在2014年1月-6月分布7新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析章节2–样本数据描述分析2.1数据探索分析

8新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析最大账单金额与目标变量的相关分析低分险高分险从单因子的方差分析上,账单金额在高低风险上有显著差异。同时,从最大账单金额的盒型图分布看出,高低风险上,都有账单金额的异常值。比如最大账单金额达到780000,远远超过平均值8203.在统计意义上,最大账单金额的差异性是否显著的方差分析对不同的高低风险,最大账单金额的均值差异分析章节2–样本数据描述分析2.1数据探索分析

9新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析由于理赔时效性,保单有效性等特征,从理赔流程看,需要具备时间检验的一致性:保单生效日期<=意外发生日期<=出险日期<=报案日期<=立案日期本次理赔数据探索结果分析:时间不一致的异常特征分析:意外发生日期VS保单生效日期意外发生日期晚于保单生效日期的占比在1.54%,虽然这个比重比较高,但和业务人员沟通,在理赔周期内,客户有跨年的情况,保单的生效日期会变成新一年的生效日,造成数据错误。出险日期VS意外发生日期比如对于赔案号90010063671,出险日期与意外发生日期相差了一年,但是查看数据发现事故描述中与意外发生日期一致,所以可以判定此项录入出险日期数据有问题。报案日期VS出险日期比如对于赔案号90002701819(低风险案件,但是报案时间是2014年1月,而出险日期为2014年2月,可以根据此异常值对这个赔案进行在调查。

章节2–样本数据描述分析2.2变量基本统计分析

为提取更多的变量,从现有数据中,提取衍生变量,增加变量的利用率,提升建模结果。

10新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析出险年龄、理赔次数、保单生效到意外的时间间隔的偏度小,也就是数据值分布集中,波动性较小;其余的变量,波动性较大,在选择分析模型时,需要作变量转换,减少异常值造成模型不稳定。结论变量的基本统计分析,以下只取部分连续字段的衍生变量的基本统计分布:章节2–样本数据描述分析低风险案件识别模型章节311新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析3.1建模流程建立预测模型预测模型抽样探索修正模型评估定义变量及数据字段抽样-训练数据及验证数据检视数据完整性/遗漏值检视数据的分布及离群值数据转置处理变量选择变数集群决策树模型逻辑回归模型神经网络模型模型组合其他方法模型稳定性评估模型选择产生预测风险分数样本抽取数据可视化关联分析数据转换变量选择聚类神经网络决策树回归模型支持向量机模型评估低风险案件识别12新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析ExecutiveSummary章节3–低风险案件识别模型数据分析显著性分析相关性检验建立模型模型验证保单业务员体检院所个人资料…ConstantFactorX1FactorX2FactorX3…风险分数3640459013新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析ExecutiveSummary个人因素医院因素时间因素业务人员因素理赔事故专业经验分析系统业务员据赔率疾病据赔率事故日距离生效日客户理赔历史医院据赔率章节3–低风险案件识别模型3.2低风险识别模型结果

14ExecutiveSummary新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析训练集(70%)预测分类高风险低风险实际分类高风险

24,398

3,906低风险

626

16,217验证集(30%)预测分类高风险低风险实际分类高风险

10,424

1,707低风险

287

6,933对于低风险的理赔案件的识别过程中,训练集和验证集的预测准确率都达到90%,该模型预测率高且稳定。而且实际低风险的案件,被模型正确捕捉到96.3%,覆盖率高。同时低风险漏报率,在测试集还是验证集上,都不到1.5%的比率。如果将来有更多的识别变量,如治疗医院的资质情况,是否在定点医院治疗信息的等字段收集,低风险的案件识别率将会大大提升。模型评估分析样本覆盖率命中率正确率训练集96.3%80.6%90.0%验证集96.0%80.2%89.7%以误分类率最低作为模型评价指标,对多个模型优化比较,最终决策树模型无论在训练集还是验证集上都是效果最优且稳定。章节3–低风险案件识别模型3.3低风险识别模型解读

15ExecutiveSummary新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析1.数据挖掘所选用的重要变量,是从120多个变量里,根据自变量对目标变量的相关性分析,从各个输入输入变量的最大R方,进行比较筛选。2.极其重要的变量:主要关注在出险类别,保单生效时间到意外发生的时间间隔,账单金额,出险原因代码。这些都客观反映了低风险的最显著特性;非常重要和一般重要的变量,主要是历史缴付次数、二级机构、保项、保全等客户缴费历史行为和案件特征信息。这客观体现了低风险案件的理赔金额少快赔付的显著特征。3.重要变量的选取,只是说明了该指标对低风险案件有重要影响。但是否正相关,在哪个取值范围内影响?具体的规则和阈值,都需要数据挖掘的去探索,这也是其价值所在。变量重要性0.10.3章节3–低风险案件识别模型3.3低风险识别模型解读

16ExecutiveSummary新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析以最大账单金额为区分点的某个决策树上,以(是否大于5492.51)为规则,区分效果最好!以出险原因代码为区分点的某个决策树上,以(是否1:意外出险)为规则,区分效果最好!通过构建决策树、逻辑回归、神经网络、支持向量机等多种模型,通过误分类率最低为最优模型评估指标,进行模型模型比较,找到最优模型为决策树模型。对于输入变量分布偏度很大,有较多异常值;且本次低风险的目标定义是基于业务规则制定,所以决策树从规则出发推导模型的特点,效果最好,而且应用性最直接。1:意外出险2:疾病出险章节3–低风险案件识别模型3.4低风险识别模型应用17ExecutiveSummary新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析1.利用模型的规则,和业务规则进行比较。看共同性,差异性。为后续业务自动规则配置起到互补作用。2.对新案件进行评分,并区分出高低风险案件。低风险识别模型是理赔作业的关键首要步骤,也会影响后续的欺诈可疑案件识别效果。理赔作业及分析流程低风险的异常监控高风险的欺诈诊断章节3–低风险案件识别模型3.4低风险识别模型的补充分析18ExecutiveSummary章节3–低风险案件识别模型理赔时效在高低风险上案件上有显著差异,且理赔时效作为低风险案件监控指标,以达到快赔的目标。

高风险案件低风险案件1.理赔时效分析---低风险案件有理赔周期短的特点。2.低风险案件异常分析---通过聚类等模式识别,找出历史低风险案件中异常群体。对低风险案件聚类,共23个类别,其中有一类约占3.7%的赔案有异常。赔付金与保额的占比在每一种类的分布特征新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析类别后续工作章节419新华保险理赔反欺诈预警识别平台项目POC分析报告•理赔数据低风险识别分析后续阶段工作

目前的预测模型由于数据质量低以及指标数量不够的问题,一些关键指标的数据无法取得,而且受POC时间所限,使得模型的解释能力无法再提升,预测准确率已到达到极限近90%,为了有效提高模型的效果和预测准确率,我们建议新华保险在后续的业务中,可以进行相关的主题分析:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论