保险数据处理_第1页
保险数据处理_第2页
保险数据处理_第3页
保险数据处理_第4页
保险数据处理_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

保险数据处理解决保险公司数据分析中的信息孤岛问题、程序可扩展性问题以及将数据分析整合进系统等问题的处理01简介研究难点两种数据挖掘模型国内外研究现状保险公司数据源的收集与处理目录03050204基本信息保险数据处理,主要解决了保险公司数据分析中的信息孤岛问题、程序可扩展性问题、程序开发周期过长问题以及将数据分析需要的专业知识整合进系统,减少对数据分析程序操作人员专业度要求。收集多平台,多来源的数据源,建立有效的清理与整合机制,在此基础上构建为数据分析服务的统一的多维度的数据集市,使最终用户不用熟知算法和一些背景专业知识就可以得到比较专业的分析结果。简介简介数据挖掘和分析是知识发现的一个过程,是在数据处理的过程中不断发现问题,修正目标和方法,最终得出结论的过程。随着保险公司计算机系统应用的不断推进,保险公司提出了对数据进行深入分析和应用的需求。传统软件开发的步骤简单的说可以分为:用户提出需求,设计人员设计方案,程序员编写程序,不断沟通、修改,最后交付用户使用。在数据分析中,用户很难清晰、完整的描述他的需求,或者根本不知道达到目标的方法。这也就是保险公司的程序应用中业务系统、财务系统等等可以顺利实施,有关数据处理的程序失败率很高,或者生命周期很短的一个重要原因。保险数据处理,主要解决了保险公司数据分析中的信息孤岛问题、程序可扩展性问题、程序开发周期过长问题以及将数据分析需要的专业知识整合进系统,减少对数据分析程序操作人员专业度要求。收集多平台,多来源的数据源,建立有效的清理与整合机制,在此基础上构建为数据分析服务的统一的多维度的数据集市。提炼出一批可以应用在保险公司数据分析的算法,将比较复杂的精算模型,医学知识等整合进分析算法模型中,使最终用户不用熟知算法和一些背景专业知识就可以得到比较专业的分析结果。经过多年来的业务发展和信息系统建设,保险公司积累了大量的历史数据,如何充分利用这些数据,把它转化成商机,一直是各家保险公司思考的问题。国内外研究现状国内状况国外状况国内外研究现状国外状况国外保险业的信息化工作已经完成了基础建设的构建,并在新的领域进行有益的探索,据相关报道:澳大利亚的AllianzElementar保险公司、SPANISHINSURER保险公司和BlueCrossandBlueShieldofFlorida保险公司利用数据挖掘工具对客户忠诚度进行分析,用以减少客户流失;保险欺诈管理方面:据统计,美国的健康保险部门每年因欺诈损失约60亿到250亿美元,财产和意外伤害保险欺诈造成的年度亏损为约30亿美元。美国的菲尔曼基金公司运用企业数据挖掘系统对付欺诈行为和代位追偿进行分析,应用这个系统,预计每年减少欺诈行为造成的损失70万美元,同时每年实现2百万美元的代位追偿收入。中英人寿保险有限公司(Aviva)想利用客户的生活方式数据的分析,如客户爱好、常浏览的网站、常看的节目、收入估计等来推测其患高血压、糖尿病和抑郁症等等健康隐患的概率。目前客户投保时保险公司往往需要客户提供体检报告,用来分析客户的健康状况。如果这种分析方法有效,客户就不再需要在投保时提供给保险公司体检报告。因为向客户索要体检报告是不太让客户感觉舒服的事情。英国保诚保险有限公司(Prudentia)和美国国际集团(AIG)也在探索类似的方法。

国内状况国内的外资保险公司目前普遍使用移植于国外母公司的软件系统,这些系统在涉及境外的保险业务上有着自己独到的优势,但是与国内的保险市场匹配上还存在着一些问题,部分外资保险公司现在也在着手开发适合国内保险的信息系统。国内保险业的信息化进程大致可以分为几个阶段:●1949年,保险业在国内复业:业务处理几乎全为手工化;●1992年,产寿分业,各市、县开发了大量单独出单程序:以县、市为中心的逐步电算化;●2000年,全险种,全流程电子化:逐步开始数据大集中建设,建设全险种,全流程的核心业务系统,提倡以服务为核心;●2006年,保险业大集中基本完成,在保险业竞争的驱动下逐渐开始挖掘业务价值,建立“全组织、全核算”的绩效考核体系;●2010年,IT业务融合、创新:多中心建设,新一代系统建设,创新灵活性IT架构支持快速变化、灵活变化并引导服务的创新;●2013年,大数据理念开始被广泛接受:通过数据解读业务问题,基于大数据的预测和相关性研究。研究难点研究难点(1)数据的取得与清洗:保险公司数据分析需要的数据很多,取得的渠道也很多,可能来自业务系统、手工台帐、调查问卷等等,但是这些信息往往都是信息孤岛。不仅仅公司内部与外部获取的数据较难整合在一起,保险公司内部不同的业务系统中获取的数据也存在着很多不兼容的因素。同时,获取了大量信息后,不可避免的存在各种数据质量问题,需要进行有效清洗以后才能应用到处理系统中。(2)客户的需求不清晰:数据分析是一种知识发现的过程,客户很难一开始就明确的提出流程,需求和分析点。有时候用户在数据分析过程中发现了一些有用信息,又会进一步提出新的需求,而这种需求的提出是不确定的。传统软件设计流程基本上都要求客户在程序设计的开始阶段就提出明确的需求。显然这种模式应用到数据分析领域会有很大的问题。(3)用户希望有一个“简单”的系统:无论中间的过程是简单还是复杂,最终用户往往需要的是简单的数据分析系统。这里的简单主要是指:a、操作简单:不需要繁杂的操作就能得到结果;b、算法简单:在数据分析中尽量使用用户普遍接受的算法或者已经公认,可信度很高的算法,用户如果对算法理解困难,对最终的分析结果接受度并不高。保险公司数据源的收集与处理数据质量的主要控制点三类数据源的处理方式保险公司数据源的收集与处理三类数据源的处理方式不同来源的数据有其自身的特点。可以把数据源分为三类,第一类为别的计算机程序生成的数据,这类数据一般的特点是数量大,容易被程序识别,缺点是可能包含无用的垃圾数据,这类数据处理相对比较容易,只需要在分析程序里建立好相应的抽取机制即可使用。我们使用语句建立筛选、过滤与替换机制,可以得到大量质量较高的源数据。第二类是人工录入的数据,这类数据一般的特点是数据量较小,信息含金量较高,但是错误率较高,如果简单的使用过滤机制将会损失大量的有效信息。这时候可能需要先对原始数据进行汇总,再使用一些识别机制找出错误信息并进行修正。例如Excel是目前比较流行的办公处理软件,很多手工信息登记为Excel格式。如果手上有大量相同格式的Excel数据,可以先用程序将信息汇总到一张表里。把同一文件夹下所有的Excel信息进行汇总。再结合业务规则对信息进行统一校验、整理。整理成的数据将是干净的有价值的数据,转换成文本格式就可以被数据库识别。第三类是假设数据,需要给用户一个方便的录入端口,并要把它与真实数据进行区分,使其不影响将来的其他分析。数据质量的主要控制点数据的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等。影响质量问题的原因有很多,由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致;业务系统不同时期业务过程有变化;旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;遗留系统和新业务、管理系统数据集成不完备带来的不一致性。影响数据质量的因素主要来源于四方面:信息因素、技术因素、流程因素和管理因素。信息因素:产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质(如:数据源规格不统一)得不到保证和变化频度不恰当等。技术因素:主要是指由于具体数据处理的各技术环节的异常造成的数据质量问题。数据质量问题的产生环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面的内容。流程因素:是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节。管理因素:是指由于人员素质及管理机制方面的原因造成的数据质量问题。如人员培训、人员管理、培训或者奖惩措施不当导致的管理缺失或者管理缺陷陋引。两种数据挖掘模型两种数据挖掘模型根据海量保险客户资料,分析客户:性别、年龄、婚否、职业、收入、教育程度等特性,建立数据挖掘模型,预测已购买保险的客户可能还会购买哪些保险,还需要哪些保险责任,未购买保险的新客户,根据其客户特性,预测其最可能购买哪些保险及哪些保险责任,这些预测信息可用于老客户保险深度挖掘,也可为新入司销售人员提供

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论