分布式计算、云计算与大数据 第2版 课件 第11章 保险大数据分析案例_第1页
分布式计算、云计算与大数据 第2版 课件 第11章 保险大数据分析案例_第2页
分布式计算、云计算与大数据 第2版 课件 第11章 保险大数据分析案例_第3页
分布式计算、云计算与大数据 第2版 课件 第11章 保险大数据分析案例_第4页
分布式计算、云计算与大数据 第2版 课件 第11章 保险大数据分析案例_第5页
已阅读5页,还剩51页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第11章保险大数据分析案例提纲案例背景与需求概述设计方案环境准备实现方法不足与扩展背景介绍迅猛发展的大数据已渗透到各行各业,传统的保险业也毫不例外。其已经积累并正不断积累着数据,数据对保险公司具有至关重要的意义。大数据在保险行业的应用主要包括两个视角:

通过新技术解决及有问题

新数据的创新型运用,新型数据与传统数据的结合保险公司对大数据时代的应对方式成为未来发展的关键因素基本需求大型保险公司的三个业务场景:基于用户的家谱信息挖掘基于历史销售数据的用户推荐基于历史销售策略的回归检验基于用户的家谱信息挖掘场景一背景随着保险业的逐步发展,人们对购买保险的意愿逐步升高,保险购买的潜在群体正在快速扩大,如何能够更精准了解用户的购买意向成为了十分迫切的需求。保险的购买行为往往呈现出家庭性质,对家庭关系的挖掘可以通过保单上或投保人与受益人的关系进行。基于用户的家谱信息挖掘场景一目标通过技术的手段对公司所有的交易数据进行处理,挖掘出用户的家庭关系,保存起来供其他业务使用。通过家谱信息,销售员便可以精准地推荐产品给其家庭里面的其他人,达到了精准营销的目的。基于用户的家谱信息挖掘基于历史销售数据的用户推荐场景二背景保险公司在拓展新客户通常采取撒网式的方法,让保险业务员依靠自身的能力逐个拜访客户,方法低效保险公司对于用户精准分类方面的需求非常迫切,希望能够通过过往交易数据,发现出下一个季度中某一个产品最可能购买的用户群,保险销售员在销售该产品的时候能够集中精力优先向这一类客户推荐。基于历史销售数据的用户推荐场景二目标对于某一种特定的产品,对算法分类出来的客户,以购买概率的大小排序,然后分为若干个优先级的客户,保险销售员按照优先级的先后顺序推销保险产品。用户精准筛选案例图基于历史销售策略的回归检验场景三背景保险公司在销售某款产品的时候,根据用户的若干特征做优先级推荐销售策略。这些特征具体对销售的结果影响如何,在传统BI系统下依据统计的方法很难得出相关的结论,只能通过宏观的销售额来大致确定销售策略是否有效。基于历史销售策略的回归检验场景三目标通过大数据分析的手段得出每个特征对购买结果的影响程度,检验以往的推销策略是否有效,从而在下一年的销售当中促进保险的销售额。本案例的3个功能目标(3个算法)1.根据销售数据中投保人与受益人的关系信息,基于GraphX进行家谱信息的挖掘;2.根据某保险产品的历史销售数据,基于分片的随机森林算法进行用户推荐,并按用户购买该产品的概率大小进行排序;3.根据历史销售数据的用户特征数据,基于FP-Growth关联规则挖掘算法进行回归检验,比较各特征对销售结果的影响。提纲案例背景与需求概述设计方案环境准备实现方法不足与扩展基于GraphX的并行家谱挖掘算法为什么使用图算法?传统的家谱挖掘算法,需要自上而下多次扫描所有的数据,十分消耗系统资源,甚至很容易出现极端情况使得挖掘结果出现异常,使用图算法则能够有效地提高效率。基于GraphX的并行家谱挖掘算法算法简介基于GraphX的并行家谱挖掘算法算法执行步骤1.利用数据存储图2.通过图计算出所有连通分量基于GraphX的并行家谱挖掘算法步骤一:存储图存储图需要点集和边集,点集可以使用用户映射表,边集则可以使用用户关系表。点集和边集存储图的过程如右图所示基于GraphX的并行家谱挖掘算法

使用深度优先算法对图进行搜索,算法的流程如右图所示步骤二:计算连通分量基于分片技术的随机森林算法为什么不用其他算法?待训练的维度相互之间存在不独立的现象朴素贝叶斯分类数据分布不均匀且每个特征都存在着严重的不均衡性SVM和决策树算法基于分片技术的随机森林算法为什么使用随机森林算法?随机森林算法由若干棵决策树构成,每一棵决策树都能对正确目标给出合理、独立且互不相同的估计,这些数的集体平均预测应该比任一个体的预测更接近正确答案。基于分片技术的随机森林算法不平衡分类问题,如何分配数据?对数据进行分片处理,在这个问题中,多数类指“未购买”,少数类指“购买”,将多数类平均分成若干个子集,每个子集都和少数类合并为一个新的训练集,每个训练集独立构建分类器基于分片技术的随机森林算法针对不平衡问题的评判准则?针对不平衡分类问题,学术界提出了众多新的评价准则,主要有:召回率recall、准确率precision、F-value等。对于这里的基于分片技术的随机森林算法,我们使用F-value值来评判算法的效果。基于分片技术的随机森林算法F-value公式

(4-3)

(4-2)

(4-1)基于分片技术的随机森林算法建模流程图基于内存计算的FP-Growth关联规则挖掘算法为什么不用贝叶斯公式?1.计算繁琐,对每个特征都需要计算一次2.贝叶斯公式只能通过人为指定特征的方法计算3.计算繁琐,对每个特征都需要计算一次基于内存计算的FP-Growth关联规则挖掘算法关联规则分析其常见算法有:FP-Growth算法Apriori算法思想简单,实现方便,得到了广泛的应用。但是该算法需要多次扫描数据库并产生大量中间结果,应用面比较窄分而治之,将数据做切分后,分配到各个部分中,每个部分都将其项集压缩到一个频繁项集树(FP-tree)中,然后从树的子节点以深度优先的方法挖掘出频繁项集。只需要扫描数据库两遍,在时间和空间性能上都比Apriori算法优异许多基于内存计算的FP-Growth关联规则挖掘算法建模过程1.构建数据全集D,每行都包括用户身份证号,特征集合。2.挖掘频繁项集,设定支持度为s,挖掘出现次数大于s的子集。3.挖掘关联规则,设定置信度c,挖掘置信程度大于c的规则,并通过计算提升度(lift)系数来评判关联规则的相关性。提纲案例背景与需求概述设计方案环境准备实现方法不足与扩展环境准备操作系统/软件名称版本号Windows10Java1.8.0_74Scala2.11.8IntelliJIDEA2016.3Maven3.3.9Spark2.0.0提纲案例背景与需求概述设计方案环境准备实现方法不足与扩展实现方法4.1基于GraphX的并行家谱挖掘—数据准备本节用到的数据集为dataSet.csv,源数据的格式及字段的含义可参考右图实现方法4.1基于GraphX的并行家谱挖掘—代码步骤构建点集和边集构造图与计算连通分量进行家谱挖掘,并保存挖掘结果实现方法4.1基于GraphX的并行家谱挖掘—程序运行及结果分析结果数据集的每行代表一个家庭,第一个数字代表家庭的编号,List为该家庭所有关系的集合,依据家庭中每个连通子分量的值,即可构建出家庭的图谱。实现方法4.2基于分片技术的随机森林模型用户推荐—数据准备dataSet0.csvdataSet1.csv没有购买某一保险产品的用户的数据集购买了某一保险产品的用户的数据集实现方法4.2基于分片技术的随机森林模型用户推荐—代码步骤1.将数据打包成LabeledPoint格式2.对数据集作分片处理3.模型训练4.结果预测5.计算评判参数6.保存用户的分类情况实现方法4.2基于分片技术的随机森林模型用户推荐—结果分析“TestError”为每个分片中随机森林的预测错误率。“avgerror”为所有分片的平均错误率“total”表示分析数据的总量“totalpredict”表示通过模型预测为“购买”的总数“totalcorrect”为与真实购买情况比对后预测正确的总数,“precision”为准确率,“recall”为召回率“F1”为F-value值。实现方法4.2基于分片技术的随机森林模型用户推荐—结果分析实现方法4.2基于分片技术的随机森林模型用户推荐—结果分析实现方法4.2基于分片技术的随机森林模型用户推荐—结果分析实现方法4.2基于分片技术的随机森林模型用户推荐—结果分析部分用户推荐结果分片数为6的随机森林模型认为id为27422的客户100%购买该保险产品而id为84507的客户则有83.33%的可能性购买该产品业务员应该优先选择向id为27422的客户推销该款保险产品。实现方法4.3基于FP-Growth关联规则挖掘算法的回归检验—数据准备样例源数据实现方法4.3基于FP-Growth关联规则挖掘算法的回归检验—代码步骤1.构建数据总集D2.挖掘频繁项集3.挖掘关联规则实现方法4.3基于FP-Growth关联规则挖掘算法的回归检验—程序运行及结果分析部分运行结果其中第一个数值为关联规则的置信度,第二个数值为lift系数。实现方法4.3基于FP-Growth关联规则挖掘算法的回归检验—程序运行及结果分析实现方法4.3基于FP-Growth关联规则挖掘算法的回归检验—程序运行及结果分析实现方法4.3基于FP-Growth关联规则挖掘算法的回归检验—程序运行及结果分析实现方法4.3基于FP-Growth关联规则挖掘算法的回归检验—程序运行及结果分析实现方法4.4结果可视化—环境准备(1)Myeclipse:项目开发使用的IDE,可使用同类型的其他IDE,比如Eclipse。,(2)Tomcat:常用的轻量级WEB应用服务器。(3)JavaJDK1.7:java运行环境,当前JavaJDK最新版本为1.8,但由于我们提供的可视化项目使用的Spring框架版本为3.2,与Java1.8存在兼容性问题,请务必注意,若读者想要基于Java1.8运行本项目,请改用Spring4框架。(4)Mysql:数据库。(5)Navicat:数据库管理工具,大大提高开发效率。实现方法4.4结果可视化—家谱展示右图为以该用户为中心的家谱信息。将鼠标放置在边上可显示其相互之间的关系实现方法4.4结果可视化—用户推荐展示实现方法4.4结果可视化—回归检验展示实现方法4.4结果可视化—回归检验展示实现方法4.4结果可视化—回归检验展示提纲案例背景与需求概述设计方案环境准备实现方法不足与扩展不足与扩展(1)未在Linux环境下进行整个案例的实现,以集群环境运行Spark,并配合HDFS等大数据组件进行实验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论