下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 我国居民保险购买行为的决策树模型分析 王姗姗摘 要:近几年许多行业都步入大数据时代,但数据挖掘技术在我国保险领域的应用相对不多,并且我国保险公司也要考虑通过改变传统的经营方法来提升业绩,因此加大对数据的利用力度,过渡到数字化营销模式对保险公司来说十分关键。主要研究决策树算法在保险公司客户识别方面的应用,根据加入误分代价的决策树模型建立的分类规则,找出了影响我国居民是否购买保险产品的主要因素。关键词:决策树;误分代价;基尼指数:f23 :a doi:10.19311/ki.1672-3198.2019.35.0591 数据处理选取2015年中
2、国综合社会调查数据,根据相关研究选取其中的性别、年龄、个人年收入、是否拥有城市/农村基本医疗保险情况这四个影响因素。性别是名义变量,给男性赋值1,女性赋值2。将年龄以及个人年收入进行分段划分,并且对这两个影响因素数据进行离散化处理。初始数据共有10968条,对其进行精简,只保留明确回答是否购买了商业医疗保险的数据,即购买了或是未购买的,凡是回答“无法回答、拒绝回答、不知道、不适用”的都不适用于本文的研究,故直接将其舍去,处理后的数据为10747条。对于其中个人年收入的缺失值对其进行同类插补将其补齐。最后得到的数据中购买商业医疗保险的居民有950个,未购买商业医疗保险的居民有9797个。2 决策
3、树分析2.1 样本不平衡处理由于本文中购买商业医疗保险的居民有950个,未购买商业医疗保险的居民有9797个,样本存在严重的不平衡性,因此我们在建模时要对购买了商业医疗保险的样本增加误分代价。2.2 模型建立决策树是使用类似于一棵树的结构来表示类的划分,树的构建可以看成是变量(属性)选择的过程,内部节点表示树选择哪几个变量(属性)作为划分,每棵树的叶节点表示为一个类的标号,树的最顶层为根节点。本文用cart决策树(回归树)对居民是否购买医疗保险进行分类,该算法是一个二叉树,即每一个非叶节点只能引申出两个分支,因此十分适合用于本文的研究。将处理过后的10747条样本划分为训练集和验证集,随机抽取
4、80%为训练集,剩下的20%为验证集。决策树算法中包含最核心的两个问题,即特征选择和剪枝,关于特征选择目前比较流行的方法是信息增益、增益率、基尼系数和卡方检验。cart算法的特征选择就是基于基尼系数得以实现的,其选择的标准就是每个子节点达到最高的纯度,即落在子节点中的所有观察都属于同一个分类。依次计算出各个属性的基尼指数,并比较各属性基尼指数的大小得到个人年收入的基尼指数最大,从而确定个人年收入为第一个划分属性。个人年收入基尼指数计算步骤如下:首先在对样本划分前,总的训练数据共有2类,即n=2,其中参与商业保险的居民共有760,未参与商业保险的居民共7878,d=7118。首先利用个人年收入进
5、行划分,此属性共有7个值,k=7,即a1=1,a2=2,a3=3, a4p=4,a5=5,a6=6,a7=7,数据集划分成1个集合,即d1,d2,d3,d4,d5,d6,d7。其中dk表示包含個人年收入为编码取k的样本,dk表示总共有多少个样本位于此区间,其中购买了医疗保险的有x人,py=1=p1=xdk表示a=k时购买了商业医疗保险的人数占样本总体的比例,py=-1=p2=dk-xdk表示未购买医疗保险的比例。购买商业医疗保险的样本量比未购买商业保险的样本量少很多,因此使用加入误分代价的cart决策树模型,根据样本中购买了医疗保险和未购买医疗保险的人数比例进行设置误分代价如表5。进行建模得到
6、的决策树风险如表6。从上表可以看出分类的标准误差很低,说明分类的效果比较理想,得到简单树形图为图1。2.3 模型结果解释建模得到的特征重要性如表7所示。可以看到影响到我国居民是否购买商业医疗保险的因素由重要性的从高到低依次为您个人去年全年的总收入、是否参加基本医疗保险、年龄、性别。从这点我们可以看出,收入是一个人是否会购买商业医疗保险的首要决定因素,当收入达到一个较高水平时居民会选择购买商业医疗保险,例如在本文的模型中可以看到收入高于9万元时居民会购买商业医疗保险,这说明我国居民在家庭较为富裕的情况下才会考虑为自己购买医疗保险增加保障。对于保险公司来说,需要在营销时着重了解潜在客户的收入情况,
7、将收入较高的潜在客户作为首要推销目标,降低营销成本。参考文献1王星,谢邦昌,戴稳胜.数据挖掘在保险业中的应用j.数据,2004,24(4):50-51.2王书爽.基于后修正贝叶斯决策树模型的保险企业营销决策j.统计与决策,2013,14(3):180-182.3zhang y,chi 在x,xie f d,li n.a weights-based accuracy evaluation method for multi class multipliable classifier j.journal of computational information systems,2008,4(2):589-594.4bolton r n,kennan p k,bramlett m d.implications of loyalty program membership and service exper
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 废物焚烧处理行业发展趋势及前景展望分析报告
- 废旧纸张再生利用行业发展预测分析
- 体育用品零售行业深度分析与战略规划研究报告
- 食品酶工程行业市场发展趋势及投资咨询报告
- 废旧纸张再生利用行业发展现状及潜力分析研究报告
- 抗感染药物行业市场突围建议及需求分析报告
- 绿色包装材料行业发展全景调研与投资趋势预测研究报告
- 家用机器人行业发展前景及投资风险预测分析报告
- 人才租赁行业发展前景与机遇展望报告
- 供应链金融物流行业市场发展分析及兼并重组机会研究报告
- 世界古代史课件1原始社会
- 《不会写字的狮子》教案
- 结核用药课件
- DB42T169-2022岩土工程勘察规程
- 幼儿爱牙小课堂(保护牙齿)(课堂)课件
- 卫气营血辨证-课件
- 招标文件会签单
- 部编语文三上第五单元教材解读整体教学设计课件
- 中药饮片生产管理(207张)课件
- 五年级数学家长会ppt
- 消化内科医师晋升副主任(主任)医师例分析专题报告(间断腹泻、腹痛、发热)
评论
0/150
提交评论