商务数据分析课件:分类模型应用_第1页
商务数据分析课件:分类模型应用_第2页
商务数据分析课件:分类模型应用_第3页
商务数据分析课件:分类模型应用_第4页
商务数据分析课件:分类模型应用_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类模型应用第一节客户细分1.问题描述客户成为保险公司的重要资产,开发一个新客户比维护旧客户的成本要高得多。因此,保险公司需要对客户的信息进行统计挖掘分析,来更深入的认识和评判客户。通过对客户的分析实现公司和客户之间的双赢。客户细分指的是根据客户的特征信息将客户划分成不同的群体,从而公司可以对不同类别的客户做出不同的决策来促进购买和提高忠诚度。本案例在客户价值理论的基础上,首先利用客户的基本特征(性别、出生日期、地区等)、车辆特征(使用年限、座位数、行驶区域、行驶里程等)、客户行为特征和保险信息特征通过聚类将客户分为四个类别,再利用分类模型来验证客户细分模型,分析客户个人信息和车辆信息等因素对分类结果的影响程度。2.数据理解(1)数据来源本案例数据来自一家车辆保险公司,数据主要是客户购买车险的相关记录。(2)数据描述本案例从企业数据库中提取了以下属性,用于数据挖掘分析:(I)客户人口统计特征:客户编码,客户中文名称,性别,出生日期,地区,健康状况,客户类型。(II)客户车辆特征:保单号码,行驶区域,行驶里程,使用年限,车型代码,厂牌型号名称,国别性质,使用性质代码,座位数,吨位数、排量,车身颜色代码,固定停放地点,新车重置价格,实际价值,是否二手车,二手车交易价格。(III)客户行为特征:保单号码,险类代码,险种代码,投保单号码,投保人代码,投保人名称,被保险人名称,总保险金额,总保险费,理赔次数。(IV)保险信息特征:保单号码,险种代码,序号,险别代码,险别名称,标的序号,标的项目类别代码,标的项目明细名称,起保日期,终保日期。3.数据预处理(1)数据集成将分属于不同数据表中的数据进行集成,依据各类编码,将所需要的信息汇总到一个表上。(2)数据清洗对集成后的数据进行数据缺失值、异常值的处理。具体操作如下:(I)删除严重缺失信息的特征;(II)删除严重缺失的记录;(III)删除存在异常值属性的记录;(IV)填充空白未知类属性。3.数据预处理(3)数据转换、离散和标准化处理结合样本集的特点,采用以下方式对数据进行处理。(I)数据转换属性理赔次数转换为理赔得分,理赔得分越高,理赔次数越少,客户的潜在价值越高。添加新的属性(折旧率),将属性实际价值删除,用新车购置价格和折旧率两个属性来表示车辆的价值。(II)离散化属性如车辆使用年限、座位数和排量有现实含义,可以根据车辆管理部门的规定对连续型数据进行划分。属性如年龄、使用年限,可以通过等宽或等频方式实现离散化。

(III)标准化利用标准化操作,将保险费映射到[0,9]区间上。4.模型建立案例选取了客户的总保险费和理赔得分两个变量代表客户的当前价值和潜在价值,以此聚类得到客户的分类特征。总保险费是代表了客户提供给保险公司的营业收入,缴纳的保险费越多,保险公司的收入越高,因此保险费高的客户具有较高的当前价值。理赔得分越高代表理赔次数越低,则表明可以继续发展该客户,即该客户的潜在价值越高。因此本案例先利用理赔得分和总保险费两个属性用来聚类,将客户分为客户价值理论中的四种类别,再建立分类模型通过客户和车辆的基本信息来判断客户的类别。4.模型建立(1)聚类模型基于选择KMeans方法将客户聚类为4种。四类客户具备如下特点:I类客户当前价值和增值潜力都很低;II类客户价值不高,但具有很大的增值潜力;III类客户具有很高的当前价值和低的增值潜力;IV类客户既有很高的当前价值也有很大的增值潜力。聚类结果表明:II类用户的数量是最多的,说明当前的保险公司的用户出险的概率的较小,同时保险的费用也比较少,即目前该保险公司的客户更多是比较小心谨慎、少出险的客户。4.模型建立(2)分类模型案例以K-means聚类的结果作为客户分类结果,进一步研究影响分类的因素。实验使用神经网络作为主要分类方法,并用逻辑回归、决策树和支持向量机作为参照。由于数据是不平衡数据,因此还采用一些算法对不平衡数据进行处理,具体采用了代价敏感函数、过采样、欠采样、Bagging集成和Boosting集成五种方法。5.模型评价案例通过精确度(Accuracy)、F值(F-value)、召回率(Recall)、准确率(Precision)和AUC来评估模型性能。从分类的整体准确度来看,神经网络的分类准确率达到70%以上,并且优于其他算法;使用了不平衡数据的处理后,代价敏感函数和集成方法取得了较好的提升,而过采样和欠采样的处理对分类结果并无正面影响。6.案例小结本案例将某保险公司的客户按照客户价值理论进行细分,选择客户的总保险费和理赔得分两个变量分别代表客户的当前价值和潜在价值,以此聚类得到客户的分类特征,最后利用分类算法构建新客户的分类模型。由实验过程及结果对比分析可以得出以下结论:首先,保险客户根据保费和理赔次数可以明显地分为四类,符合客户价值矩阵理论,最有价值一类客户,即保费高、理赔少的客户只占到所有客户的1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论