保险行业数据分析_第1页
保险行业数据分析_第2页
保险行业数据分析_第3页
保险行业数据分析_第4页
保险行业数据分析_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、保险业数据分析数据分析完整流程:、业务背景业务环境宏观中国是世界第保险市场,但在保险密度上与世界平均平仍有明显差距。业界保险业2018年保费规模为38万亿,同增长不4%,过去“短平快“的发展模式已经不能适应新 时代的业发展需求,业及户长期存在难以解决的痛点,限制了业发展。社会互联经济的发展,为保险业带来了增量市场,同时随着民规模的扩,户的为习惯已发转变,这些都需要互联的式进触达。保险科技:当前沿科技不断应于保险业,互联保险的概念将会与保险科技概念度融合。中国保险市场持续速增长。 根据保监会数据, 20112018年,全国保费收从1.4万亿增长3.8万亿,年复合增长率17.2%。2014年,中国

2、保费收突破2万亿,成为全球仅次于美国、本的第三新兴保险市场市场; 2016年,中国整体保费收突破3万亿,超过本,成为全球第保险市场; 2019年,中国保费收有望突破4万亿。2.发展现状概览受保险业结构转型时期影响,互联保险整体发展受阻, 2018年业保费收为1889亿元, 较去年基本持平,不同险种发展呈现分化格局,其中健康险增长迅猛, 2018年同增长108%,主要由短期医疗险驱动。格局供给端专业互联保险公司增长迅速,但过的固定成本及渠道费使得其盈利问题凸显,加上发展现状强,经营渠道建设及科技输出是未来的破局法, 渠道端形成第三平台为主,官为辅的格局,第三平台逐渐发展出B2C、 B2A、B2B

3、2C等多种创新业务模式。模式互联保险不仅仅局限于渠道创新,其核优势同样体现在产品设计的创新和服务体验的提升。3.发展趋势竞合格局随着局企业增多,流量争夺更加激烈,最终保险公司与第三平台深度合作将成为常态。保险科技当前沿科技不断应于保险业,互联保险的概念将会与保险科技概念度融合。4.衡量指标5.业务标针对保险公司的健康险产品的户,制作户画像,然后进精准保险营销。、案例数据1.数据来源美国某保险公司,和本公司合作多年。现在该公司有款新的医疗险产品准备上市。2.产品介绍这款新的医疗产品主要是针对65岁以上的群推出的医疗附加险,销售渠道是直邮。3.商业的为保险公司某种健康险产品做户画像,找出最具有购买

4、倾向的群以进保险营销。4.数据介绍本次案例数据共有76个字段,字段繁多,在处理数据时,需要先将数据按照类别进归类,便理解查看。5.分析思路根据经验,我们可以概判别哪些特征很可能和户是否购买保险会有相关关系。结合我们的业务经验,以及数据可视化,特征程法,先探索这些特征中哪些特征更重要。建模之后,再回顾我们这认为较重要或不重要的特征,看下判断是否准确。三、Python代码实现了解数据样本和特征个数、数据类型、基本信息等import numpy as npimport pandas as pdimport warningswarnings.filterwarnings(ignore)df=pd.re

5、ad_csv(rD:liworkadatama_resp_data_temp.csv)pd.set_option(max_columns,100) # 100列数据df.head()()统计数据基本信息、统计空值数量#idobjectlen(df.columns)len(df.columns)-df.dropna(axis=1).shape1NA=df.isnull().sum() # 统计各个列空值的数量NANA=NA.reset_index()NA#修改列名NA#,0的数据NA=NANA.NA_count0.reset_index(drop=True)NANA

6、.NA_count/df.shape0数据可视化分析plt.style.use(seaborn)#持中输出plt.rcParamsfont.sans-serif=SimHeiplt.rcParamsaxes.unicode_minus=False# plt.rcParamsfont.family=Arial Unicode MS # OS 系统探索样本分类是否平衡df.resp_flag.value_counts()plt.figure(figsize=(10,3)sns.countplot(y=resp_flag,data=df)plt.show()#例关系df.resp_flag.sum(

7、)/df.resp_flag.shape0绘制年龄的分布情况dfage.max()分别绘制两类样本的年龄分布plt.ylabel(Density)查看不同学历之间购买保险的数量#学历的分布sns.countplot(x=c210mys,hue=resp_flag,data=df)不同县的对应的购买数量sns.countplot(x=N2NCY,hue=resp_flag,data=df)含空值的列,每列的数据类型统计出来,并加在NA的表中temp=NA=tempNA空值填充NANA.Var!=agedf.AASN.mode()0#众数填充for i in NANA.Var!=age.Var:d

8、fi.fillna(dfi.mode()0,inplace=True)#对年龄均值进填充df.age.fillna(df.age.mean(),inplace=True)#验证结果 0就代表都已填充完毕df.isnull().sum()变量编码df.head()#objectdf_object.shapedf_object=OrdinalEncoder().fit_transform(df_object)df_object#字符转数值if dfi.dtypes=object:dfi=OrdinalEncoder().fit_transform(dfi)df.head()建模Xtrain,Xte

9、st,Ytrain,Ytest=train_test_split(X,y,test_size=0.3,random_state=420)#建模clf = tree.DecisionTreeClassifier().fit(Xtrain,Ytrain)clf.score(Xtest,Ytest)模型优化from sklearn.model_selection import GridSearchCV#格搜索param_grid=max_depth:range(3,8),GR.fit(Xtrain,Ytrain)#tree.DecisionTreeClassifier参数的值GR.best_para

10、ms_GR.best_score_clf=tree.DecisionTreeClassifier(max_depth=7,min_samples_leaf=1000).fit(Xtrain,Ytrain)clf.score(Xtest,Ytest)画决策树import graphviz #要提前安装哦dot_data = tree.export_graphviz(clf,feature_names=features,rounded=True)graph = graphviz.Source(dot_data)graph.render(model1)四、输出结果我们来看下购买例最的两类客户的特征是什么:第类处于医疗险覆盖率例较低区域居住年

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论