汽车保险索赔次数双泊松回归模型运用_第1页
汽车保险索赔次数双泊松回归模型运用_第2页
汽车保险索赔次数双泊松回归模型运用_第3页
汽车保险索赔次数双泊松回归模型运用_第4页
汽车保险索赔次数双泊松回归模型运用_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、-精品文档!值得拥有!-汽车保险索赔次数双泊松回归模型运用1引言在拟合汽车保险索赔次数的模型中,泊松分布模型是拟合索赔次数的最简单且常用的模型,具有均值与方差相等的特性。而索赔次数模型往往具有方差大于均值的性质,此时如果继续使用泊松分布模型会低估参数的标准误差,高估其显著性水平,导致多余的解释变量保留在预测模型中,最终导致不合理的保费。对于此类问题,研究人员通常利用各种不同的混合泊松模型来预测索赔次数。Ruohonen1提出结构函数为三参数伽玛函数的泊松分布,同时用实际损失数据与两参数结构函数泊松模型即负二项模型进行了比较,得到了比较满意的结果。Panjer2运用广义poissonpascal

2、分布(即Hofmann分布,含三个参数)来建立汽车索赔次数模型,拟合效果也比较理想。NorisonIsmail和AzizJemain3讨论了负二项回归模型和广义泊松回归模型的参数估计及其在索赔频率预测中的应用,而DenuitMichel4等人应用负二项回归、泊松逆高斯回归和泊松对数正态回归对汽车保险的索赔频率进行了实证研究。国内关于索赔频率模型的研究主要有孟生旺和袁卫5用混合Poisson模型研究了非同质风险的索赔分布。高洪忠、任燕燕6研究了一类更广泛的分布,即GPSJ类分布,这类分布描述了一次风险事件多种索赔结果的情况。毛泽春和刘锦蕚7分析了免赔额及NCD赔付条件对索赔次数分布的影响,通过比

3、较风险事件与索赔事件的差异引出了一类同质集合保单索赔次数的分布(Pois-sonGamma)。毛泽春和刘锦蕚8引出了一类指数类混合型索赔次数的分布并研究了其散度(disper-sion)的性质,同时给出了拟合类分布的矩估计方法。徐昕、袁卫、孟生旺9将两参数负二项回归模型推广到三参数情况,并利用新模型对Yip和Yau10中的汽车保险损失数据进行了拟合,得到了较好的效果,提出了解决过离散问题的一种新办法。学者们的研究大多数集中在混合泊松分布模型上,而双泊松分布模型也是一类离散型分布模型,具有方差大于均值的特性,但关于利用双泊松回归模型预测汽车保险索赔次数的文献并不多见。本文将在下面内容中详细介绍双

4、泊松回归模型的性质及参数估计,并且利用该模型来拟合一组实际的汽车保险索赔数据,并将其结果与泊松回归模型的拟合进行比较分析。2泊松回归模型性质及参数估计为便于讨论,假设共有p个分类变量,将所有保单分为n个风险类别,其中第i个风险类别在p个分类变量上的取值用xi=(xi1,xip)T表示,T表示转置。用wi表示第i个类别包含的风险单位数(如汽车保险中的车年数)。令Yi表示第i个风险类别的索赔次数随机变量,i=1,2,n。如果Yi服从泊松分布,则其概率函数为:Pr(Yi=yi)=exp(i)yiiyi!,yi=0,1,泊松分布的均值与方差相等,即E(Yi)=Var(Yi)=i。若令i=wiexp(x

5、Ti),即可得到泊松回归模型,其中是p×1阶的参数向量。容易求得泊松回归模型的对数似然函数为:l=ni=1(lnyi!+yilnii)回归参数的极大似然估计可以通过下述似方程组求得:lj=ni=1(yii)xij=0,j=1,2,p为了求得参数估计的标准误差,首先需要计算Hessian矩阵,其中的元素是关于对数似然函数的二阶偏导数,即Hjk=2ljk=ni=1i,xijxik,j,k=1,2,p因此信息矩阵的元素为Ijk=E(Hjk)=ni=1i,xijxik,j,k=1,2,p对信息矩阵对角线上的元素先求导数,然后再开方,即可得到参数估计的标准误差。3双泊松回归模型的性质及参数估计

6、虽然无法确定双泊松分布是否也是一种混合泊松分布,但由于其具有方差大于均值的特征,因此也可以用于过离散数据的处理。双泊松分布的概率函数可以表示为:Pr(Yi=0)=1/2e2iPr(Yi=yi)=(1/2ei)(eyiyyiiyi!)(eiyi)yi,yi=1,2均值和方差分别为:E(Yixi)=i,Var(Yixi)=i(1/+i(1)2此处对双泊松分布形式不同于Yip和Yau文献中的双泊松回归模型。这样做的目的是使其均值正好等于i,与其他分布保持一致。如果采用其他的参数形式,譬如,如果参数的形式使得双泊松分布的均值正好为i/(参见Yip和Yau),则截距项的估计值将发生变化,但索赔频率的预测

7、值不会受到影响。从上述方差和均值的关系可以看出,当在区间(0,1)之间变化时,越小,双泊松分布的过离散程度越严重,因此我们将g=q定义为双泊松分布的离散参数。当1时,双泊松分布退化为泊松分布。容易求得双泊松回归的对数似然函数为:l=yi=012ln2i+yi012ln2iyi+yilnyilnyi!+yiln(exp(1)i/yi)对上式求偏导,可以得到模型的似然方程组为:l=yi=01/(2)i+yi01/(2)2i+yiln(exp(1)i/yi)+yi=0lj=ni=1(yii)xij=0双泊松回归的Hessian矩阵H的元素也很容易求得:2ljk=ni=1(2ixijxik),j,k=

8、1,2,p因此双泊松回归的信息矩阵的元素为Ijk=E(Hjk)=ni=1(2ixijxik),j,k=1,2,p。4模型检验41过离散检验对于索赔数据是否具有过离散的特征,通常利用两种方法来判断。一是在普通最小二乘回归模型的基础上建立的统计量(Cameron和Trivedi11),满足下述条件(yii)2yii=i+ei其中的i=exp(xi),ei是随机误差项。如果系数的t统计量显著,说明存在过离散特征。另外一种方法是拉格朗日乘法(LagrangeMulti-plier)检验(Greene12提出的)。LM统计量可以简单表示为LM=(e'e_ny)22'其中的=(1,n)&#

9、39;,i=exp(xi),e=y,y=(y1,yn)。在零假设为泊松分布的条件下,LM统计量服从自由度为1的x2分布。42拟合优度检验对模型拟合优度进行评价可以使用AkaikeInfor-mationCriteria(AIC)统计量和BayesianSchwartzCri-teria(BIC)统计量。AIC统计量定义为(Akaike13):AIC=2l+2p其中l表示对数似然值,p为参数的个数。AIC的值越小,表明模型的拟合越好。BIC统计量定义为(Schwartz14):BIC=2l+plog(n)其中的l也表示对数似然值,p为模型的参数个数,n为观测值的个数,BIC的值越小,模型拟合越好

10、。5实证分析51数据的描述本节选用一组来自SASEnterpriseMiner数据库中的汽车保险数据。原始数据中有10303个观测值,其中大约有6%的缺失,数据包含索赔概况、驾驶记录、保单信息、被保险人个人信息。索赔概况记录了被保险人的索赔频数、索赔额、索赔时间等信息;驾驶记录包括驾驶人的分数、过去7年中是否被吊销驾驶执照;保单信息有被保险车辆的行驶区域、行驶时间、汽车价格、颜色、用途等;被保险人的个人信息有年龄、性别、教育程度、工作类型、婚姻状况、年收入等。选取与Yip和Yau相同的费率因子(见表1),其中收入为连续变量,其余为属性变量,从10303个客户中随机抽取了4412个有效记录。52过离散检验首先依据第一种方法利用统计软件SAS的回归模块(即PROCREG)得到结果见下表2,很明显预同样,利用拉格朗日乘法(LagrangeMultiplier),利用SAS中IML模块求得LM值为12847816,并且显著。从两种检验方法可以判定,损失数据存在过离散问题。53拟合结果从下表3中的回归模型拟合结果来看,双泊松回归模型和泊松回归模型的参数估计值差别不大,显著性水平因子也相同。但由前面判断,此数据存在过离散特性,泊松回归模型费率因子参数估计标准误差明显小于双泊松回归模型。从整体上看,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论