广义线性模型在精算中的应用_第1页
广义线性模型在精算中的应用_第2页
广义线性模型在精算中的应用_第3页
广义线性模型在精算中的应用_第4页
广义线性模型在精算中的应用_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

广义线性模型在精算中的应用

一、广义线性模型1972年,nelder延续了经典的线性回归模型,建立了统一的理论和计算框架,对回归模型在统计上的应用产生了重要影响。这种新的统计模型称作广义线性模型(generalizedlinearmodels简称GLM)。张尧庭在与经典线性模型对比的基础上,对广义线性模型本质特征进行了描述;陈希孺对多元广义线性模型进行了系统的介绍。近年来,广义线性模型在理论和应用上得到了快速的发展,在模型的拓展、参数估计方法以及模型的检验和诊断等方面不断趋于成熟。中国学者在广义线性模型参数估计的相合性、收敛速度、模型的诊断等方面得到了不少优秀成果。用于GLM的计算软件也相继问世,目前除了由NAG(NumericalAlgorithamsGroup)研发的专用程序GLIM(GeneralizedLinearInteractiveModelling)外,SAS和S-Plus统计软件中的Genmod模块也被广泛使用,在统计软件R和Xplore中,也有相应的计算模块。得益于应用软件的推广,广义线性模型在医学、农业、交通运输,产品试验以及经济、金融等方面得到了广泛的应用。近年来,又出现了广义线性混合模型、半参数广义线性模型、广义非线性模型等拓展模型。广义线性模型在精算中的应用起始于20世纪80年代。其应用涉及到精算学的各个领域,如生命表的修匀、损失分布、信度理论、风险分类、准备金和费率估计等方面。广义线性模型的建立,极大地推动了以统计方法为基石的精算学的发展。经典的线性回归模型,都是建立在对称分布的基础上,以常值方差为假设。但在精算实践中,所采集的数据往往显示出非常值方差的趋势,用于描述索赔额等变量的分布通常具有厚重的右尾,反应变量不再局限于对解释变量的线性依赖。在许多情况下,经典线性回归模型不再适宜作为精算统计模型。而广义线性模型的出现,为精算学的发展提供了有力的工具。Haberman分六个方面,对广义线性模型在保险精算中的应用作了详细的论述。二、大型线性模型与非保险计算(一)经典线性模型中,小的分布和能量体现1.在经典线性模型中,假定反应变量是服从正态分布的连续变量,但这一假定在应用中可能是不成立的。如索赔次数是离散变量,索赔额大小的分布往往是右偏的。2.经典线性模型中,假定各数据点的方差是相等的,但在实际应用中这一假定会遭到破坏。如索赔次数的方差可能随其期望值的增大而增大。3.在非寿险中,损失事件发生的概率是0和1之间的数,若将此变量作为反应变量,如果再简单地将概率表示为解释变量的线性组合是不合适的,因为该线性组合的取值可以是(-∞,+∞)中的任何值。4.反应变量与解释变量间的关系不再是线性的。(二)基于广义线性模型的非参保估计广义线性模型包容了应用非常广泛的logistic模型和对数线性模型。与经典线性模型相比,广义线性模型具有如下特点:1.反应变量不再局限于正态分布,而被扩展到具有散布参数的单参数指数型分布,包括正态分布、Poisson分布、Gamma分布、逆Gauss分布和二项分布以及Tweedie类复合Poisson分布等。2.反应变量的期望值表示为线性预测量的函数,该函数称为联系函数(linkfunction)。3.不要求方差为常数,方差可以是均值的函数。4.参数的估计与分布的具体形式无关,只要知道反应变量的一、二阶矩即可。广义线性模型将经典线性模型中反应变量的正态假设放宽为具有散布参数的指数型分布,这大大扩展了其在非寿险精算中的应用。使用该分布假设,既可对连续型变量进行拟合,也可对离散型变量进行拟合;既可对对称型变量进行拟合,也可对分布具有较大偏度的变量进行拟合;对非寿险精算中的常用变量,如索赔次数、损失额度、损失率、损失频率等都可以建立广义线性模型进行拟合并进行预测和估计。通过联系函数将反应变量和解释变量之间的关系设定为非线性关系,这不仅为拟合属性变量和取值为特定区间(如事件发生的概率)的变量提供了可能,同时也更加符合保险精算中反应变量与其影响因素之间的更为复杂的非线性关系,从而克服了经典线性模型应用上的局限性。总之,广义线性模型作为线性模型的拓展,其良好的特性决定了其在非寿险学中应用的广泛性。三、非险险率厘定的相关研究费率厘定是广义线性模型在非寿险精算中应用最为活跃的领域。将广义线性模型用于非寿险费率厘定的研究始于20世纪70年代。用GLM估计保险费率,一般从两个方面建立模型:(一)索赔频率估计模型设u≡(i1,i2,…)表示根据各费率因子的不同水平组合而成的特定费率单元,(u,nu,eu)表示u单元的基本情况,eu表示该单元的潜在风险单位(exposure),nu表示该单元中的索赔次数。设muk为单元中的第k个风险单位的索赔次数,设Nu为单元索赔次数随机变量。建模需作下列基本假设:1.单元中的各风险单位同质(homogeneity),即它们有完全相同的分布。2.同一风险单位事故发生的频率不受前期索赔的影响。3.单元中的各风险单位相互独立。根据上述假设选取的不同,分如下三种情况进行讨论:(1)理想化情形。在上述假设都成立的情形下,设muk~Poi(λu),则:E(muk)=λu=var(muk)Nu~Poi(eu·λu)μu=E(Nu)=eu·λu=var(Nu)似然函数为:l=∑u{-μu+nulog(μu)}+constant取对数函数为联系函数,得:ηu=log(μu)=log(eu)+log(λu)=log(eu)+∑jxujβj因log(eu)为常数,所以:log(λu)=∑jxujβj或λu=exp{∑jxujβj}McCullagh利用此模型估计轮船风浪保险的索赔频率,Andrade和Brockman分别将该模型用于汽车保险索赔频率的估计。Stroinski则讨论了汽车保险中索赔频率影响因子的选择。另外,该模型在寿险精算中也有广泛的应用。(2)非齐质(heterogeneity)情形。基本假设中的1不成立的情形。对此种情形,Renshaw假设索赔频率服从复合Poisson分布。设ru=nu/eu,ru~Poi(λu),λu是一随机变量,服从某种分布。于是:E(ru)=E(E(ru|λu))=E(λu)var(ru)=E{var(ru|λu)}+var{E(ru|λu)}=E(λu)+var(λu)这里var(ru)>E(ru)。因而此模型具有超散布性(over-dispersed)。超散布性是由于各样本之间的相依性和非齐质性而导致的,超散布性在实际问题中经常存在。若所讨论的问题中存在超散布性,其分布不再是前文所提到的分布的标准形式,估计参数β值的极大似然法也不再适用,由此发展了拟似然估计法,由于相依性和非齐质性并不影响均值,拟似然估计法中也只需反应变量的一、二阶矩参与,因而当出现超散布性时,仍可选择相应的指数型分布建立广义线性模型,但要对方差作适当调整,如给所选定的指数型分布的方差函数乘以一个适当的常数并利用已知数据对这一常数进行估计。或者,可给出λu的分布假设。如设λu服从G(v,v/μ),则ru服从负二项分布,E(ru)=μu,方差函数V(μu)=μu+1vμ2u,离散参数ϕ=1。若v→∞,ru近似为Poisson分布。(3)索赔概率。基本假设(2)不成立的情形。此种情形的实际背景是,汽车驾驶员在一次索赔后,往往对汽车进行认真检修,驾驶更谨慎,从而发生事故的机率大大降低甚至降为0。这种实际情况不适宜采用前面所述的Poisson分布假设。这时muk的取值仅限于0和1。于是可假设发生次数服从二项分布:Nu~B(eu,pu)。设μu=E(Nu)=eu·pu,则方差函数为:V(μu)=μu(eu-μueu)离散参数ϕ=1。取联系函数为二项分布的自然联系函数—分对数函数建立如下关系:∑jxujβj=ηu=log(μueu-μu)=log(pu1-pu)Beirlant应用此模型进行汽车保险索赔概率的估计。(二)模型建立与分析用(u,nu,yu)表示u单元的基本情况,nu为单元索赔次数,yu为平均索赔额,Yu为平均索赔额随机变量。将Yu作为反应变量,采用幂方差函数,建立广义线性模型:μu=E(Yu)V(μu)=μuζωn=nu经验表明:索赔额的分布通常具有正的偏度且取正值。J《rgensen证明了当ζ≥2时的分布具有上述性质。典型的情况是ζ=2,对应的分布是Gamma分布和Pareto分布。若设平均索赔额服从Gamma分布,建立模型:μu=E(Yu)V(μu)=μ2uωn=nu,ϕ=1/vMcCullagh利用此模型对汽车保险数据进行分析。此文中,取联系函数为μuγ=ηu的形式,并取γ=-1。Brockman和Mack也采用了此模型,但二者都采用对数联系函数。对数联系函数可看作是幂形联系函数当γ→0的极限形式。对Pareto分布,其模型的的建立与Gamma分布的情形完全相似,只在以下两方面有所不同:(1)离散参数ϕ>1。(2)对系数的估计方法不同,前者是采用极大似然估计法,后者采用拟似然估计法。对ζ>2的情况,Renshaw进行了讨论。文中给出了该情况下b(θ)函数的代表形式:b(θ)=-log(-θ),该形式对应于逆Gauss分布,此时ζ=3。Gamma分布(ζ=2)是该种情况的极限形式。对一个实际问题,该文提出了确定最优ζ(ζ≥2)值的方法,即利用扩展拟似然函数的-2倍的量进行比较从而选择ζ(ζ≥2)的适合值。McCullagh在其汽车保费的例子中得到的ζ的最好值约为2.4。J《rgensen得到,与1<ζ<2对应的分布是复合Poisson分布。对1<ζ<2的情况,Renshaw进行了讨论。J《rgensen利用复合Poisson分布建立了汽车保险费率的估计模型。与ζ=1对应的分布是Poisson分布。ζ=0时对应的是Guass分布。与0<ζ<1对应的指数型分布不存在。ζ<1时,对应分布的支撑集为整个实数集,不能用于保险精算的建模。(三)拟似然估计法迭代之前的文献都集中于讨论反应变量(如索赔频率,平均索赔额)的期望值模型,即将这些变量作为模型的反应变量,通过联系函数建立其期望值与费率因子之间的关系。Smyth提出:为更精确地建立保险费率模型,不但要考虑其期望值与费率因子之间的关系,也要考虑其变量的分散程度与费率因子之间的关系。双广义线性模型为实现这一目标提供了可能。以下简要介绍其基本思想:设Ni为第i个组别中索赔次数随机变量,Zi为该组中总的索赔额,Yi=Zi/wi表每一风险单位的平均索赔额随机变量,wi为风险暴露数。设Ni~Poi(λi·wi),个体索赔额服从期望为τi,形状参数为α的Gamma分布。于是可知Ni和Yi以概率exp(-λi·wi)取0值。且:μi=E(Yi)=λi·τivar(Yi)=φiμip/wi这里p=(α+2)/(α+1)φi=λ1-piτ2-pi/(2-p)因α>0,所以1<p<2。可知Yi服从复合Poisson分布。可建立反应变量为Yi的广义线性模型为:μi=E(Yi)V(μi)=μip(1<p<2)ϕ=1ω=wi/φig(μi)=xΤiβ称此模型为主模型。若γ(其含义见子模型)和p的值给定,参数β的估计可利用拟似然估计法通过迭代得到。主模型的偏差di的期望和方差函数近似为:E(di)=φiVd(φi)=φ2i将di作为反应变量,可建立近似Gamma分布的广义线性模型:E(di)=φiVd(φi)=φ2iϕ=2ω=1gd(φi)=zΤiγ称此模型为子模型。给定β及p的值,同样可利用似然估计法通过迭代得到参数γ的值。通过选取适当的μi和φi初始值(可取μi=yi,φi=1),并采用某种交互迭代方法可得到β和γ的收敛值。四、未决保证金的估计模型非寿险精算中,对准备金的讨论一般基于流量三角形。设行数i(i=1,2,…,n)为发生年,列数j(j=1,2,…,n)为进展年。Nij为单元(i,j)的索赔次数,Ni为发生年在第i年的保单的总索赔次数,Cij为单元(i,j)的赔付额随机变量,上三角部分的数据为已赔付的流量数据,是已知的;下三角部分为未决赔付数据,为所估计的数据。Renshaw建立如下的Poisson模型估计准备金:E(Cij)=μijvar(Cij)=ϕμijlog(μij)=c+αi+βj此模型的特点是:每一单元赔付额的方差和期望成比例关系,称此模型为超散布Poisson模型。αi是发生年影响因素,βj是进展年的影响因素。超散布Poisson模型是链梯法的“再生”模型,即此模型得到的准备金的估计值与链梯法的估计值完全相同,因此,此模型也称为超散布Poisson链梯模型。需要强调的是,此模型虽然与传统链梯法的估计结果相同,但作为随机模型,超散布Poisson模型不但可给出未决赔款准备金的点估计值,同时还可以得到估计值的预测误差。这是随机模型优于确定性模型的重要表现。Mack提出了Gamma模型进行准备金估计:E(Cij)=μijvar(Cij)=ϕμ2ijlog(μij)=c+αi+βj此模型与超散布Poisson链梯模型的唯一区别是:方差与期望的平方成比例。一般情况下,由此模型得到的准备金估计值与链梯法得到的估计值非常接近。上述两模型的共同特点是模型结构是以链梯法为基础的。Wright建立了基于风险理论的未决准备金估计模型。设(i,j)单元中每次事故索赔额随机变量为Xij,增量赔付额Cij为Nij次索赔额的和,并设索赔次数Nij服从Poisson分布:E[Nij]=eiajκijAiexp(-bij)=var[Nij]其中κi,Ai,bi是待估计的未知参数,ei是暴露数,aj为已知的较正因子。设Xij为Gamma型随机变量:E[Xij]=exp(δt)kjλvar[Xij]=ϕ{E[Xij]}2其中k和λ为已知常数,exp(δt)是反映通货膨胀的项,t=i+j表示赔付的日历年。注意,在这里并不是假设Xij服从Gamma分布,而是假设其方差与期望存在着与Gamma分布相同的比例关系。根据上面关于索赔频率和索赔额大小的分布假设及风险理论相关知识得到单元赔付额估计模型:E[Cij]=mij=eiajκijAiexp(-bij)exp(δt)kjλvar[Cij]=(1+ϕ)kjλexp(δt)E[Cij]Wright指出:上述模型经参数变换后可得到广义线性模型的标准形式。Wright()是Wright(1990)的进一步讨论。设已知数据既包含单元索赔次数的流量三角形,也包含单元索赔总额的流量三角形。对此情形,虽然可分别建立索赔次数和索赔额的模型进行估计,但计算总索赔额估计的标准误差却很复杂。为此,引入“操作时间”(operationaltime)的概念。操作时间τ定义为:τij=(ni1+⋯+ni,j-1+12nij)/ni于是τ的取值范围是区间(0,1),定义Siτ=Cij/Nij为操作时间τ所对应单元(i,j)的平均索赔额。将Siτ作为反应变量,建立广义线性模型:E(Siτ)=μτV(μτ)=μτζωij=nij文中给出了几种可供选择的模型结构和联系函数。Mario将参考文献中讨论的Tweedie类复合Poisson分布用于准备金的估计,取得了良好的预测效果。毛泽春指出了Tweedie类复合Poisson分布用于准备金的估计的不足,提出对索赔次数和已付赔款的平均索赔额分别建立广义线性模型进行估计。实例表明,较其它模型该模型的均方误差是最小的。五、广义线性模型的应用广义线性模型是经典线性回归模型的推广,由于其在非寿险中的广泛适用性及其计算软件的方便性和快捷性,使其在非寿险精算领域的研究和应用十分活跃。除以上介绍的在费率厘定及准备金估计中的应用外,广义线性模型还被用于信度理论,Nelder将分层广义线性模型(Hierarchicalgeneralizedlinearmod

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论