广义线性模型在生命表死亡率修匀中的应用

上传人：I*** IP属地：浙江上传时间：2023-04-20 格式：DOCX 页数：16 大小：1.05MB 积分：15 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

广义线性模型在生命表死亡率修匀中的应用

死亡率揭示了人类面临的死亡风险，而生命表则是用来描述某人口群体死亡规律的概率分布表。生命表一般分为国民生命表（NationalLifeTable）和经验生命表（ExperienceLifeTable）两大类。其中，国民生命表是以全体国民或特定地区的人口统计资料编制的统计表；经验生命表是人寿保险公司依据其承保的被保险人实际经验的死亡统计资料编制的统计表。其编制过程都是建立在对死亡率初始估计的基础上，结合先验观点，通过一系列的模型和方法对初始死亡率进行修正，这一过程也被称为死亡率修匀，其目的是为了得到真实死亡率的最优估计值。然而，相比国外发达国家而言，我国对编制经验生命表的研究还相对不成熟。本文将在系统介绍广义线性模型（GeneralizedLinearModels，GLM）的基础上研究GLM在我国国民生命表死亡率修匀中的应用，这些研究将为我国经验生命表的编制工作提供指导，也为我国保监会的死亡率经验分析工作提供理论支持和实践参考，以更加有利于我国寿险费率市场化和寿险业的科学经营。1文献综述正如Miller（1946）对死亡率修匀的研究中所指出：修匀过程应包括对数据进行拟合和光滑两方面，即在保持一定拟合度的基础上，对数据进行光滑处理。然而，仅仅对数据进行拟合和光滑是远远不够的，要真实反映死亡率的客观规律，还必须结合描述这一规律的先验，依据先验观点的不同可以将死亡率修匀分为参数修匀和非参数修匀。其中，参数修匀将死亡率数据的先验表述为具体的函数形式；非参数修匀则将死亡率数据的先验表述为光滑性的概念，没有具体的函数表达式，仅对死亡率进行光滑处理。参数修匀中最早的参数模型为Gompertz（1825）提出的Gompertz模型和Makeham（1860）提出的Makeham模型，这两个模型尤其适用于高年龄组的死亡率修匀，而不能对青年和中年阶段的死亡率进行很好的修匀。为此，Heligman和Pollard（1980）提出了含8个参数的Heligman-Pollard模型，分婴幼儿时期、青壮年时期和老年时期三阶段对死亡率进行修匀；Carriere（1992）提出了另一个类似的对全年龄段死亡率进行修匀的模型。这些模型仅构造了死亡率与年龄因子之间的关系，可以视为静态死亡率修匀模型。Lee和Carter（1992）提出了同时考虑死亡率与年龄、年份两个因子之间关系的模型，可以视为动态死亡率修匀模型。Haber-man和Renshaw（1996）又给出了GLM在死亡率修匀中的应用，分别对死亡率与年龄因子之间的关系、死亡率与年龄和年份两因子之间的关系、死亡率与年龄和保单期限两因子之间的关系进行了研究。非参数修匀中最早提出的方法为移动加权平均修匀法（MovingWeightedAverageGraduation，MWAG）；为了克服MWAG方法的端值问题，Copas和Haberman（1983）提出了核修匀方法。近年来，随着计算技术的快速发展和统计软件的普及，为各种死亡率修匀方法的改进提供了技术支持，如核光滑（KernelSmoothing）方法、样条修匀、局部加权回归（Locally-weightedRegression，LOESS）方法、广义可加模型（GeneralizedAdditiveModels，GAM）、Bayes修匀等；关于这方面的代表性文献可以参考Wang、Müller和Capra（1998），Wang（2005），Debón、Montes和Sala（2006），daRochaNeves和Migon（2007）。各国保险业都有自己的经验生命表，而且国外的寿险业一般每隔一定时间要修订一次生命表，美国也分别在1941年、1958年、1980年、2001年修订或编制了新的生命表。在各国制作经验生命表的过程中，采取的修匀方法和修匀次数不尽相同。我国的经验生命表（CL90-93）经过三次补整、修匀得到最终的经验生命表，其中修匀部分采用了8参数模型对1～80岁的死亡率进行曲线拟合，并由此外推至各年龄。经验生命表（CL00-03）采取与CL90-93不同的补整、修匀次数及修匀方法，这主要考虑了所获得的数据特点及修匀方法的适用性，同时也结合了推断高年龄组死亡率的模型与方法，以达到将死亡率曲线延长的目的，从而得到高年龄组的估计死亡率。但是，总体来说，我国对编制经验生命表的研究还相对不成熟，鉴于此，本文利用1995～2006年《中国人口统计年鉴》、2007～2010年《中国人口和就业统计年鉴》全国分年龄、分性别死亡人口状况数据，研究死亡率与年龄和年份两因子之间的关系，采用GLM中的泊松回归模型、负二项回归模型对0～89岁的死亡率进行拟合，在比较两种模型拟合效果的基础上，进一步使用B-样条函数进行修匀。2GLM的基本框架Nelder和Wedderburn（1972）首次提出了GLM，关于GLM的经典教材可以参考McCullagh和Nelder（1989）的著作。总体来说，GLM从两方面对标准线性模型进行了扩展。一是对常见的各种线性模型进行了统一处理。在GLM框架下，对研究问题的均值进行适当变换后得到某个线性估计，所以称之为GLM；二是将变量分布从正态分布扩展到更广泛的分布类。在GLM中，考虑了更多的分布，如二项分布、过度分散泊松分布（OverdispersedPoissondistribution）、正态分布、Gamma分布、逆高斯分布以及其他指数散布族分布（ExponentialDispersionFamily，EDF）等。至今GLM已成为主流统计学的一个分支，应用于众多领域。在精算领域，保险数据（如死亡率、损失频率、损失强度等）往往不服从正态分布，GLM非常适合分析这类数据。近年来，基于GLM在精算领域中应用的相关教材专著也已陆续出版。deJong和Heller（2008）提供了第一本系统介绍如何应用GLM分析保险数据的教材，书中给出了大量的数值实例，并进行了细致分析。GLM在精算学中的进一步应用也可以参考Ohlsson和Johansson（2010）的最新专著。该书对GLM的各种扩展，如对GAM进行了详细介绍，可以作为deJong和Heller（2008）的有益补充。2.1GLM的模型结构2.3GLM的参数估计GLM使用极大似然估计法来估计模型中的参数，也就是说，最大化如下对数似然函数：可以看出，这种近似估计即为权重为W的标准多元线性回归模型的加权最小二乘估计。2.4GLM的模型检验2.4.1拟合优度检验在GLM中评价模型拟合优度的一种方法是将所建立的模型与最佳拟合模型进行比较。最佳拟合模型也称为饱和模型（saturatedmodel），这是因为该模型中待估参数个数与观测值个数相同。饱和模型的对数似然函数可以表示为：其中，n为样本数，p为模型待估参数个数，n-p为自由度。一般采用偏差统计量的值除以自由度来比较不同模型的拟合优度，该值越小表明相应模型的拟合优度越好。当两种模型自由度差别不大时，Δ越接近于0，说明所建立的模型越好。2.4.2参数显著性检验第一，似然比（LR）统计量。其中，q表示约束条件的个数，也是模型检验矩阵C的行数。第二，Wald统计量。类似于线性回归模型，Wald统计量只需要估计非约束模型。因为：其中，q表示约束条件的个数，也是模型检验矩阵C的行数。第三，模型检验矩阵C的结构。①单个回归系数的显著性检验当检验=r时，模型检验矩阵C退化为行向量，且向量的第j个位置为1，其他位置都为0，即C=（0，…，1，…，0）。②所有回归系数的显著性检验当检验所有参数的显著性，即Cβ=r时，模型检验矩阵C可以表示为：即模型检验矩阵C是J×（J+1）的矩阵，这里J是模型中解释变量的个数。3GLM在我国生命表死亡率修匀中的应用3.1数据来源及说明本文建模使用的数据来源于1995～2006年《中国人口统计年鉴》、2007～2010年《中国人口和就业统计年鉴》的全国分年龄、分性别死亡人口状况表，进而得到1994～2009年各年度分年龄、分性别的初始死亡率（粗死亡率）④。由于《中国人口统计年鉴》和《中国人口和就业统计年鉴》中大部分年份都没有统计90岁及以上的分年龄死亡数据，因此，本文考虑的年龄段为0～89岁。另外，1997年《中国人口统计年鉴》将1996年85岁及以上死亡数据合并为一组统计，本文采用1994年、1995年、1997年、1998年前后4年85～89岁的年平均人口数、死亡人数的算术平均数来代替1996年的年平均人口数、死亡人数，即1996年85～89岁的粗死亡率是采用前后4年85～89岁粗死亡率的加权平均数计算的⑤。为了更清晰地描述这些数据，图1给出了我国1994～2009年连续16年0～89岁的男性和女性对数死亡率的三维图。性别死亡人口数据计算。从图1可以看出，对男性和女性的死亡率来说，随着时间的推移，各年龄的死亡率呈现出下降的趋势，然而相同年份不同年龄的死亡率改善程度不尽相同，表现出一定的差异性和不确定性。因此，从动态的角度看，利用GLM同时考虑死亡率与年龄和年份两因子之间的关系，对我国国民生命表死亡率的修匀效果可能会更好。3.2两种离散型分布GLM的基本形式正如本文第2部分所述，GLM模型中考虑了更多的分布，其中，泊松分布和负二项分布都可选取对数联结函数。下面就GLM中的泊松回归模型和负二项回归模型⑥，给出两种死亡率修匀模型。3.2.1泊松回归模型按照第2部分介绍的GLM的模型结构，选取对数联结函数，进而得到：整理得出泊松回归模型假设下的死亡率修匀模型可以表示为：3.2.2负二项回归模型类似的，选取对数联结函数，在负二项回归模型假设下的死亡率修匀模型可以表示为：3.3模型检验、参数估计及结果分析3.3.1两种回归模型的参数估计按照本文第2部分给出的参数估计方法，表1给出了两种回归模型的参数估计结果。这里需要注意两点。一是，与经典线性回归模型不同，在GLM框架下，在求解参数的极大似然估计时，为了使估计结果更准确，需要利用泰勒级数高阶展开，也就是需要求解非线性方程组。标准统计软件中的GLM模块经常使用Newton-Raphson算法的一个变形来求解这些方程组，也就是通过如Fisher计分法（迭代加权最小二乘法IWLS）的迭代程序来求解。二是，在标准统计软件中，GLM模块的输出结果都会给出判断每个参数显著性的Wald统计量。其中，SAS软件输出的参数估计表包括每个回归系数的Wald统计量的值以及相应的P值；R软件输出的参数估计表则包括每个回归系数Wald统计量的符号平方根（即Z统计量的值）以及相应的P值，且两种软件的P值都是采用标准正态分布或t分布表计算的。3.3.2两种回归模型的检验及评价按照本文第2部分给出的检验方法，表2给出了两种回归模型的检验结果。在表2中，Nulldeviance是指仅包括截距项、不包括解释变量的模型和饱和模型比较得到的偏差统计量的值，Residualdeviance是指既包括截距项，又包括解释变量的模型和饱和模型比较得到的偏差统计量的值。从中可以看出，两种回归模型自由度相差不大的情况下，包括年龄、年份解释变量的偏差统计量的值远远小于不包括年龄、年份解释变量的偏差统计量的值，故对于每一种模型，建模时显然应该考虑年龄、年份解释变量。进一步讲，不论男性还是女性，泊松回归模型的偏差统计量的值远大于自由度1335，说明响应变量是过度分散⑧的，即采用泊松分布拟合的效果不佳，应选用具有过度分散性质的负二项分布来拟合。为了与图1进行对比，图2（见下页）绘制了采用负二项分布拟合的我国1994～2009年0～89岁男性和女性对数死亡率的三维图。3.3.3对数死亡率的B-样条函数修匀通常来说，除了在较低年龄和较高年龄之外，死亡率变化是非常平稳的。为此可设想在GLM中应用样条函数来进一步对模型进行拟合和光滑处理，这里选取B-样条函数对死亡率进行修匀，通过变动初始控制节点来调整曲线的形状，最终达到满意的修匀效果。现对年份选择内部节点1997，2000，2003，2006；对年龄选择内部节点5，10，…，85，即对年份以3年为单位划分，对年龄一般以5岁为单位划分。在此基础上，图3给出了在负二项回归模型下，应用B-样条函数修匀后的对数死亡率关于年龄和年份的三维图。表3给出了应用B-样条函数修匀后的模型拟合优度等检验结果。从表2和表3可以看出，负二项回归模型中自由度为1335，而应用B-样条函数修匀后自由度变为1412。从中可以看出，应用样条函数进行回归的一个优点是减少了待估参数的个数。当年龄和年份的划分区间较大时，待估参数的个数会进一步减少。3.3.4在某个年份内各个年龄的死亡率修匀现以2005年为例，比较各个年龄粗死亡率和修匀后的死亡率，这里仍然采用负二项回归模型下，B-样条函数修匀后的对数死亡率，图4给出了我国2005年男性和女性0～89岁的粗死亡率和修匀后死亡率的对数值。由图4可以看出，除了极少数年龄拟合效果不是很好之外，大部分年龄的拟合效果都相当好。整体来看，拟合效果非常好。3.3.5对某个年龄在不同年份的死亡率修匀现以年龄50岁为例，比较在不同年份的粗死亡率和修匀后的死亡率，这里仍然采用负二项回归模型下，B-样条函数修匀后的对数死亡率，如表4所示。整体上看，不同年份的死亡率呈现出向下变化的趋势。由于仅有16年的时间序列数据，对不同年份同一年龄死亡率修匀的效果显然不如对同一年份不同年龄死亡率修匀的效果那么直观，这与实际情况是相符的。在实际中，由于存在死亡率改善，随着时间的推移，同一年龄死亡率一般呈现出向下变化的趋势，但这种趋势显然没有同一年份死亡率随年龄的变化特征明显。4本文创新点及方法建议本文首次研究了GLM在我国国民生命表死亡率修匀中的应用，即分别研究了我国1994～2009年0～89岁男性、女性的死亡率与年龄和年份两因子之间的关系，采用泊松回归、负二项回归对0～89岁的死亡率进行拟合，在比较两种模型拟合效果的基础上，进一步使用B一样条函数进行修匀。其具体研究内容包括：同时考虑年份和年龄的死亡率修匀；固定某个年份，考虑各个年龄的死亡率修匀；固定某个年龄，考虑不同年份的死亡率修匀。其中，在同时考虑年份和年龄的死亡率修匀时，应用GLM中的解释变量有两种选择：将年份和年龄都作为因子变量；将年份和年龄都作为数值变量，同时采用样条函数进行分析。由于《中国人口统计年鉴》和《中国人口和就业统计年鉴》每隔5年统计一次90～99岁、100岁及以上的分年龄死亡人口数据，大部分年份都没有统计90岁及以上的分年龄死亡人口数据，因此，本文考虑的年龄段为0～89岁。从理论上讲，如果可以获得90岁及以上年龄的死亡率数据，本文提出的基于GLM的死亡率修匀方法仍然可以适用，但可能存在一些问题，即90岁及以上高高龄人口的数据量一般很少，会导致这些人口的参数估计的标准误差很大。目前针对高高龄死亡率修匀，主要考虑的是静态死亡率修匀模型，即基于高龄人口的死亡率模型，采用参数外推方法来描述高高龄人口的死亡率特征。类似地，也可以在本文给出的基于GLM的动态死亡率修匀模型框架下，采用合理的外推方式对90岁及以上的死亡率进行修匀，这是进一步研究的方向。本文第3部分的实证分析涉及大量而又复杂的数值运算，这在很大程度上归功于当前日益先进的计算机技术和统计软件支持。R软件是当前国际上日益流行的免费开发软件，它有非常多的软件包。本文使用R软件对基于GLM的死亡率修匀进行了完整的编程实现，算法模块化且具有很高的灵活性。例如，可以根据需要，选择性的导入男性、女性的死亡人口状况和年平均人口数据；算法实现中可随时查看、比较中间结果等。目前R软件在金融工程、定量风险管理、统计与精算学中的应用日益广泛，有望成为未来基本工具。经验生命表是寿险公司进行定价和责任准备金评估的重要基础。编制的经验生命表中各年龄的死亡率是否能反映真实的死亡率，直接关系到寿险公司费率的厘定和准备金的提取。因此，研究死亡率修匀具有十分重要的理论意义和实践价值。本文的研究将为我国经验生命表的编制工作提供理论支

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

广义线性模型在生命表死亡率修匀中的应用

文档简介

温馨提示

最新文档

评论

广义线性模型在生命表死亡率修匀中的应用

文档简介

温馨提示

最新文档

评论

相关文档