四种空间回归模型在疾病空间数据影响因素筛选中的比较研究 - 黄秋兰_第1页
四种空间回归模型在疾病空间数据影响因素筛选中的比较研究 - 黄秋兰_第2页
四种空间回归模型在疾病空间数据影响因素筛选中的比较研究 - 黄秋兰_第3页
四种空间回归模型在疾病空间数据影响因素筛选中的比较研究 - 黄秋兰_第4页
四种空间回归模型在疾病空间数据影响因素筛选中的比较研究 - 黄秋兰_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、*:广西科学研究与技术开发计划项目基金(桂科攻10124001A-65通信作者:仇小强,E-mail :xqqiu9999sinacom ;唐咸艳,E-mail :tan-gxianyan0746163com ;四种空间回归模型在疾病空间数据影响因素筛选中的比较研究*广西医科大学公共卫生学院流行病与卫生统计学教研室(530021黄秋兰唐咸艳周红霞李峤仇小强【提要】目的探讨全局空间回归模型(空间迟滞模型、空间误差模型、空间杜宾模型和局部空间回归模型(地理加权回归在筛选疾病空间数据影响因素中的价值,为查找具有空间自相关性和空间异质性的疾病数据的影响因素提供统计参考。方法基于模型是否考虑空间自相关和

2、空间异质性两方面,根据模型拟合后的残差是否独立、拉格朗日乘数和稳健拉格朗日乘数是否显著、信息准则量(AIC 、SC 大小、R 2大小、对数似然值大小等指标来评价模型拟合的效果。结果实例分析显示,普通线性回归模型拟合的AIC 为41.65、R 2为0.49,但残差不独立,存在空间自相关性。空间迟滞模型的AIC 为18.6935、R 2为0.64,稳健拉格朗日乘数显著,模型拟合后的残差独立。空间误差模型的AIC 为22.0779、R 2为0.62,稳健拉格朗日乘数不显著,模型拟合后的残差独立。地理加权回归模型的AIC 为14.9909、R 2为0.62,模型拟合后的残差独立,模型的参数估计值具有空

3、间变异性,不同地区的系数、常数项、R 2不同。结论全局空间回归模型和局部空间回归模型考虑了数据的空间自相关性,在探讨具有空间自相关性的疾病空间数据的影响因素时,较经典的普通线性回归模型效果好。而且,局部空间回归模型体现了参数估计值的空间变异性,与全局空间回归模型的平均估计值相比,结果更可靠。【关键词】空间自相关空间变异性空间迟滞模型空间误差模型地理加权回归根据统计,80%的流行病学资料具有空间属性,与特定的空间位置相关联,蕴含着丰富的疾病空间信息1。空间数据具有空间自相关性、空间异质性、尺度依赖性等特征。其中空间自相关性是空间数据的最主要特征,指距离越邻近的空间单元间的同一属性值(如发病率越相

4、似。全局空间回归模型和局部空间回归模型是空间回归分析技术之一,其以空间自相关性为前提,充分考虑疾病数据的空间信息,目前应用于探讨疾病时空格局的影响因素及其空间变异性2。本文基于资料的空间自相关性和空间变异性,旨在应用空间迟滞模型、空间误差模型、空间杜宾模型和地理加权回归模型从全局和局部两个层次上,探讨疾病空间数据的影响因素,为筛选具有空间自相关性和空间异质性的疾病空间数据的影响因素提供统计参考。统计方法1空间自相关理论3空间自相关分为全域型和局域型空间自相关,常用的分析方法有Moran s I 、Geary s C 、Getis 等。本文采用全域型Moran s I 对残差进行分析。I 的取值

5、范围为1,1。2空间回归技术的全局模型4空间回归技术的全局模型一般形式如下:y =W 1y +x +=W 2+ N (0,2I 其中,y 是因变量;x 是解释变量;表示解释变量的空间回归系数;是随空间变化的误差项;是白噪声;W 1是反映因变量自身空间趋势的空间权重矩阵,W 2为反映残差空间趋势的空间权重矩阵,通常根据邻接关系或者距离函数关系确定空间权重矩阵,本研究采用邻接矩阵法5;为空间迟滞项的系数,其值为0到1,越接近1,说明相邻地区的因变量取值越相似;为空间误差系数,其值为0到1,越接近于1,说明相邻地区的解释变量取值越相似。根据、的取值不同,空间回归模型分为4个子模型:(1若=0,=0时

6、,模型为普通线性回归模型(ordinary linear regression ,表明模型中没有空间特征的影响。普通线性回归模型以线性、独立、正态和方差齐性为前提条件,充分利用研究区域的属性数据(仅考虑属性数值大小,不考虑所处的空间位置,如常用的疾病频率测量指标,却忽视了研究区域的空间数据(既考虑属性值大小,又考虑所处的空间位置。独立性表示各研究区域的观察值不存在空间自相关。普通线性回归模型是一种全局模型,模型中常数和解释变量的系数在不同研究区域间是相同的(即是平均值,没能体现各区域间的空间差异性。(2若0,=0,模型为空间迟滞模型(spatial lag model ,SLM ,也称为空间自

7、回归模型。该模型中,所研究区域的应变量不仅与本区域的解释变量有关,还与相邻区域的应变量有关。相邻研究区域间的应变量存在空间自相关性,但相邻研究区域间的同一种解释变量不存在空间自相关性。虽然SLM以空间自相关性为前提,利用资料的空间信息,但SLM也是一种全局空间回归模型,模型中常数和解释变量的系数在不同研究区域间仍然是相同的(即是平均值,研究区域间的空间差异性体现不足。(3若=0,0,模型为空间误差模型(spatial error model,SEM。在这个模型中,所研究区域的应变量与相邻区域的应变量取值相互独立,应变量不存在空间自相关性。但是相邻研究区域间的同一种解释变量存在空间自相关性,表明

8、模型中的残差项不满足独立性。SEM与SLM一样,仍然是一种全局空间回归模型,模型中常数和解释变量的系数在不同研究区域间仍然是相同的(即是平均值,研究区域间的空间差异性体现不足。(4若0,0,模型为空间杜宾模型(spatial durbin model,SDM。模型中,不仅相邻研究区域间的因变量存在空间自相关性,相邻区域间的同一种解释变量也存在空间自相关性,表明模型中的因变量和自变量都不满足独立性。然而,SDM还是一种全局空间回归模型,模型中的常数和各影响因素的系数在不同研究区域间仍然是相同的(即是平均值,研究区域间的空间差异性体现不足。根据残差是否独立、拉格朗日乘数(lagrange mul-

9、tiplier,LM和稳健拉格朗日乘数(robust lagrange multi-plier,R-LM是否有统计学意义、R2大小、信息准则量(AIC、SC大小、对数似然值(log likelihood大小等指标来评价子模型6,进而确定子模型的类型。其具体的确定规则如下:(1若LM-lag和LM-err均不显著,则用普通线性回归模型;(2若LM-err显著而LM-lag 不显著,则用SEM;(3若LM-lag显著而LM-err不显著,则用SLM;(4若LM-lag和LM-err均显著,则由RLM-lag和RLM-err的显著性来决定模型种类。两者中,若RLM-lag较RLM-err显著,则用S

10、LM;否则,用SEM。3空间回归技术的局部模型地理加权回归7空间回归模型在一般线性回归模型的基础上引入了空间自相关性,深入挖掘与利用资料的空间信息。然而,空间回归模型的参数不随着空间位置而变化,因此在本质上空间回归模型属于全局模型,模型中的参数对所有研究区域来说都是相同的。实际上,由于空间异质性的存在,不同空间区域上的自变量和因变量之间的数量关系可能不同。地理加权回归(geographi-cally weighted regression,GWR实质是局部加权最小二乘法,其中的权为待估点i所在的地理空间位置到其他观测点j的地理空间位置之间的距离函数。GWR 的回归系数不再是全局性的统一单值,而

11、是随空间位置改变而变化的模型参数。这些在各空间位置上估计的参数值描述了参数随所研究的空间位置变化的情况,用以探索空间数据的空间异质性。GWR数学模型形式如下:yi=o(ui,vi+kk(u i,v ix ik+i其中,y i为第i点的因变量;x ik为第k个自变量在第i点的值,k为自变量记数;i为样本点记数;i为残差,(u i,v i为第i个样本点的空间坐标;k(u i,v i为连续函数k(u,v在i点的值。如果k(u i,v i在空间上保持不变,则GWR简化为全局空间回归模型:yi+o+kk x ik+e i经典线性回归、全局空间回归和地理加权回归主要区别点见表1。表13种回归模型的比较区别

12、点经典线性回归全局空间回归(SLM、SEM、SDM地理加权回归对空间信息的利用不充分充分充分是否考虑空间自相关性否是是是否考虑空间异质性否否是模型类别全局模型全局模型局部模型参数估计方法OLS法极大似然法,广义估计矩阵法WLS模型评价指标AIC、R2残差的Moran's I、拉格朗日乘数LM、稳健拉格朗日乘数R-LM、log likelihood、R2、AIC、SC、残差的Moran's I、R2、AIC、CV score实例分析以2006年广西各市县的流行性乙型脑炎发病率和同期各市县的年均气温、年最低气温、年最高气温、年均相对湿度、年均降雨量、年均日照、年均气压等气象数据为例

13、,探讨全局空间回归模型(SLM、SEM、SDM和局部空间回归模型(GWR在筛选影响乙脑发病率的气象因素中的价值。1空间回归技术的全局模型确定首先应用普通线性回归模型对2006年广西各市县的乙脑发病率和同期的气象因素进行探索性拟合: R2=0.49,AIC=41.65,SC=61.37,残差的Morans I=0.331、P=0.000。结果表明残差不独立,且存在空间自相关性,本组资料不符合普通线性回归模型的残差独立性的要求。因此,在探讨气象因素与乙脑发病率间关系时,需要应用以空间自相关性为前提的空间误差模型和空间迟滞模型定量探讨乙脑发病率与气象因素间的关系,两模型的拟合结果见表2。此时,空间迟

14、滞模型的拉格朗日乘数(LM-lag和空间误差模型的拉格朗日乘数(LM-err均显著,但是空间迟滞模型的稳健拉格朗日乘数(RLM-lag显著,而空间误差模型的稳健拉格朗日乘数(RLM-err不显著。根据上述子模型类型的确定规则可知,本研究适合采用空间迟滞模型探讨气象因素对乙脑发病的影响。而且,SLM 的残差已经独立,其AIC 较小SEM 和OLS 的AIC 均小,但R 2却增大,这说明SLM 模型较好得拟合了数据的全局性结构。表2OLS 、SLM 与SEM 的模型比较模型比较OLS SLM SEMlog likelihood 12.82550.490.640.622空间回归技术的全局模型SLM

15、分析结果空间迟滞模型的拟合结果为:空间迟滞变量系数=0.5401,P =0.000,表明乙脑发病率在不同地域间存在正向空间自相关性;残差的Moran s I =0.0122,P =0.9932,表明通过空间迟滞模型拟合后,残差已独立,不存在空间自相关性;空间迟滞模型的R 2为0.64,比普通线性回归的决定系数高了0.15。模型的参数估计结果见表3:广西乙脑发病率随着年均相对湿度增大而升高(=0.0212,P =0.0298,随着年均日照(=0.0004,P =0.0122、年均气压(=0.0046,P =0.0343的增大而降低。而年均气温、年最高气温、年最低气温,年均降雨量与乙脑发病率的回归

16、关系尚不能认为有统计学意义(P 0.05。值得注意的是,各气象因素在空间迟滞模型中的参数估计值是全局意义上的平均估计值,没能反映不同空间位置上的变异性。表3空间迟滞模型的拟合结果 0.00462.11640.03433空间回归技术的局部模型GWR 分析结果SLM 基于空间自相关性,从全局性探讨了年均相对湿度、年均日照、年均气压等气象因素与广西乙脑发病的数量关系。SLM 模型进行的参数估计值是全局性的平均效应值,认为年均相对湿度、年均日照、年均气压等气象指标对乙脑的发病影响在不同研究区域间是相同的。然而,不能忽视的一个现实问题是上述气象因素在不同的地区其取值大小是不同的,对乙脑发病的作用大小可能

17、不是固定的平均效应值,而存在空间非平稳性。为深入分析气象因素对乙脑发生的空间变异性,本文进而进行GWR 分析。GWR 模型参数估计值的模拟,最关键是确定权重函数。基于“AIC 最小化”原则,选用高斯函数为权重函数,得到最佳带宽b 是185.8252km ,此时CV 值(cross validation score ,CV 是7.81214。根据最佳的带宽计算得到GWR 模型的参数估计结果,见表4。根据Fotheringham 的评价标准7,只要GWR 模型的AIC 与OLS 模型的AIC 之差大于3,即使把GWR 模型的复杂性考虑在内,GWR 模型比OLS 模型执行得更好。本研究的GWR 模型

18、AIC 比OLS 模型的AIC 小得多,同时也比SLM 模型的AIC 小,说明GWR 模型拟合效果较好。相较于SLM 和OLS 模型只有“全局”或者“平均”意义上的一个估计值,GWR 模型是对每一个研究区域都进行局部的回归,研究结果如表4,各参数估计值都有最大最小值,且在研究区域间具有较明显的空间异质性。各参数在不同研究区域的估计值空间分布见图1 图9,结果表明GWR 模型的常数项、解释变量参数估计值和R 2具有空间变异性,不同空间位置上的取值大小不同。表4GWR 模型参数估计值的统计描述描述指标MinP 25M P 75Max 常数项1.651213.956070.018980.014480

19、.040630.008390.004030.00284R 2=0.62176;AIC =14.9909,AIC c =37.70533;SSE =5.0951(ML 法;残差的Moran s I =0.0174,P =0.6858。图1GWR 模型常数项的空间分布 图2年均温系数的空间分布 图3年最高温系数的空间分布 图4年最低温系数的空间分布 图5年均相对湿度系数的空间分布 图6年均降雨量系数的空间分布图7年均日照系数的空间分布图8年均气压系数的空间分布图9R 2项的空间分布讨论以独立性假设为前提的经典回归分析方法在探讨疾病的影响因素方面发挥着毋庸置疑的作用。但是,疾病发生及其影响因素不仅表

20、现为随机性,更重要的是具有空间性质,如空间自相关性。某研究区域的疾病频率指标(如发病率并非独立事件,它既与该研究区域内部的疾病影响因素有关,又与相邻区域的疾病频率指标(如发病率有关。经典回归分析在探讨疾病及其影响因素的关系时,忽视了疾病区域数据的空间信息,造成空间数据挖掘不够,疾病信息利用不全,影响研究结果的可靠性,不利于疾病的有效防控。本实例分析中,乙脑发病率与气象因素的普通线性回归拟合结果提示信息利用率较低,且残差不独立、存在空间自相关性。因此,在探讨具有空间属性的疾病及其影响因素关系时,必须遵循空间自相关原理,充分利用疾病数据的空间属性,深入挖掘疾病数据。本研究进一步应用空间回归技术的全

21、局模型SLM探讨乙脑发病率及其气象影响因素的关系,结果表明通过空间回归拟合后,残差独立、不存在空间自相关性,且模型的信息利用率和拟合优度也有所提高。可见,普通线性回归方法在处理疾病空间数据方面存在一定的局限性。然而值得注意的是,SLM全局模型中的参数估计值是全局意义上的平均估计值,假定各研究区域的参数是固定不变的。实际上,疾病空间数据往往具有空间异质性,表现为不同研究区域间的参数估计值具有变异性。GWR对空间回归技术的全局模型(如SLM 模型进行扩展,在考虑空间自相关性的基础上,强调空间变异性,更加真实地反映模型中的参数随着空间位置的变化而变化。本研究GWR模型的参数估计值在不同市县的取值大小

22、不同,表现出较明显的空间变异性,较好反映了空间非平稳性。此时,GWR模型AIC(14.9909比OLS模型的AIC(41.65和SLM模型的AIC(18.6935均小,且残差已独立,说明GWR 模型拟合效果较好。因此,在探讨具有空间自相关性和空间异质性的疾病空间数据影响因素时,局部空间回归模型更具优势。(致谢:衷心感谢广西气象局为本次研究提供数据Comparison of Four Spatial Regression Models for Screening Disease Factors Huang Qiulan,Tang Xianyan,Zhou Hongxia,et alDepartm

23、ent of Epidemiology and Statistics,School of Public Health,Guangxi Medical University(530021,Nanning【Abstract】Objective To study on the value of global spatial regression models(Spatial Lag Model,Spatial Error Model,Spatial Durbin Modeland local spatial regression model(Geographically Weighted Re-gr

24、essionin screening disease factorsMethods Based on spatial auto-correlation and spatial heterogeneity,models were determined and evaluated by following indicators:the independence of the residuals,the significance of Lagrange multiplier as well as Robust Lagrange multiplier,AIC,R2val-ue,and log like

25、lihoodResults Applying Ordinary Linear Regression Model,R2value was0.49and AIC was41.65,and spatial autocorrelation existed in the residualsIn Spatial Lag Model,AIC was18.6935,R2value was0.64,Robust Lagrange multiplier was statistically significant,and the residuals were independentThe parameters R2

26、value and AIC coming from Spatial Error Model were0.62,22.0779,Robust Lagrange multiplier was not statistically significant,and the residuals were independentHowever,In Geographically Weighted Regression Model,AIC was14.9909,R2value was0.62,and residuals were independentMoreover,parameters of local

27、spatial regression implied spatial variationSpecifically speaking,the R2 value and constant were different from different regionsConclusion Based on Spatial autocorrelation,spatial regression models were more pow-erful in exploring disease factors,compared to Ordinary Linear Regression ModelHowever,

28、Geographically Weighted Regression Model had strongest fits in concerning the spatial variation of parameter estimation,compared with global spatial regression models【Key words】Spatial autocorrelation;Spatial heterogenei-ty;Spatial lag model;Spatial error model;Geographically weighted regression参考文献

29、1Carlos CSUse of geographic information system in epidemiology(GIS-EpiBull PAHO,1996,17(1:1-62陈炳为,许碧云,倪宗瓒,等空间误差模型在碘缺乏病中的应用中国卫生统计,2003,20(1:6-83Hu W,Clements A,Willams G,et alSpatial analysis of notified dengue fever infectionsEpidemiol Infect,2011,139(3:391-3994Born B,Breitung JSimple regression-bas

30、ed tests for spatial dependenceThe Econometrics Journal,2011,14(2:330-3425Ali M,Emch M,Yunus M,et alModeling spatial heterogeneity of dis-ease risk and evaluation of the impact of vaccinationVaccine,2009,27 (28:3724-37296Anselin LExploring Spatial Data with GeoDaTM:A WorkbookCenter for Spatially Int

31、egrated Social Science,2005:198-1997Fotheringham AS,Brunsdon C,Charlton MGeographically Weighted Regression:the analysis of spatially varying relationshipsWest Sussex: John WileySons Ltd,2002(责任编辑:郭海强(上接第333页of categorical time series and after making an adequate consideration of the characteristics

32、 of the series,especially the relationship between category num-ber or period value and length,the efficiency can be controlled at a high lev-el【Key words】Spectral envelope method;Categorical time series;Periodic detection;Simulation study参考文献1欧春泉,邓卓晖,杨琳,等用自回归模型预测流感样病例数的变化趋势中国卫生统计,2007,24(6:569-5712Stoffer DS,Tyler DE,Wendt DAThe spectral envelope and its applica-tionsSta

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论