ARIMA模型在传染病发病率预测中的应用_第1页
ARIMA模型在传染病发病率预测中的应用_第2页
ARIMA模型在传染病发病率预测中的应用_第3页
ARIMA模型在传染病发病率预测中的应用_第4页
ARIMA模型在传染病发病率预测中的应用_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ARIMA模型在传染病发病率预测中的应用

作者:吴家兵叶临湘尤尔科

【关键词】时间序列分析;ARIMA模型;预测;法定传染病;发病率,

摘要:目的:探讨应用时间序列ARIMA模型进行法定传染病发病率预测的可行性。方法:应用SPSS115软件对1986年~2002年逐月发病率进行RIMA模型建模拟合,用所得到的模型对2003年各月发病率进行预测,并与实际发病率进行比较。结果:ARIMA(0,1,1)×(0,1,1)12模型很好地拟合了既往时间段上的发病率序列,对2003年各月发病率的预测值符合实际发病率变动趋势。结论:ARIMA模型能很好地模拟传染病发病率在时间序列上的变动趋势,并对未来的发病率进行预测,为传染病防治工作服务。

关键词:时间序列分析;ARIMA模型;预测;法定传染病;发病率

时间序列是按时间顺序排列的一组数据,时间序列分析就是利用这组数据,应用数理统计方法加以处理,以预测未来事物的发展。近年来这一方法已经越来越多的应用于经济管理、气象预测、病虫害预测等领域,也有人将其应用于疾病发生的预测[1~3]。我们尝试运用时间序列分析中被广泛应用的ARIMA模型对东风汽车公司1986年~2002年的法定传染病月发病率进行拟合,并探讨使用此模型进行发病率预测的可行性,为传染病监测和防治提供帮助。

1材料和方法

11材料东风汽车公司疾病控制所1986年~2003年逐月法定传染病发病数及年度人口数。

12方法用SPSS115进行数据处理与分析。ARIMA模型建模过程按4个阶段进行[4]:①序列平稳化:ARIMA的应用需要时间序列符合平稳性的要求;②模型的识别:主要是根据ACF图和PACF图的特征,提出几种可能的模型作进一步分析;③模型参数估计和模型诊断:对提出的模型进行参数估计和诊断,如模型不恰当,则回到第二阶段,重新选定模型;④预测应用:1986年~2002年的数据用于建立模型,2003年的数据用于验证模型的预测效果。

2建模步骤

21序列的平稳化一个平稳的随机过程应符合以下要求:均数不随时间变化;方差不随时间变化;自相关系数只与时间间隔有关,而与所处的时间无关[2]。对原序列作线图,发现1996年以前数据的变异较大,序列的方差在前后差别明显。因此首先对数据采取自然对数变换,以平稳序列的方差。经过对数转换后的序列作直线回归拟合,直线回归系数=-,t=,,可以认为序列有下降趋势。再对经自然对数转换后的序列作自相关图,发现ACF序列在时点12、24、36处都有一个局部极大值,说明存在以12个时间单位为一个周期的季节性。根据上述特点,采用先进行一次一般差分,再进行一次季节差分的方法分别消除趋势和季节的影响。经分析此时序列已消除了趋势(回归系数=,t=,P=),也没有明显的周期性,符合ARIMA模型的平稳性的要求。

22模型的识别根据差分变换的次数,可以确定模型形式为ARIMA(p,1,q)×(P,1,Q)12,其中p,q和P,Q是待定的参数,分别表示连续模型和季节模型中的自回归阶数和移动平均阶数。12表示季节模型以12个月为周期。对于p,q和P,Q的确定,可以从ACF图和PACF图的分析中得到提示(图1、图2),图中显示自相关系数在P1后骤减,偏自相关系数递减但拖尾,根据以上特征初步判断连续模型为ARIMA(0,1,1)或ARIMA(0,1,2)[5]。季节模型的参数P、Q判断较为困难,但根据文献,参数超过2阶的情况很少见[2],可以分别取0、1、2由低阶到高阶逐个试验,根据模型的拟合优度、残差情况以及系数间的相关性进行综合判断。

图1-图2略

表1备选模型的参数估计略

23模型的参数估计与模型诊断备选模型的参数估计见表1,模型的诊断从以下几方面进行:①模型参数是否有统计学意义:结果显示ARIMA(0,1,1)×(0,1,1)12模型所有参数都有统计学意义,而其他模型则各有一个参数无统计学意义()。②备选模型的拟合优度比较:SPSS给出的拟合优度统计量有标准误、对数似然函数值、Akaike信息准则(AIC)、Schwarz贝叶斯准则(SBC)。表2数据显示拟合优度最好的是ARIMA(0,1,1)×(0,1,1)12模型。③参数独立性检验:若同一模型的两个参数之间具有较高的相关性,应考虑剔除其中一个,重新计算。这与线性回归分析中的多重共线性类似。SPSS输出结果显示ARIMA(0,1,1)×(0,1,1)12模型两参数无明显相关性(r=),另两种模型最高相关系数分别为05957和07403。④残差检验:若残差为白噪声,则意味着所建立的模型已包含了原始序列的所有趋势,从而模型应用于预测是合适的;若残差不是白噪声,说明模型有必要进行改进。对残差序列作自相关图,结果显示ARIMA(0,1,1)×(0,1,1)12模型的BoxLjung统计量均无统计学意义()。可以认为残差序列是白噪声,说明所选模型是恰当的。模型数学表达式为:(1-B)(1-B12)Zt=()()at其中Z为月发病率的自然对数,B为后移算子,a为随机干扰。

表2备选模型拟合优度统计量略

用本模型预测2003年逐月发病率结果如表3所示。可以看出模型预测值的动态趋势与实际情况基本一致,模型对未来的情况进行了很好的跟踪和预测。2003年各月的实际发病率虽然与预测值不完全一样,但各月实测值都落入了预测值的可信区间范围。

表3东风汽车公司2003年传染病发病率实际值与预测值比较略

3讨论

31传染病预测预报的意义一是根据预测数据,有针对性地开展防治工作,有助于提高疾病预防控制工作的能力;二是在疫情监测工作中,根据预测数据的可信限,可以判断实际发病率是否在正常范围波动。一般年份(或月份),传染病的发病表现为散发,发病率按照既往的变化规律(如线性趋势、季节性、周期性)发生变动;如果实际发病率在预测值95%可信限范围内波动,表明当月疫情基本正常;如果超出预测值95%可信限范围,表明当月疫情已不同于以往流行规律,应警惕传染病暴发或流行的可能。

32时间序列分析与因果回归分析的比较时间序列分析克服了因果回归分析法中预测对象的影响因素难以掌握和数据资料不易得到的难题,利用任何事物的发展都具有一定惯性(即延续性)的原理,建立时间序列模型,以达到预测未来的目的。其过程简便、经济、适用,短期预测精度较高[6]。

33ARIMA模型应用中的注意事项ARIMA的应用前提是时间序列的平稳性,实际工作中数据往往是非平稳序列,需对序列进行预处理,使之达到平稳的要求;如果模型中含有季节因素,则至少应有7或8个季节周期的数据对季节参数进行估计。若序列太短,则可靠性较差;如果所研究对象的惯性趋势发生了很大的改变(例如对主要传染病采取了新的防治措施,或有新的传染病传入),则需要积累新的数据对模型进行修正甚至重新拟合。

参考文献

1丁宁銮,唐家琦,王洁贞ARIMA模型在发病率预沿的应用中国医院统计,2003,10(1):23~26

2温亮,徐德忠,林明和,等应用时间序列模型预测疟区疟疾发病率第四军医大学学报,2004,25(6):507~510

3张蔚,张彦琦,杨旭时间序列资料ARIMA季节乘积模型及其应用第三军医大学学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论