R语言在时间序列中的应用_第1页
R语言在时间序列中的应用_第2页
R语言在时间序列中的应用_第3页
R语言在时间序列中的应用_第4页
R语言在时间序列中的应用_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

/时间序列分析在人口预测问题中的应用摘要时间序列分析是研究动态数据的动态结构和发展变化规律的统计方法。以1949年至2004年中国大陆人口自然增长率为例,用时间序列分析和统计学软件R建立模型,并对人口进行预测,取得较好的效果。说明时间序列分析在人口预测问题上是有效的。关键词:ARMA模型;R软件;平稳性;可逆性ApplicationoftimeseriesanalysisinpopulationpredictionAbstractTimeseriesanalysisisastatisticmethodstudyingdynamicstructureofdynamicdataandthelawofde-velopmentandchange.Basedontheexampleofpopulationgrowthratebetween1949and2004inthemainlandofChina,mathematicmodelswereestablishedwithtimeseriesanalysismethodandstatisticsoftwareR,andpopulationwaspredictedwithit.Itreceivedagoodresult.Thereforetheapplicationoftimeseriesanalysisiseffectiveinpopulationprediction.Keywords:ARMAmodel;Rsoftware;stability;invertibility一.时间序列概述概念所谓时间序列就是按照时间的顺序记录的一列有序数据。对时间序列进行观察、研究.找寻它变化发展的规律.预测它将来的走势就是时间序列分析时间序列分析有着非常广泛的应用领域。定义在统计研究中.常用按时间序列排列的一组随机变量…,,…来表示一个随机事件的时间序列.简记为或。主要分析方法时间序列分析方法主要有描述性时序分析和统计时序分析。描述性时序分析主要通过直观数据比较或绘图测绘.统计时序分析主要有频域分析方法以及时域分析方法。常用的是时域分析法.时域分析法的基本思想是源于事件的发展通常具有一定的惯性.这种惯性用统计语言来描述就是序列值之间存在一定的相关关系.而这种关系具有某种统计规律。我们分析的重点就是找寻这种规律.选取合适的数学模型拟合.进而预测该事件发展走向。研究意义事件序列分析具有现实意义.在金融经济、气象水文、信号处理、机械振动等众多领域具有广泛的应用。二.时间序列的预处理通常得到一个观察值序列后首先要对其进行平稳性以及纯随机性进行检验。根据检验结果的不同我们有不同的处理方法平稳性时间序列的平稳性分为严平稳与宽平稳<1>严平稳定义设一时间序列。对任意整数.任取.对任意整数.有.则称序列为严稳序列。其中为分布函数。<2>宽平稳定义如果满足:①任取.有;②任取.有.为常数;③任取.且.有;则称为宽平稳序列。其中表示与的自相关系数。<3>平稳性的检验平稳性检验主要有时序图检验以及自相关图检验。纯随机性纯随机性定义如果时间序列满足以下性质:任取.有.为常数;任取.有则称序列为纯随机序列.也称为白噪声<whitenoise>序列。纯随机性检验构造检验统计量.主要是Q统计量以及LB统计量。三.时间序列分析的主要方法及模型平稳时间序列分析的模型AR模型<autoregressionmodel>具有如下结构的模型称为p阶自回归模型.记为AR<p>:MA模型<movingaverage>具有如下结构的模型称为q阶移动平均模型.记为MA<q>:<3>ARMA模型<autoregressionmovingaverage>具有如下结构的模型称为自回归移动平均模型.记为ARMA<p,q>:若.该模型称为中心化ARMA<p,q>模型。非平稳序列分析事实上在自然界中绝大部分序列都是非平稳的.因而对非平稳序列的分析更普遍更重要。对非平稳时间序列的分析法通常分为确定性时序分析和随机时序分析。这里简要介绍常用确定性时序分析方法。趋势分析有些时间序列具有非常显著的趋势.我们分析的目的就是要找到序列中的这种趋势.并利用这种趋势对序列对序列的发展做出合理的预测。季节效应分析在日常生活中我们可以看到许多有季节效应的时间序列.如四季气温等等。凡是呈现出固定的周期性变化的时间.我们都称其有季节效应。综合分析既有趋势起伏变动又有季节效应的复杂序列的分析方法.常用模型有:加法模型乘积模型混合模型a.b.式中.代表序列的长期趋势波动;代表序列的季节性〔周期性变化;代表随机波动。非平稳序列的模型事实上.许多非平稳序列差分后会显示出平稳序列的性质.称之为差分平稳序列。对差分平稳序列可以用ARIMA模型拟合。具有如下结构的模型称为求和自回归移动平均<autoregressiveintegratedmovingaverage>模型.简记为ARIMA<p,d,q>模型:式中:;.为平稳可逆ARMA<p,q>模型的自回归系数多项式;.为平稳可逆ARMA<p,q>模型的移动平滑系数多项式;{}为零均值白噪声序列。由上式可知ARIMA模型的实质就是差分运算与ARMA模型的组合。当序列具有非常显著的确定性趋势或季节效应时.人们会怀念确定性因素分解方法对各种确定性效应的解释.但又因为它对残差信息的浪费而不敢轻易使用。为了解决这个问题人们构造了残差自回归<auto-regressive>模型。Auto-Regressive模型的构造思想是首先通过确定性因素分解方法提取序列中主要的确定性信息:式中.为趋势效应拟合.为季节效应拟合。考虑到因素分解方法对确定性信息的提取可能不够充分.因而需要进一步检验残差序列的相关性。如果检验结果显示残差序列自相关性不显著.说明确定性回归模型对信息提取比较充分.可以停止分析。如果检验结果显示残差序列自相关性显著.这时可以考虑对残差拟合自回归模型.进一步提取相关信息:这样构造的模型:称为残差自回归模型。四.实例本文以中国大陆人口自然增长率<1949—20XX>为样本进行分析,数据<数据来自20XX统计年鉴>见表1。表1中国大陆人口自然增长率年份人口自然增长率%1940161950192020232420.3220.523.2317.2410.191960-4.743.7826.9933.3327.6428.3826.2225.5327.3826.08197025.8323.3322.1620.8917.4815.6912.6612.061211.61198011.8714.5515.6813.2913.0814.2615.5716.6115.7315.04199014.3912.9811.611.4511.2110.510.4210.069.148.1820007.586.956.456.015.87第一步:原数据的平稳性检验为判断一个序列是否平稳.我们主要通过时序图以及自相关图进行检验。因为用到ARIMA模型的拟合和检验.所以在程序的开头会载入tseries。首先绘出时序图、自相关图、偏自相关图〔如下:图1原数据的时序图、自相关图、偏自相关图通过观察时序图.序列有递减趋势.所以我们基本可以判断该序列非平稳。第二步:差分并检验新序列的平稳性.完成序列的定阶图21阶差分后的时序图、自相关图、偏自相关图为了增加说服力.我们再次使用单位根检验对1阶差分后的的序列进行验证。结果如下:AugmentedDickey-FullerTestdata:dDickey-Fuller=-4.8992,Lagorder=3,p-value=0.01alternativehypothesis:stationaryWarningmessage:Inadf.test<d>:p-valuesmallerthanprintedp-value从上可以看出.p值等于0.01.远远小于0.05.因此拒绝原假设。所以可以认定1阶差分后的序列基本平稳.模型定阶结束。第三步:拟合模型并通过AIC准则检验在ARIMA模型拟合过程中中.模型为一阶差分.p和q分别取0到3并依次验证.取AIC值最小者。PQAIC01308.8902309.6203303.7910319.7111310.512304.9613305.3120305.8721307.6722305.5723307.1430307.8331308.8532307.4133309.12从上面的表格可以看出.当p取0.q取3的时候.AIC函数的值最小。因此.模型初步定为ARIMA〔0,1,3。第四步:残差检验图3残差的时序图Box-Piercetestdata:rX-squared=0.0017,df=1,p-value=0.9673由于p值远大于0.05.则该序列为白燥声.故模型最终定为ARIMA〔0,1,3。第五步:画出qq图从qq图的效果可以看出.二者还是比较吻合的.但是右侧头部和左侧尾部偏离期望的正态分布。第六步:预测并比较结果如下:$predTimeSeries:Start=57End=58Frequency=1[1]6.6461747.601378$seTimeSeries:Start=57End=58Frequency=1[1]3.5213586.133766因此我的未来2年预测结果分别是6.646174.7.601378。原论文的预测结果为:年份20032004实际值6.015.87预测值6.166265.8761两个预测结果进行比较.略有差距.其中的原因可能是拟合的问题.也可能是软件的差异。参考文献[1]王燕应用时间序列分析.北京:中国人民大学出版社.2005[2]何书元应用时间序列分析.北京:北京大学出版社.2003[3]PaulTeetorR语言经典实例.北京:机械工业出版社.2013完整的程序如下:library<tseries>pr<-read.table<'D:\\1.txt'>par<mfrow=c<2,2>>;plot.ts<pr>;acf<pr>;pacf<pr>d=diff<ts<pr>>par<mfrow=

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论