




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《时间序列分析》周慧办公室:9-319电话:(600试分数=80%卷面+20%平时成绩时间序列分析的起源最早的时间序列分析可以追溯到7000年前的古埃及古埃及人把尼罗河涨落的情况逐天记录下来,就构成所谓的时间序列。对这个时间序列长期的观察使他们发现尼罗河的涨落非常有规律。由于掌握了尼罗河泛滥的规律,使得古埃及的农业迅速发展,从而创建了埃及灿烂的史前文明。按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。第2章确定性时间序列模型特点:数据去掉随机扰动项后,剩下的可以用确定的时间函数来表示。假设:(1)过去一段时间收集到的数确的刻画了历史;(2)历史会重复。一个时间序列{Yt}可分解为以下四部分的共同作用:长期趋势变动T,季节效应S,循环变动C,不规则变动因素I.(一般将循环变动和季节效应都称为季节性变化)2.1时间序列的分解时间序列的变动因素长期趋势变动(T:seculartrend)具体表现为不断增加或减少的基本趋势,及只围绕某一常数值波动而无明显增减变化的水平趋势.季节性变动(S:seasonalvariation)周期小于或等于一年,通常为一年、一月、一周等.循环变动(C:cyclicalvariation)通常周期为2~15年.不规则变动或随机变动(I:irregularvariation)受偶然不可控因素的影响,表现出不规则波动.1978年-2007年我国GDP数据(单位:亿元)GDP即国内生产总值,它是对一国经济在核算期内所有常住单位生产的最终产品总量的度量,常常被看成反映一个国家经济状况的重要指标。1992年第1季度-2008年第3季度我国GDP季度数据(单位:亿元)
1820年-1869年的太阳黑子数(单位:个)该图中,横轴是时间t(以年为单位),纵轴表示在时间t内太阳黑子个数的观测值.德国业余天文学家施瓦尔发现太阳黑子的活动具有11年左右的周期加法模型:各个影响因素相互独立,均为与X同计量单位的绝对量乘法模型:只有长期趋势是同X同计量单位的绝对值,其余趋势为长期趋势的比例,表现为对于长期趋势的一种相对变化幅度,通常以百分数表示。趋势模型趋势季节模型趋势季节循环模型时间序列数据的简单外推如何选择加法模型还是乘法模型适合乘法模型适合加法模型数值偏移趋势部分的大小随时间的改变而改变数值偏移趋势部分的大小不随时间的改变而改变平滑方法平滑方法的优点:时间序列往往受到偶然因素的影响产生随机变化,所以使用技术方法可以更好的发现数据的规律。若一个时间序列没有明显的趋势和季节性,可以利用平滑后的序列对未来进行预测。2.2.1简单移动平均原始数据用At表示,平滑数据用表示M-期简单移动平均:使用最近的M个数据的平均值作为平滑值。对数据进行预测,用平滑值作为未来一个时刻的预测例:(奇数次滑动平均)5-期简单滑动平均平滑:5-期简单滑动平均预测:偶数次滑动平均(需要两次平滑)简单移动平均
应该计算多少天M的平均值一个简单的判断方法。如果原始的时间序列比较平滑,那么使用短周期效果好,如果时间序列没有什么规律,那么使用长周期效果好。简单移动平均线的应用趋势依然有效时使用长周期,趋势反转时使用短周期股票市场简单移动平均线一条:如果闭盘价>移动平均线,买入,反之卖出一条:移动平均线是支撑和压力区域。一条:移动平均线是对趋势的确认。有滞后性。两线交叉法:短期均线穿越长期均线时买入,常用的组合是5天-20天,10天-50天。例如5天均线向下穿越20天均线,而20天均线本身正向下降时,这种态势意味着大势在下跌。只有两条线同时上升,而且5日线向上穿越20日线,才能认为市场出现反转,如果20日线仍然下跌,不是有效的反转信号。多条:穿越长期线更有意义。与其它指标共同使用来判断买入还是卖出。股票市场移动平均线使用什么价格进行平均闭盘价(最广泛的方法)最高价最低价其它:(最高+最低)/2;(最高+最低+闭盘)/3美国股票市场合适的时间长度短期:10日,15日,20日,25日,30日中期:30日,10周,13周,20周,26周,200日长期:9个月,12个月,18个月,24个月加权滑动平均以4-期简单滑动平均预测为例:等价于注意:4个数据的权数都为0.25.一般的,最近的数据最能反映未来的信息,应该给予更大的权数。如:说明:随着时间的推移,越旧的数据,重要性越低。指数平滑一次指数平滑:其中是实际值序列;是平滑值序列
是上期平滑值,是平滑系数,也叫衰减因子,取值范围为0<<1.
迭代后,整理
利用指数平滑对数据进行平滑和预测初始化:更新:预测:确定1.Eviews自动给定
自动给定是系统按照预测误差平方和最小原则自动确定最佳系数值。如果系数接近1,说明该序列近似纯随机序列,这时最新的观察值就是最理想的预测值。2.Bowerman和Oconnel建议取值范围控制在0.1~0.3之间。一般认为,序列变化较为平缓,平滑系数应取得小些,如小于0.1;序列变化较为激烈,平滑系数可取得大些,如0.3~0.5;若平滑系数取大于0.5才能跟上序列变化,表明序列有很强的趋势,不能采用一次指数平滑法。指数平滑的优点与缺点优点:方法简单,甚至只要有样本末期的平滑值,就可以得到预测结果。缺点:1.预测值是常数,不能反映趋势变化、季节波动等有规律的变化;2.短期预测较为灵敏,但不适合中长期预测3.由于预测值是历史数据的均值,与实际数据相比,预测值序列的变动有滞后性季节调整为什么要进行季节调整?
思考:3月份的啤酒销量比2月份好还是差?如果仅从实际销量分析这个问题,似乎不合适。因为3月份是淡季而2月份是旺季。趋势和季节调整(x-11法)季节调整的基本思想乘法模型:加法模型:
某期实际值(Y)-同期季节变差(S)=T+C+IX-11基本原理(以乘法为例)1.假设观测值{X}适合乘法模型X=TSI2.使用某种方法fT
(.)
对原始序列的趋势T进行估计,得到3.从{X}中剔除得到季节变动和不规则变动相对数4.再用某种方法fS
(.)
,利用SI对时间序列进行季节调整,得到季节成分5.最后得到不规则变动I的估计 X-11程序季节调整的特点:利用原始资源{X}求和利用SI求均采用滑动平均,并反复迭代直至异常值被识别、剔除或者调整,最终得到稳定的季节因素。分离趋势成分从原时间序列{X}分离趋势T,采用滑动平均法。平均过程剔除了时间序列中的季节成分和不规则成分,派生出的移动平均序列是长期趋势的估计值。例子原时间序列是月度资料,月度资料是12个月为一个周期,应做12项的滑动平均第一个滑动平均值对应于原序列的第6和第7项的中间;而第二项对应于第7和第8项的中间,以此类推;但是,偶数项的滑动平均需要再进行一次两项的滑动平均。称为12*2的滑动平均。12*2滑动平均注意:在滑动平均计算中,时间区间中首尾分别没有对应的移动平均值,如果移动平均值的移动项目是偶数L,那么首尾各缺L/2如果移动平均值的移动项目是奇数L,那么首尾各缺(L-1)/2,称为滑动平均的端值丢失。季节因子(seasonalfactor)反应了序列随着时间变化过程中,受季节因素影响的程度,即模型中的S部分。乘法模型,表现为季节指数,是一串在100%上下波动的相对数;加法模型,表现为季节变差,是一串在0左右分布的绝对数。主要用途:(1)反映了时间序列中季节波动的规律(2)对时间序列进行季节调整(3)对时间序列进行季节预测时间序列数据的简单外推第一步:使用中心滑动平均估计趋势项对月度数据使用6个月的中心滑动平均,把数据平滑化ŷt=(0.5yt-6+yt-4+…+yt+…+yt+5+0.5yt+6)/12对季度数据使用2个中心滑动平均,把数据平滑ŷt=(0.5yt-2+yt-1+yt+yt+1+0.5yt+2)/4这样就把季度特点取消了,只剩下趋势,所以时间序列数据的简单外推第二步:把随机误差项去掉—把不同年份相同季节的数据进行平均,就可以去掉随机误差项假设有4年的数据第一个数据用y1表示,以此类推,所有的数据可以表示为y1,…,y48用z1,…,z48表示去掉趋势后的数据,为了去掉误差项,我们把每一年的相同月份求平均时间序列数据的简单外推z1=(z1+z13+z25+z37)/4z2=(z2+z14+z26+z38)/4…z12=(z12+z24+z36+z48)/4时间序列数据的简单外推把季节因子规范化,使得季节因子的平均值等于1月度数据季度数据时间序列数据的简单外推第三步:从原始数据中去掉季节项每年第一个月的数据除以zb1每年第二个月的数据除以zb2。。。每年第十二个月的数据除以zb12时间序列数据的简单外推股票市场中加权移动平均线第一期数据乘以1,第二期数据乘以2,依次类推求出和,然后再除以权重和。还有的最后一期数据乘以2,其它数据乘以1,然后除以权重和。如果加权移动平均线转变方向意味着趋势反转。趋势性的提取方法平滑法移动平均法:k期左侧移动平均,k期右侧移动平均,k期中心移动平均指数平均法拟合法:建立时间t的回归模型常用的拟合模型:线性方程,二次曲线,指数曲线,修正指数曲线,龚帕兹曲线,Logistic曲线季节指数表示一年内每个月或每个季度,或其他周期的季节性变动方向和幅度的百分数。例如某季度的季节指数等于100%,说明该季度属于平均水平,如果大于100%说明该季度是旺季,如果小于100%说明是淡季。月度数据12个月的季节指数之和等于1200%,季度数据4个季度的指数之和等于400%时间序列数据的简单外推拟和趋势
线性趋势二次线性趋势指数趋势(对数线性趋势)线性趋势模型yt=c0+c1t
截距斜率时间趋势增长的数量是常数t+1比t时刻增加c1例如:yt=27.5+3.1t时间序列数据的简单外推二次趋势模型yt=c0+c1t+c2t2曲线不是直线,有一定的弧度。指数增长曲线时间序列数据的简单外推例如:前面季节调整后的数据有趋势,并且曲线反应出正线性关系,所有使用线性趋势拟和数据yt=c0+c1t根据最小二乘法估计出未知参数为c0=113.7c1=1.855预测趋势点预测在任何时间t,有yt=c0+c1t+t在时刻T+h,yT+h=c0+c1(T+h)+T+h时间序列数据的简单外推总结1计算中心滑动平均2去掉趋势得到季节和误差项,得到季节指数3调整季节指数4去掉季节项5估计趋势6计算拟和数据7计算误差,评价对历史数据的拟和程度8预测拟合澳大利亚政府1981-1990年每季度的消费支出序列线性模型参数估计方法最小二乘估计参数估计值最后看一下残差It是否需要拟合ARMA模型趋势性提取的拟合法拟合效果图对上海证券交易所每月末上证指数序列进行模型拟合非线性模型参数估计方法最小二乘估计参数估计值最后看一下残差It是否需要拟合ARMA模型趋势性提取的拟合法拟合效果图第三章平稳线性ARMA模型随机过程与时间序列随机过程的定义Ω为随机试验E的样本空间,T为实数集的子集,如果对于每个参数t∈T,X(e,t)为样本空间Ω上的一个随机变量,对每一个e∈Ω,X(e,t)为t的函数,则{X(e,t),t∈T,e∈Ω}称为随机过程,简记为{X(t),t∈T}或{Xt,t∈T}.参数t的变化范围T,称为随机过程的参数集.对于一切t∈T,e∈Ω,X(e,t)的全部可能的取值的集合,称为随机过程的状态集,记为I.参数集T、状态集I都可分为离散集与连续集.
随机过程与时间序列随机过程{Xt,t∈T}的分类:(1)连续参数集T、连续状态集I的随机过程(2)连续参数集T、离散状态集I的随机过程(3)离散参数集T、连续状态集I的随机过程(4)离散参数集T、离散状态集I的随机过程链:状态空间I离散的随机过程,(2)(4)随机序列:参数空间T离散的随机过程,(3)(4)。
T通常表示时间,又称为时间序列.时间序列数学意义上的时间序列:对时间序列{Xt,t=0,±1,±2,…},取一系列时间点t1<t2<…<tN,ti∈T={0,±1,±2,…}进行观察,观察值按时间先后顺序排列得到{xi,i=1,2,…,N},这样就形成了时间序列{Xt,t=0,±1,±2,…}一次观察(或实现).实际工作中的T常表示为年、季度、月、周、日等.统计意义上的时间序列:时间序列是变量在某一时间段内不同时间点上观测值的集合,而且这些观测值是按时间先后顺序排列的.时间序列中的“时间”:指时间、长度、温度等具有顺序的物理量.时间序列时间序列{Xt,t=0,±1,±2,…}的一次观察{xi,i=1,2,…,N}所得到的数据,实际上是N维随机变量{Xt1
,Xt2
,…,XtN
}的一次观察.这些数据具有一定的相关性,在整体上呈现某种趋势性或周期性变化,反映了时间序列{Xt,t=0,±1,±2,…}随“时间”变化的、“动态”的、“整体”的统计规律性,包含了产生该时间序列的系统的历史行为的全部信息.1985年-2007年我国居民消费价格指数CPI居民消费价格指数(Consumer
Price
Index)英文缩写CPI,是反映与居民生活有关的产品及劳务价格统计出来的物价变动指标,通常作为观察通货膨胀水平的重要指标.1949年-1964年北京地区的洪涝灾害面积数据(单位:万亩)北京在历史上也是自然灾害频发的地区,在各种自然灾害中,水旱灾害发生的次数最多,危害最大。1997年1月-2008年9月美元对人民币汇率月度数据(单位:元):2005年7月21日中国启动人民币汇率改革以来,不断完善汇率形成机制,人民币对美元汇率总体呈现小幅上扬态势1990年12月19日-2008年11月6日上证A股指数日数据(除去节假日,共4386个数据)1980年1月-1991年10月澳大利亚红酒的月销量(单位:公升)销量数据存在较为明显的上升趋势和季节变化1951年-1980年美国每年发生的罢工次数序列这些数据存在一种不规律的上下波动。1994年-1995年香港环境数据序列(a)表示因循环和呼吸问题前往医院就诊的人数;(b)表示二氧化硫的日平均水平;(c)表示二氧化氮的日平均水平;(d)表示可吸入的悬浮颗粒物的日平均水平时间序列分析时间序列分析依赖于不同地应用背景,有着不同的目的分析的基本任务是揭示支配观测到的时间序列的随机规律,通过所了解的这个随机规律,我们可以理解所要考虑的动态系统,预测未来的事件,并且通过干预来控制将来事件。上述即为时间序列分析的三个目的。时间序列的分布和数字特征时间序列{Xt,t=0,±1,±2,…}在任意时刻t的状态是随机变量,因此可以利用随机变量的一些概念来描述时间序列{Xt,t=0,±1,±2,…}的统计特征.有限维分布函数,均值函数,均方值函数,方差函数,自相关函数,自协方差函数,自相关系数时间序列的有限维分布函数实时间序列{Xt,t=0,±1,±2,…},参数集T={0,±1,±2,…},对任意n个时刻t1,t2,…,tn∈T,及实数x1,x2,…,xn∈R,称为时间序列{Xt,t=0,±1,±2,…}的n维分布函数.时间序列{Xt,t=0,±1,±2,…}的所有有限维分布函数的集合为时间序列{Xt,t=0,±1,±2,…}的有限维分布函数族。它完全刻画了时间序列的统计特征.时间序列的数字特征时间序列{Xt,t=0,±1,±2,…}的均值函数:记为t
,若对于任意t∈T={0,±1,±2,…},EXt存在,则t=EXt
方差函数:记为DX(t)或Var(X),若对于任意t∈T={0,±1,…},E(Xt
-t)2存在,则DX(t)=E(Xt-t)2=EXt2-t2数学期望的性质:1.E(aX+b)=aEX+b2.E(X+Y)=EX+EY方差的性质:1.D(aX+b)=a²DX;2.D(X±Y)=DX+DY±2Cov(X,Y)如果X与Y不相合,则D(X±Y)=DX+DY注意:独立和不相合非等价。时间序列的数字特征自相关函数:记为γts,若对于任意t1,t2∈T={0,±1,…},存在,则注意:自协方差函数是对称的。当t=s时,就是方差。自相关系数:(ACF)协方差的性质:1.Cov(X,Y)=Cov(Y,X);2.Cov(aX,bY)=abCov(X,Y),3.Cov(aX+b,cY+d)=acCov(X,Y)平稳时间序列:时间序列处于某种平稳状态,其主要性质与变量之间的时间间隔有关,而与所考察的起始点无关。平稳时间序列的分类:严平稳(strictlystationary),宽平稳(weaklystationary)一元时间序列,多元时间序列82平稳时间序列严平稳时间序列严平稳是一种条件比较苛刻的平稳性定义,它认为只有当时间序列所有的统计性质都不会随着时间的推移而发生变化时,该时间序列才能被认为平稳.定义:如果时间序列{Xt,t=0,±1,±2,…}的概率分布不随时间的变化而变化,即对任意ε,任意n∈N,任意t1,t2,…,tn∈T,任意x1,x2,…,xn∈R,有则称该时间序列为严平稳时间序列.宽平稳时间序列宽平稳是使用特征统计量来定义的一种平稳性,它认为时间序列的统计性质主要由低阶矩决定,所以只要保证低阶矩平稳(二阶),就能保证时间序列的主要性质近似稳定.定义:如果时间序列{Xt,t=0,±1,±2,…}满足以下三条:(1)均方值函数存在,即对任意t∈T有EX2(t)<∞(2)均值函数为常数,即对任意t∈T有EX(t)=(3)自协方差函数是时间间隔的函数,即对任意s,t∈T,τ=s-t有Cov(Xt,Xs)=E[(Xt-)(Xs-)]=(τ)则称该时间序列为宽平稳时间序列.严平稳与宽平稳的关系区别:宽平稳对时间推移的不变性表现在统计平均的一、二阶矩上,对于高于二阶的矩没有任何要求;严平稳对时间推移的不变性表现在统计平均的概率分布上,以保证序列所有的统计特征都相同;两者的要求不同,一般说来,严平稳比宽平稳要求要“严”.严平稳与宽平稳的关系联系:严宽:因为宽平稳要求期望和协方差都存在,而严平稳要求概率分布存在,并不断言一二阶矩存在.而服从柯西分布的严平稳序列就不是宽平稳序列,因为它的一、二阶矩均不存在;宽严:不言而喻;严平稳+二阶矩存在宽平稳,但反过来一般不成立;对于正态过程来说,有严平稳宽平稳.在实际应用中,研究最多的还是宽平稳时间序列白噪声(WhiteNoise)定义:若时间序列{εt,t=0,±1,±2,…}满足则称{εt,t=0,±1,±2,…},表示为{εt}~WN(0,ε2).若{εt}是独立同分布、均值为零、有限方差为ε2的白噪声,则表示为{εt}~IID(0,ε2).若{εt}是独立同正态分布、均值为零、有限方差为ε2的白噪声,则表示为{εt}~NID(0,ε2).本质特点:时刻t的随机变量εt与另一时刻s的随机变量εs是互不相关,不存在线性关系.白噪声过程指目前时刻与过去时刻的值不相关。过去时刻对未来没有任何有用的价值。“白”是因为他的谱与白光有相同的特点,它的谱密度在所有频率上是常数。白噪声的相关系数标准正态白噪声序列时序图均值为零方差为常数纯随机性常用的检验方法:数据图检验法自相关和偏相关系数图检验法特征根检验法参数检验法逆序检验法游程检验法平稳性检验数据图检验法以时间为横轴,变量Xt的取值为纵轴平稳的特点无明显的趋势性或周期性在一直线附近做小幅波动1990年12月19日-2008年11月6日上证A股指数日数据(除去节假日,共4386个数据)1994年-1995年香港环境数据序列(a)表示因循环和呼吸问题前往医院就诊的人数;(b)表示二氧化硫的日平均水平;(c)表示二氧化氮的日平均水平;(d)表示可吸入的悬浮颗粒物的日平均水平数据图检验法数据图检验法优点:简单,方便,直观缺点:主观性强
是独立同分的随机变量,且证明其平稳性。1.证明其宽平稳 1)
2)2.证明其严平稳独立性同分布性独立性随机游走(randomwalker)设e1,e2,…均值为0,方差为σ²的独立同分布的随机变量序列,且满足在初始条件,如果把e解释为沿着数轴向前(向后)游走的步长大小,那Yt就是t时刻,漫步者到达的位置。
1.从这里我们可以看出,方差与t有关,则非平稳。滑动平均(movingaverage)设e1,e2,…均值为0,方差为σ²的独立同分布的随机变量序列,且满足试判断其平稳性。1.即非平稳随机过程不具平稳性过程就是非平稳过程。如在工艺革新、原材料质量提高(下降)、设备更新时,产品的质量指标就是非平稳过程。作业:1.假设与t无关,而
,问(1){Xt}是否平稳?(2)令,则{Yt}是否平稳?2.假设为独立同分布的白噪声,问{Xt}是否平稳?
第二节
时间序列分析时间序列分析的方法时间序列的本质特征:相邻观察值之间具有相关性.时间序列分析timeseriesanalysis通过对时间序列{Xt,t=0,±1,±2,…}的一次观察{xi,i=1,2,…,N}的研究,认识其统计特征和结构特征,揭示其运行规律,预测其发展趋势并进行必要的控制.分类确定性时间序列分析统计时间序列分析时域分析timedomain频域分析frequencydomain统计时间序列分析频域分析所谓频域分析方法,也称为“频谱分析”或者“谱分析”方法,是着重研究时间序列的功率谱密度函数,对序列的频率分量进行统计分析和建模.常用工具:傅里叶变换、功率谱密度、最大熵谱估计等时域分析时域分析的重点就是寻找事件发展之间的相关关系,拟合适当的数学模型,并用该模型来预测序列未来的走势.常用工具:自相关系数、偏自相关系数、差分方程等时域分析时域分析又称为随机时间序列分析,是时间序列分析的主流方法常用手段数据图法以时间为横轴,序列观察值为纵轴,观察序列的变化情况指标法通过计算一系列核心指标,反映研究对象的动态特征模型法用数理统计方法建立适应性模型,进行预测和控制随机时间序列分析分类平稳时间序列分析常见模型:AR、MA、ARMA非平稳时间序列分析常见模型:ARIMA、乘积季节模型、组合模型等可控时间序列分析时间序列分析的特点时间序列分析是数理统计学的一个分支,遵循其基本原理,但由于时间的不可重复性,使得时间序列分析又有其自成体系的一套分析方法.多元统计分析处理的是横剖面数据,而时间序列分析处理的是纵剖面数据.观测值之间顺序的重要性,是时间序列分析区别其他统计分析的另一个特征.时间序列分析的观测值之间存在相关性.
第三节
平稳时间序列自协方差函数设{Xt,t=0,±1,±2,…}是实平稳序列,对任意整数k有Cov(Xt,Xt+k)=E[(Xt-)(Xt+k-)]=(k),k=0,±1,±2,…则{(k),k=0,±1,±2,…}称为平稳时间序列的自协方差函数序列,其中k称为迟后量(或者滞后量,延迟量).性质(k)是偶函数,即(k)=(-k)(k)具有界性,即|(k)|≤(0)=D(Xt){(k),k=0,±1,±2,…}是非负定序列自相关系数ACF平稳时间序列{Xt,t=0,±1,±2,…}的自相关系数为是相隔时间为k的序列{Xt}中各量的相关系数,是序列中滞后k期的两变量相关程度的度量.自相关系数序列{,k=0,±1,±2,…}的性质对称性,
{
,k=0,±1,±2,…}是非负定序列遍历性(Ergodicity)一般含义:遍历性就是随着时间的推移总可以得到以前没有过的新息。或者说
与是渐近独立的,当t趋于无穷的时,两组随机变量不再相关。
假设随机变量都满足遍历性。
几类重要的平稳随机过程一阶自回归过程(AR(1))AR(1)模型:为白噪声,并独立于自变量因变量误差项1.宽平稳性的必要条件不妨假设序列若平稳,可以得到两种可能(1)ϕ≠1,则Xt的均值存在,则=0;(2)ϕ=1,则该过程为随机游走,非平稳。2.两边取方差因为ϕ≠1,而0>0,可以推出|ϕ|<1.(充要条件)
3.等式两边同时乘以(k=1,2,…)可得到当k=1时,当k=2时,所以ACF(自相关系数)|ϕ|<1,随着滞后长度k的增加,自相关函数值呈指数递减;0<ϕ<1,自相关系数>0;-1<ϕ<0,一阶自相关系数是负数,接下来自相关系数的符号呈正负交替,自相关函数的绝对是呈指数递减。两个AR(1)系统参数分别为0.9,0.1J123456Φ=0.90.90.810.7290.65610.590490.531441Φ=0.10.10.010.0010.00010.000010.000001J78910Φ=0.90.47829690.430467210.387420890.34867841Φ=0.10.00000010.000000010.000000010.000000001结论:ϕ在±1附近,指数递减的很慢,但是对于较小的数,递
减的速度相当快;ϕ是正数,相对平滑序列,若为负数,
锯齿状序列。AR(2)模型:
独立同分布,并且独立于性质1.考虑宽平稳,零均值,两边Xt-k并求期望,可以得到同除以0,
令k=1,所以对两边取方差结合两式,得滞后算子(LagOperater)滞后算子,一般用B,或者L表示,是一个运算符号,与加减乘除不同的是,它作用的整个事件序列上,运算结果是另外一个事件序列,其定义:BYt=Yt-1滞后算子的性质1.B(BYt)=B(Yt-1)=Yt-2,2.B(aYt)=aBYt,3.B(Xt+Yt)=BXt+BYt,4.BC=C,5.1Yt=Yt,6.||<1例题1.(1-aB)(1-bB)Yt整理后结果是什么?2.把AR(2)模型用滞后算子表示。3.整理练习(下列模型记号B写出)1.2.3.考虑
的平稳性方法:用滞后算子考虑平稳性称为特征方程。平稳条件:该方程的根都在单位圆外。单位圆外的含义:根是实数时,它的绝对值大于1,根是复数时,模大于1.考虑
的平稳性考虑特征方程,得到AR(2)特征方程的根>1,AR(2)存在平稳解。平稳性成立当且仅当差分法1.随机游走:即
表示差分算子或差分,就是Xt与其前一期值的差,从统计上说,差分结果所得到的序列就是逐期增长量。一阶差分:二阶差分:注意:差分的次数就是差分的阶数,k阶差分,可以记为例时刻t12345678910序列Xt12345678910Xt/111111111²Xt//00000000注:差分可以使非平稳序列转换成为平稳序列线性差分方程为什么要了解线性差分方程?任何一个ARMA模型都是一个线性差分方程。ARMA模型的性质往往取决于差分方程根的性质。常系数差分方程N阶差分方程:其中为系统参数的函数,当
为常数时,即为常系数n阶差分方程。U(k)是离散序列,也叫驱动函数。Y(k)是系统的响应。
n阶齐次差分方程如何求解?1.求出相应的齐次方程的通解;2.求出一个原方程的特解;3.原方程的解=通解+特解。具体做法:1.设,代入到n阶齐次差分方程,必有2.得到特征方程3.求出n个特征根λ1,λ2,…,λn,4.求出通解注:λi既可能是实数,也可能是负数。若
是复数就应该成对出现;若λi=λj, i≠j时,表示差分方程有重根。5.求特解。一般令y(k)=i常数就可以了。例1.非齐次差分方程求解差分方程y(k+1)-ay(k)=b.解:1.令 2.得到特征根λ=a, 3.齐次差分通解为 4.求特解,令y(k)=d,得d=b/(1-a), 5.原方程的通解为二阶非齐次差分方程差分方程y(k+2)-3y(k+1)+2y(k)=3^k解:1.齐次方程通解λ1=1,λ2=2;2.通解3.特解,令,得C=1/2。
特解为4.原方程的通解为
二阶齐次方程解差分方程y(k+2)-6y(k+1)+9y(k)=01.有重根λ1=λ2=3,2.通解注意:当n阶齐次差分方程存在l个相等的实根,设λ1=λ2=…=λl,而λl+1,λl+2,…,λn为两不相等的实根,则方程的通解注意滞后算子得到的特征多项式和差分方程得到的特征多项式有什么联系?在AR(2)中如何用差分方程?注意到AR(2)中自相关函数递推关系:特征方程,根1.都是实根且不相等
指数衰减(Damp阻尼)2.都是复数,震荡衰减,振幅周期性减小像正弦波 3.相等
结论:AR(2)过程的自相关函数是指数衰减的,逐渐趋于0的。
AR(p)模型其中独立同分布,并独立于AR(p)平稳条件特征方程
的根在单位圆外。Or的根在单位圆内。AR(p)的参数特征满足以上差分方程,当
的根不同时,有例题考虑平稳性1,2.3.滑动平均过程MovingAverageProcess1.MA(1)模型:其中是白噪声(ori.i.d.),即注:MA模型总是平稳的,因为它是白噪声序列的有限线性组合。参数特征1.均值函数2.自协方差函数=0
(k>1).MA(1)模型的有限记忆性MA(2)模型可以计算出,一般滑动平均过程MA(q)模型其中是白噪声,即同样对于MA(q)序列,只与其前q个延迟值线性相关,从而它是有限记忆的。MA模型中心化MA(q)模型:非中心化MA(q)模型:两者之间的变换:Yt=Xt-μMA(∞)系数之和必须绝对收敛,这样才可以保证MA(∞)均方收敛到一个随机变量利用有限记忆性来预测模型具有有限记忆性,它的点预测就会很快达到序列的均值。例子某个产科医院,设是在第t天新住院的病员人数,而且假定某天住院人数与第二天住院人数无关的,再假设10%病人住院一天,50%病人住院两天,30%病人住院三天,10%病人住院四天,那么第七天住院的病人数Xt表达式?ARMA(p,q)模型(自回归滑动平均)意义:有限的参数来表示高阶的AR和MA过程。模型:用滞后算子来表示:参数特征1.特征方程2.平稳条件:平稳性只考虑AR部分,不需要考虑MA部分。自相关系数拖尾。ARMA(1,1)1.2.3.注意与AR(1)的不同模型的传递形式和可逆性传递性--用一个MA模型来逼近Xt的行为。AR(1)模型
设则有递推容易得到,可检验该式为差分方程的解。
一阶非齐次差分方程对的分析1.为驱动函数t的一个线性组合,或者说系统是如何记忆扰动的。2.------格林函数Gj(GreenFunction)3.结论:AR(1)模型可以用一个无限阶的MA来逼近。1.AR(1)模型的格林函数(注意:此处的格林函数的求法不一定有迭代法,还可以考虑用滞后算子来求得)2.MA(1)模型的格林函数ARMA模型的传递性
ARMA模型:即可逆形式可逆形式—用过去的Xt的一个线性组合来逼近系统现在时刻的行为。即
系数Ij称为逆函数。注:如果一个过程可以用一个无限阶的自回归模型逼近,即你函数存在,称过程具有可逆性。ARMA模型可逆性即模型可逆的判断标准ARMA模型特征方程得到的根在单位圆外,称模型可逆。结论:格林函数的平稳性仅与AR模型的特征根有关,而逆函数的可逆性仅与MA的特征根有关系。判断模型的可逆性例1:例2:练习:1.2.AR(1)模型的可逆性1.模型
显然,注意:AR(1)的格林函数
可见,Gj是由算子求得,AR(1)的逆函数Ij的算子是。同样可以考虑AR(2)模型。MA(1)模型的逆函数1.MA(1)模型有即可以得出显然,只有|1|<1时才有意义。所以由此得出MA(1)可逆性条件为|1|<1。回忆下MA(1)的格林函数格林函数和逆函数的关系格林函数逆函数AR(1)MA(1)结论:AR(1)的Gj与MA(1)的Ij形式一致,只是符号相反,参数互换,即可根据Gj求得Ij,就是用-Ij代替Gj,用1代替ϕ1.AR、MA、ARMA之间相互转换条件:平稳可逆AR(p)--------MA(∞);MA(q)--------AR(∞);ARMA(p,q)-------MA(∞)---------AR(∞)小结:1.系统具有平稳性,说明系统对某一时刻进入的扰动的记忆逐渐衰减,时间越远,它的影响作用就越小,逐渐被完全忘掉;2.可逆性表示某一时刻的系统响应对后继时刻的响应影响呈递减状态,离该时刻时间越远,影响作用越小。MA(q)AR(p)ARMA(p,q)
自相
q步截尾拖尾拖尾关函数问题:AR模型和ARMA模型的自相关函数都是拖尾,又该如何区分???例:AR(1)模型Xt,Xt-2相关吗?答:Xt,Xt-2相关。因为他们都与Xt-1相关。若去掉Xt-1的影响,他们之间关系如何来刻画?偏相关函数定义为消除中间介入变量Xt-1,Xt-2…Xt-k+1的影响后Xt和Xt-k的相关系数函数,记为MA(q)AR(p)ARMA(p,q)自相关函数q步截尾P步截尾拖尾偏相关函数拖尾拖尾拖尾如何求解?利用Yule-Walker求解其中称为Xt的偏相关系数。Yule-Walker方程展开:例:计算AR(2)的偏相关系数解:由Yule-Walker方程,得
AR(p)模型平稳时序模型的建立要求:1.熟悉建立平稳时序模型的具体步骤;
2.掌握模型的识别、定阶、及其适应性检验方法; 3.了解模型参数估计的基本思想。ARMA模型中心化问题
注意:前面我们讨论的都是0均值的。如果过程的均值未知,如何处理?处理方法:1.用样本均值作为过程均值的估计,建模前用样本数据减去其均值,然后对所得到的零均值序列建模;2.把过程均值当作另外一个未知参数进行估计。模型的识别1.样本自相关函数已知一组长度为T的样本,估计自相关函数1)随机过程的均值2)自协方差函数例:有长度为10的一个样本47,64,23,71,38,64,55,41,59,48,计算样本自相关系数ρ。具体解法见书本P.93纯随机性检验定义:纯随机性检验,又称白噪声检验,是检验时间序列观察值之间是否具有相关性.Bartlett定理:如果一个时间序列是纯随机的,得到一个观察期数为n
的观察序列,那么该序列的延迟非零期的样本自相关系数若,则自相关系数为零的可能性是95%,可认为数据是不相关的.检验统计量:
Q统计量:Box和Pierce共同推导出原假设:延迟期数小于或等于m的序列值之间相互独立结论:当Q<χ21-α(k)时,接受原假设,认为序列{Xt}是独立的,不用进行建模了。当统计量的相伴概率p>0.05时,接受原假设;当p<0.05时,拒绝原假设,{Xt}是平稳非白噪声序列,尝试建立ARMA模型。一般取k≈
N/10,.纯随机性检验模型模型方程自相关系数偏相关系数AR(p)Φ(B)Xt=εt拖尾p步截尾MA(q)Xt=Ɵ(B)εtq步截尾拖尾ARMA(p,q)Φ(B)Xt=Ɵ(B)εt拖尾拖尾对ARMA模型的初步识别模型识别的基本原则模型定阶的困难由于样本的随机性,样本的相关系数不会呈现出理论截尾的完美情况,本应截尾的或会呈现出小值振荡的情况。由于平稳时间序列通常都具有短期相关性,随着延迟阶数k→∞,与都会衰减至零值附近作小值波动。当或在延迟若干阶之后衰减为小值波动时,什么情况下该看作为相关系数截尾,什么情况下该看作拖尾呢?Bartlett定理:零均值的平稳时间序列Xt:若自相关系数q步截尾,则若偏相关系数p步截尾,则95%的置信区间:模型定阶的经验方法:利用2倍标准差辅助判断模型识别模型定阶经验方法如果样本自(偏)相关系数在最初的d阶明显大于2倍标准差范围,而后几乎95%的自(偏)相关系数都落在2倍标准差的范围以内,而且由非零自相关系数衰减为在零附近小值波动的过程非常突然。这时通常视为自(偏)相关系数截尾,截尾阶数为d。如果有超过5%的样本自(偏)相关系数都落入2倍标准差的范围之外,或者是由显著非零的自(偏)相关系数衰减为小值波动的过程比较缓慢或者非常连续,这时通常视为自(偏)相关系数拖尾。例:下面一组数据计算出来的自相关系数,该样本长度等于64,i123450.830.710.570.210.15例:样本容量n=100,偏自相关系数如下:k1,2,3,4,5,0.680.31-0.10.02-0.166,7,8,9,100.02-0.170.04-0.070.09
问题:如何ARMA(p,q)的中p和q?定阶的方法:残差方差图定阶法F-检验定阶法最佳准则函数法AIC准则BIC准则模型的定阶由于自相关函数(ACF)和偏相关函数(PACF)定阶法具有很强的主观性,是一种较为粗略的方法,而最佳准则函数定阶法则可以帮助我们在一些所选的模型中选择相对最优的模型。最佳准则函数法,即确定出一个准则函数。建模时按照信息准则函数的取值确定模型的优劣,以决定取舍,使准则函数达到极小的是最佳模型。分类:AIC准则法BIC准则法最佳准则函数法AIC准则用于ARMA模型的定阶对于中心化的ARMA(p,q)模型:N为样本容量对于非中心化的ARMA(p,q)模型:BIC准则AIC准则是样本容量N的线性函数,在N→∞时不收敛于真实模型,它通常比真实模型所含的未知参数要多,是过相容的。为了弥补AIC准则的不足,Akaike于1976年提出BIC准则,而Schwartz在1978年根据Bayes理论也得出同样的判别标准,称为SC准则。理论上已证明,SC准则是最优模型的真实阶数的相合估计。AIC与BIC准则对于中心化的ARMA(p,q)模型:N为样本容量
判断滞后长度的准则是p和q的函数,给定他们的值,可以得到一个AIC,开始时,AIC值随着p和q的增加而减小,但是由于样本长度有限,p和q越大,估计精度越低噪声项方差的估计值增加,由此AIC值又增加,所以选择使得AIC和BIC最小的p和q。定阶的步骤:1.给定滞后长度的上限P和Q;2.对长度p=0,1,2,…,P,q=0,1,…,Q,分别估计模型ARMA(p,q),利用估计结果可以计算噪声项方差估计值;3.代入公式,计算出AIC,BIC;4.求出最小值对应的p,q作为ARMA模型的阶数。
选择滞后长度存在缺陷:1)选择不同的准则具有主观任意性,有时候不同的准则会得出矛盾的结论;2)选择方法是确定一个滞后长度的上限p和q,如果实际的滞后长度大于P或q,那么我们就无法得出正确的滞后长度。例子见书本P97~P98。模型参数的估计阶数确定后,
估计模型:1.矩估计:与随机过程理论相结合;2.极大似然估计:是估计ARMA模型的标准方法;3.最小二乘估计:回归模型
矩估计注:模型不含常数项,若均值不为零,只要所有数据减去样本均值即可。AR(1)模型:易知
我们利用样本自相关系数来估计总体自相关系数,得AR(p)模型:需要估计的参数共p+1个Yule-Walker方程:展开利用矩阵简化计算最后利用解出滑动平均过程的矩估计MA(1)过程:令,问题准换为求解一个关于的二次方程。1)若|1|<0.5,韦达定理,只有一个解满足可逆条件||<1可逆解讨论:若1=±0.5,存在唯一解;若|1|
>0.5,不存在实数解。极大似然估计(MaximumLikelihoodEstimation)略残差的计算检验
估计好模型后,需要检验模型是否充分描述了数据:1.所有的系数是否显著的不等于0;2.残差是否为白噪声;3.预测是否准确;4.是否有大的拟合度和小的AIC,BIC;5.是否有更加简单的模型;6.是否有直观意义和经济理论基础。好模型的标准:1.每个系数都显著的不等于0;2.参数是白噪声过程;3.预测比其他模型准确;4.拟合优度大,AIC,BIC小;5.没有公共因子,不可以简化;6.有直观意义和经济理论基础。诊断检验目的:
残差是否是白噪声过程。1.计算出,观察它的样本自相关系数和样本偏相关系数是否在置信区间内;2.Box-PierceQ检验的检验步骤:1)计算统计量样本相关系数m主观给定,可令m=T^{1/2}或m=\sqrt{T}样本长度2)当原假设成立时,3)查=0.05,0.01的临界值若Q检验的优点把前m个自相关系数平方,避免了正负自相关系数加起来为0。如果残差是白噪声,那么自相关系数等于0,Q统计量应该接近于0;反之,如果Q接近于0,其中每一个一定都不大。Q检验使用的是渐近分布的临界值而不是它真实分布的临界值。Ljung和Box(1978)当原假设成立时,Q检验的缺点经常不能拒绝原假设,把非白噪声误认为白噪声。原因:两种统计量的分布未知,是渐近分布,只是用卡方分布渐近。真实值<卡方分布的临界值检验Q检验图示真实临界值计算值卡方分布临界例:对某时间序列(N=80)拟合ARMA(2,1)模型,得到残差自相关如下,试检验模型的适应性(=0.05).K12340.10.080.090.04K5678-0.130.050.02-0.06
解:卡方检验表明拟合ARMA(2,1)模型是适宜的。
预测复习条件期望:1.X和Y联合密度函数f(x,y),记X的边际概率密度函数为f(x),那么给定X=x时,Y的条件概率密度函数为条件期望
性质:预测预测就是根据过去和现在的样本值对未知时刻的取值进行估计。假设目前的时刻为t时刻,已知时刻t之前所有的取值。目的:预测Xt+l的取值,l>0,称为l-步预测,用表示预测值。预测误差:预测误差的均方值:最小均方误差最小均方误差:假设预测函数是线性的,即根据ARMA模型,在t+1时刻,成立在给定,1-步预测,结论:残差下表大于t时,残差估计值是未知的,用期望值0来代替,下标介于1到t之间时,可以根据观测数据计算出残差的估计值。2-步预测一般预测公式:这里,具体做法:
先写出Xt+l的表达式,当j>0,用0代替t+j;当j<0,用估计的残差代替t+j。例子AR(1)1)用t+1代替t,2)1-步预测,3)2-步预测,
L-步预测:当,预测值趋于均值0.MA(1)-----解决滑动平均模型产生的问题1-步预测,2-步预测,
ARMA模型预测ARMA模型Xt+l可以表示为l=1时,求条件期望其中可以得到t需要递推计算的,但是实际数据有限,过于靠前的t-j是未知的。因此我们往往给定初始值,取以前某时刻
t-j=0,即假定,这样就可以递推出t。
关于时间序列条件期望作业1.现在及过去的条件期望是其本身;2.现在及过去扰动的条件期望是零;3.未来扰动的条件期望是零;4.未来取值的条件期望是其预测值。例已知求解:所以预测的均方误差预测误差在AR(1)模型下,
所以可以将白噪声重释为一步向前预测误差序列。
另模型若求t=60做超前1步,超前2步预测。解:所以预测值的适时修正事实上,以时刻t为原点得到的的预测
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025企业与股东之间的借款合同模板
- 2025家居装修涂料采购合同模板
- 模板支撑体系建筑工程保温施工合同
- 虚拟财产交易平台结算服务与网络支付安全协议
- 抖音内部创作者竞争权益保障协议
- 高效建筑项目钢材期货价格锁定采购专项合同
- 欧洲分公司设立:跨区域市场拓展合作协议
- 2025年中国包装印刷机行业市场前景预测及投资价值评估分析报告
- 虚拟偶像形象使用权托管协议
- 游戏企业融资与风险投资合作协议
- 中文版自杀可能量表
- openstack云计算平台搭建课件
- 劳务实名制及农民工工资支付管理考核试题及答案
- 装饰艺术运动课件
- 【审计工作底稿模板】FH应付利息
- 胃肠减压技术操作流程.
- 工贸企业安全管理台账资料
- 三方协议书(消防)
- 工序能耗计算方法及等级指标
- 预激综合征临床心电图的当前观点
- 阀门检修作业指导书讲解
评论
0/150
提交评论