《应用统计学》第9章 利用过去的模式预测未来_第1页
《应用统计学》第9章 利用过去的模式预测未来_第2页
《应用统计学》第9章 利用过去的模式预测未来_第3页
《应用统计学》第9章 利用过去的模式预测未来_第4页
《应用统计学》第9章 利用过去的模式预测未来_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2008年5月应用统计应

AppliedStatistics2008年5月未来是不可预测的,不管人们掌握多少信息,都不可能存在能作出正确决策的系统方法。

C.R.Rao

统计名言2008年5月怎样解决下面的问题?

明年的GDP(国内生产总值)会是多少?明天的股票是上涨还是下跌?下个月的CPI(消费者价格指数)会是多少要?

10月份是房屋销售的旺季吗?春节期间的商品销售额增加了吗?银行加息周期已经来临了吗?第9章根据过去的模式预测未来9.1

时间序列的组成要素

9.2时间序列预测的程序

9.3平滑法预测9.4趋势模型预测9.5多成分序列的预测9.1时间序列的组成要素第9章利用过去的模式预测未来2008年5月时间序列

(timesseries)时间序列是按时间记录的一组观测值其变化可能受一种或几种因素的影响,导致它在不同时间上取值的差异,这些影响因素就是时间序列的组成要素通常一个时间序列由4部分组成:趋势、季节变动、循环波动和随机波动2008年5月时间序列的成分趋势(trend)持续向上或持续下降的状态或规律季节变动(seasonalfluctuation)也称季节变动(Seasonalfluctuation)时间序列在一年内重复出现的周期性波动

周期波动(cyclicalfluctuation)

也称循环波动(Cyclicalfluctuation)围绕长期趋势的一种波浪形或振荡式变动

随机波动(randomfluctuation)

也称不规则波动(Irregularvariations)除去趋势、周期性和季节性之后的偶然性波动

2008年5月含有不同成分的时间序列

4个不同的时间序列9.2时间序列预测的程序

9.2.1确定时间序列的成分

9.2.2选择预测方法并进行评估第9章利用过去的模式预测未来9.2.1确定时间序列的成分9.2时间序列预测的程序2008年5月确定时间序列的成分

(例题分析)【例】我国社会消费品零售总额数据的成分

2008年5月确定时间序列的成分

(例题分析)将每年的数据分开画在图上若序列只存在季节成分,图中的折线将会有交叉若序列既含有季节成分又含有趋势,则图中的折线将不会有交叉;如果趋势是上升的,后面年度的折线将会高于前面年度的折线,如果趋势是下降的,则后面年度的折线将低于前面年度的折线【例】社会消费品零售总额的的年度折叠图

9.2.2选择预测方法并进行评估9.2时间序列预测的程序2008年5月预测方法的选择是否时间序列数据是否存在趋势否是是否存在季节是否存在季节否平滑法预测简单平均法移动平均法指数平滑法季节性预测法季节多元回归模型季节自回归模型时间序列分解是趋势预测方法线性趋势推测非线性趋势推测自回归预测模型2008年5月误差评估平均误差ME(meanerror)平均绝对误差MAD(meanabsolutedeviation)2008年5月误差评估均方误差MSE(meansquareerror)平均百分比误差MPE(meanpercentageerror)平均绝对百分比误差MAPE(meanabsolutepercentageerror)9.3平滑法预测第9章利用过去的模式预测未来2008年5月移动平均法

(movingaverage)

将最近k期数据平均作为下一期的预测值

设移动间隔为k(1<k<t),则t期的移动平均值为

t+1期的简单移动平均预测值为棉花产量的移动平均预测2008年5月指数平滑法

(exponentialsmoothing)观察值离预测时期越久远,权数变得越小,而且以指数形式下降以一段时期的预测值与观察值的线性组合作为第t+1期的预测值,其预测模型为

Yt为第t期的实际观察值

Ft

为第t期的预测值为平滑系数(0<<1)2008年5月指数平滑法

(的确定)不同的会对预测结果产生不同的影响当时间序列有较大的随机波动时,宜选较大的

,以便能很快跟上近期的变化当时间序列比较平稳时,宜选较小的

选择时,还应考虑预测误差误差均方来衡量预测误差的大小确定时,可选择几个进行预测,然后找出预测误差最小的作为最后的值棉花产量的指数平滑预测2008年5月棉花产量的移动平均和指数平滑预测9.4趋势模型预测

9.4.1线性趋势预测

9.4.2非线性趋势预测

9.4.3自回归模型预测第9章利用过去的模式预测未来9.4.1线性趋势预测9.4趋势模型预测2008年5月线性趋势预测

(lineartrend)现象随着时间的推移而呈现出稳定增长或下降的线性变化规律线性方程的形式为a—趋势线在Y轴上的截距

b—趋势线的斜率,表示时间t

变动一个单位时观察值的平均变动数量人均GDP的线性趋势预测2008年5月人均GDP的线性趋势预测

(例题分析)9.4.2非线性趋势预测9.4趋势模型预测2008年5月时间序列以几何级数递增或递减一般形式为指数曲线

(exponentialcurve)

a,b为待估的未知常数若b>1,增长率随着时间t的增加而增加若b<1,增长率随着时间t的增加而降低若a>0,b<1,趋势值逐渐降低到以0为极限轿车产量数据的指数趋势预测2008年5月轿车产量的指数趋势预测

(例题分析)2008年5月用Excel中的GROWTH函数进行指数趋势预测第1步:选择【fx】插入函数,并选择【统计】函数中的

GROWTH(known_y's,known_x's,new_x's,const)函数第2步:当对话框出现时在【Known_y‘s】中输入y的数据区域在【known_x‘s】中输入x的数据区域在【New_x‘s】中输入新的x的值或数据区域(如果省略则假设它和known_x's

相同)

在【Const】中输入TRUE或省略,此时返回预测值;如果const为FALSE,b0

将设为1,此时返回预测值【注】若要同时返回一组预测值,则需要首先选择输出区域,然后同时按下【Ctrl+Shift+Enter】键用GROWTH函数进行指数预测2008年5月在一般指数曲线的方程上增加一个常数项K一般形式为修正指数曲线

(modifiedexponentialcurve)

K,a,b为未知常数K>0,a≠0,0<b≠1用于描述的现象:初期增长迅速,随后增长率逐渐降低,最终则以K为增长极限2008年5月修正指数曲线

(求解k,a,b

的三和法)

趋势值K无法事先确定时采用将时间序列观察值等分为三个部分,每部分有m个时期令预测值的三个局部总和分别等于原序列观察值的三个局部总和2008年5月修正指数曲线

(求解k,a,b

的三和法)

根据三和法求得

设观察值的三个局部总和分别为S1,S2,S3

城镇新建住宅面积的修正指数曲线预测2008年5月住宅面积的修正指数曲线预测

(例题分析)

2008年5月以英国统计学家和数学家B·Gompertz

的名字而命名一般形式为Gompertz

曲线

(Gompertzcurve)

描述的现象:初期增长缓慢,以后逐渐加快,当达到一定程度后,增长率又逐渐下降,最后接近一条水平线两端都有渐近线,上渐近线为YK,下渐近线为Y=0K,a,b为未知常数K>0,0<a≠1,0<b≠12008年5月Gompertz

曲线

(求解K,a,b

的三和法)

仿照修正指数曲线的常数确定方法,求出lg

a、lg

K、b取

lg

a、lg

K的反对数求得a和K

则有:将其改写为对数形式:令:2008年5月罗吉斯蒂曲线

(Logisticcurve)

1838年比利时数学家Verhulst所确定的名称该曲线所描述的现象的与Gompertz曲线类似3.其曲线方程为K,a,b为未知常数K>0,a>0,0<b≠12008年5月有些现象的变化形态比较复杂,它们不是按照某种固定的形态变化,而是有升有降,在变化过程中可能有几个拐点。这时就需要拟合多项式函数当只有一个拐点时,可以拟合二阶曲线,即抛物线;当有两个拐点时,需要拟合三阶曲线;当有k-1个拐点时,需要拟合k阶曲线k阶曲线函数的一般形式为线性化后,根据最小二乘法求多阶曲线

机床产量的的三阶曲线预测2008年5月机床产量的的三阶曲线预测

(例题分析)

9.4.3自回归模型预测9.4趋势模型预测2008年5月自回归模型预测时间序列数据后期的观察值往往与它前面的观察值相关可以想象2007年的人均GDP与2006年的人均GDP相关,2008年与2007年相关等等如果仍然利用最小二乘回归进行预测就会产生一些问题,这时可采用自回归模型进行预测2008年5月自相关及其检验

(autocorrelation)不同点的时间序列残差之间的相关称为自相关时间序列的残差是时间序列的观察值与相应的预测值之差对于大多数商业和经济序列来说,残差会出现连续的正值和连续的负值,也就是相邻的两个残差具有相同的正负号,时间序列残差之间的相关称为自相关相邻两期(t期和t-1期)残差之间的相关称为一阶自相关2008年5月自相关及其检验

(自相关对预测的影响)对于自相关序列应避免使用最小二乘法拟合的回归模型进行预测最小二乘回归的基本假定之一就是残差是相互独立的随机变量自相关显然破坏了这些假定,从而使回归系数的估计不再具有最小方差的性质用最二乘模型进行预测时产生的误差比预期的要大将回归方法用于时间序列时应注意这一问题2008年5月自相关及其检验

(D-W检验)判断残差之间是否存在自相关的方法之一就是使用Durbin-Watson检验,简称D-W检验对于双侧检验提出的假设为H0:残差无自相关,H1:残差存在自相关检验统计量为

检验时使用D-W检验统计量临界值表判断2008年5月自相关及其检验

(D-W检验统计量临界值表)显著性水平为=0.05、样本量为n、自变量个数为k,统计量的临界值下限为dL和上限dU2008年5月自相关及其检验

(D-W检验的判别)统计量的取值范围是0<d<4若统计量d<dL,拒绝原假设,存在自相关如果统计量d>dU,不拒绝原假设,没有证据表明存在自相关如果dL<d<dU,属于不确定区,无法根据Durbin-Watson统计量作出判断2008年5月自相关及其检验

(例题分析)【例】根据表11.1中的金属机床产量序列,检验是否存在自相关统计量d=0.47<1.10,拒绝原假设,机床产量序列存在自相关

2008年5月自相关及其检验

(例题分析)

机床产量残差中明显存在连续正值和连续负值,存在自相关

2008年5月自相关及其检验

(用SPSS计算检验统计量d)【Analyze】【Regression-linear】将因变量选入【Dependent】(本例为机床产量)

将自变量选入【Independent(s)】(本例为时间)主对话框点击【Statistics】,选择【Residuals】中的【Durbin-Watson】,点击【Continue】回到主对话框点击【OK】在输出结果中的“ModelSummary”给出的统计量为0.470用SPSS计算D-W统计量2008年5月自回归模型预测

(autoregression)序列包含多种成分自回归是解决自相关序列的有效预测方法之一它是利用观测值与以前时期的观测值之间的关系来预测值的一种多元回归方法因变量是观测值Yt,自变量是因变量的滞后值Yt-1,Yt-2,Yt-3,…。看上去就像自己同自己回归,故名自回归2008年5月自回归模型预测

(autoregression)自变量可以滞后一个时期、二个时期、三个时期或更多的时期当前值与滞后一期值的回归称为一阶自回归一阶AR模型:当前值与滞后二期值的回归称为二阶自回归二阶AR模型:当前值与滞后p期值的回归称为k阶自回归p阶AR模型:

是用最小二乘法估计的系数2008年5月自回归模型预测

(模型参数检验)自回归模型的阶数越高,丢失的数据就越多当数据不是很多时,高阶自回归模型的效果就不一定很好实际应用中,选择自回归模型时可以先选择一个高阶的自回归模型,然后把那些不显著的参数去掉。这时就需要对模型中最高阶的自回归参数进行检验2008年5月自回归模型预测

(模型参数检验)提出假设

H0:bp=0(最高阶参数不显著);H1:bp≠0(最高阶参数显著)计算统计量根据统计量的P值作出决策P<,拒绝H0,表明最高阶自回归参数显著,表明所选择的高阶自回归模型是合适的若不能拒绝H0,可以认为所选择的模型包含了太多的参数,这时可以考虑选择一个比它低阶的自回归模型。重复此过程,直到模型中的最高参数显著为止,从而得到最后的模型2008年5月自回归模型预测

(例题分析)【例】根据表11.1中的金属机床产量序列,建立自回归模型并进行预测,将原序列和预测值绘图进行比较

用Excel进行自回归2008年5月自回归模型预测

(例题分析)预测值和预测误差2008年5月自回归模型预测

(例题分析)2006年预测值2008年5月自回归模型预测

(用SPSS进行自回归

)【Analyze】【TimesSeries-Autoregression】将因变量选入【Dependent】(为机床产量)

将自变量选入【Independent(s)】(一阶滞后值

)在【Method】框下选择【Prais-Winsten】(也可选其他方法),点击【OK】用SPSS进行自回归2008年5月其他时序模型类似于AR模型,可以考虑用当前值作为因变量,以预测时产生的残差e作为自变量进行回归,这样的回归模型称为移动平均(movingaverage)模型,简称MA模型。对于滞后q期的MA模型可表示为将p阶AR模型和q阶MA模型混合起来,可以得到一个自回归移动平均(autoregression-movingaverage)模型,简称为ARMA模型,表示为对ARMA模型的改进模型称为整合自回归移动平均(autoregressionintegratedmovingaverage)模型,简称为ARIMA模型对这些模型的进一步讨论,可参阅时间序列方面的书籍9.5多成分序列的预测

9.5.1季节性多元回归预测

9.5.2分解预测第9章利用过去的模式预测未来9.5.1季节性多元回归预测9.5多成分序列的预测2008年5月季节性多元回归预测

(seasonalmultipleregression)用虚拟变量表示季节的多元回归预测方法季度数据需引入3个虚拟变量;月份数据需要引入11个虚拟变量季节性多元回归模型可表示为2008年5月季节性多元回归预测

(系数的解释)b0—时间序列的平均值b1—趋势成分的系数,表示趋势给时间序列带来的影响值M1、M2、…、M11—11个月份的虚拟变量b2、b3、b12—每个月与参照的12月份的平均差值2008年5月季节性多元回归预测

(例题分析)【例】我国社会消费品零售总额的季节性多元回归预测季节性多元回归预测季节性多元回归方程:b0=3589.35表示平均零售额

b1=61.70表示每月平均增加的销售额(趋势)b2=-328.69表示1月份比12月份平均少328.69亿元

……2008年5月季节性多元回归预测

(2007年预测值)【例】我国社会消费品零售总额的分解预测—2007月份预测值月份预测值1月7024.27月6584.12月6672.48月6647.93月6472.19月7053.24月6400.910月7359.95月6602.411月7347.56月6616.912月8031.5季节性多元回归预测2008年5月季节性多元回归预测

(实际值和预测值图)9.5.2分解预测9.5多成分序列的预测2008年5月预测步骤确定并分离季节成分计算季节指数,以确定时间序列中的季节成分将季节成分从时间序列中分离出去,即用每一个观测值除以相应的季节指数,以消除季节性建立预测模型并进行预测对消除季节成分的序列建立适当的预测模型,并根据这一模型进行预测计算出最后的预测值用预测值乘以相应的季节指数,得到最终的预测值2008年5月计算季节指数

(seasonalindex)刻画序列在一个年度内各月或季的典型季节特征以其平均数等于100%为条件而构成反映某一月份或季度的数值占全年平均数值的大小如果现象的发展没有季节变动,则各期的季节指数应等于100%季节变动的程度是根据各季节指数与其平均数(100%)的偏差程度来测定如果某一月份或季度有明显的季节变化,则各期的季节指数应大于或小于1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论