房地产价格指数的R语言.doc_第1页
房地产价格指数的R语言.doc_第2页
房地产价格指数的R语言.doc_第3页
房地产价格指数的R语言.doc_第4页
房地产价格指数的R语言.doc_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精品文档南京理工大学课程考核论文课程名称: 应用时间序列分析 论文题目:房地产销售价格指数的时间序列分析指导老师: 谢建春 姓 名: 张春雷 学 号: 113113001019 成 绩: 任课教师评语:签名: 年 月 日 前言近十年来,国内的房地产业发展迅速,开发的面积和规模也越来越大。大多数国人对房地产这个话题的热情是经久不衰,房地产业内任何重大的政策和举措都对普通老百姓的生活产生深刻的影响。本文选择的比较对象是一篇关于1998年初-2009年底的房地产销售价格指数的时间序列论文。原作者使用的是SAS软件,而我将使用R语言软件对数据进行观察研究并预测其走势。通过两者的过程及结果,比较其优劣。目录一、 时间序列概述4 1、概念4 2、定义4 3、主要分析方法4 4、研究意义4二、时间序列的预处理5 1、平稳性5 2、纯随机性5三、时间序列分析的主要方法及模型6 1、平稳时间序列分析的模型6 2、非平稳序列分析6 3、非平稳序列的模型7四、实例分析9 1、平稳性检验9 2、拟合及残差白噪声检验11 3、预测效果及比对13完整的程序 16参考文献 16一、时间序列概述1. 概念所谓时间序列就是按照时间的顺序记录的一列有序数据。对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析时间序列分析有着非常广泛的应用领域。2. 定义在统计研究中,常用按时间序列排列的一组随机变量,来表示一个随机事件的时间序列,简记为或。3. 主要分析方法时间序列分析方法主要有描述性时序分析和统计时序分析。描述性时序分析主要通过直观数据比较或绘图测绘,统计时序分析主要有频域分析方法以及时域分析方法。常用的是时域分析法,时域分析法的基本思想是源于事件的发展通常具有一定的惯性,这种惯性用统计语言来描述就是序列值之间存在一定的相关关系,而这种关系具有某种统计规律。我们分析的重点就是找寻这种规律,选取合适的数学模型拟合,进而预测该事件发展走向。4. 研究意义事件序列分析具有现实意义,在金融经济、气象水文、信号处理、机械振动等众多领域具有广泛的应用。二、时间序列的预处理通常得到一个观察值序列后首先要对其进行平稳性以及纯随机性进行检验。根据检验结果的不同我们有不同的处理方法。1. 平稳性时间序列的平稳性分为严平稳与宽平稳(1)严平稳定义设一时间序列。对任意整数,任取,对任意整数,有,则称序列为严稳序列。其中为分布函数。(2)宽平稳定义如果满足:任取,有;任取,有,为常数;任取,且,有;则称为宽平稳序列。其中表示与的自相关系数。(3)平稳性的检验平稳性检验主要有时序图检验以及自相关图检验。2. 纯随机性(1) 纯随机性定义如果时间序列满足以下性质: 任取,有,为常数; 任取,有则称序列为纯随机序列,也称为白噪声(white noise)序列。(2) 纯随机性检验构造检验统计量,主要是Q统计量以及LB统计量。三、时间序列分析的主要方法及模型1. 平稳时间序列分析的模型(1) AR模型(auto regression model)具有如下结构的模型称为p阶自回归模型,记为AR(p):(2) MA模型(moving average)具有如下结构的模型称为q阶移动平均模型,记为MA(q):(3)ARMA模型(auto regression moving average)具有如下结构的模型称为自回归移动平均模型,记为ARMA(p,q):若,该模型称为中心化ARMA(p,q)模型。2. 非平稳序列分析事实上在自然界中绝大部分序列都是非平稳的,因而对非平稳序列的分析更普遍更重要。对非平稳时间序列的分析法通常分为确定性时序分析和随机时序分析。这里简要介绍常用确定性时序分析方法。(1) 趋势分析有些时间序列具有非常显著的趋势,我们分析的目的就是要找到序列中的这种趋势,并利用这种趋势对序列对序列的发展做出合理的预测。(2) 季节效应分析在日常生活中我们可以看到许多有季节效应的时间序列,如四季气温等等。凡是呈现出固定的周期性变化的时间,我们都称其有季节效应。(3) 综合分析既有趋势起伏变动又有季节效应的复杂序列的分析方法,常用模型有: 加法模型 乘积模型 混合模型 a. b.式中,代表序列的长期趋势波动;代表序列的季节性(周期性)变化;代表随机波动。3. 非平稳序列的模型事实上,许多非平稳序列差分后会显示出平稳序列的性质,称之为差分平稳序列。对差分平稳序列可以用ARIMA模型拟合。具有如下结构的模型称为求和自回归移动平均(autoregressive integrated moving average)模型,简记为ARIMA(p,d,q)模型:式中:;,为平稳可逆ARMA(p,q)模型的自回归系数多项式;,为平稳可逆ARMA(p,q)模型的移动平滑系数多项式;为零均值白噪声序列。由上式可知ARIMA模型的实质就是差分运算与ARMA模型的组合。当序列具有非常显著的确定性趋势或季节效应时,人们会怀念确定性因素分解方法对各种确定性效应的解释,但又因为它对残差信息的浪费而不敢轻易使用。为了解决这个问题人们构造了残差自回归(auto-regressive)模型。Auto-Regressive模型的构造思想是首先通过确定性因素分解方法提取序列中主要的确定性信息:;式中,为趋势效应拟合,为季节效应拟合。考虑到因素分解方法对确定性信息的提取可能不够充分,因而需要进一步检验残差序列的相关性。如果检验结果显示残差序列自相关性不显著,说明确定性回归模型对信息提取比较充分,可以停止分析。如果检验结果显示残差序列自相关性显著,这时可以考虑对残差拟合自回归模型,进一步提取相关信息:这样构造的模型:称为残差自回归模型。四、实例数据为1998年3月-2009年12月的房地产销售价格指数。 在实例分析过程中,我会加入原论文的结果(用红色字体显示),与之进行比较分析。1、平稳性检验首先我们要判断序列是否平稳,主要通过时序图和单位根两个方法进行验证。如果不平稳,就进行差分运算,直至结果平稳。原数据的时序图、自相关图、偏自相关图(如下):图1 原数据的时序图、自相关图、偏自相关图通过观察时序图,序列有递增趋势,所以我们基本可以判断该序列非平稳。原论文对序列的平稳性检验如下:两者结论一致,因此做出差分的决定。差分后的序列图如下:图2 一阶差分后的时序图、自相关图、偏自相关图直观判别:通过观察一阶差分后的时序图,可以初步判断已经平稳,而且数值在-4到4之间,比较对称。理论判别:使用单位根检验对一阶差分后的的序列进行验证。结果如下: Augmented Dickey-Fuller Testdata: dDickey-Fuller = -4.8375, Lag order = 3, p-value = 0.01alternative hypothesis: stationaryWarning message:In adf.test(d) : p-value smaller than printed p-value从上可以看出,p值等于0.01,远远小于0.05,因此拒绝原假设。因此从序列图和单位根两个方面都可以认定一阶差分后的序列基本平稳。原论文的一阶差分结果如下:时序图和自相关图显示序列平稳。目前为止,R语言和SAS软件对序列的平稳性检验完全一致。2、拟合及残差白噪声检验首先,在前面的过程中,我们确定了ARIMA模型的d取值为1。接下来,我们考虑样本的容量,p和q分别取0到3并依次验证,取AIC值最小者。PQAIC01170.1602163.2903165.2810166.6511168.612165.2713163.6520168.4821169.4322151.9723153.6330157.1231155.5332157.5233159.45从上面的表格可以看出,当p取2,q取2的时候,AIC函数的值最小。利用Box-pierce方法对残差进行白噪声检验,结果如下:图3 残差的时序图Box-Pierce testdata: rX-squared = 0.0013, df = 1, p-value = 0.9715 从P值可以看出,远远大于0.05,因此接受原假设,模型检验合格。模型最终定为ARIMA(2,1,2)。拟合函数为:xt=2.263xt-1-2.192xt-2+0.929xt-3+t-0.0748t-1-1.9252t-2+t-3原论文的拟合结果为:残差白噪声检验显示差分后序列蕴含着很强的相关信息,不能视为白噪声序列。需要进一步拟合ARIMA模型,观察自相关图和偏自相关图,可初步确定P=3,Q=5观察拟合效果。拟合效果不佳,部分值的P值过大,不显著,去掉结果不显著的参数项,考虑疏系数模型p=(1,3) q=(1,5)。参数显著性检验显示两个参数均显著。我将原论文的结果ARIMA(3,1,5)代入进去,发现AIC值为156.35。残差检验P值为0.9583。两者存在一些差别。3、预测及比对图4 qq图从qq图的效果可以看出,二者还是比较吻合的,但是右侧头部和左侧尾部偏离期望的正态分布。图5 拟合效果图 黑色是观测数据图,红色是根据拟合的模型得出的预测图,两者趋势基本吻合,在部分区域略有偏差。我们可以认为,总体上还是能够反映序列的变化并进行适当预测的。对未来五期的预测结果如下:$predTime Series:Start = 49 End = 53 Frequency = 1 1 107.8934 109.1713 109.2693 109.3310 109.3356$seTime Series:Start = 49 End = 53 Frequency = 1 1 1.280879 2.356172 3.492821 4.360619 5.097315原论文的拟合模型为疏系数模型p=(1,3) q=(1,5)。拟合及预测的结果如下:拟合效果图显示拟合效果良好。R语言结果原论文结果107.8934109.8092109.1713111.6537109.2683111.3785109.3310109.9109109.3356108.1931两个预测结果进行比较,略有差距,其中的原因可能是拟合的问题,也可能是软件的差异。另外我将原模型的ARIMA(3,1,5)运行以后,结果如下:$predTime Series:Start = 49 End = 53 Frequency = 1 1 108.5229 108.7080 106.3036 103.3478 101.4853$seTime Series:Start = 49 End = 53 Frequency = 1 1 1.000276 1.628875 2.358244 2.907299 3.279682结果表明,差异更大。完整的程序如下:library(tseries)price-read.table(D:1.txt)par(mfrow=c(2,2);plot.ts(price);acf(price);pacf(price)d=diff(ts(price)par(mfrow=c(2,2);plot.ts(d);acf(d);pacf(d)adf.test(d)nihe=arima(price,order=c(2,1,2),method=ML)niher=nihe$residualsplot.ts(r)Box.test(r)qqnorm(r)qqline(r)library(for

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论