数据挖掘实验报告(参考).doc_第1页
数据挖掘实验报告(参考).doc_第2页
数据挖掘实验报告(参考).doc_第3页
数据挖掘实验报告(参考).doc_第4页
数据挖掘实验报告(参考).doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

时间序列的模型法和数据挖掘两种方法比较分析研究 实验目的: 通过实验能对时间序列的模型法和数据挖掘两种方法的原理和优缺点有更清楚的认识和比较. 实验内容: 选用1952-2006年的中国GDP,分别对之用自回归移动平均模型(ARIMA) 和时序模型的数据挖掘方法进行分析和预测,并对两种方法的趋势和预测结果进行比较并给出解释. 实验数据: 本文研究选用1952-2006年的中国GDP,其资料如下日期国内生产总值(亿元)日期国内生产总值(亿元)2006-12-312094071997-12-31747722005-12-311830851996-12-3168593.82004-12-311365151995-12-3158478.12003-12-31116898.41994-12-3145005.82002-12-31105172.31993-12-3134634.42001-12-3197314.81992-12-3126638.12000-12-31894041991-12-3121617.81999-12-31820541990-12-3118547.91998-12-31795531989-12-3116909.21988-12-3114928.31969-12-311937.91987-12-3111962.51968-12-311723.11986-12-3110202.21967-12-311773.91985-12-318964.41966-12-3118681984-12-3171711965-12-311716.11983-12-315934.51964-12-3114541982-12-315294.71963-12-311233.31981-12-314862.41962-12-311149.31980-12-314517.81961-12-3112201979-12-314038.21960-12-3114571978-12-313624.11959-12-3114391977-12-313201.91958-12-3113071976-12-312943.71957-12-3110681975-12-312997.31956-12-3110281974-12-312789.91955-12-319101973-12-312720.91954-12-318591972-12-312518.11953-12-318241971-12-312426.41952-12-316791970-12-312252.7 表一国内生产总值(GDP)是指一个国家或地区所有常住单位在一定时期内生产活动的最终成果。这个指标把国民经济全部活动的产出成果概括在一个极为简明的统计数字之中为评价和衡量国家经济状况、经济增长趋势及社会财富的经济表现提供了一个最为综合的尺度,可以说,它是影响经济生活乃至社会生活的最重要的经济指标。对其进行的分析预测具有重要的理论与现实意义。实验步骤: 1. 选用1952年到2001年这50个数据参与自回归移动平均模型(ARIMA)建模(所用的工具是Eviews). 根据博克斯-詹金斯提出的建模思想,具体步骤为: (1) 对原序列进行平稳性检验。在以年份为横轴,以山东省GDP为纵轴的坐标系中作曲线图如图1所示。图一从图1中可以看出全国的GDP不具有明显的周期变化和季节波动,但呈现出明显的增长趋势,他的相关系数和偏相关系数如图二所示图二从图二中可以看到,他的自相关系数是拖尾的,而偏相关系数是截尾的。对样本数据用ADF进行单位根检验的到结果如图三图三这里ADF值大于三个不同检验水平下的临界值,故而可以判断出,我国GDP序列是非平稳的。这就需要对GDP序列进行差分以使序列变得平稳。由图一可以看出,GDP序列明显带有指数性质,因此现对该序列进行对数变换在eviews中输入genr lngdp=ln(gdp)生成新的序列lngdp,并对新序列进行平稳性检验。Lngdp的相关系数和偏相关系数如图四所示,图四对lngdp用ADF进行单位根检验的结果如图五图五这里lngdp的ADF变成了1.251,依然大于三种不同检验水平下的临界值。从中可以看出,对GDP序列进行对数处理后,序列lngdp序列依然不平稳。需要再对lngdp序列进行差分处理。在eviews中输入genr dlngdp=d(lngdp)生成新序列dlngdp。并对dlngdp进行平稳性分析。其自相关系数和偏自相关系数如图六所示图六其ADF检验如图六图六这是ADF值为-3.87小于在1%校验水平下的临界值,即可以得出dlngdp序列为平稳序列的结论。(2) 通过计算能够描述序列特征的一些统计量(如自相关系数或非自相关系数),来确定ARMA模型的结束p和q,并初始计算时选择尽可能少的参数。从dlngdp序列的自相关系数和偏自相关系数图中可以看出,该序列可以用ARMA模型来表示,且由于自相关系数与偏自相关系数都是一阶截尾的,故取p=1,q=1,采用ARIMA(1,1)模型。第三步,估计模型的未知参数,并检验参数的显著性,以及模型本身的合理性。在eviews中输入ls dlngdp c AR(1) MA(1)得到结构如图七所示图七从图中可以看出,估计出的方程模型C值,AR(1)值的可信度较高,而MA(1)的估计值可信度相对低一些。总体方程具有很高的可信度。对模型进行残差序列分析得到如图八所示图八最右侧Probe列中的数字表示相应自由度条件下卡方统计量取值大于相应Q值的概率。因为这一列概率值都大于0.05,说明模型的随机误差序列是一个白噪声序列。模型均值及自相关系数的估计都通过显著性检验,模型本身也通过了残差自相关检验。因此模型可以用来预测。则,该方程的表达式为:2 用时序算法的数据挖掘方法对数据进行挖掘(选取1952-2001年的数据),得到趋势图.具体步骤为:(1) 创建数据仓库(2)创建数据源和数据视图,搭建挖掘环境(3) 对已经建立的数据仓库进行数据挖掘.在”选择数据挖掘技术”选择时序模型,在定型数据时,输入和可预测都选择GDP(4) 得到挖掘结果.切换到”挖掘模型查看器”选项卡,得到挖掘结果. 图九 4.用两种方法的结论进行预测 根据ARIMA估算出的方程进行预测2000-2008得到 年度实际GDP预测GDP误差200089404.00 87226.062.43606552001 97314.80 97603.140.2962961442002 105172.3 107257.41.9825562432003 116898.4 116314.40.4995791222004 136515.0 129441.15.1817748972005 183085.0 151228.817.399677752006 209407.0 202850.03.131222932007 NA 232026.72.4360655 表二其预测值与实际值的拟合曲线如图十 图十数据挖掘的方法只能预测到紧接着一年即2002年的GDP,值为:106113.85实验结果: 从图十的拟合曲线来看,随着预测期的延长,模型法的到误差可能会出现逐渐增大的情况。用数据挖掘的方法预测到2002年GDP值为106113.85,比较表二,可知数据挖掘的方法较模型法更准确一些.实验结论:(1) 两种方法的思路和操作程序有很大不同.前者是一种传统的建模方法,理论基础很强;后者

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论