版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、摘要:针对问题一:本文通过利用SPSS,EVIEWS等数学软件对已知数据进行处理,首先在SPSS中用箱图进行分析,进而检测出强影响点,然后用SPSS计算得出杠杆值。其次,从回归残差的直方图与附于图上的正态分布曲线相比较,来验证正态分布。最后,从相关系数观察变量之间是否线性相关,由相关系数矩阵来检验自变量是否多重共线性。针对问题二:本模型是基于使用EVIEWS的使用对模型的分析检验。首先,绘制折线图和工业总产值自相关图进行平稳性和季节性分析得出相应的结果。从图中的分析消除趋势同时减小系列波动,对原系列做一阶自然对数逐期差分并且消除季节性。最后建立ARMA模型计算各模型参数估计结果和各模型检验结果
2、。用所建立的模型预测1998年1月到12月工业总产值和白噪声检验,以明确模型的可用性。 针对问题三:本模型采用聚类分析方法把数据分为两类,使用SPSS软件对已知数据进行处理,分析收入、个体数量及是否持信用卡三者之间的关系,得到聚类分析结果归属表及龙骨图,即可得到结果。关键字:回归分析 强影响点 杠杆值 残差分析 正态性检验 相关性检验 t检验 F检验 多重共线性检验 EVIEWS的使用 一阶自然对数逐期差分 季节差分 自相关与偏相关 聚类分析 欧氏距离 SPSS软件 一 问题重述问题一:根据所给数据进行以下分析:(数据见附录一)要求:1、检测强影响点,并求出杠杆值。 2、正态性检验。 3、相关
3、性检验。 4、自变量的多重共线性检测,若有多重共线性,试消除,再建模。 5、残差的自相关性分析,模型的合理性分析。 6、预测时的预测值。问题二:根据某地的工业总产值数据表进行以下分析:(数据见附录二)要求:1、根据数据分析当地工业总产值的变化特征。 2、根据变化特征试建立合理的模型描绘这种特征。 3、若有季节性变化,试分离出季节性变化因子,求出季节性因子。 4、对残差进行白噪声检验。 5、预测1998年的工业总产值。问题三:根据收入与持信用卡个体数量及是否持信用卡的调查表进行以下分析:(数据见附录三)要求:1、试对收入、个体数量及是否持信用卡三者之间的关系进行分析。 2、根据分析结果建立合理的
4、模型描述这三者间的关系。 3、根据预测结果提出合理化建议。二 问题分析问题一的分析:本模型中我们对强影响点,杠杆值,正态性检验,相关性检验,自变量的多重共线性检测,残差的自相关性等问题进行了求解分析,利用SPSS,EVIEWS等数学软件对已知数据进行处理,寻找各变量之间的关系,建立符合要求的数学模型。问题二的分析:1.绘制折线图和工业总产值系列自相关图并进行平稳性和季节性分析。2. 为消除趋势同时减小系列波动,对原系列做一阶自然对数逐期差分并且消除季节性。3.建立ARMA计算模型各模型参数估计结果和各模型检验结果。本模型是一个有关时间序列的问题,我们利用EVIEWS软件绘制折线图和工业总产值系
5、列自相关图并进行平稳性和季节性分析,并对该序列进行差分变换及一阶自然对数逐期差分且消除季节性,最后建立ARMA模型进行求解及预测。问题三的分析:本模型采用聚类分析方法把数据分为两类,并利用SPSS软件求解。三 模型假设问题一的假设:1、各变量的数据与所给的表格中的信息一致。2、随机误差项不相关。问题二的假设: 1、某地区的工业生产总值在一段时间内保持稳步发展。 2、工业总产值不会受其他因素的影响,只受季节性的影响问题三的假设: 假设数据间存在相似度。四 符号说明问题一的符号说明:1、 表示杠杆值2、 表示回归设计矩阵3、 表示样本预测值问题二的符号说明:1、:表示原时间序列;2、:表示时间序列
6、的一阶对数逐期差分;3、:表示序列的一阶季节差分;4、:表示对序列做差分计算;5、:表示季节自回归部分变量;6、:表示季节移动平均部分变量。问题三的符号说明:表示欧氏距离。五 模型建立与求解问题一:1.1用SPSS软件做如下的箱图可得到三个强影响点:2,3,34这三个点。图1.1.1 箱图1.2 杠杆值,用SPSS计算结果如下: 0.08927 0.17334 0.36372 0.08123 0.12384 0.10753 0.18045 0.27241 0.11972 0.24533 0.07050 0.25300 0.13616 0.18471 0.24417 0.15160 0.1152
7、0 0.11576 0.05475 0.02535 0.07332 0.14925 0.13162 0.08912 0.05099 0.17886 0.01226 0.18812 0.13499 0.06522 0.06165 0.06281 0.17065 0.97471 0.07830 0.11216 0.08678 0.13479 0.07252 0.063852、 检验正态性 (1)做统计量分析及直方图。图1.2.1 统计量分析图1.2.2 直方图从回归残差的直方图与附于图上的正态分布曲线相比较,可知道服从正态分布分布,即该项检验通过。(2)做P-P图检验正态性检验 图1.2.3 P-
8、P图从图1.2.3中可以看出自变量和因变量基本成线性关系,模型的散点几乎分布在一条直线上,可认为满足正态分布,所以该项检验通过。3、相关性检验图1.3.1 相关系数图从图1.3.1中可看出,是具有明显的相关性的,而与的相关性不显著。4、自变量的多重共线性检测图1.4.1 与的自相关性 输出结果中,的系数都不通过显著性检测。图1.4.2 残差图图1.4.3 相关系数矩阵 由此可以发现,与的相关系数都在1000以上,但输出结果中,解释变量的回归系数却无法通过显著性检验,可认为解释变量之间存在多重共线性。 用逐步回归克服多重共线性,分别做出与之间的回归模型:图1.4.4 与的自相关性 图1.4.5
9、与的自相关性 图1.4.6 与的自相关性 图1.4.7 与的自相关性 图1.4.8 与的自相关性 图1.4.9 与的自相关性 表1.1 由表1.1可知,对的影响最大,所以,选择作为初始的回归模型。的最大,所以保留,以为基础上,顺次加入变量逐步回归得结果:表1.2120.410.8269(4.45,7.00,6.75)22.08()78.960.7936(2.26,8.24,5.68)2.11186.650.6256(4.26,7.63,1.08)2.05237.060.6260(6.11,7.86,-1.10)2.17116.330.7368(3.12,5.06,4.16)1.73 经表1.2
10、比较,新加入后,=0.8269最大,而且参数t检验显著,保留,继续顺次加入其它变量逐步回归得出结果如下所示: 表1.347.520.9018(1.90,8.45,6.30,5.24)1.8572.990.8522(2.30,7.04,7.43,2.48)1.78135.250.8322(4.44,7.09,6.65,-1.06)2.1988.810.8492(3.05,5.66,5.18,2.30)1.78 经表1.3比较,新加入后,=0.9018最大,而且参数t检验显著,保留,继续顺次加入其它变量逐步回归得出结果如下所示: 表1.4-0.520.9276(-0.02,9.10,7.54,6.
11、03,3.53)1.8364.010.9092(2.44,8.81,6.26.5.45,-1.68)1.9931.730.9112(1.25,7.15,5.20,4.95,1.93)1.61经表1.4比较,新加入后,=0.9276最大,但参数t检验不显著,而加入后,=0.9112,而且参数t检验显著,保留,继续顺次加入其它变量逐步回归得出结果如下所示:表1.5-6.890.9316(-0.27,7,89,6.32,5.70,1.42,3.18)1.6347.770.9171(1.77,7.44,5.23,5.14,180,-1.55)1.81 经表1.5比较,新加入和后,两个的修正可绝系数都较
12、大,但参数检验不显著。所以与的相关性较强。做线性回归,如图:图1.4.10 线性回归所以经过多重共线性修正后的最终模型为:5.残差的自相关性分析,模型的合理性分析图1.5.1 残差分析 从图1.5.1可以看出AC自相关系数都小于1,大于-1,残差存在较弱的相关性,PAC值也是在(-1,1)的范围内,同样存在较弱的偏相关性。6.预测时的预测值取代入得: 362.86问题二:1、当地工业总产值的变化特征及其描述 时间序列特征分析:将数据绘制成折线图,如图2.1所示,序列具有明显的增长趋势,并包含有周期为12个月的季节波动。即有季节因子存在。图2.1.1 我国工业总产值折线图由折线图可看出,1990
13、年1997年该地区的工业总产值总体呈上升趋势,且每年2月份的观测值都远小于其他月份,表现出明显的季节波动。图2.1.2 工业总产值序列自相关图 由图2.1.2可知,工业总产值序列的自相关系数是逐渐趋向于0,该序列为非平稳时间序列,需要对其进行调整使之变成平稳系列在进行求解。图2.1.3 直方图为消除趋势同时减小序列的波动,使之变为平稳时间序列,对原序列做一阶自然对数逐期差分,在主命令窗口栏中输入:Series ilx=log(x)-log(x(-1)差分序列名定义为ilx(括号里的-1表示滞后一期),它的自相关与偏自相关分析图如图2.1.4。图2.1.4 序列ilx的自相关与偏自相关分析图图2
14、.1.5 序列ilx的折线图图2.1.6 序列ilx的一阶差分图2.1.7 序列ilx的二阶差分由图2.1.5至图2.1.7可见,序列的趋势基本消除,但是当k=12时,由图2.1.5知,样本的自相关系数和偏相关系数显著不为0,表明季节性还存在。因此对序列ilx做季节差分,在主命令窗口栏中输入:series silx=ilx-ilx(-12)得到新序列silx。为检验模型的预测的效果,将1997年的12个观测值作为评价预测的精度的参照对象。建模的样本期为1990年1月至1996年12月,在主命令窗口栏中输入smpl1990:01 1996:12绘制silx自相关和偏相关分析图,如图2.1.8。图
15、2.1.8序列silx的自相关与偏自相关分析图由图2.1.8可知,序列silx的样本自相关与偏相关系数很快落入随即区间,序列趋势已基本消除,且当k=12时,自相关与偏相关系数也明显减小,偏相关系数与0无显著差别,但自相关系数与0仍具有显著性差别。因此,我们对序列silx做二阶季节差分图,如图2.1.9。图2.1.9 序列silx的二阶季节差分图 由silx的二阶季节差分图可知,当k=12时,自相关与偏相关系数较之图2.1.8不但没有减小反而增大。因此对序列进行二阶差分,序列silx的季节性没有得到明显改善,故对该序列只需要做一阶差分即可。对序列silx进行0均值检验,在主窗口命令行输入scal
16、ar m=mean(silx)得到该序列的样本平均数约为-0.0019,均值与0无显著差异。在主窗口命令行输入scalar s=stdev(silx)*sqrt(1+2*(-0.410)/obs(silx)得到该序列的样本均值标准误差约为0.0034。综上表明,序列可以直接建立ARMA模型。2、建立ARMA模型,求出季节性因子 因为经过一阶逐期差分,序列趋势消除,故d=1;经过一阶季节差分,季节性基本消除,故D=1.所以选用模型。取自然对数后的工业总产值序列为ilx。观察序列silx的偏相关图,如图2.1.8所示,p=2或3比较合适;自相关图显示q=1。考虑到AR模型是线性方程估计,相对于MA
17、和ARMA模型的非线性估计容易,参数意义也便于解释。故实际建模时用高阶AR模型替换相应的MA和ARMA模型。综上考虑,可供选择的(p ,q)组合有:(2,1),(3,0),(3,1),(4,0)。由于k=12时,样本的自相关和偏相关系数都不为0,所以,P=Q=1。为方便直接对原序列x进行预测,Eviews提供了差分算子d(x,n,s)=(1-B)n(1-BS)x表明序列x做n次一阶逐期差分和一次步长为s的季节差分后的新序列,采用菜单式建立ARIMA(3,1,1) (1,1,1)12模型。sar(s)和sma(s)分别表示季节自回归部分和季节移动平均部分变量。在命令窗口栏中输入:Is d(log
18、(x),1,12)ar(1)ar(2)ar(3)ma(1)sar(12)sma(12)输出结果如下: 图2.2.1 ARIMA(3,1,1) (1,1,1)12模型图图2.2.2 ARIMA(3,1,1) (1,1,1)12模型预测值与真实值对比图 由图2.2.2可看出,预测精度MAPE为2.912789,同理,我们建立ARIMA(4,1,0) (1,1,1)12模型在命令窗口栏中输入:Is d(log(x),1,12)ar(1)ar(2)ar(3)ar(4)sar(12)sma(12)输出结果如下:图2.2.3 ARIMA(4,1,0) (1,1,1)12模型图图2.2.4 ARIMA(4,
19、1,0) (1,1,1)12模型预测值与真实值对比图 由图2.2.4可看出,预测精度MAPE为2.595721,同理,我们建立ARIMA(3,1,0) (1,1,1)12模型在命令窗口栏中输入:Is d(log(x),1,12)ar(1)ar(2)ar(3)sar(12)sma(12)输出结果如下:图2.2.5 ARIMA(3,1,0) (1,1,1)12模型图图2.2.6 ARIMA(3,1,0) (1,1,1)12模型预测值与真实值对比图 由图2.2.6可看出,预测精度MAPE为2.398079,同理,我们建立ARIMA(2,1,1) (1,1,1)12模型在主命令窗口栏中输入:Is d(
20、log(x),1,12)ar(1)ar(2)ma(1)sar(12)sma(12)输出结果如下:图2.2.7 ARIMA(2,1,1) (1,1,1)12模型图图2.2.7 ARIMA(2,1,1) (1,1,1)12模型预测值与真实值对比图 由图2.2.4可看出,预测精度MAPE为3.397766,计算的结果显示ARIMA(3,1,0) (1,1,1)12模型拟合的结果较为合理。我们利用ARIMA(3,1,0) (1,1,1)12模型进行预测。结果如下:四个模型的参数估计和相关检验汇总列入表1和表2,即:表1 各种模型的参数估计(p,q)AR(1)AR(2)AR(3)AR(4)MA(1)SA
21、R(12)SMA(12)(3,1)-0.2920-0.2563-0.3412-0.089400057-0.8786(3,0)-0.3982-0.2784-0.3467-0.0664-0.8779(4,0)-0.4208-0.2940-0.3531-0.0022-00458-0.8830(2,1)-0.1533-0.1722-0.164600301-0.8463表2各模型检验的结果(p,q)AICSCMAPE(3,1)0.5311-3.1638-2.94682.9128(3,0)0.5382-3.1596-2.94062.5957(4,0)0.5339-3.1858-3.00492.3981(2
22、,1)0.4818-3.0984-2.91923.3978 经计算,四个模型都满足平稳条件和可逆条件,模型设定合理。比较表2中各模型检验的结果。第二个模型预测的MAPE值显示其预测的精度极高(MAPE的取值范围在0-5之间精度极高,在10以内说明预测精度高),因而选择第二个模型即ARIMA(3,1,0) (1,1,1)12模型比较合适。3、对残差进行白噪声检验残差序列自相关的LM检验: 我们建立的ARIMA(3,1,0) (1,1,1)12模型虽然是适宜的。一般地,当非条件残差存在自相关时,有可能使得一期提前误差成为白噪声。因此我们需要对序列进行自相关检验。检验假设为:残差序列不存在小(等)于
23、2阶的自相关:存在ARMA(r,0)形式的误差项检验的结果如下: 图2.3 模型残差二阶自相关检验的结果 由于LM统计量的取值为0.498,检验的相伴概率为0.78大于置信度0.05.所以不能拒接原假设,故残差序列不存在二阶自相关。故其误差不会成为白噪声,即模型的建立是比较合理的。我们可以用该模型对1997年以后的工业生产总值进行预测。4、可用ARIMA(3,1,0) (1,1,1)12模型对1998年工业生产总值进行预测。其预测的结果如下:图2.4表3 1998年我国工业生产总值预测的结果1月2月3月4月5月6月7月8月 9月10月11月12月4270.6643798.2585068.746
24、5191.9015389.2685653.5264871.9854933.4955236.5295405.9835693.9566335.252问题三:欧氏距离的公式:1、 对收入与持信用卡个体数量以及是否持信用卡调查数据进行聚类分析。表3.1.1 观测量概述 聚类进度表聚类过程进度表列出聚类中观测量和类合并的顺序,共有31个观测量30步聚类所有的观测量合并为一类。表中Stage是聚类过程中的步数;Cluster Combined是聚类合并;Coefficients是距离测度系数;Stage Cluster First Appears是首次出现复聚类的阶段;Next Stage是下一步复聚类将
25、出现的阶段。 聚类分析结果归属表 根据将数据分为两类的设定,使用最近相邻法的聚类结果:1,2,3,29,30,31两类。图3.1.1 龙骨图 图3.1.1直观地显示了聚类的过程,从图上可以清楚地看出归属。六 模型评价问题一的评价:本模型总体来说还是比价合理的,但由于数据量不是很大,进行相关性,正态性分析时效果不是很好,从而导致用该模型求预测时误差大,预测的精度不是很高。问题二的评价:本模型通过折线图和相关及偏自相关分析可以明显的看出该工业的总产值随时间的变化而增长,并且有明显的季节性变化,通过消除平稳性和季节性并建立ARMA模型最终预测出1998年各月的生产总值,且预测值也符合该工厂生产总值的
26、增长趋势。但由于数据的可靠性以及准确性,在选取的数据上存在一定的误差,模型建立时,也忽略了很多影响因素。总体来说该模型还是不错的。问题三的评价:本模型通过聚类分析方法对数据进行分析,可得到聚类分析结果归属表,并画出了龙骨图,可明显看出归属。该模型总的来说还是比较合理的。七 参考文献【1】郝黎仁,樊元,郝哲欧,SPSS实用统计分析,北京:中国水利水电出版社,2002年。【2】潘鸿,张小宇,吴勇民,应用统计学,北京:人民邮电出版社,2011年5月。【3】姜启源,谢金星,叶俊,数学模型(第三版),北京:高等教育出版社,2003年8月。【4】【5】八 附录行YX1X2X3X4X5X6144349797
27、68152052290277031661293676115921300933945369262925824754816742941632026296315434141111974531056047510212861711485841720285951498727112-12421040015599915111741147362628191207121572511799451344045658419131951448092756392023215136272682417134165301115293111325617610781028457266186171068782187276196009798711282662048067656213121962127938264410811022446563299168188234505410050111520524335535560801702545961537965193266306010810417827327483837871118233286177412566164265296058912171882833038864308110101763135134446579143323667134568916233493883087
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025投资合作合同范本
- 2025供货合同补充协议范本
- 2023-2024学年高中信息技术(粤教版2019)-数据与计算必修-if语句的应用说课稿
- 2025合同纠纷举例与分析
- 2025服装买卖合同书范文
- 2025基本建设借款的合同范本范文
- 2024年高中政治 第二单元 为人民服务的政府 第四课 我国政府受人民的监督 2 权力的行使:需要监督说课稿1 新人教版必修2
- 2025建设工程商品(预拌)砼买卖合同
- 7 权力受到制约和监督(说课稿)2024-2025学年统编版道德与法治六年级上册001
- 5《走近我们的老师》说课稿-2023-2024学年道德与法治三年级上册统编版
- 个人安全与社会责任的基本知识概述
- 建筑装饰工程计量与计价试题一及答案
- 简易劳务合同电子版
- 明代文学绪论
- 通用税务自查情况说明报告(7篇)
- 体育赛事的策划、组织与实施 体育赛事利益相关者
- 分析化学(高职)PPT完整版全套教学课件
- 晚熟的人(莫言诺奖后首部作品)
- m拱顶储罐设计计算书
- 2023外贸业务协调期中试卷
- 新人教鄂教版(2017)五年级下册科学全册教学课件
评论
0/150
提交评论