检测强影响点,并求出杠杆值_第1页
检测强影响点,并求出杠杆值_第2页
检测强影响点,并求出杠杆值_第3页
检测强影响点,并求出杠杆值_第4页
检测强影响点,并求出杠杆值_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要:针对问题一:本文通过利用 SPSS,EVIEWS 等数学软件对已知数据进行处理,首先在 SPSS 中用箱图进行分析,进而检测出强影响点,然后用 SPSS 计算得出杠杆值。其次,从回归残差的直方图与附于图上的正态分布曲线相比较,来验证正态分布。最后,从相关系数观察变量之间是否线性相关,由相关系数矩阵来检验自变量是否多重共线性。针对问题二:本模型是基于使用 EVIEWS 的使用对模型的分析检验。首先,绘制折线图和工业总产值自相关图进行平稳性和季节性分析得出相应的结果。从图中的分析消除趋势同时减小系列波动,对原系列做一阶自然对数逐期差分并且消除季节性。最后建立 ARMA 模型计算各模型参数估计结果和各模型检验结果。用所建立的模型预测 1998 年 1 月到 12 月工业总产值和白噪声检验,以明确模型的可用性。针对问题三:本模型采用聚类分析方法把数据分为两类,使用 SPSS 软件对已知数据进行处理,分析收入、个体数量及是否持信用卡三者之间的关系,得到聚类分析结果归属表及龙骨图,即可得到结果。关键字:回归分析 强影响点 杠杆值 残差分析 正态性检验 相关性检验 t 检验 F 检验 多重共线性检验 EVIEWS 的使用 一阶自然对数逐期差分 季节差分 自相关与偏相关 聚类分析 欧氏距离 SPSS 软件 一 问题重述问题一:根据所给数据进行以下分析:(数据见附录一)要求:1、检测强影响点,并求出杠杆值。2、正态性检验。 3、相关性检验。4、自变量的多重共线性检测,若有多重共线性,试消除,再建模。5、残差的自相关性分析,模型的合理性分析。6、预测 时 的预测值。TX)25,7130,847(0Y问题二:根据某地的工业总产值数据表进行以下分析:(数据见附录二)要求:1、根据数据分析当地工业总产值的变化特征。2、根据变化特征试建立合理的模型描绘这种特征。3、若有季节性变化,试分离出季节性变化因子,求出季节性因子。4、对残差进行白噪声检验。5、预测 1998 年的工业总产值。问题三:根据收入与持信用卡个体数量及是否持信用卡的调查表进行以下分析:(数据见附录三)要求:1、试对收入、个体数量及是否持信用卡三者之间的关系进行分析。2、根据分析结果建立合理的模型描述这三者间的关系。3、根据预测结果提出合理化建议。二 问题分析问题一的分析:本模型中我们对强影响点,杠杆值,正态性检验,相关性检验,自变量的多重共线性检测,残差的自相关性等问题进行了求解分析,利用SPSS,EVIEWS 等数学软件对已知数据进行处理,寻找各变量之间的关系,建立符合要求的数学模型。问题二的分析:1.绘制折线图和工业总产值系列自相关图并进行平稳性和季节性分析。2. 为消除趋势同时减小系列波动,对原系列做一阶自然对数逐期差分并且消除季节性。3.建立 ARMA 计算模型各模型参数估计结果和各模型检验结果。本模型是一个有关时间序列的问题,我们利用 EVIEWS 软件绘制折线图和工业总产值系列自相关图并进行平稳性和季节性分析,并对该序列进行差分变换及一阶自然对数逐期差分且消除季节性,最后建立 ARMA 模型进行求解及预测。问题三的分析:本模型采用聚类分析方法把数据分为两类,并利用 SPSS 软件求解。三 模型假设问题一的假设:1、各变量的数据与所给的表格中的信息一致。2、随机误差项不相关。问题二的假设:1、某地区的工业生产总值在一段时间内保持稳步发展。2、工业总产值不会受其他因素的影响,只受季节性的影响问题三的假设:假设数据间存在相似度。四 符号说明问题一的符号说明:1、 ih表示杠杆值2、 )6,5432,10(xi 表示回归设计矩阵3、 Y表示样本预测值问题二的符号说明:1、 :表示原时间序列;x2、 :表示时间序列 的一阶对数逐期差分;ilx3、 :表示序列 的一阶季节差分;sxil4、 :表示对序列 做差分计算;nd,ilx5、 )(sar:表示季节自回归部分变量;6、 m:表示季节移动平均部分变量。问题三的符号说明: ),(yxd:表示欧氏距离。五 模型建立与求解问题一:1.1 用 SPSS 软件做如下的箱图可得到三个强影响点:2,3,34 这三个点。图 1.1.1 箱图1.2 杠杆值 iiihe,用 SPSS 计算结果如下:0.089270.173340.363720.081230.123840.107530.180450.272410.119720.245330.070500.253000.136160.184710.244170.151600.115200.115760.054750.025350.073320.149250.131620.089120.050990.178860.012260.188120.134990.065220.061650.062810.170650.974710.078300.112160.086780.134790.072520.063852、检验正态性(1)做统计量分析及直方图。图 1.2.1 统计量分析图 1.2.2 直方图从回归残差的直方图与附于图上的正态分布曲线相比较,可知道服从正态分布分布,即该项检验通过。(2)做 P-P 图检验正态性检验图 1.2.3 P-P 图从图 1.2.3 中可以看出自变量和因变量基本成线性关系,模型的散点几乎分布在一条直线上,可认为满足正态分布,所以该项检验通过。3、相关性检验图 1.3.1 相关系数图从图 1.3.1 中可看出, 1236,x是具有明显的相关性的,而 45,x与 Y的相关性不显著。4、自变量的多重共线性检测图 1.4.1 Y与 6,54,32,1xx的自相关性输出结果中, 12356,Cx的系数都不通过显著性检测。图 1.4.2 残差图图 1.4.3 相关系数矩阵由此可以发现, 与 6321xx, 的相关系数都在 1000 以上,但输出结果Y中,解释变量 的回归系数却无法通过显著性检验,可认为解释变量之间存54,x在多重共线性。用逐步回归克服多重共线性,分别做出 与 之间的回归模Y654321,xx型:图 1.4.4 Y与 1x的自相关性13.7025.98Yx20.597R (.65,72)t .2.14DW图 1.4.5 Y与 2x的自相关性23.671.4Yx20.6138R (.5,7)t .2.16DW图 1.4.6 Y与 3x的自相关性3.6019.Yx20.415R (.79,51)t .178DW图 1.4.7 Y与 4x的自相关性45.302.Yx20.36R (7.0,12)t .186DW图 1.4.8 Y与 5x的自相关性50.7846.9Yx20.9R (1.3,09)t .194DW图 1.4.9 Y与 6x的自相关性61.542.01Yx2.548R (3.2,8)t .192DW表 1.1C2t.1x205.980.97(5.6,7)42164613832.163x45(.9,1)7840207602.5x46.97.9(.3,)1946x152.00.548(3.2,68)1.92由表 1.1 可知, x对 Y的影响最大,所以,选择 x作为初始的回归模型。 的 最大,所以保留 ,以 为基础上,顺次加入变量2xR22x逐步回归得结果:65431,表 1.2C2Rt .WD12,x120.41 0.8269 (4.45,7.00,6.75) 22.08( )378.96 0.7936 (2.26,8.24,5.68) 2.1142,x186.65 0.6256 (4.26,7.63,1.08) 2.055237.06 0.6260 (6.11,7.86,-1.10) 2.1762,x116.33 0.7368 (3.12,5.06,4.16) 1.73经表 1.2 比较,新加入 后, =0.8269 最大,而且参数 t 检验显著,保1x2R留 ,继续顺次加入其它变量逐步回归得出结果如下所示:1x表 1.3C2t .WD312,x47.52 0.9018 (1.90,8.45,6.30,5.24) 1.85472.99 0.8522 (2.30,7.04,7.43,2.48) 1.78512,x135.25 0.8322 (4.44,7.09,6.65,-1.06) 2.19688.81 0.8492 (3.05,5.66,5.18,2.30) 1.78经表 1.3 比较,新加入 后, =0.9018 最大,而且参数 t 检验显著,保3x2R留 ,继续顺次加入其它变量逐步回归得出结果如下所示:3x表 1.4C2 t .WD4312,x-0.52 0.9276 (-0.02,9.10,7.54,6.03,3.53) 1.83564.01 0.9092 (2.44,8.81,6.26.5.45,-1.68) 1.996312,x31.73 0.9112 (1.25,7.15,5.20,4.95,1.93) 1.61经表 1.4 比较,新加入 后, =0.9276 最大,但参数 t 检验不显著,而4x2R加入 后, =0.9112,而且参数 t 检验显著,保留 ,继续顺次加入其它变6x2R6x量逐步回归得出结果如下所示:表 1.5C2Rt .WD46312,xx-6.89 0.9316 (-0.27,7,89,6.32,5.70,1.42,3.18) 1.6356312,47.77 0.9171 (1.77,7.44,5.23,5.14,180,-1.55) 1.81经表 1.5 比较,新加入 和 后,两个 的修正可绝系数都较大,但参数4x52R检验不显著。所以 与 的相关性较强。做线性回归,如图:t 6321,Y图 1.4.10 线性回归所以经过多重共线性修正后的最终模型为: 6321 9.06.73xxY5.残差的自相关性分析,模型的合理性分析图 1.5.1 残差分析从图 1.5.1 可以看出 AC 自相关系数都小于 1,大于-1,残差存在较弱的相关性,PAC 值也是在(-1,1)的范围内,同样存在较弱的偏相关性。6.预测 时 的预测值TX)25,7130,847(0Y取 代入,162xx得: 362.86632 9.0.1.6.73Y问题二:1、当地工业总产值的变化特征及其描述时间序列特征分析:将数据绘制成折线图,如图 2.1 所示,序列具有明显的增长趋势,并包含有周期为 12 个月的季节波动。即有季节因子存在。图 2.1.1 我国工业总产值折线图由折线图可看出,1990 年1997 年该地区的工业总产值总体呈上升趋势,且每年 2 月份的观测值都远小于其他月份,表现出明显的季节波动。图 2.1.2 工业总产值序列自相关图由图 2.1.2 可知,工业总产值序列的自相关系数是逐渐趋向于 0,该序列为非平稳时间序列,需要对其进行调整使之变成平稳系列在进行求解。图 2.1.3 直方图为消除趋势同时减小序列的波动,使之变为平稳时间序列,对原序列做一阶自然对数逐期差分,在主命令窗口栏中输入:Series ilx=log(x)-log(x(-1)差分序列名定义为 ilx(括号里的-1 表示滞后一期) ,它的自相关与偏自相关分析图如图 2.1.4。图 2.1.4 序列 ilx 的自相关与偏自相关分析图图 2.1.5 序列 ilx 的折线图图 2.1.6 序列 ilx 的一阶差分图 2.1.7 序列 ilx 的二阶差分由图 2.1.5 至图 2.1.7 可见,序列的趋势基本消除,但是当 k=12 时,由图2.1.5 知,样本的自相关系数和偏相关系数显著不为 0,表明季节性还存在。因此对序列 ilx 做季节差分,在主命令窗口栏中输入:series silx=ilx-ilx(-12)得到新序列 silx。为检验模型的预测的效果,将 1997 年的 12 个观测值作为评价预测的精度的参照对象。建模的样本期为 1990 年 1 月至 1996 年 12 月,在主命令窗口栏中输入 smpl1990:01 1996:12 绘制 silx 自相关和偏相关分析图,如图 2.1.8。图 2.1.8 序列 silx 的自相关与偏自相关分析图由图 2.1.8 可知,序列 silx 的样本自相关与偏相关系数很快落入随即区间,序列趋势已基本消除,且当 k=12 时,自相关与偏相关系数也明显减小,偏相关系数与 0 无显著差别,但自相关系数与 0 仍具有显著性差别。因此,我们对序列 silx 做二阶季节差分图,如图 2.1.9。图 2.1.9 序列 silx 的二阶季节差分图 由 silx 的二阶季节差分图可知,当 k=12 时,自相关与偏相关系数较之图2.1.8 不但没有减小反而增大。因此对序列进行二阶差分,序列 silx 的季节性没有得到明显改善,故对该序列只需要做一阶差分即可。对序列silx进行0均值检验,在主窗口命令行输入scalar m=mean(silx)得到该序列的样本平均数约为-0.0019,均值与0无显著差异。在主窗口命令行输入scalar s=stdev(silx)*sqrt(1+2*(-0.410)/obs(silx)得到该序列的样本均值标准误差约为0.0034。综上表明,序列可以直接建立 ARMA 模型。2、建立 ARMA 模型,求出季节性因子因为经过一阶逐期差分,序列趋势消除,故 d=1;经过一阶季节差分,季节性基本消除,故 D=1.所以选用 SQDPqdpARIM),)(,模型。取自然对数后的工业总产值序列为 ilx。观察序列 silx 的偏相关图,如图 2.1.8 所示,p=2或 3 比较合适;自相关图显示 q=1。考虑到 AR 模型是线性方程估计,相对于 MA和 ARMA 模型的非线性估计容易,参数意义也便于解释。故实际建模时用高阶AR 模型替换相应的 MA 和 ARMA 模型。综上考虑,可供选择的(p ,q)组合有:(2,1) , (3,0) , (3,1) , (4,0) 。由于 k=12 时,样本的自相关和偏相关系数都不为 0,所以,P=Q=1。为方便直接对原序列 x 进行预测,Eviews 提供了差分算子d(x,n,s)=(1-B)n(1-BS)x表明序列 x 做 n 次一阶逐期差分和一次步长为 s 的季节差分后的新序列,采用菜单式建立 ARIMA(3,1,1) (1,1,1)12 模型。 sar(s)和 sma(s)分别表示季节自回归部分和季节移动平均部分变量。在命令窗口栏中输入:Is d(log(x),1,12)ar(1)ar(2)ar(3)ma(1)sar(12)sma(12)输出结果如下:图 2.2.1 ARIMA(3,1,1) (1,1,1)12 模型图图 2.2.2 ARIMA(3,1,1) (1,1,1)12 模型预测值与真实值对比图由图 2.2.2 可看出,预测精度 MAPE 为 2.912789,同理,我们建立ARIMA(4,1,0) (1,1,1)12 模型在命令窗口栏中输入:Is d(log(x),1,12)ar(1)ar(2)ar(3)ar(4)sar(12)sma(12)输出结果如下:图 2.2.3 ARIMA(4,1,0) (1,1,1)12 模型图图 2.2.4 ARIMA(4,1,0) (1,1,1)12 模型预测值与真实值对比图由图 2.2.4 可看出,预测精度 MAPE 为 2.595721,同理,我们建立ARIMA(3,1,0) (1,1,1)12 模型在命令窗口栏中输入:Is d(log(x),1,12)ar(1)ar(2)ar(3)sar(12)sma(12)输出结果如下:图 2.2.5 ARIMA(3,1,0) (1,1,1)12 模型图图 2.2.6 ARIMA(3,1,0) (1,1,1)12 模型预测值与真实值对比图由图 2.2.6 可看出,预测精度 MAPE 为 2.398079,同理,我们建立ARIMA(2,1,1) (1,1,1)12 模型在主命令窗口栏中输入:Is d(log(x),1,12)ar(1)ar(2)ma(1)sar(12)sma(12)输出结果如下:图 2.2.7 ARIMA(2,1,1) (1,1,1)12 模型图图 2.2.7 ARIMA(2,1,1) (1,1,1)12 模型预测值与真实值对比图由图 2.2.4 可看出,预测精度 MAPE 为 3.397766,计算的结果显示ARIMA(3,1,0) (1,1,1)12 模型拟合的结果较为合理。我们利用 ARIMA(3,1,0) (1,1,1)12 模型进行预测。结果如下:四个模型的参数估计和相关检验汇总列入表 1 和表 2,即:表 1 各种模型的参数估计(p,q) AR(1) AR(2) AR(3) AR(4) MA(1) SAR(12) SMA(12)(3,1) -0.2920 -0.2563 -0.3412 - -0.0894 00057 -0.8786(3,0) -0.3982 -0.2784 -0.3467 - - 0.0664 -0.8779(4,0) -0.4208 -0.2940 -0.3531 -0.0022 - 00458 -0.8830(2,1) -0.1533 -0.1722 - - -0.1646 00301 -0.8463表 2 各模型检验的结果(p,q) 2RAIC SC MAPE(3,1) 0.5311 -3.1638 -2.9468 2.9128(3,0) 0.5382 -3.1596 -2.9406 2.5957(4,0) 0.5339 -3.1858 -3.0049 2.3981(2,1) 0.4818 -3.0984 -2.9192 3.3978经计算,四个模型都满足平稳条件和可逆条件,模型设定合理。比较表 2中各模型检验的结果。第二个模型预测的 MAPE 值显示其预测的精度极高(MAPE的取值范围在 0-5 之间精度极高,在 10 以内说明预测精度高) ,因而选择第二个模型即 ARIMA(3,1,0) (1,1,1)12 模型比较合适。3、对残差进行白噪声检验残差序列自相关的 LM 检验:我们建立的 ARIMA(3,1,0) (1,1,1)12 模型虽然是适宜的。一般地,当非条件残差 存在自相关时,有可能使得一期提前误差 成为白噪声。因此我们tt需要对序列进行自相关检验。检验假设为:残差序列不存在小(等)于 2 阶的自相关0H:存在 ARMA(r,0)形式的误差项1检验的结果如下:图2.3 模型残差二阶自相关检验的结果由于LM统计量的取值为0.498,检验的相伴概率为0.78大于置信度0.05.所以不能拒接原假设,故残差序列不存在二阶自相关。故其误差 不会成为白噪t声,即模型的建立是比较合理的。我们可以用该模型对1997年以后的工业生产总值进行预测。4、可用 ARIMA(3,1,0) (1,1,1)12 模型对 1998 年工业生产总值进行预测。其预测的结果如下:图 2.4表 3 1998 年我国工业生产总值预测的结果1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10月11月12月4270.6643798.2585068.7465191.9015389.2685653.5264871.9854933.4955236.5295405.9835693.9566335.252问题三:欧氏距离的公式:iiyxyxd2)(),(1、对收入与持信用卡个体数量以及是否持信用卡调查数据进行聚类分析。表3.1.1 观测量概述Case Processing Summarya31 100.0 0 .0 31 100.0N Percent N Percent N PercentValid Missing TotalCasesSingle Linkagea. 表3.1.2 聚类进度表Agglomeration Schedule26 27 1.000 0 0 2017 18 1.000 0 0 1114 15 1.000 0 0 511 12 1.732 0 0 511 14 2.000 4 3 128 10 2.236 0 0 197 9 2.449 0 0 85 7 2.449 0 7 1824 25 2.828 0 0 232 4 2.828 0 0 1317 20 3.000 2 0 1611 13 3.000 5 0 172 6 3.000 10 0 142 3 3.000 13 0 151 2 3.000 0 14 1816 17 3.162 0 11 1711 16 3.317 12 16 191 5 3.317 15 8 218 11 3.606 6 17 2126 28 4.000 1 0 271 8 4.472 18 19 2521 22 4.583 0 0 2423 24 5.196 0 9 2421 23 6.481 22 23 251 21 7.000 21 24 261 19 9.274 25 0 2826 29 10.000 20 0 281 26 10.296 26 27 3030 31 12.247 0 0 301 30 27.148 28 29 0Stage123456789101112131415161718192021222324252627282930Cluster 1 Cluster 2Cluster CombinedCoefficients Cluster 1 Cluster 2Stage Cluster FirstAppearsNext Stage聚类过程进度表列出聚类中观测量和类合并的顺序,共有31个观测量30步聚类所有的观测量合并为一类。表中Stage是聚类过程中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论