应用统计学实验报告(spss软件)_第1页
应用统计学实验报告(spss软件)_第2页
应用统计学实验报告(spss软件)_第3页
应用统计学实验报告(spss软件)_第4页
应用统计学实验报告(spss软件)_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE2我国31个省市自治区第三产业发展状况分析(数据来源:中宏统计数据库)2010年31个省市第三产业增加值一、因子分析1.考察原有变量是否适合进行因子分析为研究全国各地区第三产业的发展状况,现比较其第三产业增加值的差异性和相似性,收集到2010年全国31个省市自治区各类第三产业包括交通运输、仓储和邮政业,批发和零售业,住宿和餐饮业,金融业,房地产业及其他产业的年增产值数据。由于涉及的变量较多,直接进行地区间的比较分析非常繁琐,因此首先考虑采用因子分析方法减少变量个数,之后再进行比较和综合评价。表1-1(a)原有变量的相关系数矩阵由表1-1(a)可以看到,所有的相关系数都很高,各变量呈较强的线性关系,能够从中提取公因子,适合做因子分析。表1-1(b)巴特利特球度检验和KMO检验由表1(b)可知,巴特利特球度检验统计量的观测值为295.349,相应的概率p接近0,。如果显著性水平a为0.5,由于概率p小于显著性水平a,应拒绝零假设,认为相关系数矩阵与单位矩阵有显著差异。同时,KMO值为0.860,根据Kaiser给出了KMO度量标准可知原有变量适合进行因子分析。2.提取因子首先进行尝试性分析。根据原有变量的相关系数矩阵,采用主成分分析法提取因子并选取特征根值大于1的特征根。表1-2(a)因子分析的初始解(一)表1-2(a)显示了所有变量的共同度数据。第一列是因子分析初始解下的变量共同度,表明对原有6个变量如果采用主成分分析法提取所有特征根(6个),那么原有变量的所有方差都可被解释,变量的共同度均为1。第二列是在按指定提取条件提取特征根时的共同度。可以看到,所有变量的绝大部分信息(大于84%)可被因子解释,这些变量的共同度均较高,变量的信息丢失较少,只有交通运输这个变量的信息丢失较多(近20%),因此本次因子提取的总体效果不理想。重新指定特征根的标准,指定提取两个因子,结果如下:表1-2(b)因子分析的初始解(一)表1-2(c)因子解释变量原有变量总方差的情况表1-2(c)中,第一列是因子编号,第二列到第四列(第一组数据项)描述了初始因子解的情况,第五列到第七列(第二组数据项)描述了因子解的情况。从第一组数据项中可以看到,第一个因子的特征根值为5.389,解释6个变量总方差的89.825%,累积方差贡献率也为89.825%。从第二组数据项中可以看到,指定提取的一个因子解释了原有变量总方差的94.999%,原有变量丢失较少,因子分析效果理想。图1-2(d)因子的碎石图在图1-2(d)中,横坐标为因子数目,纵坐标为特征根。可以看到,第一个因子的特征根值很高,对解释原有变量的贡献最大;第三个开始,因子的特征根值都较小,对原有解释变量的贡献很小,已经成为可被忽略的“高山脚下的碎石”,因此提取两个因子是合适的。表1-2(e)因子载荷矩阵表1-2(e)显示了因子载荷矩阵,是因子分析的核心内容,根据此表可以写出本案例的因子分析模型:批发和零售业=0.980a+0.028b房地产业=0.979a-0.078b其他=0.973a-0.108b住宿和餐饮业=0.934a+0.140b金融业=0.919a-0.352b交通运输、仓储和邮政业=0.898a+0.386b由表5可知,6个变量在提取的第一个因子a上的载荷都很高,意味着它们与第一个因子的相关程度高,第一个因子很重要;第二个因子b与原有变量的相关性均很小,它对原有变量的解释作用不显著。另外还可以看到,这两个因子的实际含义比较模糊。3.因子的命名解释采用方差最大法对因子载荷矩阵实施正交旋转以使因子具有命名解释性。指定按第一个因子载荷降序的顺序输出旋转后的因子载荷以及旋转后的因子载荷图,结果如下:表1-3(a)旋转后的因子载荷矩阵由上表可知,金融业,其他,房地产业在第一个因子是上有较高的载荷,第一个因子主要解释了这几个变量,可解释为生产和生活服务的产业;交通运输和邮政业,住宿和餐饮业,批发和零售业在第二个因子上有较高的载荷,第二个因子主要解释了这几个变量,可解释为流通服务的产业。(其中,批发和零售业在两个因子上的载荷大致相同,这里把它归为在第二个因子上的载荷较高。)与旋转前相比,因子含义较为清晰。表1-3(b)因子旋转中的正交表1-3(c)因子协方差矩阵由表1-3(c)因子的协方差矩阵,可以看出,两个因子没有线性相关性,实现了因子分析的设计目标。图1-3(d)旋转后的因子载荷图由上图可以清晰的看出,交通运输和邮政业、金融业比较靠近两个因子坐标轴,表明如果分别用第一个因子刻画金融业,用第二个因子刻画交通运输和邮政业,信息丢失效果较少,效果较好。但如果用一个因子分别刻画其他变量,则效果不是很理想。4.计算因子得分采用回归分析法估计因子得分系数,并输出因子得分系数。表1-4因子得分系数矩阵根据该表,可写出一下因子得分函数:A=-0.733交通运输+0.071批发和零售-0.184住宿和餐饮+0.903金融+0.304房地产+0.369其他B=1.016交通运输+0.190批发和零售+0.447住宿和餐饮-0.706金融-0.057房地产-0.128其他可见,计算两个因子得分变量的变量值时,交通运输邮政业和金融业的权重较高,但方向恰好相反,这与因子的实际含义是相吻合的。5.各省市自治区第三产业增值的综合评价计算因子综合得分,并按降序排列,如下表1-5:表1-5因子综合得分观察上表可见,广东,江苏,山东,浙江的综合得分较高,与其他地区差异较大,其他地区较相似。则第三产业增加值较高的省市有广东,江苏,山东,浙江四个省,第三产业发展最为迅速,它们多属于沿海地区,是中国的四个最强省;从北京到福建,因子的综合得分都还是正数,说明这些地区的第三产业的发展较为迅速,没有明显差异;而从内蒙古开始,一直到西藏,因子综合得分为负,其发展较缓慢,这些地区的第三产业增产值比较相似。二、回归分析对提取的两个因子做回归分析,因为有两个因子,所以是多元回归分析,步骤如下:1.拟合优度检验表2-1强制进入策略依据此表进行拟合优度检验。由于是此分析多元回归分析,方程有多个解释变量,因此参考调整的判定系数(AdjustedRSquare),由上表:由于R2(0.998)非常接近于1,因此认为拟合优度很高,被解释变量税收合计能被模型充分解释。2.回归方程的显著性检验(F检验)表2-2强制进入策略由此表进行回归方程的显著性检验。由表可知,被解释变量的回归平方和的均方为359431842.0,剩余平方和及其均方分别为1675533和59840.476,对应的概率p值近似为0.。显著性水平a为0.05,由于概率p小于显著性水平a,应拒绝回归方程显著性检验的零假设,认为各回归系数与0存在显著性差异,不同时为0,被解释变量税收合计与解释变量全体的线性关系显著,可建立线性模型。3.回归系数显著性检验(t检验)表2-3强制进入策略依据此表进行回归系数显著性检验。由表可知,如果显著性水平a为0.05,所有变量的回归系数显著性t检验的概率p值都小于显著水平a,因此这些偏回归系数与0有显著差异,它们与被解释变量税收合计的线性关系是显著的,先全部保留在方程中。同时,从容忍度和方差膨胀因子看,两个因子的容忍度和方差膨胀因子都等于1.000(接近于1),所以构建模型时两个因子都不必剔除。4.多重共线性检测表2-4强制进入策略依据此表进行多重共线性检测。由表3-4可知,变量的条件指数均小于10,说明多重共线性较弱;另外由表3-3看出,所有变量的容忍度(Tolerance)都接近于1,方差膨胀因子(VIF)都等于1,表示变量间的共线性很弱。因此不必重新建模。因此,由上述分析可以确定回归方程为:第三产业增加值=5691.774+3704.595第1因子+3199.702第2因子5.残差分析图2-5(a)第三产业多元回归分析的残差图由图2-5(a)可以看出,残差图中的点在纵坐标为0的上下随机散落着,残差的均值为0。图2-5(b)第三产业增加值多元线性回归分析的残差累计概率图由图2-5(b)可知,所有的观测值都接近于直线,表明标准化残差与正态分布不存在显著差异,即观测值符合正态分布,则残差满足了线性模型的前提要求。6.异方差分析表2-6标准化残差和标准化预测值的Spearman等级相关分析结果由表2-6可见,残差与预测值的Spearman等级相关系数为0.129,且因为p(0.490)>a(0.05)检验并不显著,因此认为异方差现象并不明显。7.异常值和强影响点分析由下图数据编辑窗口中的异常值检验结果可知,所有的异常值的绝对值都小于3,所以在所有的观测值中,不存在异常值和强影响点。图2-7异常值检测三、K-Means聚类分析下面仍然利用这组数据(2010年全国31个省市自治区第三产业增加值),对地区进行K-Means聚类分析,在本次实验中,要求将其分成3类,初始类中心点由SPSS自行确定(K-Means聚类分析中类的归属是不断调整的,而层次聚类分析中样本所属类一旦确定就不会再改变,其执行效果不理想,所以这里选用K-Means聚类分析)。结果如下:表3-1(a)31个省市自治区第三产业增加值的K-Means聚类分析结果(一)表3-1(a)展示了3个类的初始类中心的情况。3个初始类中心点的数据分别是表中Cluster中第1、2、3列所示,其中3中的各指数都是最高的,2最低,1的各指数都处在2,3的中间,由此可知,第3类各指数都是最优的,第1类次之,第2类各指数最不理想。表3-231个省市自治区第三产业增加值的K-Means聚类分析结果(二)表3-2展示了3个类中心点每次迭代时的偏移情况。从表中可以看出,第一次迭代后,3个类的中心点分别偏移了2993.864,2581.016,2130.739,第1类中心点偏移最大;第二次迭代后,3个类的中心点的偏移分别为672.344,0.000,1760.726,第3类中心点偏移最大第2类以及小于指定的判定标准(0.02);第三次迭代后,3个类的中心点偏移均小于指定的判定标准(0.02),则聚类分析结束。表3-331个省市自治区第三产业增加值的K-Means聚类分析结果(三)表3-3展示了3个类的最终类中心的情况,3个最终类中心点的数据分别是表中Cluster中第1、2、3列所示,仍然可见,第3类各指数均是最优的,第1类次之,第2类各指数均最不理想。表3-431个省市自治区第三产业增加值的K-Means聚类分析结果(四)表3-4展示了3个类的类成员情况。第1类(中游水平)有10个省市,第2类(下游水平)有18个省市,第3类(上游水平)有3个省市。表3-531个省市自治区第三产业增加值的K-Means聚类分析结果(五)表3-5展示了各指数在不同类的均值比较情况,各数据项的含义依次为:组间均方,组间自由度,组内均方,组内自由度。通过该表可以看出,各指数的均值在3类中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论