北航数理统计第二次数理统计大作业-判别分析_第1页
北航数理统计第二次数理统计大作业-判别分析_第2页
北航数理统计第二次数理统计大作业-判别分析_第3页
北航数理统计第二次数理统计大作业-判别分析_第4页
北航数理统计第二次数理统计大作业-判别分析_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数理统计大作业(二)全国各省发展程度的聚类分析及判别分析数理统计大作业(二)全国各省发展程度的聚类分析及判别分析指导教师院系名称材料科学与工程院学号学生姓名2015年

12月21日PAGEPAGE1目录全国各省发展程度的聚类分析及判别分析 1摘要: 1引言 11实验方案 21.1数据统计 21.2聚类分析 31.3判别分析 42结果分析与讨论 52.1聚类分析结果 52.2聚类分析结果分析: 92.3判别分析结果 102.4Fisher判别结果分析: 13参考文献: 201.2聚类分析将表1所示的31个省、直辖市、自治区(除浙江、安徽和甘肃)2013年的各项数据导入SPSS。为了便于分析,在聚类分析前,先对数据进行标准差标准化处理,其过程为:“Analyze→DescriptiveStatistics→Descriptives…”,然后对标准差标准化后的数据进行聚类分析(HierarchicalClusterAnalysis)。其过程为:依次选择“Analyze→Classify→HierarchicalCluster”,引入的变量是X1至X7。从而对样品(个案)进行聚类,即Q型聚类分析(对研究对象本身分类)。聚类方法使用Between-groupslinkage(类间平均链锁法),距离测量技术选择SquaredEuclideandistance(Euclidean距离平方,即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类)。最终得出聚类分析结果。值得注意的是本文选择的聚类分类方案选择了2-5类表12013年我国31个省、直辖市、自治区的各项指标数据统计1.3判别分析选择SPSS→Analyze→Classify→DiscriminantAnalysis,将聚类分析的类作判别种类,采用自变量全进入模型来进行判别分析。使用Fisher判别法。2结果分析与讨论2.1聚类分析结果通过SPSS对数据进行标准差标准化,结果如表2所示。从表中的方差结果可以看出,由于方差的数值很大,所以各地区的差异还是相当大的,这也说明各地区发展的不平衡。表2描述统计量N极小值极大值均值标准差统计量统计量统计量统计量标准误统计量X1(亿元)2886.824742.631855.1736252.954921338.51162X2(亿元)28292.9229427.499824.65001508.283997981.08870X3(亿元)28428296898574.961372.5617262.910X4(亿元)28876.036789.114096.6711776.69579401.3902X5(亿美元)281366641111.93312.3511652.805X62823.7189.6054.85682.6938614.25459X7(人)285584623731.68432.2212287.100有效的N(列表状态)28再对标准差标准化后的数据进行聚类分析,结果如表3、4所示。表3显示,进行聚类分析的只有28个省、直辖市、自治区。采用的是组间聚类。表3案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比28100.00.028100.0a.平方Euclidean距离已使用b.平均联结(组之间)表4说明整个聚类分析过程共进行了27步,而且每一步的合并也有清楚地显示。通过该表,可以详细地了解每一步的聚类过程。表4聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集212627.06400321225.142001131926.24101184720.28300751823.310001262228.3500012747.37304981516.4460010945.676701110315.678081511412.7219214121822.91956161314211.063001514481.33211016153141.464101320164181.680141217174112.625160221819243.908302219194.103002320364.151150252110174.1910024224195.49117182523125.4991902624101310.37421027253410.474202226261315.7942325272711037.31626240表5显示了28个省、直辖市、自治区在这4种类型中的分布情况。结果为:表5群集成员案例5群集4群集3群集2群集1:北京11112:天津11113:河北22214:山西33215:内蒙古33216:辽宁22217:吉林33218:黑龙江33219:上海111110:江苏443211:福建332112:江西332113:山东543214:河南222115:湖北222116:湖南222117:广东443218:广西332119:海南332120:重庆332121:四川222122:贵州332123:云南332124:西藏332125:陕西332126:青海332127:宁夏332128:新疆3321图1聚类分析谱系图图1树状图从图1可以直观地看出各个省、直辖市、自治区之间的相似程度,聚类的先后顺序,将表4所表达的聚类过程更直观地展现出来。2.2聚类分析结果分析:当省份被分为两类时:江苏、广东、山东这三省是一类,其他省份是一类。其他省份为一类。这三省分别是我国沿海地区。经济以外向型经济为主。但是其余省没有很好的区分。当分为三类时:1.北京、天津、上海为一类。2.广东、山东、江苏为一类。3.其他为一类。其中北京、天津和上海都为直辖市,经济和社会先进,第三产业发达,城镇化率极高,人口教育水平高。但是第二产业没有很好的区分。当分为四类时:1.北京、上海、天津为一类2.河北、湖北、河南、湖南、四川、辽宁为一类3.青海、宁夏、海南、西藏、广西、云南、贵州、新疆、江西、陕西、吉林、重庆、山西、内蒙古、黑龙江、福建,云南为一类4.江苏,山东,广东为一类。2类主要为相对不发达的内部省。3类主要为边疆经济和社会相对落后的省。当分为五类时:1.北京、天津、上海为一类2.山东为一类3.江苏、广东为一类4.河北、湖北、河南、湖南、四川、辽宁为一类5.其余为一类。当分为五个类的时候,山东单独为一类,意义不大。因此,应该分为四类。所以,聚类分析结果为:第一类为北京、上海、天津;第二类为河北、湖北、河南、湖南、四川、辽宁;第三类为;青海、宁夏、海南、西藏、广西、云南、贵州、新疆、江西、陕西、吉林、重庆、山西、内蒙古、黑龙江、福建,云南。第四类为江苏,山东,广东。2.3判别分析结果Fisher判别的结果输出:。表6描述统计量N极小值极大值均值标准差统计量统计量统计量统计量标准误统计量X1(亿元)2886.824742.631855.1736252.954921338.51162X2(亿元)28292.9229427.499824.65001508.283997981.08870X3(亿元)28428296898574.961372.5617262.910X4(亿元)28876.036789.114096.6711776.69579401.3902X5(亿美元)281366641111.93312.3511652.805X62823.7189.6054.85682.6938614.25459X7(人)285584623731.68432.2212287.100有效的N(列表状态)28表7分析案例处理摘要未加权案例N百分比有效2890.3排除的缺失或越界组代码39.7至少一个缺失判别变量0.0缺失或越界组代码还有至少一个缺失判别变量0.0合计39.7合计31100.0表7中有效的28是聚类分析中的28个省级,3个缺失值是未分类省。表8组统计量AverageLinkage(BetweenGroups)均值标准差有效的N(列表状态)未加权的已加权的1X1(亿元)159.853329.6344833.000X2(亿元)6552.25001941.8725633.000X3(亿元)11778.84334290.6281633.000X4(亿元)7208.36671769.0852633.000X5(亿美元)2541.33331782.0820233.000X685.97003.8057533.000X7(人)4744.00002094.8009533.0002X1(亿元)3250.6717575.4394566.000X2(亿元)14017.64832228.1876466.000X3(亿元)9892.6550486.1119666.000X4(亿元)21977.36673320.6934266.000X5(亿美元)773.1667531.4844966.000X650.95678.4569266.000X7(人)5538.66671103.5014666.0003X1(亿元)1282.8156739.432891616.000X2(亿元)5336.47313289.352571616.000X3(亿元)4173.53812255.733071616.000X4(亿元)9109.16874714.679811616.000X5(亿美元)332.2500372.770081616.000X649.17009.428781616.000X7(人)2153.18751127.431131616.0004X1(亿元)3812.0733859.6646433.000X2(亿元)28647.99671074.3535733.000X3(亿元)26209.94673589.5547733.000X4(亿元)31823.60008243.0271033.000X5(亿美元)4518.33332505.3930533.000X661.87337.2678833.000X7(人)7524.0000901.1009933.000合计X1(亿元)1855.17361338.511622828.000X2(亿元)9824.65007981.088702828.000X3(亿元)8574.96117262.910112828.000X4(亿元)14096.67149401.390202828.000X5(亿美元)1111.92861652.805402828.000X654.856814.254592828.000X7(人)3731.67862287.099982828.0002.4Fisher判别结果分析:Fisher判别函数分析:表9.1Fisher判别函数特征值函数特征值方差的%累积%正则相关性113.701a74.374.3.96523.578a19.493.7.88431.157a6.3100.0.732分析中使用了前3个典型判别式函数表9.1特征值为典型判别式函数的特征值,为判别函数组内平方和与组间平方和之比。特征值越大说明判别效果越好。正则相关性为典型相关系数,等于组间平方和和组内平方和值比的平方根。表9.2Wilks的Lambda函数检验Wilks的Lambda卡方dfSig.1到3.007107.02321.0002到3.10149.23312.0003.46416.5265.005表9.2的给出Fisher判别函数有效性检验结果。该检验的原假设是不同组的平均Fisher判别函数不存在显著差异。从表中给出p值来看,p值=0.000及0.005<=0.05,说明在0.05的显著性水平下有理由拒绝原假设,即认为不同组的平均Fisher判别函数值存在显著差异,意味着判别有效。判别函数系数分析表10.1标准化的典型判别式函数系数函数123X1(亿元)-.337-.558.413X2(亿元).256-.694.788X3(亿元)1.194.870-1.043X4(亿元).544.286-1.060X5(亿美元)-.054-.149-.138X6-.652.600.496X7(人)-.446-.1861.451表10.2结构矩阵函数123X3(亿元).778*.446.366X2(亿元).741*-.099.386X6.072.698*.408X1(亿元).384-.518*.498X5(亿美元).348.420*.026X7(人).395.122.819*X4(亿元).464-.276.487*判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。*.每个变量和任意判别式函数间最大的绝对相关性表10.3未标准化的典型判别式函数系数函数123X1(亿元).000-.001.001X2(亿元).000.000.000X3(亿元).000.000.000X4(亿元).000.000.000X5(亿美元).000.000.000X6-.075.069.057X7(人).000.000.001(常量)-.306-3.094-4.345非标准化系数表10.4组质心处的函数AverageLinkage(BetweenGroups)函数1231-1.4514.6671.0212.902-1.6851.6283-1.826-.368-.64749.386.664-.826在组均值处评估的非标准化典型判别式函数表10.1和表10.3分别给出了标准化的Fisher判别函数和未标准化的Fisher判别函数。标准化的Fisher判别函数是由标准化的自变量通过Fisher判别法得到的,所以要得到标准化的Fisher判别函数值,带入该函数的自变量必须是经过标准化的。而为标准化的Fisher判别函数系数由于可以将实测的样本观测值直接带入求出判别函数值,所以该系数使用起来比标准化的系数要方便一些.表10.4为组质心处的函数值。该函数值是根据未标准化Fisher判别函数计算的。这样只要根据Fisher判别函数计算出各样本函数值后,在比较他们分别距离各种新的距离,就可以得知他们的分类。分类统计量的分析:表11.1分类处理摘要已处理的31已排除的缺失或越界组代码0至少一个缺失判别变量0用于输出中31表11.2组的先验概率AverageLinkage(BetweenGroups)先验用于分析的案例未加权的已加权的1.25033.0002.25066.0003.2501616.0004.25033.000合计1.0002828.000表11.3分类函数系数AverageLinkage(BetweenGroups)1234X1(亿元).003.007.006-.001X2(亿元)-.001.001.000.000X3(亿元).000-.001-.001.005X4(亿元)-.001-.001.000.001X5(亿美元)-.002-.001-.00

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论