多元统计分析课程设计_第1页
多元统计分析课程设计_第2页
多元统计分析课程设计_第3页
多元统计分析课程设计_第4页
多元统计分析课程设计_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课程设计报告课程名称多元统计剖析专业统计学班级统计学0901学号0109姓名李宗藩指导教师戴婷2011年12月19日湖南工程学院课程设计任务书课程名称多元统计剖析课题多元统计剖析专业班级统计学0901学生姓名李宗藩学号

0109指导老师

戴婷审批任务书下达日期2011年12月19日任务达成日期2011年12月30日目录一:课程设计准备⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯3(1)成立数据库⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯3(2)剖析数据库⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯3二:聚类剖析和鉴别剖析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯31)聚类剖析的步骤2)鉴别剖析的步骤3)聚类剖析的结果

⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯3⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯3⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯44)鉴别剖析的的结果及剖析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯4三:因子剖析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯101)能否可进行因子剖析的判断⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯102)因子剖析的步骤⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯103)因子剖析的结果及其剖析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11四:参照文件⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯16五:总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯17六:评分表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯18七:附录表⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯19一:课程设计准备(1):成立和翻开数据库成立或翻开数据文件,数据窗中输入待剖析的数据,或利用File菜单中的Open功能翻开已经存在的数据文件。《2010年各地域按主要行业分的全社会固定财产投资》。(2):剖析数据库样本数据来自中国2010年各地域按主要行业分的全社会固定财产投资,见附表。在这里选用了我国的三十一个省份作为样本,描绘固定财产投资行业的变量有十九个:农、林、牧、副、渔业(x1),采矿业(x2),制造业(x3),电力、燃气及水的生产和供应业(x4),建筑业(x5),交通运输、积蓄和邮政业(x6),信息传输、计算机服务和软件业(x7),批发和零售业(x8),住宿和餐饮业(x9),金融业(x10),房地家产(x11),租借和商务服务业(x12),科学研究、技术服务、地质勘探(x13),水利、环境、公共设备(x14),居民服务和其余服务业(x15),教育(x16),卫生、社会保障和福利业(x17),文化、体育、娱乐业(x18),公共管理和社会组织(x19)。二:聚类剖析和鉴别剖析(一)聚类剖析的步骤按Analyze→Classify→K-means-cluster次序单击菜单项,翻开聚类剖析主对话框。选择剖析变量送到右侧的Variables栏中。在“NumberofCluster”中选择3,在Method选项中选择“Classifyonly”4.单击Save按钮,在对话框栏内选择Clustermembership选项,单击Option按钮,,在对话框Statistics栏内选择Initialclustercenters选项,在对话框MissingValues栏内选择Excludecaseslistwise选项(二)鉴别剖析的步骤按Analyze→Classify→Discriminant次序单击菜单项,翻开鉴别剖析主对话框。主对话框左侧的矩形框中选定分类变量,并用上边一个箭头按钮将其移到“GroupingVariable”框中。而后用其下边的“DefineRange”输入最小变量和最大变量3.选择鉴别变量送到右侧的Independents栏中。在主对话框中选择“Enterindependentstogether”在主对话框中单击“Statistics”按钮能够翻开选择输出统计量的对话框,在对话框Description栏内选择Means选项,在对话框FunctionCoefficints栏内选择Fisher’s和unstandardized选项,在对话框Matrices栏内选择Within-groupscovariance选项。在主对话框中单击“classification”按钮,翻开选择分类参数与分类结果对话框,除系统默认以外,在对话框Display栏内选择和Casewiseresults选项和Summarytable选项,在对话框Plots栏内选择三种。在主对话框中单击“Save...”可翻开选择将各种品的鉴别结果保留于数据文件的对话框,选中“Predictedgroupmembership”可保留各种品的预告(鉴别)分类;选中“Discriminantscores”可保留各种品的典型鉴别函数值;选中“Probabilitiesofgroupmembership”可保留各种品的后验概率。(三)聚类剖析的结果迅速聚类整理表:类型地域第一类北京天津山西内蒙古黑龙江上海广西海南重庆贵州云南西藏陕西甘肃青海宁夏新疆第二类河北辽宁吉林浙江安徽福建江西河南湖北湖南广东四川第三类江苏山东(四):鉴别剖析的的结果各种的均值:地域第一类均值第二类均值第三类均值农、林、牧、渔业采矿业制造业电力、燃气及水的生产和供应业建筑业交通运输、积蓄和邮政业信息传输、计算机服务和软件业批发和零售业住宿和餐饮业金融业房地家产租借和商务、服务业科学研究、技术服务和地质勘查业水利、环境和公共设备管理业居民服务和其余服务业教育卫生、社会保障和社会福利业文化、体育和娱乐业公共管理和社会组织Eigenvalues(特点值)CanonicalFunctionEigenvalue%ofVarianceCumulative%Correlation1(a).9912(a).935aFirst2canonicaldiscriminantfunctionswereusedintheanalysis.两个典型鉴别剖析,特点值(Eigenvalue)分别为和,典型有关系数(CanonicalCorrelation)分别为和,Wilks'LambdaWilks'TestofFunction(s)LambdaChi-squaredfSig.1through2.00238.0002.12718.003依据Wilks'Lambda表,可知:=和很小,近视散布=和,相伴概率为和,小于,高度明显,所以各种的样本均值向量有明显性差异,所以鉴别有效。ClassificationFunctionCoefficients分类函数系数ClusterNumberofCase123农、林、牧、渔业采矿业制造业电力、燃气及水的生产和供应业建筑业交通运输、积蓄和邮政业信息传输、计算机服务和软件业批发和零售业住宿和餐饮业金融业房地家产租借和商务、服务业科学研究、技术服务和地质勘查业水利、环境和公共设备管理业居民服务和其余服务业教育

.006.005.003.001.010.062.017.061.266.012.055.279.427.108.807.040.266.443.001.020.148.011.116卫生、社会保障和社会.242福利业文化、体育和娱乐业.096公共管理和社会组织.006.002.084农、林、牧、渔业Fisher'slineardiscriminantfunctionsStandardizedCanonicalDiscriminantFunctionCoefficients农、林、牧、渔业采矿业制造业电力、燃气及水的生产和供应业建筑业交通运输、积蓄和邮政业信息传输、计算机服务和软件业批发和零售业住宿和餐饮业金融业房地家产租借和商务、服务业科学研究、技术服务和地质勘查业水利、环境和公共设备管理业居民服务和其余服务业教育卫生、社会保障和社会福利业

Function12.588.157.608.574.829.680.017.446.321.697.366.691文化、体育和娱乐业.161.800公共管理和社会组织.315.396鉴别函数Y1=-2.655X1-0.631X2+1.775X3-0.574X4+0.574X5+2.729X6+0.829X7+2.457X8+0.446X9-1.115X10-0.858X11-0.872X12-0.587X13-2.348X14+1.335X15+2.582X16-2.159X17+0.161X18+0.315X19FunctionsatGroupCentroids(各组重心的函数值)FunctionClusterNumberofCase1212.9053UnstandardizedcanonicaldiscriminantfunctionsevaluatedatgroupmeansCasewiseStatistics(各数据统计量)地域ActuaHighestGroupSecondHighestGroupDiscriminantlScoresGrouPredi2P(G=gSquaredGrouP(G=gSquaredFunctioFunctiopctedpd|Mahalanobip|Mahalanobin1n2GroufD=d)sDistanceD=d)sDistanceptoCentroidtoCentroid北1122京天1122津河北2221山西1122内蒙古1122辽宁2221吉林2221黑龙江1122上海1122江苏3322浙江2221安徽2221福建2221江西2221山东3322河南2221湖北2221湖南2221广东2221广西1122海南1122重庆1122四川2221贵州1122云南1122西藏1122陕西1122甘肃1122青海1122宁夏1122新疆1122依据此图能够大体看出各种的散布,便于大略的察看。ClassificationResults(a)(鉴别结果)PredictedGroupMembershipTotalClusterNumberofCase123OriginalCount1170017201201230022%1.0.02.0.03.0.0a%oforiginalgroupedcasescorrectlyclassified.展望分组恰巧与实质分组是一致的,判对率为100%剖析第一类:北京天津山西内蒙古黑龙江上海广西海南重庆贵州云南西藏陕西甘肃青海宁夏新疆在主要行业分的全社会固定财产投资数额比较少,原由有:第一像北京天津上海重庆这些发达的地域,只管经济较发达,但因为这些地区面积较小,固定投资数额较小,第二:像其余省市都是中国经济落伍地域,固定投资额就比较少,但这些地域的矿产资源较丰富采矿业投资数额和其余类差不多。大多数的省市处于中国的西北,西南地域,经济落伍,需要增强各个行业的投资。第二类:河北辽宁吉林浙江安徽福建江西河南湖北湖南广东四川这些省在主要行业分的全社会固定财产投资数额相对照许多,原由有以下三点:第一,这些省大多数处于中部和沿海地域,经济较发达。第二,国家在十一五计划中实行中部兴起战略,促使了中部省的投资数额,第三:国家为保持沿海地域的经济发达,增强了投资。特别是房地产与制造业这两个家产投资数额特别大,主要因为这两个行业与国家的政策和人民的生活亲密有关。第三类:江苏山东属于沿海地域,在主要行业分的全社会固定财产投资数额相当大,总投资额分别为亿元和亿元占全国总投资的比率分别为和,鼎力促使经济的发展。三:因子剖析:(1)能否可进行因子剖析的判断在进行因子剖析前,作KMOandBartlett'sTest,KMOandBartlett'sTestKaiser-Meyer-OlkinMeasureofSamplingAdequacy..778Bartlett'sTestApprox.Chi-SquareofSphericityDf171Sig..000Kaiser-Meyer-OlkinMeasureofSamplingAdequacy值为。渐近的x^2=较大,合适进行因子剖析。2)因子剖析的步骤翻开spss软件按Analyze→DataReduction→Factor次序单击菜单项,翻开因子剖析主对话框。选择剖析变量送到右侧的Variables栏中。单击Descriptives按钮,在对话框Statistics栏内选择Initialsolution选项,在CorrelationMatrix选项选择Coefficients,KMOandBartlett'sTestofsphericity选项。在主对话框中单击Extraction按钮,相应的对话框中:Method菜单中选择Principlecomponents项,使用主成分剖析方法。Analyze栏中选择Correlationmatrix项,剖析有关矩阵。Extract栏中选择Numberoffactors4。Display栏中选择Unrotatedfactorsolution,显示未旋转的因子结果。相同选择Screeplot,要求作出特点值的散点图。Maximumiterationconvagence25,结束迭代的判据为抵达最大迭代次数25.主对话框中单击Score按钮。在相应的对话框中选择Saveasvariables,并在Method栏中选择Rregression,要求经过回归方法计算因子得分并把因子得分作为变量保留到数据文件中。同时选择Displayfactorscorecoefficientmatrix显示因子得分系数阵。7.主对话框中单击Rotation按钮。在相应付话框中选择Method,并在Method栏中选择Varimax,在Display中选择Rotatedsolution和Loadingplots选项。主对话框中单击Options按钮。在相应付话框中选择MissingValues,并在MissingValues栏中选择Excludecaseslistwise选项。在主对话框中单击OK按钮履行运算。(3)因子剖析的结果及其剖析总方差分解TotalVarianceExplainedCompoExtractionSumsofSquaredRotationSumsofSquarednentInitialEigenvaluesLoadingsLoadingsCumulati%ofCumulati%ofCumulatiTotal%ofVarianceve%TotalVariancve%TotalVarianceve%e1234.8635.7886.4937.4018.3079.27410.187.98211.160.84212.094.49613.089.46814.067.35515.051.26616.033.17117.019.09818.008.04219.007.038ExtractionMethod:PrincipalComponentAnalysis.为各成分的公因子方差表。在选择提取公因子的数目时,选择了提取前3个公因子的方法。前3公因子能够解说总方差的近%,其余16因子只占%,能够说因子能够解说总方差的绝大多数。因子载荷阵ComponentMatrix(a)Component123住宿和餐饮业.922水利、环境和公共设备.920.076管理业房地家产.911批发和零售业.902.306制造业.899.100卫生、社会保障和社会.894.251福利业居民服务和其余服务业.862.285文化、体育和娱乐业.855.165教育.833.294科学研究、技术服务和.830.191地质勘查业交通运输、积蓄和邮政.770.184业租借和商务、服务业.730电力、燃气及水的生产.663.478和供应业农、林、牧、渔业.642.421.539金融业.636公共管理和社会组织.632.512建筑业.544.478信息传输、计算机服务.523.052和软件业采矿业.293.489.671ExtractionMethod:PrincipalComponentAnalysis.a3componentsextracted.方差最大正交旋转后因子载荷阵RotatedComponentMatrix(a)Component123批发和零售业.838.360.296公共管理和社会组织.803.018.235居民服务和其余服务业.795.350.283科学研究、技术服务和.788.379.123地质勘查业建筑业.781.098文化、体育和娱乐业.767.422.161制造业.761.500.150住宿和餐饮业.706.618.086交通运输、积蓄和邮政.180.896.169业信息传输、计算机服务.881和软件业水利、环境和公共设备.467.800.227管理业房地家产.553.766.071电力、燃气及水的生产.054.737.467和供应业租借和商务、服务业.501.676卫生、社会保障和社会.468.661.456福利业金融业.325.618.004教育.411.617.481采矿业.124.869农、林、牧、渔业.394.197.828ExtractionMethod:PrincipalComponentAnalysis.RotationMethod:VarimaxwithKaiserNormalization.aRotationconvergedin5iterations.为因子载荷阵AF1,F2,F3'从上表可见,每个因子只有少量几个指标的因子载荷阵较大,所以可依据上表进行分类,将19个指标按高载荷分红三类,列于下表:12

高载荷指标意义批发和零售业公共管理和社会组织居民服务和其余服务业科学研究、技术服务和地质勘查业建筑业文化、体育和娱乐业制造业住宿和餐饮业交通运输、积蓄和邮政业信息传输、计算机服务和软件业水利、环境和公共设备管理业房地家产电力、燃气及水的生产和供应业租借和商务、服务业卫生、社会保障和社会福利业金融业教育农、林、牧、渔业采矿业特点值散点图特点值碎石图。能够看出前4特点值间的差异很大,其余的变化很小。从图中可以看出,取前4个因子是正确的。各个因子得分及其排名地域因子得分F1排名F2排名F3排名北京191229天津132123河北585山西31174内蒙古25142辽宁3518吉林122211黑龙江18196上海27631江苏2330浙江15428安徽41813福建23724江西101620山东1239河南9111湖北61016湖南11912广东28121广西211314海南142727重庆162017四川2423贵州292515云南30158西藏173026陕西7247甘肃83119青海202925宁夏222822新疆262610剖析:从第三类农、林、牧、渔业、采矿业来看这些都是原始的基础行业,投资额相对其余行业的投资来说比较居中,既保障了人民生产生活所需要的必需基础物质,又为其余行业做出了很大的贡献,从全国各个地域来看,相同级其余城市投资额的差异不是很大,经济发达地域如北京,上海这些地域投资额相对来说比较少,像河北,山东,四川这些地域在农、林、牧、渔业投资额比较大,在山西,内蒙古,河南,新疆这些地域矿产资源丰富,所以投资额相对交大。第一类批发和零售业,公共管理和社会组织,居民服务和其余服务业,科学研究、技术服务和地质勘查业,建筑业,文化、体育和娱乐业,制造业,住宿和餐饮业这一类大多属于服务娱乐行业,这些行业大多数投资额相对较少,因为各个省市的地域规模与人口规模的不一样,投资的数额差异比较大,比如批发和零售业河北,辽宁,山东,河南投资额比较大,最大山东亿元,而最少的重庆才亿元。第二类交通运输、积蓄和邮政业,信息传输、计算机服务和软件业,水利、环境和公共设备管理业,房地家产,电力、燃气及水的生产和供应业,租借和商务、服务业,卫生、社会保障和社会福利业,金融业,教育,这些属于第三家产,在国名经济中据有很的地位,一部分的家产投资数额在整个国名经济投资中据有很大的一部分,因为此刻经济的发展局势,如房地家产的投资数额达到了亘古未有的数额,大大促使了房地产的发展,但依据今年房地产的发展状况却不容乐观,过快增加带来了副作用,可是这些行业的确给我们的经济和生活带来了很大的提升。参照文件:于秀林任雪松编著《多元统计剖析》.中国统计年鉴,高祥宝董寒青编著《数据剖析与spss应用》

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论