SPSS软件的应用-多元统计分析_第1页
SPSS软件的应用-多元统计分析_第2页
SPSS软件的应用-多元统计分析_第3页
SPSS软件的应用-多元统计分析_第4页
SPSS软件的应用-多元统计分析_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析学院:理学与信息科学学院专业班级:信息与计算科学2012级01班姓名:韩祖良(20125991)*******************2015年6月1日作业1方差分析三组贫血患者的血红蛋白浓度(%,X1)及红细胞计数(万/mm3,X2)如下表:A组X13.94.23.744.45.22.72.43.65.52.93.3B组X2C组X14.84.75.44.54.64.45.95.54.35.1X2X14.43.72.94.53.34.53.83.7X2210190240170220230160260240180200300270180230245270220290220290310250305240330230195275310要求:1、方差分析的前提条件要求各总体服从正态分布,请给出正态分布的检验结果,另要求各总体方差齐性,给出方差齐性检验结果。2、检验三组贫血患者的指标x1,x2间是否有显著差异,进行多元方差分析。如果有显著差异,分析三组患者间x1指标是否有显著差异,x2指标是否有显著差异?3、最后进行两两比较,给出更具体的分析结果。4.画出三组患者x1,x2两指标的均值图。答:1.将所需分析数据输入到SPSS中,首先判断各总体是否服从正态分布:对文件进行拆分:数据拆分文件按组组织输出确定。然后进行正态性检验:文件描述统计探索,在绘制对话框中,选择按因子水平分组和带检验的正态图,最后单击确定按钮。最后得出结果如图(1),(2),(3)所示:表(1)由表(1)可以看出,A组的X1指标的Sig=0.907,X2的Sig=0.914,在检验标准为0.05的条件下,接受H0,拒绝H1,故得A组服从正态分布。表(2)由表(2)可以看出,B组的X1指标的Sig=0.406,X2的Sig=0.765,在检验标准为0.05的条件下,接受H0,拒绝H1,故得B组服从正态分布。表(3)由表(3)可以看出,C组的X1指标的Sig=0.337,X2的Sig=0.839,在检验标准为0.05的条件下,接受H0,拒绝H1,故得C组服从正态分布。再检验各总体是否满足方差齐性:首先取消文件的拆分,对所有个案进行分析。然后进行方差齐性检验:分析一般线性模型多变量,在选项对话框中,选择方差齐性检验,所得结果如下:表(4)上表是对协方差阵相等的检验,由Sig=0.670>0.05,故在显著性水平为0.05的条件下,接受H0,拒绝H1,即观测到的因变量的协方差矩阵在所有组中均相等,可得三组符合方差齐性。2、多元方差分析:分析一般线性模型多变量,在两两比较对话框中进行两两比较检验,假定方差齐性(选择LSD(L))继续,最后单击确定。表(5)上表为多变量检查表,该表给出了几个统计量,从表中可以看出,Sig的值均为0.01,小于显著性水平0.05,故拒绝H0,接受H1。即三组不同患者的血红蛋白浓度和红细胞计数这两个指标间均存在显著差异。下面分别分析三组患者间X1指标是否有显著差异,X2指标是否有显著差异:得到结果如表(6)所示。表(6)由上表看出,三组患者之间X1指标的F=7.302,Sig=0.03,在检验水平为0.05的条件下,接受H0,拒绝H1,故可以认为这三组患者间的X1指标无差异;X2指标的F=3.915,Sig=0.032,在检验标准为0.05条件下,差异有统计学意义,拒绝H0,接受H1,这说明这三组血红蛋白浓度和红细胞计数这两个指标上均有显著差异。3、对各组进行两两比较:通过软件操作得到如表(7)的比较结果:表(7)从表中数据可以看出:①在X1(血红浓度蛋白)这个指标上,A组和B组、B组和C组的显著性水平均小于0.05,故拒绝H0,接受H1。即A组和B组、B组和C组在血红蛋白浓度这个指标上有显著性差异,且B组的血红蛋白浓度显著高于A、C两组。②在X2(红细胞计数)这个指标上,A组和C组的显著性水平为0.014<0.05,故拒绝原假设,即A组和C组在血红细胞计数指标上有显著差异,且C组的红细胞计数远远高于A组。4、画出三组患者X1,X2两指标的均值图:在绘制对话框中,添加水平轴gr,得到如下结果:X1的指标图:图(1)由上图可以看出,A组和B组、B组和C组的血红蛋白浓度有显著差异,而A组与C组的血红蛋白浓度大致在同一水平线上,无显著差别。X2的指标图:图(2)由上图可以看出A组与C组的红细胞计数存在显著差异,A组和B组、B组和C组的差异相对较小。作业2聚类分析作业16种饮料的热量、咖啡因、钠及价格四种指标的数据见下表:饮料编号1热量207.20咖啡因3.30钠15.50价格2.803.30236.805.9012.90372.2036.70121.7089.10146.7057.6095.90199.0049.8016.6038.507.300.404.104.004.302.200.000.008.004.703.708.202.404.003.503.301.802.101.303.503.701.502.00410.509.205610.209.707813.608.5091011121310.606.306.307.701415160.004.204.700.0013.107.208.302.204.104.20118.80107.00要求:1.用系统聚类法聚类,聚类方法采用组间联结法,距离采用平方欧式距离计算,不对数据进行标准化,给出树状图和冰柱图,给出聚合系数随分类数变化曲线图,并分析聚成几类比较合适,写出每一类包含的饮料编号。2.用快速聚类法给出聚类结果并对结果进行分析,聚类类数和系统聚类法相同。答:1、系统聚类法:在数据编辑窗口的主菜单中选择分析分类系统聚类,在弹出的系统聚类对话框中,将饮料编号选入标注个案中,将其他变量选入变量框中,在分群单选框中选择个案,表示的是进行Q型聚类。在输出复选框中选择统计量和图。在统计量对话框中选择合并进程表和相似性矩阵。在绘制对话框下,选择树状图和冰柱图(方向垂直),在方法对话框中,聚类方法选择组间联接,区间为平方Eudidean距离,标准化为全局从0到1,最后得到结果如下:平均联结(组之间):聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集212345678542618521231513413.13025.97036.4850000001300780020000604091113147381015811121213131414150969.13010111681467125102.630150.330198.375319.778322.540458.7951006.8631435.0761755.6546287.17519406.6849101112131415523210125321树状图:*******************HIERARCHICALCLUSTERANALYSIS*******************DendrogramusingAverageLinkage(BetweenGroups)RescaledDistanceClusterCombineCASE0510152025LabelNum+---------+---------+---------+---------+---------+55-+1516715-+-+16-++-+7---++-----------+66-+|9-+---+3-+|9|3+-------------------------------+44-+||13213-+2-+-+||||88-++-------------+11-+||1112141|12-+-+|14-+|1-+-----------------------------------------------+1010-+聚合系数图:由聚合系数图趋于平缓,所以聚合成三类比较合适。冰柱图:根据冰柱图聚成三类比较合适。第一类饮料编号7,16,15,5,9,6,3第二类饮料编号14,12,11,8,13,4,2第三类10,12、快速聚类法:在数据编辑窗口的主菜单中选择分析分类K-均值聚类,在弹出的K-均值聚类分析对话框中,将饮料标号选入标注个案中,将其他变量选入变量框中,在选项对话框中选择初始聚类中心和每个个案的聚类信息。在保存对话框中选择聚类成员和与聚类中心的距离,并保存在变量视图和数据视图中。对输出结果进行分析:表(1)初始聚类中心聚类123热量207.20.00107.00咖啡因钠价格3.3015.502.804.2013.102.20.008.304.20表(2)迭代历史记录a迭代聚类中心内的更改1231235.065.000.00029.9624.039.0006.9686.250.000a.由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为.000。当前迭代为3。初始中心间的最小距离为100.522。表(3)聚类成员案例号饮料编号聚类距离123456781234567812323332312222335.0654.58535.3584.99514.38818.31139.39324.23312.0775.06516.99017.5705.39899101112131415161011121314151633.85511.6843.749根据表(3),可以将饮料分为三类第一类饮料编号1,10第二类饮料编号2,4,8,11,12,13,14第三类饮料编号3,5,6,7,9,15,16表(4)最终聚类中心聚类123热量203.1033.71107.34咖啡因钠价格1.6513.053.154.1610.062.693.498.762.94表(5)表(6)最终聚类中心间的距离聚类12169.431395.87173.644123169.43195.87173.644ANOVA聚类均方误差dfF均方Sig.df热量咖啡因钠24865.3274.91514.569.2142222455.3116.4106.3121.0381313131354.612.000.484.139.816.7672.308.207价格F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。根据表六最后一列热量的Sig0.000小于0.05对分类有影响,咖啡因,钠,价格的Sig大于0.05,对分类没有显著性影响。表(7)每个聚类中的案例数聚类12.000237.0007.000有效缺失16.000.000由表(4)表示最终聚类中心,由此可以看出各分类的成分差异,第①类的热量最高,咖啡因最少,钠含量高;第②类热量最低,但咖啡因含量偏高,总体价格便宜;第③类各成分也适中,价格也适中。作业3判别分析作业----中小企业的破产模型为研究中小企业的破产模型,选定4个经济指标:X1总负债率(现金收益/总负债)X2收益性指标(纯收入/总财产)X3短期支付能力(流动资产/流动负债)X4生产效率性指标(流动资产/纯销售额)对17个破产企业(1类)和21个正常运行企业(2类)进行调查,得如下资料总负债率收益性指标短期支付能力生产效率指标类别-.45-.56.06-0.07-0.1-0.41-0.310.02-0.09-0.09-0.07-0.30.020-0.230.050.11-0.080.0301.091.511.011.451.560.710.221.312.151.191.881.991.511.681.261.141.272.492.010.450.160.40.260.670.280.180.250.70.660.270.380.420.950.60.170.510.540.531111111111111111122-0.14-0.230.070.01-0.280.150.37-0.080.050.010.12-0.280.510.080.11-0.270.10.020.380.190.320.310.12-0.020.220.170.15-0.10.140.14-0.330.480.560.20.110.050.070.050.050.020.080.070.05-1.01-0.030.07-0.090.090.110.080.140.040.040.013.272.254.244.452.522.052.351.80.550.330.630.690.690.350.40.520.550.580.260.520.470.180.450.322222222222222222222.172.50.462.613.011.244.291.992.922.455.061.500.470.170.580.040.450.140.130.71待判-0.06-0.061.370.4待判进行判别分析,要求:1、给出判别变量的显著性检验结果(方差分析表),以及协方差矩阵是否相等的Box’M检验结果。2、给出费歇判别函数的表达式及对待判样品的费歇判别结果3、给出贝叶斯判别函数的表达式及对待判样品的贝叶斯判别结果4、给出分类结果矩阵,包括交叉验证的结果5、在第1问中,如果存在不显著的变量,用逐步判别分析法再次进行判别,写出判别函数的表达式,并说明判别效果是否有显著改善?(对案例进行正确分类的百分比是否有提高?)答:1、表(1)组均值的均等性的检验Wilks的Fdf1df2Sig.LambdaX1X2X3X4.68116.9021.95121.450.030111136363636.000.949.627.999.171.000.864表(1)是对各组均值是否相等的检验,由该表可以看出,在0.05的显著性水平下,我们不能拒绝收益性指标和生产效率指标在各组的均值相等的假设,即认为除了这两者外,其余两个指标在各组的均值是有显著差异的。因此剔除收益性指标和生产效率指标这两个变量。协方差矩阵的均等性的箱式检验:表(2)对数行列式X秩对数行列式12汇聚的组内444-13.596-9.822-10.383打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。表(3)检验结果箱的M40.184F近似。3.523df1df2Sig.105562.171.000对相等总体协方差矩阵的零假设进行检验。上面两个表是对各组协方差矩阵是否相等的Box的M检验,表(2)反映协方差矩阵的秩和行列式的对数值。由行列式的值可以看出,协方差矩阵不是病态矩阵,表(3)是对个总体协方差阵是否相等的统计检验,由F值及其显著水平,在0.05的显著性水平下拒绝H0,即认为各总体协方差阵不相等。2、进行费歇判别法:分析分类判别分析,将类别放入分组变量中,并定义范围,其他变量放入自变量中。在统计量对话框中,描述性选择均值,函数系数选择Fisher和未标准化,矩阵选择组内相关。得到以下结果:表(4)表(5)上两个表分析的是典型判别函数,表(4)反应判别函数的特征值、解释方差的比例和典型相关系数。判别函数解释了100%的方差。表(5)是对判别函数的显著性检验,由Wilks的Lambda检验,认为判别函数在0.05的显著性水平下是显著。表(6)表(6)是典型判别式函数系数,由此可得费歇判别函数的表达式为:Y=-1.823+2.321*x1+0.777*x3。由于该函数只有一类,故待判样品属于第1类。3、贝叶斯判别法:表(7)表(7)是分类函数系数,即贝叶斯判别函数的系数,由此可以得出贝叶斯函数的表达式为:Y1=-2.345-4.551*X1+2.181*X2;Y2=-5.352-0.520*X1+3.530*X2。将两个待判样品各自分别代入以上两个贝叶斯函数的表达式中:对于第1个待判样品,有Y11=-2.345-4.551*0.04+2.181*0.71=-0.979;Y21=-5.352-0.520*0.04+3.530*0.71=-2.8665。对于第2个待判样品,有Y1=-2.345-4.551*(-0.06)+2.181*1.37=0.916;Y22=-5.352-0.520*(-0.06)+3.530*1.37=-0.485。使待测样品函数值最大的那个类即归为该类,因此可得,第一个待测样品归为第1类,第二个待测样品也归为第一类。4、给出分类结果矩阵,包括交叉验证的结果:表(8)表(8)是分类结果,从表中可以看出,通过判别函数预测,由32个观测是分类正确的,其中,类别1中,有15个观测值被判对,2个判错的;类别2中,有17个观测值被判对,4个判错的,从而有32/38=84.2%的原始观测被判对。在交叉验证中,类别1的17个观测值中,有15个被判对,类别2的21个观测值中,有16个被判对,从而交叉验证有31/38=81.6%的原始观测被判对。5、由第1问,存在不显著的变量,所以用逐步判别分析法再次进行判别:表(9)表(9)是用逐步判别分析的分类结果,从表中可以看出,通过判别函数预测,由31个观测是分类正确的,其中,类别1中,有15个观测值被判对,2个被判错;类别2中,有16个观测值被判对,5个被判错,从而有31/38=81.6%的原始观测被判对。在交叉验证中,类别1的17个观测值中,有15个被判对,类别2的21个观测值中,有15个被判对,从而交叉验证有30/38=78.9%的原始观测被判对。通过表(6)和表(7)的比较,可以看出,用逐步判别分析判别效果并无明显改善。作业4因子分析作业:全国30个省市的8项经济指标如下:省份国内生居民消费固定资产职工工货物周消费价商品零工业产产资转格售值北京1394.8925052720125812501387239718722334519.01345.46704.87290.981446501483947214134491144304145373.9342.82033.3717.3781.71371.7497.4824.8117.3115.2115.2116.9117.5116.1115.2116.1112.6843.43天津920.11110.6582.51河北2849.52山西1092.48115.81234.85115.6116.8697.25419.39内蒙832.88250.23387.99320.45435.73辽宁2793.371141840.55吉林1129.2114.2762.47黑龙江2014.53114.31240.37上海2462.57江苏5155.25浙江3524.79安徽2003.58福建2160.52江西1205.11山东5002.34河南3002.74湖北2391.425343996.4892795943661946095857421151454344468547978250207.41025.5754.4908.3609.3411.71196.61574.4849118.7115.8116.6114.8115.2116.9117.6116.51201131642.9519261434.9522491006.39114.32026.64113.5112.7114.4115.9916.59824.14433.67571.84125423201182474553.97282.8415271229.55114.22207.69114.91367.92116.61220.72103415271408670.35571.68422.61湖南2195.71011.8656.5119115.5843.83广东5381.7226991639.83114111.61396.35广西1606.15131418141261942382.59198.35822.54150.8433451055340464544755149738243965493575350795348556232.1902.3301.1310.44.2118.4113.5118.5121.4121.3117.3119116.4111.3554.9764.33海南四川贵州364.1735341171431.81630.07117.2324.72716.655.57云南1206.681261111012081007144513551469118.1114.9117西藏55.9817.87陕西1000.03300.27114.8147.76500.9507600.98468.79105.8甘肃青海宁夏新疆553.35165.31169.75834.57119.8118116.5116.3115.3116.761.661.98121.8339117.1119.7114.4376.95428.76要求:先对数据做标准化处理,然后基于标准化数据进行以下操作1、给出原始变量的相关系数矩阵;2、用主成分法求公因子,给出公因子的方差贡献度表,公因子的数目取几个合适?说明选取的理由;3、给出因子载荷矩阵,据之写出因子分析的数学模型,如果公因子的实际意义不好解释,请用因子旋转(采用正交旋转中最大方差法)给出旋转后的因子载荷矩阵,然后分析旋转之后的公因子,说明每个公因子包含的变量,并给各个公因子赋予实际含义;(提示:投入产出因子,消费能力因子,价格指数因子)4、先利用提取的每个公因子分别对各省市进行排名。最后构造一个综合因子,计算各省市的综合因子的分值,并进行排序。答:1、输入数据,依次选择分析描述统计描述,将变量选入右边变量下面,点选“将标准化得分另存为变量”,点击确定即可得标准化的数据。依次点选分析降维因子分析相关矩阵下选中系数及KMO和Bartlett的检验,点继续,确定,就可得到8个变量的相关矩阵如表(1):表(1)相关矩阵Zscore:Zscore:Zscore:Zscore:Zscore:Zscore:Zscore:Zscore:国内生居民消固定资职工工货物周消费价商品零工业产产费产资转格售值相关Zscore:国内生产1.000.267.951.191.617-.273-.264.874Zscore:居民消费Zscore:固定资产Zscore:职工工资Zscore:货物周转Zscore:消费价格Zscore:商品零售.267.951.191.617-.273-.264.8741.000.426.4261.000.400.718.400-.151.431-.235-.280-.135-.2531.000.763-.593-.359-.539.022.363.792.7181.000-.356-.135-.539.104-.3561.000-.253.022.104-.151-.235-.593.363.431.659-.280-.359.792.763-.125-.1921.0001.000-.192Zscore:.659-.125由表中数据可以看出大部分数据的绝对值都在0.3以上,说明变量间有较强的相关性。表(2)由上表可以看出,Sig值为0,在标准水平为0.05下,拒绝H0,接受H1,即说明变量间存在相关性。2、在因子分析窗口点选抽取方法:主成分;分析:相关性矩阵;输出:未旋转的因子解,碎石图;抽取:基于特征值(特征值大于1)继续确定。输出结果如下:表(3)解释的总方差成份初始特征值合计提取平方和载入方差的%旋转平方和载入累积%合计方差的%累积%合计方差的%累积%123456783.7552.1971.215.402.213.13846.93927.45915.1865.0312.6601.724.81846.93974.39889.58494.61597.27598.99999.8173.7552.1971.21546.93927.45915.18646.93974.39889.5843.2062.2181.74240.07927.72521.78040.07967.80489.584.065.015.183100.000提取方法:主成份分析。上表中第一列为特征值(主成分的方差),第二列为各个主成分的贡献率,第三列为累积贡献率。从表中可以看出,前3个主成分的累积贡献率就达到了89.599%>85%,所以选取主成分个数为3.选Y1为第一主成分,Y2为第二主成分,Y3为第三主成分。且这三个主成分的方差和占全部方差的89.599%。即基本上保留了原来指标信息。这样由原来的8个指标变成了3个指标。图(1)由上图看出,成分数为3时,特征值得变化曲线趋于平缓,所以由碎石图也可大致确定出主成分个数为3,与累积贡献率确定的主成分个数一致。3、在因子分析窗口中,选择旋转输出:载荷阵。输出结果如下:表(5)成份矩阵a成份123Zscore:固定资产Zscore:国内生产Zscore:工业产值Zscore:商品零售Zscore:居民消费Zscore:货物周转Zscore:职工工资Zscore:消费价格.912.885.823-.620.607.486.466-.509.161.384.427.594-.598.738-.722.252.212.121.211.438.271-.275.368.797提取方法:主成分分析法。根据上表,可得出因子分析的数学模型:Y1=0.885*x1+0.607*x2+0.912*x3+0.466*x4+0.486*x5-0.509*x6-0.620*x7+0.823*x8Y2=0.011*x1+0.385*x2+0.128*x3+0.453*x4-0.317*x5+0.179*x6-0.098*x7+0.025*x8Y3=0.046*x1+0.035*x2+0.074*x3+0.099*x4-0.135*x5+0.652*x6+0.463*x7+0.123*x8由上表数据第一列可看出,第一主成分与各个变量之间的相关性;第二列表明:第二主成分与各个变量之间的相关性;第三列表明:第三主成分与各个变量之间的相关性。可以得出:X1,X3,X8主要由第一主成分解释;X4,X5主要由第二主成分解释;X6主要由第三主成分解释;但是X2是由第一主成分还是第三主成分解释不好确定,X7是由三个主成分中的哪个解释也不好确定。因此,作因子旋转后的因子载荷阵:在因子分析窗口,选择抽取输出:旋转的因子解,继续;旋转方法:最大方差法继续确定。得到输出结果如下:表(6)旋转成份矩阵a成份123Zscore:国内生产Zscore:工业产值Zscore:固定资产Zscore:货物周转Zscore:职工工资Zscore:居民消费Zscore:消费价格Zscore:商品零售.955.944.871.752.051.217-.135-.103.125.111.352-.505.927.841-.009-.494-.131-.015-.137-.189-.114-.213.969.821提取方法:主成分分析法。旋转法:具有Kaiser标准化的正交旋转法。a.旋转在5次迭代后收敛。根据因子旋转矩阵,F1里包含的公因子为X1,X8,X3,X5;F2里包含的公因子为X4,X2;F3里包含的公因子为X6,X7。由上表可以看出,X1,X3,X5,X8主要由第一主成分解释;X2,X4主要由第二个主成分解释;X6,X7主要由第三个主成分解释。与第一因子关系密切的变量主要是投入(投资:固定资产投资)与产出(产值:国内生产总值、工业总产值)方面的变量,货物周转又是投入产出的中介过程,可以命名为投入产出因子;与第二因子关系密切的都是反映民众生活水平的变量,可以命名为消费能力因子;与第三因子关系密切的是价格指数方面的变量,可以命名为价格指数因子(见下表)。表(7)因

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论