多元统计分析案例分析_第1页
多元统计分析案例分析_第2页
多元统计分析案例分析_第3页
多元统计分析案例分析_第4页
多元统计分析案例分析_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、对我国 30 个省市自治区农村居民生活水平作聚类分析1、指标选择及数据:为了全面分析我国农村居民的生活状况,主要考虑从收入、 消费、就业等几个方面对农村居民的生活状况进行考察。因此选取以下指标:农 村产品价格指数、农村住宅投资、农村居民消费水平、农村居民消费支出、农村居民家庭人均纯收入、耕地面积及农村就业人数。现从2 0 10年的调查资料中 抽取3 0个样本,指标数据如下:地区农产品 价格指 数(上 年=100)农村住 宅投资(亿元)农村居 民消费 水平(元)农村居 民生活 消费支 出合计(元)农村居 民家庭 人均纯 收入(元)耕地面 积 2008(万公顷)农村私 营企业 就业人 数(万

2、人)北京98.2793.04128869254.813262231.7153.9天津103.0348.3178144936.710075441.18.0河北99.70441.7538673844.959586317.380.9山西100.43168.7145003663.947364055.851.7内家古99.8333.1744864460.855307147.218.4辽宁102.90162.0557394489.569084085.399.5吉林103.7771.6546634147.462375534.621.2黑龙江98.07126.4545364391.2621111830.142

3、.8上海102.232.121360910210.513978244.0258.4江苏99.92284.5581966542.991184763.8569.8浙江100.25513.7598788928.9113031920.9398.3安徽99.08412.4844474013.352855730.2105.9福建98.04176.3568795498.374271330.1113.1江西96.81236.5343973911.657892827.1173.2山东101.23566.9057334807.269907515.3273.6河南99.07729.4740613682.255247

4、926.4137.7湖北96.30210.0647584090.858324664.166.4湖南90.61298.4145134310.456223789.4104.5广东94.95337.4458805515.678902830.7124.4广西89.25248.8035613455.345434217.589.0海南101.9126.2238463446.25275727.55.3重庆88.9980.1236523624.652772235.936.7675四川96.94456.1047483897.550875947.4140.3贵州96.11137.2229262852.534724

5、485.325.4云南96.50158.9736033398.339526072.141.3陕西95.83151.7936833793.841054050.31.7甘肃100.2297.3329752942.034254658.822.0青海94.6163.6336843863542.710.511.4宁夏99.3929.51389446751107.143.616.7新 疆 92.8779.3535903457.946434124.618.7数据来源:中国统计年鉴2010.2、将数据进行标准化变换:地区农产品价格指 数(上年=100)农村 住宅 投资(亿 元)农村居 民消费 水平(元)农村居

6、 民生活 消费支 出合计(元)农村居 民家庭 人均纯 收入(元)耕地 面积 2008(万 公顷)农村私 营企业 就业人 数(万 人)北京0.09-0.672.822.532.37-1.360.37天津1.33-0.910.920.151.30-1.29-0.78河北0.471.24-0.56-0.46-0.070.84-0.21山西0.65-0.25-0.33-0.56-0.480.02-0.44内家古0.50-0.99-0.33-0.12-0.211.15-0.70辽宁1.30-0.290.14-0.100.250.03-0.06吉林1.52-0.78-0.26-0.290.020.56-0

7、.68黑龙江0.04-0.48-0.31-0.150.012.84-0.51上海1.12-1.163.093.062.60-1.361.20江苏0.520.381.061.040.980.283.66浙江0.611.641.692.351.71-0.752.31安徽0.301.08-0.35-0.36-0.300.63-0.01福建0.04-0.210.570.460.42-0.970.05江西-0.280.12-0.36-0.42-0.13-0.420.52山东0.861.930.140.080.271.281.32河南0.302.82-0.49-0.55-0.221.430.24湖北-0.

8、42-0.03-0.23-0.32-0.110.24-0.32湖南-1.890.46-0.32-0.20-0.18-0.07-0.02广东-0.770.670.190.470.57-0.420.14广西-2.240.19-0.68-0.67-0.540.08-0.14海南1.04-1.03-0.57-0.68-0.30-1.18-0.81重庆-2.31-0.74-0.64-0.58-0.30-0.64-0.56四川-0.251.32-0.23-0.43-0.360.710.26贵州-0.46-0.42-0.92-1.00-0.900.18-0.65云南-0.36-0.31-0.66-0.70-

9、0.740.75-0.52陕西-0.54-0.34-0.63-0.48-0.690.02-0.83甘肃0.60-0.64-0.90-0.96-0.920.24-0.67青海-0.85-0.83-0.63-0.45-1.88-1.44-0.76宁夏0.39-1.01-0.550.00-1.69-1.43-0.71新疆-1.30-0.74-0.67-0.67-0.510.05-0.703、用K均值聚类法对样本进行分类如下:聚类成员案例号地区聚类距离1北京11069.192天津23060.353河北3920.654山西41506.425内家古3577.126辽宁22453.897吉林31487.95

10、8黑龙江35006.419上海12094.3810江苏22853.4211浙江13015.1412安徽31204.4913福建21612.4614江西41880.4015山东32088.5516河南31282.2717湖北32230.1518湖南42053.3519广东21119.9820广西41412.1421海南42541.0522重庆41423.5123四川31138.1424贵州42025.4125云南32196.6326陕西41127.9127甘肃42123.6728青海44568.6029宁夏44247.1230新疆41360.50分四类的情况下,最终分类结果如下: 第一类:北京、

11、上海、浙江。 第二类:天津、辽宁、福建、甘肃、江苏、广东。 第三类: 浙江、河北、内蒙古、吉林、 黑龙江、安徽、山东、河南、湖北、四 川、云南。第四类:山西、青海、宁夏、新疆 、重庆、贵州、陕西、湖南、广西、江西、。从分类结果上看,根据2 0 10年的调查数据,第一类地区的农民生活水平较高, 第二类属于中等水平,第三类、第四类属于较低水平。二、判别分析针对以上分类结果进行判别分析。其中将新疆作作为待判样本。判别结果如下:案例数目实际组预测组p1110.9982220.5753330.9974440.3615330.8366220.2347330.7878330.0979110.52110220

12、.43911110.48612330.99213220.73914440.41515330.24416330.40617330.38718440.42119220.33320440.9521440.28522440.45323330.95124440.3372534*0.27826440.63227440.27828440.22229440.12430440.981*. 错误分类的案例从上可知,只有一个地区判别组和原组不同,回代率为 96%。下面对新疆进行判别:已知判别函数系数和组质心处函数如下标准化的典型判别式函数系数函数123农产品价格指数0.180.3980.394农村住宅投资0.493

13、0.687-0.197农村居民价格水平0.0870.3620.243生活消费支出1.0040.094-0.817人均纯收入0.381-0.2820.565耕地面积-0.0411.019-0.235就业人数-0.631-0.7420.802组质心处的函数函数组号123110.678-0.369-0.62821.747-0.7511.1753-0.9621.899-0.0324-2.595-1.177-0.306判别函数分别为:Yl=0.18xl +0.493x2 + 0.087x3 + 1.004x4 + 0.381x5 -0.041x6 -0.631x7Y2=0.398x1+0.687x2+0

14、.362x3+0.094x4-0.282x5+1.019x6-0.742x7Y3=0.394x1-0.197x2 + 0.243x3-0.817x4 + 0.565x5-0.235x6 + 0.802x7将西藏的指标数据代入函数得: Y1=-1.08671Y2=-0.62213Y3=-0.84188计算Y值与不同类别均值之间的距离分别为:D1=138.5182756D2=12.11433124D3=7.027544292D4=2.869979346经过判别,D4最小,所以新疆应归于第四类,这与实际情况也比较相符。三,因子分析: 分析数据在上表的基础上去掉两个耕地面积和农村固定资产投资两个指标

15、经 spss 软件分析结果如下 :(1)各指标的相关系数阵:Cor relation Matrix农产品价 格指数农村居 民消费消费支出庭人均 纯收入业就业人数Correlation 农产品价格指数1.000.356.296.351.187农村居民消费.3561.000.968.922.584消费支出.296.9681.000.864.625庭人均纯收入.351.922.8641.000.578业就业人数.187.584.625.5781.000从中可以看出,大部分指标的相关系数都比较高,各变量之间的线性关系较明确, 能够从中提取公共因子,适合因子分子。2)检验:KMO and Bartle

16、tts Te stKaiser-Meyer-Olk in Measure of Sampli ng Adequacy.701Bartletts Test ofApprox. Chi-Square145.585Sphericitydf10Sig.000由上表可知:巴特利特球度检验统计量的观测值为145.585.相应的概率p接近为 0如果显著性水平a为0.05,由于显著性水平小于0.05,拒绝零假设,认为相关 系数矩阵与单位阵有显著差异,同时,KOM值为0.701,根据Kaiser给出的度量标 准可知原有变量适合进行因子分析(3)各指标的贡献率如下表:Com m unalitie sInitial

17、Extraction农产品价格指数1.000.979农村居民消费1.000.938消费支出1.000.923庭人均纯收入1.000.878业就业人数1.000.598Extractio n Method: Pri ncipal Comp onent An alysis.从中可以看出,各个指标的贡献率都在百分之五十之上比较高。Total Variance Explainedlilial EgenvaluesExiiaciion、ums oi Squaed l oadingsRotation sums oi squaed l oadings% of% of% ofComponent-TotalVa

18、rianceCumulative %TotalVarianceCumulative %TotalVarianceCumulative %13.44968.97368.9733.44968.97368.9733.20063.99763.9972.86717.34086.313.86717.34086.3131.11622.31586.3133.52610.51796.8304.1402.79699.626r5.37100.000 1Extraction Method: Principal Component Analysis.从上表中可以看出,第一个因子的特征根为3.449.解释原有五个变量总方

19、差的68%,累积方差贡献率为68.973%。第二个因子的特征根为0.863,解释原有变量总方差17.34%,累计方差贡献率为86.313%。(4)碎石图:5)因子载荷阵如下:Com ponent Matrix aComponent12农产品价格指数.446.883农村居民消费.967-.052消费支出.952-.125家庭人均纯收入.936-.039就业人数.729-.258Extractio n Method: Pri ncipal Comp onent An alysis. a. 2 components extracted.由上表可知,各指标在第一个因子上的载荷比较高,说明第一个因子很重

20、要; 第二个因子与原有变量的相关性较小,它对原有变量的解释作用不显著。为便于 对各因子进行命名,对因子载荷阵实施正交旋转。旋转之后的因子载荷阵:Rotate d Compone nt MatrixaComponent12农产品价格指数.150.978农村居民消费.936.251消费支出.944.177家庭人均纯收入.902.253就业人数.773-.019Extracti on Method: Prin cipal Comp onent An alysis. Rotation Method: Varimax w ith Kaiser Normalization.a. Rotati on con

21、 verged in 3 iterati ons.(6)从上表可见,每个因子只有几个指标的因子载荷较大,因此可根据上表进 行分类。将五个指标按高载荷分成两类:咼载荷指标意义农村居民消费水平1农村生活消费支出收支因子农村居民家庭人均收入2农产品价格指数价格因子四,主成分分析 :(1)各指标间的相关系数矩阵如下表所示Cor relation Matrix农产品价 格指数农村居 民消费消费支出庭人均 纯收入业就业人数Correlation 农产品价格指数1.000.356.296.351.187农村居民消费.3561.000.968.922.584消费支出.296.9681.000.864.625庭

22、人均纯收入.351.922.8641.000.578业就业人数.187.584.625.5781.000可以看到有些指标之间的相关性较强,如果直接进行综合分析会造成信息重叠, 所以用主成分分析将多个指标化成几个不相关的综合指标。( 2 )求相关矩阵的特征值和特征向量:特征根方差贝献率累计贝献率13.44968.97368.97320.86717.3486.31330.52610.51796.8340.142.79699.62650.0190.374100从上表可知,前两个特征值累计贡献率已达86.313%。说明前两个主成分基本包 含了全部指标具有的信息。因此,取前两个特征值,并计算相应的特征向

23、量(3)由上述因子分子的因子载荷阵计算主成分的特征向量阵为:compoent12农产品价格指数0.1351121.018454农村居民消费水平0.280371-0.059977消费支出0.276022-0.144175家庭人均年纯收入0.271383-0.044983就业人数0.211366-0.297578所以,前两个主成分为:第一个主成分:Fl=0.135112 X1+0.280371X2+ 0.276022X3+0.271383X4+0.211366X5 第二个主成分: F2=1.018454X1-0.059977X2-0.144175X3-0.044983X4-0.297578X5 在

24、第一主成分中第二、三、四个指标的系数较大,这三个指标起主要作用,刻划了农 居民的收入支出状况的综合指标。在第二主成分中,第一个指标系数较大,是农产品价格水平指标。4)因子得分:Com ponent Scor e Coe f icient M atrixComponent12农产品价格指数-.1931.009农村居民消费.285.031消费支出.307-.051家庭人均纯收入.272.041就业人数.293-.218Extractio n Method: Pr in cipal Comp onent An alysis. Rotatio n Method: Varimax w ith Kaiser Normalizatio n. Comp onent Scores.根据上表写出以下因子得分函数:F1=-0.193农产品价格指数+0.285农村居民消费+0.307消费支出+0.272家庭 人均纯收入+0.293就业人数F2=1.009农产品价格指数+0.031农村居民消费-0.051消费支出+0.041家庭人 均纯收入-0.218就业人数(5)综合评价:以两个因子的方差贡献率为权数,综合评价模型为:Z=0.63997F1+0.22315F2 (旋转之后的方差贡

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论