主成分分析与聚类分析和判别分析_第1页
主成分分析与聚类分析和判别分析_第2页
主成分分析与聚类分析和判别分析_第3页
主成分分析与聚类分析和判别分析_第4页
主成分分析与聚类分析和判别分析_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、实验三主成分分析、聚类分析和判别分析学院:地理科学学院专业:自然地理学姓名:郭国洋实验内容(1)中国31个省份、直辖市、自治区(不包括港澳台)经济状况的7项指标。(2)用主成分分析剖析出影响中国大陆经济状况的主要指标,并对中国大陆的经济综 合实力进行排序。(3)用主成分剖析出的指标,用聚类分析对中国大陆的经济状况进行评价,并对每类 的经济综合状况进行评价。(4)结合本题,谈谈聚类分析和主成分分析两种方法如何结合使用来分析问题。实验目的(1)巩固主成分和聚类分析的基本原理和方法步骤以及在实际分析中的意义。(2)用SPS歌件完成地理的主成分分析和聚类分析。第一部分主成分分析1实验数据查阅2012年

2、中国统计年鉴,数据表示2011年的指标。得到中国 31个省份、直辖市、自治区(不含港澳台)的7项经济统计指标数据, 包括:总人口/10人4人,城镇人口比例/%, 第一产业总产值/10人8元,工业生产总值/10人8元,公共财政预算收入/10人8元,城乡居民储 蓄余额/10人8元,城镇单位就业人员工资总额 /10人8元。样本容量:31 ,变量:7,如图1。ra I FW T) .ww IftMi ET-Oj 岬丫玮凹L-期0图翦晅生迎U J.峭WB麻恒Lt it里!产1。十j噌.蚪n ice JE_枭叶氐组城孑1.3牛营,片fll= 土!LL ;eW;L学UBE工黑电1元1h京gcgoa139 Z

3、TO3MSTMd?3CM2B1*12& 137W5W9fle2COZ天亲囿EEi啊moM - H44TC-。代目136123 orrw1W1!TON二二7240 51 DO45 0000皿5 nDO1117TOMftD1737 771T24 33W013?S SfilBDAUj3通加邮49MX3l641 420UIM41M5&4SXK)lifts白绻力5内i也MSI TIM*喻g7 例 OWC倍溥第g蝇法辽7(5硒褥ms宜& T 35BO7吉*2749410053 40001277 44iXi4917 954DB50 W5835 JI5*3R国芷江3634 OJOO56.50001701 51

4、XS6O215(町WT551佟转SCOg_t.3桶紧R各刿血师耕甘髓ita(fc45M3优 522id由制股MTW FS般?aoBB制修曾111*工Mn#哂0914W nw的皎植MW 1404A心吉*6迪比1附i15 JiOO7D6J1出541双n3720 m3se 1欧112 3400拒M DMtD1501 512270 2配笺uu事U贴*删出皿!1 *J1 CMMil HbuD13*3J12ibhSXJ1iJSi15ill5C WM篝打黑5112 6酬221川野*0l*5TO常雨0璇用股构和8149 32WE 7S1叼427E2TW17唱-r5TS7 5KJDOgt oa2509 3CO&

5、653HQ4DD15agi11?91 WMO2OS3 97290 M二 w2实验步骤及分析(1)点击“分析”一“降维”一“因子分析”,将上述的7个指标选择为变量。SPSS中的“主成分分析”嵌入到“因子分析”中,因此在操作的过程中我们要先进行因子分析。如2。图2选择因子分析变量(2)依次点击“因子分析”框中的“描述”、“抽取”、“旋转”、“得分”、“选项”,勾选相应的选项,如图3、4、5、6、7所示图3抽取图4旋转十L K开产:亏波所计-统计量1门单否量描述囹6M原始日析钻果Q)-相螭11案散(9匚逆触国)且箸性水平但) 口再生出)行列式直)口反听ft -d Kf .l J U 叫即时遮四出.3

6、总因子分析;因子得分卜屋猿喜历至基nil Im maiiiBmi (wiiiii:i !(一方法回归迟) Bartlett(B) Anderson-RubinfA)显示因子得分系数矩阵。)J图4描述统计图5因子得分图6选项图7旋转(3)点击“确定”,得到相应的结果并分析。KMOfU Bartlett 的哪赚取样足够度的Kals er-Meyer-Olkin度量量7B7Bwrtl明的球形度检脸近似卡方321 ,995df21Sig.,000图8 KMO和Bartlett检验分析:图8中,在进行因子分析之前,需要检验变量之间是否具备进行分析的条件。由图中可知KMO直为0.7870.5 ,说明数据变

7、量之间具有结构效度,Sig0.05 ,说明可以进行因子分析。公因子方差初始提取总人口0。人4人1.000一 969城镇人口比重)男-1,000.898第一产业总产使J1 0吃元1.000.023工业生产总值门口阴元1.00D.935公共财政预算收入元1 000.952城乡居民年底储番余额 1口几口元1.000.556城植单位就业人员工费总 甑门口空元1.000.925提取方法=主成份分析工图9公因子方差分析:图9是指全部公共因子对于变量的总方差做所的贡献,说明了全部公共因子反映出的原变量的信息的百分比。例如:“总人口”的共同度是 0.969 ,即提取的公因子对原变量的方差作出了96.9%的贡献

8、。图9中我们知道提取公因子之后各个变量的数值都比较大,说明在变量空间转化为因子空间是,保存了比较多的信息,因此,因子分析的效果是显著的。麟联的总方将成份叨始将征值提取平方和我工在转平方和领入合计方差的驰祟怛%的上走的国瑞根先合M方桂的男14.95970,3307D,33670,33570.B3C3.40549.7B64978。21.59E22,93193,6671.59S2283133.3673.07243JB2916573.2173.10096,7884,1321.83198,6405041,68499,232E133Q,725.J1G,2761 D0.000提取方法:主成份分新“图10解释

9、的总方差分析:图10中可以看到各个特征值的贡献率以及累积贡献率。可见,在本次试验中,前两个因子的累积贡献率已达到93.667%。图11碎石图分析:图11横坐标为因子数,纵坐标为特征值,从图中可以看出前面两个因子的特征值比较大,都大于1,从第三个因子以后,折线平缓,因此,本次实验选择前面2个因子。的分期酎1成份12-Zn/10iA,esc域镇人口七空自418r851第一晅717工业生广总值,日元555= 150仁具盘数预皙理2.I0岬元滕,203博寺蒲昨衣小琴余部 t。吒元969,125幡镇单位就业人员工资总 西门匕TE.G053拍灌灰方丈主就伯”鼻巳程中了,个威伯立成仍,2人.96BJSD城崔

10、人口出市自-.251g14,B61-janeatL总值1炉0元川5,52 a心共财改便苴旧人10稣工53D.019城乡:5工年息保蓄氽额 ,1犷沅.64373G城找判工就业人员工赁总XVI阵,156.t - /阳向跑畔繇需2,标狗喷正交旋端港, a皮名学工娃代肩枝ii*图12因子载荷矩阵分析:图13旋转成分矩阵在图12中我们发现工业生产总值、公共财政预算收入、 城乡居民年底储蓄余额、 城镇单位就业人员工资总额在第 2个主因子的载荷值都比较低,不能对因子作出很好的解释。本实验有必要对因子载荷矩阵实施旋转,得到图13的结果。用具有 Kaiser标准化的正交旋转法旋转之后我们发现第一因子主要由“总人

11、口、第一产业总产值、工业生产总值”决定,第二因子主要由“城镇人口比重、 公共财政预算收入、 储蓄余额、工资总额”决定。咸的1211 .000.0002“口1 000堤:取月法.主派附* 部遇T悬盘里瞿于标 他|隰但行*图14成份得分协方差矩阵分析:图14的结果告诉我们两个因子之间是不相关的。成份得分柒数矩阵成份12总人口 门口气人,334-J19城覆人口比重,%,.颂,455第一产业总门直n甲日元,373-.204工业生产总值匚K元,207.057公共财政强直收入1 05元,033.249城多居民年底储蓄余款1 口也元0Q51E9城通单位就业人员工资总W1犷沅-.002.277提取方法:主咸份

12、*提转法,具有Kai也r标隹化的正变旋转法, 构成潺分*图15成份得分系数矩阵分析:图15给出了因子得分系数矩阵,将公共因子表示成原始变量的线性组合,将公因子对变量做线性回归,得到系数的最小二乘估计就是所谓的因子得分系数。人口五人|戒慎.匚立第一L业总工亡工上生*史值亿元也攵即敌巴M 土,姬中噂昆用底收元位元拿毒仁元工更总相忆元FACl-iFAC2.1- 2QM60B86X)00136 2700XMB790O3006 19T26 13700S099GE2&)1 46112? 422301355 000060 5000150 7W541D 皿 00H55 11123 077001 侬 W5W-1

13、 516BS1则孙72O.51W畤W0Q*5由11770. JWQ17J7.771 阴 241MW1J75 J51W1 165K-W51S3593QODOjg 6a 口。M1 42005ffi9 96001213.431W55 46QD015gB 后5644-4032 3-D63122 W.71QO56 62001306 30007*01613.56.675423 0601122 04520 46850-oew&o43&3.00DQ64D6D01Q15 570 口1D606 540 02943.1515365 65SD02242 73500D75B76M帕一的1M53 1001277 -MOO

14、4WN5OO850. IO535 3150口6605413-33B34.00W56 5000imi 5DdO5602. ?BQOW?.56St47 4CSD014135 9BiBD-19/60-.17149234 r 册 0060 3000MO20民59M329 831 F26S 455003TJ5 i22O01358762SM00用器.A0MM 90003004 noo229ML 例 OO514A.M幽 1“QUJW3 2SfiOO1 4B8 皖1 305 汨飒.WKWMPG1M3WW14M3.QM31W.W2547D 25Q01Hg Lwras13s22859,0000M M0&2016

15、31007IM2OO0Oi 13 5ama 5720015*0 1382047180-M5503720 0000M归g181? MOO7S75 MOO1WI.i1906B&1900227D 260M-1MD3潮51必的436$45TOQO1W1 0700Mil WOOIMS 437123 SWXIMO 5W部iizwa9037 OOW5OB5W即32破不箝53455 中?173 273003日? 11042湖耳9鲤000040 5700博可2椒*139赠3式用144B 427002775 27W1 76741wo57S7 50MS1 的0 46S36 040015MM11M1 S73M2063

16、 92290曲66.M27S图16因子得分分析:根据估计出来的得分系数,可以计算因子得分,由于在图 6的“因子得分”中勾选了“保存为变量”,在SPS徽据视图中出现的fac1_、fac_2就是变量的因子得分,如图16。旋转空间中的成分图优辅人口比不 O城第甲把就业人员_L资总战亿元O 口&共制政限弊也人亿虎 O理苏居民年隹储蓄金款亿元工业生产君值已元O总(口万人O 第一声巾:.由产有开r-1.0-0 50.00 51.0成分1图17因子载荷图分析:图17说明了我们提取了两个公因子,所以输出的是二位平面图, 我们可以看到旋转后 在主因子为坐标轴的二维平面上原变量的位置。(3)计算主成分综合得分Z1

17、、Z2 (总得分)和数学表达式:点击“转换”一“计算变量”,输入目标变量Y=0.70643*FAC1 1+0.22545*FAC2 1D j06招峰此 1_1 +0_22M5*FAC2_1“点口”0*4人J /触K口比 产笠一广立窗区/公共内源胪白3 /好蕾民军盛,“加枕地位就此人/ REGR $.Z REGR factor w Z RFijR iartor x/ REGR factor .+1一二,二11.1主都卡COFiiSB*H-L CCF算押当肺白养时同H朗迅箕图18计算变量wj f=_i此家原品二更西Ji1K2HX)川型唧Q海就IWELWM国啕/归1.1113 3 *-5000159

18、 rai14 1361Z3OTW13情圜-15T6101制脚2W73C0,17TOW017W17171 XK0O1575 180ne70114200眄蚓01213 榔涮恺呻整M0TO侬财?-130aso13S5 3XH7121 00013T用S6FMZ箝通用112 01520-.350500195优觉iSO2M31522短诙圜.07567ME201377 442(14固1,段加血1035 11540EWJGBK-.4B115-33301-MOO171100丽网Q啊耨1415&80-.1刖-1714,-1SMU由厕理5晤3IMM2W-1.35m2痢-44too22210 SMU初相物片JMU蛆的

19、2B4Kid飒1 Wlxm1513 函0阚英掰021出册2WK)2M0aMKI,朝 K.35J2513522156mo2015 31007WCCOO1闷转33 5?恬的T加R4T1K-,“酷21IWO%巧寓。1知51蹒出顺22用阖/嗝,-nmo1391 而刈频1053 437123 5993WB0潮露:om-5TMJ.15级期3晚0曾犯MOD形第2TIT3J7W/通71ZiTW335157痔新.?和0碇硼1721 用课婚蝗砸ms蜜圜i?mi即1110版修91111葡心蟠如Mae办.图19因子总得分分析:该图的列 Z1、Z2代表主成分变量,由此可以相关的线性组合方程组。(4)对31个观察量的综合

20、得分进行排序点击“数据”一“排序个案”,选择丫作为变量,选择“降序”,点击确定。如图20所示。衷件El触1榭DM府IB值分小电IM;N) 3通1= o?lIWillflO *flll_卜中石国然s呼1霖吃 J 1:二: 3-J.电裁节SAOHM.A.A二 Lz t-尸1R总L值呼 帆卫生生广言值IM 4其r财电裳收上 5tuMrr题,噂手三主背系 ?Mifioe 正工牙?iGMHW3:厂诉1回M鼬翼5wxg90QQ5yI4 笈40405056H KI*山茶903TIMKI国的口171 B50D21Zr5W0O3*559322173 273co3B56149TO3江苏TBMBOKi61 wno0

21、64 TITO22ZeO$1DD5Mffi9M7113 MJW13神途m72to000地的gTS7BONOfSM E1370 3 配 3t*w a0831K3SEOXI1411 QfM)24 3000MM eB&56 034001I17S 加 misH S45TOOQ13al DTDDMiiaa 呼IC534J7123 5CS M1C64涮却ti B174J&MC却wg122I9M54CT垃肉1K0 IS91050龄演制普!0IT藻MOM耨触g 5W0刖1离Q。W7 555ir1碱mw1ry川t图20综合得分排序4部分小结在以上的操作过程中我们提取了两个公因子(主成分),发现两个主成分可以保存

22、有原变量的93.188%的信息,因此我们认为主成分的提取是有效。“总人口、第一产业总产值、工业生产总值”可以由第一主成分代替,“城镇人口比重、公共财政预算收入、储蓄余额、工资总额”可以由第二主成分代替。 在对因子载荷矩阵进行旋转之后,我们发现可以就不难建立因子模型,在得到因子得分后, 就可以得到以两个组成分为变量的因子总得分,达到实验的要求和目的。本次实验是有效的。第二部分聚类分析1实验原理聚类分析,亦称群分析或点群分析, 它是研究多要素事物分类问题的数量方法。 其基本 原理是,根据样本自身的属性, 用数学方法按照某种相似性或差异性指标, 定量地确定样本 之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。最近邻元素:也是最近距离法。定义类与类之间的距离为两类中最近的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论