主成分分析和聚类分析_第1页
主成分分析和聚类分析_第2页
主成分分析和聚类分析_第3页
主成分分析和聚类分析_第4页
主成分分析和聚类分析_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第页共页北京建筑工程学院理学院信息与计算科学专业实验报告课程名称数据分析实验名称主成分分析和聚类分析实验地点:基础楼C-423日期_201655姓名张丽芝班级信131学号201307010108指导教师王恒友成绩实验目的】(1)熟悉利用主成分分析进行数据分析,能够使用SPSS软件完成数据的主成分分析;(2)熟悉利用聚类分析进行数据分析,能够运用主成分分析的结果,做进一步分析,如聚类分析、回归分析等,能够使用SPSS软件完成该任务。实验要求】根据各个题目的具体要求,分别运用SPSS软件完成实验任务。实验内容】1、表4.9(数据见exercise4_5.txt)给出了1991年我国30个省市、城镇

2、居民的月平均X2:人均副食支出;X4:人均其他副食支出X6:人均日用品支出;X8:人均非商品支出。消费数据,所考察的八个指标如下:(单位均为元/人)X1:人均粮食支出;X3:人均烟酒茶支出;X5:人均衣着商品支出;X7:人均燃料支出;1)求样本相关系数矩阵R。(2)从R出发做主成分分析,求出各主成分的贡献率及前两个主成分的累积贡献率;2、(1)对题1中的数据,按照原有的八个指标,对30个省份进行聚类,给出分为3类的聚类结果。(2)利用题1得到的前2个主成分指标,分别按最短距离法(最近邻居距离)、最长距离法(最远邻居距离)、类平均距离法(组间平均距离)、重心距离法;其中距离均采用欧式平方距离,对

3、样本进行谱系聚类分析,并画出谱系聚类图;给出分为3类的聚类结果。并与(1)的结果进行比较【实验步骤】(此部分主要包括实验过程、方法、结果、对结果的分析、结论等)11)相关矩阵V2V3V4V5V6V7V8V9相关V1.000.334-.055-.061-.289.199.349.319V3.3341.000-.023.399-.156.711.414.835V4-.055-.0231.000.533.497.033-.139-.258V5-.061.399.5331.000.698.468-.171.313V6-.289-.156.497.6981.000.280-.208-.081V7.199

4、.711.033.468.2801.000.417.702V8.349.414-.139-.171-.208.4171.000.399V9.319.835-.258.313-.081.702.3991.0002)表:方差贡献率和累计贡献率解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的%累积%合计方差的%累积%合计方差的%累积%13.09638.70438.7043.09638.70438.7043.07938.48538.48522.36729.59068.2942.36729.59068.2942.38529.80968.2943.92011.50079.7944.7068

5、.82488.6185.4986.23194.8486.2302.87497.7227.1311.63599.3578.051.643100.000提取方法:主成份分析。由上图可知,只有前两个成分的特征值大于1,所以只选择前两个主成分。第一个主成分的方差贡献率是38.704%,第二个主成分的方差贡献率是29.590%,前两个主成分的方差占所有主成分方差的64.294%。前两个主成分的累计贡献率为68.294%,选择前两个主成分即可代表绝大多数原来的变量。2聚类123V28.798.4810.38V347.0531.1470.37V48.827.076.76V512.809.1416.73V61

6、6.9616.3117.29V712.8010.2118.56V81.881.783.09V913.6311.5124.20最终聚类中心每个聚类中的案例数聚类有效缺失10.00018.0002.00030.000.000由上图可知,聚类2包含样本数最多,聚类3包含样本数最少。通过K中心聚类分析,可以对我国各地区生活中的人均支出类别情况有一个基本的了解。我们可以将不同地区的人均消费情况分为3类;其中第二类包含的省市最多,有18个,其他两类包含城市较少。通过分析结果也可知每个地区所属类别。(2)按最短距离法(最近邻居距离)对样本进行谱系聚类分析聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群

7、集1群集21123.29900152564.8540033574.9102064896.3140065121310.409001065810.539347751011.73060983412.4690014951115.194701410121417.539501211151618.698001312121819.2641001313121520.778121116143522.7788915151325.4071141816121727.9561301917242533.74800191811937.4141502019122437.9451617202011238.070181923212

8、12239.765002222212347.432210252312052.468200242412664.048230252512182.0532422262612782.0662502727128259.4092602828129300.2232702929130396.7752800由聚类表可知聚类的具体过程。以第一步为例,样品1和2合并为一类,距离系数为3.299,在“首次出现阶段集群”里显示为0,因此合并两项都是第一次出现,合并结果取15,即归为第15类。群集成员案例3群集1:山西12:内蒙古13:吉林14:黑龙江15:河南16:甘肃17:青海18:河北19:陕西110:宁夏111:

9、新疆112:湖北113:云南114:湖南115:安徽116:贵州117:辽宁118:四川119:山东120:江西121:福建122:广西123:海南124:天津125:江苏126:浙江127:北京128:西藏129:上海230:广东3集群成员表如图,当划分为3个类别时,各个地区所属类别。与上一问所得结论有较大出入。图直观的反应了样品逐步合并的过程。最长距离法(最远邻居距离)聚类表阶群集组合系数首次出土”阶群集下一阶群集1群集2群集1群集21234567891011121314151617181920212223242526272829158125381215317122421111122612

10、211212629122111269137410141611181525228531727192324202830262912213.2994.8546.31410.40912.27612.46915.29417.55918.69827.07727.95628.85533.74839.76540.88749.52067.77868.93182.06686.817102.216160.503219.108333.013396.775459.195821.706846.5403198.129000020340608001151612018142017190222123280000000000090

11、07510110001300024252627155781610151212171818222116172320242227262826272829290群集成员案例3群集1:山西12:内蒙古13:吉林14:黑龙江15:河南16:甘肃17:青海18:河北19:陕西110:宁夏111:新疆112:湖北213:云南214:湖南215:安徽216:贵州217:辽宁218:四川219:山东220:江西121:福建322:广西323:海南324:天津225:江苏226:浙江227:北京228:西藏229:上海330:广东3类平均距离法(组间平均距离)聚类表阶群隼组合系数首次出现阶群隼下一阶群隼1群隼2群

12、隼1群隼21123.29900172564.8540043896.3140074578.59320145121310.40900863412.4690013781013.51230108121417.54950119151618.69800111081121.704701311121524.981891812171827.9560018133832.35061014143532.6511341715242533.748002016212239.7650021171340.4371142418121747.82411121919121968.6451802220242674.0411502321

13、212374.82416025221220110.18419024232427126.9262002524112134.045172227252124197.455212327262930396.775002927121453.03624252828128489.84727029291291591.22728260群集成员案例3群集山西内蒙古吉林黑龙江河南甘肃青海河北9:陕西110:宁夏111:新疆112:湖北113:云南114:湖南115:安徽116:贵州117:辽宁118:四川119:山东120:江西121:福建122:广西123:海南124:天津125:江苏126:浙江127:北京128

14、:西藏229:上海330:广东3重心距离法聚类表阶群集组合系数首次出土0阶群集下一阶群集1群集2群集1群集2123456789101112131415161718192021222324252627282915851283128151233117122421122124121242111291269713104141116158531817252219232620122724212830293.2994.8546.3147.37910.40911.93312.46914.94718.00018.69815.25023.08019.93227.52027.95632.27233.74839.76553.94564.88365.60591.42194.200106.723141.246346.674375.156396.7751368.51800020305608712101100161817191421202326027000000000010941301500000022024250028

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论