




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第10章SPSS的聚类分析1、根据“高校科研研究・sav”数据,利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。要求:根据凝聚状态表利用碎石图对聚类类数进行研究。绘制聚类树形图,说明哪些省市聚在一起。绘制各类的科研指标的均值对比图。利用方差分析方法分析各类在哪些科研指标上存在显著差异。采用欧氏距离,组间平均链锁法利用凝聚状态表中的组间距离和对应的组数,回归散点图,得到碎石图。大约聚成4类步骤:分析T分类T系统聚类一按如下方式设置……结果:凝聚计划阶段组合的集群系数首次出现阶段集群下一个阶段集群1集群2集群1集群212630328.18900222629638.295107320251053.42300544121209.922001558201505.03503668161760.170509724261831.926021087111929.89100119582302.02406221024312487.209702211272709.88708161222282897.1060019136232916.55100171410193280.7520025154213491.585402116234229.37511021176134612.42313020189185377.25300251914225622.41501224206155933.5181702321246827.276161526225247930.765910242324252627282930659292212714106175929475.4982002614959.70422192819623.05018142724042.66921232832829.4662502948360.85426242991313.530282730293834.5030290将系数复制下来后,在EXCEL中建立工作表。选中数据列,点击“插入”菜单T拆线图碎石图:由图可知,北京自成一类,江苏、广东、上海、湖南、湖北聚成一类。其他略。-确定。接下来,添加一个变量CLU4_1,其值为类别值。(1、2、3、4),再数据-汇总T设置均值对比,依据聚类解,利用分类汇总,计算各个聚类变量的均值-确定。方差分析结果:分析T比较均值T单因素ANOVAT设置......T确定ANOVA平方和df均方F显著性投入人年数组之间59778341.196319926113.73226.428.000组内20357294858总计80135635.35530投入高级职称的人年数组之间16485966.82035495322.27334.553.000组内4294074783总计20780040.96830投入科研事业费(百元)组之间132451401880.8344150467293.324.318.00084628组内136133442.473675602946.794274总计136127004827.67730课题总数组之间16470536.56435490178.85532.181.000组内4606273.43627170602.720总计21076810.00030专著数组之间7203690.38532401230.12861.327.000组内1057167.8092739154.363论文数获奖数总计8260858.19430组之间219675698.219373225232.74017.693.000组内111743385.717274138643.915总计331419083.93530组之间169882.049356627.3503.619.026组内422436.7902715645.807总计592318.83930不同组在各个聚类变量上的均值均存在显著差异。2、试说明当变量存在数量级上的差异,进行层次聚类分析时为什么要对数据进行标准化处理?因为数量级将对距离产生较大影响,并影响最终聚类结果。3、试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响?为什么?会。如果所选变量之间存在较强的线性关系,能够相互替代,在计算距离时同类变量将重复“贡献”,占有较高权重,而使最终的聚类结果偏向该类变量。4、试说明K-Mean聚类分析的基本步骤。K-Means聚类分析步骤:确定聚类数目K--确定K个初始类中心点--根据距离最近原则进行分类--重新确定K个类中心点--判断是否已经满足终止条件。是一个反复迭代的分类过程。在聚类过程中,样本所属的类会不断调整,直至达到最终稳定为止。5、收集到我国2007年各地区城镇居民家庭平均每人全年消费支出数据,数据文件名为“消费结构.sav”,变量包括:地区、消费性支出总额、食品、衣着、居住、家庭设备用品及服务、医疗保健、交通和通信、教育文化娱乐服务、医疗保健、杂项商品和服务支出。若采用层次聚类法(个体间距离定义为平方欧氏距离,类间距离定义为组间平均链锁距离),绘制的碎石图如下:(1) 依据上图,数据聚成几类较为恰当?(2) 试采用K-MEANS聚类方法,从类内相似性和类间差异性角度分析将数据聚成几类较为恰当。1)聚成3类较为恰当。注:碎石图可按第9章第1题方式绘制,也可按如下方式绘制。步骤:分析T降维T因子分析T导入全部变量到变量框中(地区变量除外)T抽取:选中碎石图T继续T确定。得到:(可以看出,分成3类恰当)(2)用K-MEANS聚类方法进行分类,比较分类数为2、3、4时的差别。步骤:分析T分类TK-平均聚类T地区变量导入到标注个案,其他变量全部导入到变量框中T聚类数填29选项:选中初始聚类中心和ANOVAT继续T确定。得到:ANOVA聚类错误F显著性均方df均方df食品13927902.9671246753.7792956.445.000衣着278718.565137555.425297.422.011居住667583.436131940.7642920.901.000家庭设备用品及服务411657.258114558.0412928.277.000医疗保健325304.302134400.296299.456.005交通和通信10285607.457157486.40029178.922.000教育文化娱乐服务5226361.465169080.9332975.656.000杂项商品和服务248312.93116496.5502938.222.000仅当出于描述目的时才应该使用F检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。每个聚举中的个案数量聚类14.000227.000有效31.000缺失.000将上图中的聚类数修改为3,则得到:ANOVA聚类错误F显著性均方df均方df食品8311754.5092159294.7702852.178.000衣着100878.509241645.317282.422.107居住565811.147216508.6902834.274.000家庭设备用品及服务237257.836212833.0272818.488.000医疗保健198689.996233054.746286.011.007
交通和通信4709934.064290458.7482852.067.000教育文化娱乐服务2676015.304267059.9262839.905.000杂项商品和服务150742.66624829.5552831.213.000仅当出于描述目的时才应该使用F检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。每个聚类中的个案数量聚类11.000225.00035.000有效31.000缺失.000将上图中的聚类数修改为4,则得到:ANOVA聚类错误F显著性均方df均方df食品6461251.597362963.25127102.619.000衣着135334.013335623.106273.799.022居住237725.271332618.140277.288.001家庭设备用品及服务142250.914315077.322279.435.000医疗保健111992.289336553.186273.064.045交通和通信3596731.324343056.2632783.536.000教育文化娱乐服务1812882.568366335.5862727.329.000杂项商品和服务97486.29135342.7412718.246.000仅当出于描述目的时才应该使用F检验,因为已选择聚类用于将不同聚类中的个案的差异最大化。受观察的显著性级别并未因此得到更正,所以无法将这些级别解释为“聚类方法是等同的”假设的检验。每个聚类中的个案数量聚类11.00023.000315.000412.000有效31.000缺失.000从3个ANOVA表可以■出,分为2类时,P-值
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国液晶扎把机市场分析及竞争策略研究报告
- 新疆师范高等专科学校《审计流程实验》2023-2024学年第二学期期末试卷
- 2025年中国电源插座箱市场调查研究报告
- 信阳农林学院《儿童文学名著导读》2023-2024学年第二学期期末试卷
- 2025-2030年中国NDYAG晶体行业竞争格局及发展前景分析报告
- 2025-2030年中国FR4覆铜板行业发展状况及投资可行性研究报告
- 甘肃省张掖市名校2024届中考数学模拟试题含解析
- 麻醉教学课件
- 维稳综治工作业务知识培训课件
- 25年企业员工安全培训考试试题含答案(能力提升)
- 儿童支气管哮喘诊断与防治指南解读(2025年)课件
- 2024年江苏高考语文试题(含答案)
- SF-36生活质量调查表(SF-36-含评分细则)
- 中国古建筑文化与鉴赏智慧树知到期末考试答案章节答案2024年清华大学
- 安全技术交底(模板)
- 2022新大象版科学五年级下册必背知识点总结
- 混凝土氯离子含量试验检测记录表(选择性电极法)
- 纳税实务(第三版)项目一纳税基础知识
- 蓝色卡通风医疗健康汇报PPT模板
- 汇源果汁生产废水处理工程设计
- 裸子植物课件
评论
0/150
提交评论