spss上机报告3课案_第1页
spss上机报告3课案_第2页
spss上机报告3课案_第3页
spss上机报告3课案_第4页
spss上机报告3课案_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGE2统计分析软件(spss)实验报告3序号班级姓名学号日期时间地点3信计1302张温柔413630968:00-11:45实验楼102指导教师:刘秀芹实验名称:用spss进行判别分析因子分析主成分分析实验任务:1、收集到意大利、韩国、罗马尼亚、法国、中国、美国、俄罗斯以及热心观众分别给300名运动员平均打分的数据,希望分析各国裁判员的打分标准是否有相似性。具体数据“裁判打分.sav”.2、根据“高校科研研究.sav”数据(具体数据在可供下载的压缩包中),利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。(1)根据聚类状态表,利用碎石图对聚类类数进行研究。(2)绘制聚类树形图,说明哪些省市聚在一起。(3)绘制各类科研指标的均值对比图。(4)利用方差分析方法分析各类在哪些科研指标上存在显著差异。3、已知我国南方8个少数民族11种生活方式指标的均值数据,进行层次聚类分析结合上述分析结果,说明这8个少数民族按照生活方式的聚类过程。结合上述分析结果,绘制聚类属性图。如果将这8个少数民族按生活方式分成三类,那些少数民族可以归为一类?4、31个省市关于2001年全国31个省市自治区各类小康和现代化指数的数据,对地区进行K-Means聚类分析,分成3类,初始分类中心点由SPSS自行确定。5、试说明当变量存在数量级上的差异,进行层次聚类分析时为什么要对数据进行标准化处理?6、试说明变量之间的高度相关性是否会对层次聚类分析结果造成影响,为什么?7、试说明K-Mean聚类分析的基本步骤。8、在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有:资金利润率=利润总额/资金占用总额劳动生产率=总产值/职工平均人数产品净值率=净产值/总产值三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为(7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?实验目的:学习利用spss进行聚类分析、判别分析对数据进行基本的处理。主要内容有层次聚类分析、快速聚类分析和判别分析。将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。学会画图表示数据的结构表示,可以画树状图,冰挂图还有碎石图。运行结果:1、(1)案例处理摘要a案例有效缺失合计N百分比N百分比N百分比300100.0%00.0%300100.0%a.值向量间的相关性已使用近似矩阵案例矩阵文件输入意大利韩国罗马尼亚法国美国俄罗斯热心观众中国意大利1.000.910.906.917.904.909.667.903韩国.9101.000.878.935.919.887.682.885罗马尼亚.906.8781.000.875.872.929.655.922法国.917.935.8751.000.910.875.660.881美国.904.919.872.9101.000.885.665.884俄罗斯.909.887.929.875.8851.000.660.926热心观众.667.682.655.660.665.6601.000.666中国.903.885.922.881.884.926.6661.000聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集2124.935004236.929003338.924206425.915105512.910046613.887537717.665600群集成员案例3群集意大利1韩国1罗马尼亚2法国1美国1俄罗斯2热心观众3中国22、通过碎石图可以得出:随着类的不断凝聚,类目数的不断减少,类间的距离在逐渐增大。在聚成7类之前,类距增大的幅度较小,形成极为“陡峭的山峰”,但到3类后,类间的距离迅速增大形成极为“平坦的碎石路”。根据类间距离小形成类的相似性大,类间距离大形成类的相似性小的原则,可以找到“山脚”下的“拐点”碎石,以它作为确定分类数目的参考。(2)案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比31100.00.031100.0a.平方Euclidean距离已使用b.平均联结(组之间)聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集212630115469.85200222629659072.138108320251513273.20000544121524225.3170015516203736189.38103668164179524.954051177114214224.7470012824266236581.471029924316858080.8398022106238674504.513001611588909339.143062212278924771.443071713101911295059.756002514222816150669.10300211542116307806.11440201661526791380.10910018172330236391.656120201861344818134.028160231991854973236.9170025202455207713.46617152621142261526555.3470142422524124477353.0911192423627176631641.5091802624514488781146.90922212825910775967399.50819132726261032818251.122202328279172293476117.0212502928253395790865.556262429292912287019144.168282730301289868157406.3320290所以,分类为:第一类:北京第二类:天津、河北、山西、辽宁、吉林、浙江、安徽、福建、山东、海南、四川、陕西第三类:内蒙古、黑龙江、江西、河南、广西、重庆、贵州、云南、西藏、甘肃、宁夏、新疆第四类:湖南(3)单因素方差分析平方和df均方F显著性投入人年数组间59778341.196319926113.73226.428.000组内20357294858总数80135635.35530投入高级职称的人年数组间16485966.82035495322.27334.553.000组内4294074783总数20780040.96830投入科研事业费(百元)组间132451401880.884344150467293.628324.318.000组内3675602946.79427136133442.474总数136127004827.67730课题总数组间16470536.56435490178.85532.181.000组内4606273.43627170602.720总数21076810.00030专著数组间7203690.38532401230.12861.327.000组内1057167.8092739154.363总数8260858.19430论文数组间219675698.219373225232.74017.693.000组内111743385.717274138643.915总数331419083.93530获奖数组间169882.049356627.3503.619.026组内422436.7902715645.807总数592318.83930案例与其类别中心之间的距离组间16021705187.52735340568395.84245.175.000组内3191932471.18027118219721.155总数19213637658.707303、(1)、按照距离从小到大排列,先是距离最小的1、3一类,然后是1、8,然后是5、7,然后是1、6,然后是4、5,1、4和1、2。经过七步类聚过程,8个样本最后聚成一大类。(2)、(3)、广西瑶族与广西侗族、贵州苗族、基诺族为一类,土家族与崩龙族、白族为一类,湖南侗族自成一类

4、初始聚类中心聚类123综合指数79.2092.3051.10社会结构90.4095.1061.90经济与技术发展86.9092.7031.50人口素质65.90112.0056.00生活质量86.5095.4041.00法制与治安59.4057.5075.60迭代历史记录a迭代聚类中心内的更改123124.3876.30723.5792.000.000.000a.由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为.000。当前迭代为2。初始中心间的最小距离为49.349。最终聚类中心聚类123综合指数75.4991.1360.02社会结构82.8696.1766.86经济与技术发展72.4192.0344.03人口素质77.74106.1369.32生活质量75.8494.2751.81法制与治安67.1758.5776.15ANOVA聚类误差FSig.均方df均方df综合指数1633.823222.5182872.556.000社会结构1539.872247.3122832.547.000经济与技术发展4381.296256.7602877.190.000人口素质1817.856274.3632824.446.000生活质量3315.174259.2762855.928.000法制与治安530.188276.284286.950.004F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。每个聚类中的案例数聚类17.00023.000321.000有效31.000缺失.0005、聚类分析是以各种距离来度量个体间的“亲疏”程度的。从各种距离的定义来看,数量级将对距离产生较大的影响,并影响最终的聚类结果。进行层次聚类分析时,为了避免上述问题,聚类分析之前应首先消除数量级对聚类的影响,对数据进行标准化就是最常用的方法。6、变量之间的高度相关性会对层次聚类分析结果造成影响,因为从各种距离的定义来看,所选择的每个变量都会在距离中做出“贡献”。如果所选变量之间存在较高的线性关系,能够相互替代,那么计算距离同类变量将重复“贡献”,将在距离中有较高的权重,因而使最终结果偏向该类变量。7、一、指定聚类数目K

二、确定K个初始类中心

三、根据距离最近原则进行分类

四、重新确定K个类中心

五、判断是否已满足终止聚类分析的条件8、利用Matlab编码V=[68.3940.2421.41;40.2454.5811.67;21.4111.677.90];mu1=[13.5,40.7,10.7];mu2=[5.4,29.8,6.2];mu3=mu1-mu2;mu4=(mu1+mu2)/2;x1=[7.839.19.6];x2=[8.134.26.9];w1=mu3*V^(-1)*(x1-mu4)'w2=mu3*V^(-1)*(x2-mu4)'w1=4.0883w2=-2.2955判别题:案例处理汇总a,b案例有效缺失总计N百分比N百分比N百分比25100.00.025100.0a.平方Euclidean距离已使用b.平均联结(组之间)聚类表阶群集组合系数首次出现阶群集下一阶群集1群集2群集1群集21152137.00200122182242.3890083172049.13500174101454.0700055101366.737407691190.441007791099.593651981825110.87320149812127.6430015102324157.743001411719184.933001212715202.329111161314238.5700018141823264.565810171538310.893091916716337.20412020171718356.273314201812450.203130211939482.2371572220717634.0531617242116833.6441802222131142.96921192323151691.9672202424172069.37423200群集成员案例3群集1:天12:辽13:吉14:江15:浙26:山17:黑38:安19:福110:江111:湖112:湖113:广114:四115:贵316:新317:河318:山319:内320:河321:云322:陕323:甘324:青325:宁3分析讨论:样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。SPSS根据变量数据类型的不同,采用不同的测定亲疏程度的方法。层次聚类分析中将研究对象的观察变量进行分类,它使具有共同特征的变量聚在一起。以便可以从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。在完成spss操作并画出树状图后,可以根据树状图的分支找到每一个分类,也可以根据分支的竖直切线所交的交点判断分几类的不同方法。事前组别的分类标准(作为判别分析的因变量)要尽可能准确和可靠,否则会影响判别函数的准确性,从而影响判别

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论