多元统计分析(聚类分析,判别分析,对应分析)_第1页
多元统计分析(聚类分析,判别分析,对应分析)_第2页
多元统计分析(聚类分析,判别分析,对应分析)_第3页
多元统计分析(聚类分析,判别分析,对应分析)_第4页
多元统计分析(聚类分析,判别分析,对应分析)_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、组员:邹俊逸,综合创新思维训练与实践,随着社会竞争的越来越激烈,家长和老师对于学生成绩的态度愈加重视,对于学生将来的发展与前途也同样感到一丝忧虑,因此及时公布学生的学习成绩并且能够增其长补其短对于学生将会有很大的帮助。本文利用某所重点学校某个班的成绩单来分析这个班学生成绩的优劣,以达到取长补短的目的,主要应用了spss软件对成绩进行了综合性的分析,前言,目 录,聚类分析,定义 聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法。所谓的“类”,通俗地说就是相似元素的集合,聚类分析,基本步骤 (1)计算n个样品两两间的距离,

2、得样品间的距离矩阵 。类与类之间的距离本文应用的是类平均法。所谓类平均法就是:两类样品两两之间平方距离的平均作为类之间的距离,即: 采用这种类间距离的聚类方法,称为类平均法。 (2) 初始(第一步:i=1)n个样本各自构成一类,类的个数k=n,第t类 (t=1,2,n)。此时类间的距离就是样品间的距离(即 )。 (3)对步骤i得到的距离矩阵 ,合并类间距离最小的两类为一新类。此时类的总个数k减少1类,即k=n-i+1. (4)计算新类与其他类的距离,得新的距离矩阵 。若合并后类的总个数k扔大于1,重新步骤(3)和(4);直到类的总个数为1时转到步骤(5)。 (5)画谱系聚类图; (6)决定总类

3、的个数及各类的成员,聚类分析,结果分析,返回,判别分析,概述 判别分析是用于判断个体所属类别的一种统计方法。根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标代入判别方程,从而判断它来自哪个总体。当然,这种准则在某种意义上是最优的,如错判概率最小或错判损失最小等。其前提是总体均值有显著差异,否则错分率大,判别分析无意义,判别分析,操作步骤 输入数据,选择分析分类判别,然后把“概况”选入分组变量中,再点击“定义范围”来定义范围为1(最小数值)到4(最大数值),然后将“语文”、“数学”、“外语”、“体育”选入自变量中,

4、然后点击“statistics”,在出现的对话框中勾选平均值与fishers,其余选项为默认,点击继续,确定运行,判别分析,反映了判别函数的特征根,解释方差的比例和典型相关系数,第一判别函数解释了99.3%的方差,第二判别函数解释了0.6%的方差,第三判别函数解释了0.1%的方差,结果分析,是对三个判别函数的显著性检验,看出第一判别函数在0.05的显著性水平上是显著的,第二与第三判别函数不显著,判别分析,该部分可以看出判别系数表示为,该部分是结构矩阵,即判别载荷,由权重和判别载荷可以看出,外语对判别函数1与判别函数3的贡献较大,体育对判别函数2的贡献较大,判别分析,根据结果,判别函数在y=1这

5、一组的重心为(4.568,-0.216,0.119),在y=2这一组的重心为(1.191,0.064,-0.101),在y=3这一组的重心为(-2.343,0.244,0.09),在y=4这一组的重心为(-5.289,-0.45,-0.021),这样我们就可以根据每个观测的判别z得分对观测进行分类,对应分析,概述 对应分析的重要输出结果之一在于,把变量与样品同时反映到相同坐标轴(因子轴)的一张图形上,结合计算结果,在绘出的图形上能够直观地观察变量之间的关系、样品之间的关系以及变量与样品之间的对应关系。为此也有人认为,对应分析的实质是将变量、样品的交叉表变换成为一张散点图,从而将表格中包含的变量

6、、样品的关联信息用各散点空间位置关系的形式表现出来,对应分析,操作步骤 (1)打开spss文件,在表格下方有两个选项,分别是数据试图和变量视图,点击变量视图选项,在前三行分别输入“学号”、“科目”、“成绩”,其中学号与科目的值项需要做如下设置:在弹出的值标签对话框里,在值这一项里输入“1”,标签输入“1”,再点击“添加”按钮,依次添加到40为止,在科目的值标签对话框内,在值这一项中输入“1”,标签输入“语文”,点击“添加”按钮,再依次添加“2”对应标签为“数学”,“3”对应标签为“外语”,“4”对应标签为“体育”,综上分别完成对1号至40号学号以及4项科目进行数字的赋值。 然后点击数据视图进行

7、数据输入,数据输入按照成绩单输入,如:第一行第一列输入“1”,第二列输入“1”,第三列输入“82”,第二行第一列输入“2”,第二列输入“1”,第三列输入“81”,以此类推,共输入160行数据。在spss的数据视图中输入数据后,再依次点选数据加权个案,进入加权个案的对话框,系统默认是对观测值不使用权重,选中加权个案选项,此时下面的频率变量被激活,选中成绩并点击箭头,使变量成绩充当权数的作用,点击确定。 (2)数据输入完成后,选择分析降维对应分析,然后把“学号”选入“行”,再点击“定义范围”来定义范围为1(最小数值)到40(最大数值),之后点击更新,再点击继续。之后同样地,把“科目”选入“列”,并

8、定义其范围为14。然后点选“模型”,在出现的对话框中选择数据标准化方法,本次分析距离度量点选eucliden,下面的标准化方法选择选项被激活,有5种可供选择的数据标准化方法,本次分析选择第5种:使列总和相等,删除均值,其余选项为默认,点击确定运行。 (3)图表编辑:根据spss对数据的计算,会得到一系列的表格,对对后一张叠加散点图进行部分操作,双击叠加散点图会弹出一个图表编辑器,点击“向x轴添加参考线”又会弹出一个属性对话框,把位置坐标改为0,关闭对话框,点击“向y轴添加参考线”,同上步骤将位置坐标改为0,关闭图表编辑器,此时叠加散点图被分为4各区域,方便于接下来的结果分析,对应分析,输出的第

9、一部分对应表是由原始数据学号与科目分类的列联表,可以看出观测总数n=40,说明原始数据中没有记录缺失,有效边际为行列数的总和,第二部分汇总表给出了总惯量以及每一维度所揭示的总惯量的百分比的信息。可知总惯量为0.01,卡方值为0.4,有关系式:总惯量=卡方值*观测总数(0.4=0.01*40),由此可以清楚地看到总惯量与卡方值的关系,同时说明总惯量描述了列联表行与列之间总的相关关系,结果分析,对应分析,第三部分是对列联表行与列个状态有关信息的概括(概述行点只截取了部分数据)。其中,质量部分分别指列联表中行与列的边缘概率。维中的得分是各维度的分值,指行列各状态在二维图中的坐标值。如语文坐标为(-0

10、.00,-0.143)。惯量是每一行(列)与其重心的加权距离的平方,可以看出i=j=0.01,即行剖面的总惯量等与列剖面的总惯量。贡献部分是指行(列)的每一状态对每一维度(公共因子)特征值的贡献及每一维度对行(列)各个状态的特征值等贡献。如第一维度中,外语对应的数值最大,为0.975,说明外语这一状态对第一维度的贡献最大,对应分析,由以上两张坐标表可以得出如下的叠加散点图,也是输出的最后一部分,是学号各状态与科目各状态同时在一张二维图上的投影。在图上既可以看到每一变量内部各状态之间的相关关系,又可以同时考察两变量之间的相关关系。 在同一变量内部,在各学科间,体育与各状态之间距离相近,而外语可以

11、单独归为一类,对于语文,各学号之间的距离均很近,语文与体育距离比较相近,则可以将体育和语文归为一类,外语分为一类,数学分为一类,很明显的形成了三大类。 同时考察两变量各状态,可以看出这个班的同学的成绩语文与体育偏好,周围的学号也较为集中,分数比较接近,也就是说这个班语文成绩与体育成绩没有特别显著的特点。学号7与学号36离数学较远,说明他与数学的相关性越小,学号28、学号26与学号35离外语较远,说明他与位于的相关性越小,换言之,他们该科成绩较低。而再观察学号较为集中的区域内,也说明大部分学号都与体育和语文的相关性较大,对应分析,运用向量分析了解学科偏好排序。我们可以从中心向任意点连线作向量,例如从中心向语文做向量,然后让所有的学号往这条向量及延长线上作垂线,垂点越靠近向量正向的表示越偏好这种学科。即偏好语文的学生学号依次是9号、1号、2号、3号等等。依次类推,也可以从中心往所有的学号作向量,得到每一个学生在选择4学科上的偏好排名,如28号的偏科情况为数学、语文、体育、外语。 接

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论