利用spss对某个班成绩的多元统计分析_第1页
利用spss对某个班成绩的多元统计分析_第2页
利用spss对某个班成绩的多元统计分析_第3页
利用spss对某个班成绩的多元统计分析_第4页
利用spss对某个班成绩的多元统计分析_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.判别分析的概述3.1判别分析的基本思想判别分析是用于判断个体所属类别的一种统计方法。根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则,并使其错判率最小,对于一个未知分类的样本,将所测指标代入判别方程,从而判断它来自哪个总体。当然,这种准则在某种意义上是最优的,如错判概率最小或错判损失最小等。其前提是总体均值有显著差异,否则错分率大,判别分析无意义。3.2判别分析与聚类分析的关系区别:判别分析是在研究对象分类已知的情况下,根据样本数据推导出一个或一组判别函数,同时指定一种判别准则,用于确定待判样品的所属类别,使错判率最小。聚类分析预先不知道分类,它要解决的问题,正是对给定的未知分类的样品进行分类,它是一种纯统计技术,只要有多指标存在,就能根据各观测的变量值近似程度排序,只是描述性的统计,而判别分析能对未知分类观测判别分类,带有预测性质。联系:两者都是研究分类问题,两种方法往往联合起来使用。样品聚类是进行判别分析之前的必要工作,根据样品聚类的结果进行判别分析。4.在SPSS软件上的操作步骤4.1对应分析的操作步骤(1)打开SPSS文件,在表格下方有两个选项,分别是数据试图和变量视图,点击变量视图选项,在前三行分别输入“学号”、“科目”、“成绩”,其中学号与科目的值项需要做如下设置:在弹出的值标签对话框里,在值这一项里输入“1”,标签输入“1”,再点击“添加”按钮,依次添加到40为止,在科目的值标签对话框内,在值这一项中输入“1”,标签输入“语文”,点击“添加”按钮,再依次添加“2”对应标签为“数学”,“3”对应标签为“外语”,“4”对应标签为“体育”,综上分别完成对1号至40号学号以及4项科目进行数字的赋值。然后点击数据视图进行数据输入,数据输入按照成绩单输入(成绩单见附录),如:第一行第一列输入“1”,第二列输入“1”,第三列输入“82”,第二行第一列输入“2”,第二列输入“1”,第三列输入“81”,以此类推,共输入160行数据。在SPSS的数据视图中输入数据后,再依次点选数据→加权个案,进入加权个案的对话框,系统默认是对观测值不使用权重,选中加权个案选项,此时下面的频率变量被激活,选中成绩并点击箭头,使变量成绩充当权数的作用,点击确定。(2)数据输入完成后,选择分析→降维→对应分析,然后把“学号”选入“行”,再点击“定义范围…”来定义范围为1(最小数值)到40(最大数值),之后点击更新,再点击继续。之后同样地,把“科目”选入“列”,并定义其范围为1~4。然后点选“模型”,在出现的对话框中选择数据标准化方法,本次分析距离度量点选Eucliden,下面的标准化方法选择选项被激活,有5种可供选择的数据标准化方法,本次分析选择第5种:使列总和相等,删除均值,其余选项为默认,点击确定运行。(3)图表编辑:根据SPSS对数据的计算,会得到一系列的表格,对对后一张叠加散点图进行部分操作,双击叠加散点图会弹出一个图表编辑器,点击“向X轴添加参考线”又会弹出一个属性对话框,把位置坐标改为0,关闭对话框,点击“向Y轴添加参考线”,同上步骤将位置坐标改为0,关闭图表编辑器,此时叠加散点图被分为4各区域,方便于接下来的结果分析。4.2聚类分析与判别分析的操作步骤1.再次打开SPSS文件,点击变量视图选项,在前七行分别输入“学号”、“语文”、“数学”、“外语”、“体育”、“总分”、“概况”,其中概况的值项需要做如下设置:在弹出的值标签对话框里,在值这一项里输入“1”,标签输入“优”,再点击“添加”按钮,依次添加“2”对应标签为“良”,“3”对应标签为“及格”,“4”对应标签为“不及格”,综上分别完成对4种概况进行数字的赋值。然后同样点击数据视图进行数据输入,数据输入依然按照成绩单输入(成绩单见附录)。2.数据输入完成后,选择分析→分类→系统聚类,然后把“语文”、“数学”、“外语”、“体育”选入变量中,然后点击“绘图”,在出现的对话框中勾选谱系图,其余选项为默认,点击继续,确定运行。3.再次选择分析→分类→判别,然后把“概况”选入分组变量中,再点击“定义范围…”来定义范围为1(最小数值)到4(最大数值),然后将“语文”、“数学”、“外语”、“体育”选入自变量中,然后点击“Statistics…”,在出现的对话框中勾选平均值与Fisher’s,其余选项为默认,点击继续,确定运行。5.结果分析5.1对应表表5.1对应表学号科目语文数学外语体育有效边际182.000120.00071.00095.000368.000281.000119.00077.00090.000367.000383.000115.00069.00091.500358.500472.000115.00075.00095.000357.000输出的第一部分对应表是由原始数据学号与科目分类的列联表,可以看出观测总数n=40,说明原始数据中没有记录缺失,有效边际为行列数的总和。5.2汇总汇总维数惯量比例置信奇异值相关奇异值惯量解释累积标准差21.075.006.548.548.002-.0412.052.003.264.813.0023.044.002.1871.000总计.0101.0001.000表5.2第二部分汇总表给出了总惯量以及每一维度所揭示的总惯量的百分比的信息。可知总惯量为0.01,卡方值为0.4,有关系式:总惯量=卡方值*观测总数(0.4=0.01*40),由此可以清楚地看到总惯量与卡方值的关系,同时说明总惯量描述了列联表行与列之间总的相关关系。奇异值所反映的是行与列个状态在二维图中分值的相关程度,实际上是对行与列进行因子分析产生的新的综合变量的典型相关系数,其在取值上等于特征值的平方根。惯量比例部分是各维度分别解释总惯量的比例及累计百分比,从表中可以看出第一维和第二维的惯量比例占总惯量的81.3%,因此可以选取两维来进行分析。5.3概述行点和概述列点表5.3概述行点a学号维中的得分贡献点对维惯量维对点惯量质量12惯量1212总计1.025.242-.385.000.020.071.348.611.9592.025.403-.322.000.054.050.659.293.9523.025.168-.301.000.009.044.259.575.8354.025.341-.172.000.039.014.767.136.903表5.4概述列点a科目维中的得分贡献点对维惯量维对点惯量质量12惯量1212总计语文.250.000-.143.002.000.099.000.135.135数学.250.082-.427.003.022.880.047.887.934外语.250.540.065.005.975.021.989.010.999体育.250.029-.013.000.003.001.039.006.045有效总计1.000.0101.0001.000第三部分是对列联表行与列个状态有关信息的概括(概述行点只截取了部分数据)。其中,质量部分分别指列联表中行与列的边缘概率。维中的得分是各维度的分值,指行列各状态在二维图中的坐标值。如语文坐标为(-0.00,-0.143)。惯量是每一行(列)与其重心的加权距离的平方,可以看出I=J=0.01,即行剖面的总惯量等与列剖面的总惯量。贡献部分是指行(列)的每一状态对每一维度(公共因子)特征值的贡献及每一维度对行(列)各个状态的特征值等贡献。如第一维度中,外语对应的数值最大,为0.975,说明外语这一状态对第一维度的贡献最大。5.4叠加散点图图5.1由以上两张坐标表可以得出如下的叠加散点图,也是输出的最后一部分,是学号各状态与科目各状态同时在一张二维图上的投影。在图上既可以看到每一变量内部各状态之间的相关关系,又可以同时考察两变量之间的相关关系。在同一变量内部,在各学科间,体育与各状态之间距离相近,而外语可以单独归为一类,对于语文,各学号之间的距离均很近,语文与体育距离比较相近,则可以将体育和语文归为一类,外语分为一类,数学分为一类,很明显的形成了三大类。同时考察两变量各状态,可以看出这个班的同学的成绩语文与体育偏好,周围的学号也较为集中,分数比较接近,也就是说这个班语文成绩与体育成绩没有特别显著的特点。学号7与学号36离数学较远,说明他与数学的相关性越小,学号28、学号26与学号35离外语较远,说明他与位于的相关性越小,换言之,他们该科成绩较低。而再观察学号较为集中的区域内,也说明大部分学号都与体育和语文的相关性较大。再从每个学号出发,如1号距离外语的距离相对于它距离其他三个科目而言是较远的,所以1号要加强对外语的练习,2号和1号的不同在于它离外语的距离接近它离数学的距离,也就是说2号在加强外语练习的同时还要兼顾着对语文的练习。以上是由SPSS默认设置得到的结果。实际研究中,可以采用创新思维,根据不同的研究目的对散点图进行研究。运用向量分析了解学科偏好排序。我们可以从中心向任意点连线作向量,例如从中心向语文做向量,然后让所有的学号往这条向量及延长线上作垂线,垂点越靠近向量正向的表示越偏好这种学科。即偏好语文的学生学号依次是9号、1号、2号、3号等等。依次类推,也可以从中心往所有的学号作向量,得到每一个学生在选择4学科上的偏好排名,如28号的偏科情况为数学、语文、体育、外语。接着,我们可以从向量夹角的角度看不同学科或不同学生之间的相似情况,从余弦定理的角度看相似性。从图上我们可以看出,当我们从中心向任意两个学号(相同类别)做向量的时候,夹角是锐角的话表示两个学生具有相似性,锐角越小越相似。也就是说,2号和5号是相似成绩,当然也是竞争者,也具有替代性;我们也看出数学与外语就有非常大的差异了。因为如果作向量他们是几乎是直角了。5.5树状图图5.25.6特征值表5.5特徵值函數特徵值變異的%累加%典型相關性110.291a99.399.3.9552.057a.699.9.2333.010a.1100.0.100a.前3個典型區別函數用於分析。第六部分反映了判别函数的特征根,解释方差的比例和典型相关系数,第一判别函数解释了99.3%的方差,第二判别函数解释了0.6%的方差,第三判别函数解释了0.1%的方差。5.7显著性检验表5.6Wilks'Lambda(λ)函數的檢定Wilks'Lambda(λ)卡方df顯著性1至3.08387.14212.0002至3.9362.3026.8903.990.3522.839第七部分是对三个判别函数的显著性检验,看出第一判别函数在0.05的显著性水平上是显著的,第二与第三判别函数不显著。5.8标准化典型判别式函数系数表5.7標準化典型區別函數係數函數123语文.903.134.539数学1.387-.246-.578外语1.463-.268.392体育.772.947.024第八部分可以看出判别系数表示为:5.9结构矩阵表5.8結構矩陣函數123体育.142.952*-.126数学.282-.218-.879*外语.288-.226.604*语文.086-.113.479*區別變數與標準化典型區別函數之間的聯合組內相關性依函數內相關性絕對大小排序的變數。*.每一個變數與任何區別函數之間最大的絕對相關性第九部分是结构矩阵,即判别载荷,由权重和判别载荷可以看出,外语对判别函数1与判别函数3的贡献较大,体育对判别函数2的贡献较大。5.10群组重心的函数表5.9群組重心的函數概况函數123优4.568-.216.119良1.191.064-.101及格-2.343.244.090不及格-5.289-.450-.021以群組平均值求值的非標準化典型區別函數第十部分是反应判别函数在各组的重心,根据结果,判别函数在y=1这一组的重心为(4.568,-0.216,0.119),在y=2这一组的重心为(1.191,0.064,-0.101),在y=3这一组的重心为(-2.343,0.244,0.09),在y=4这一组的重心为(-5.289,-0.45,-0.021),这样我们就可以根据每个观测的判别Z得分对观测进行分类。5.11分类函数系数表5.10分類函數係數概况优良及格不及格语文10.3769.9109.4549.036数学10.2629.7029.0918.625外语11.95211.25810.5599.992体育20.59919.91719.17618.325(常數)-2400.472-2190.839-1982.558-1799.533費歇(Fisher)線性區別函數第十一部分是每组的分类函数(区别于判别函数),也称费歇现行判别函数,由表中结果可以说明:y=1这一组的分类函数是y=2这一组的分类函数是y=3这一组的分类函数是y=4这一组的分类函数是可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。6.结论我们通过联系所学的课程《多元统计分析》,用对应分析、聚类分析、判别分析相结合解决实际问题,并发散思维,跳出书本,运用不同的方法解读统计学的多元统计分析。在判别分析的结果中也可以看出17号,27号与39号同学与原始概况有所不同,17号成绩概述为良,而判别分析后为及格,27号成绩概述为及格,判别分析后为良,39号成绩概述为及格,判别分析后为不及格,说明这三位同学的观测值(即成绩)处于判别分类的交界处,只要成绩稍一提高就可以进入上一类别,也就是说老师的辅导重心不用放在这三位同学身上。从输出结果中得出结论,这个班级的体育成绩是最为平衡的,也体现出这个班学生的身体素质是很好的,其次是这个班的语文成绩也是相对平均的,但是也不难看出,外语与数学是这个班的软肋。同时可以说明28号同学与7号同学是偏科最为严重的,另外35号同学和26号同学也比较偏科。从这个班目前的学习状况来看,这个班体育成绩应当继续保持,拥有健康的体质才是学习的前提条件,语文成绩要从整体来提高,从整个班级入手,加强对学生平时的课程练习,争取下一次的考试成绩能够稳定到90分以上,对于数学与外语科目,老师要多多的关注那些偏科的学生,例如外语老师就要多关注学号为28、26、35的这三位同学,数学老师就要多关注学号为36、7的这两位同学,这样补上他们的短板,对整个班级成绩的影响也是非常重要的。我们本次课设将创新主要应用在对应分析这一方面,具体体现在散点图分析中,之前只考虑了变量间点与点

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论