已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
题 目:因子分析与聚类分析在学年论文成绩评定中的应用 2010年12月16日目录摘要31 问题的提出42 因子分析法的基本思想和分析步骤42.1 因子分析法的基本思想42.2因子分析的分析步骤43 聚类分析的基本思想和分析步骤53.1系统聚类的基本思想53.2系统聚类的分析步骤54样本的选择和指标体系的建立65因子分析及其结果分析76 系统聚类分析87 总结98 参考文献10目录字体不符合摘要学年论文是本科生学习中的重要环节学生通过撰写学年论文对所学知识得到梳理和运用,以及为以后的毕业论文做准备。而论文成绩由各自的指导教师根据考核学生基本理论、基本知识和基本技能掌握的程度以及分析解决问题的能力,以此进行成绩评定。由于论文成绩评定中存在着大量的隐性变量。已经目前论文成绩评定中存在的很多不科学不完整性。本文对现行本科学年论文成绩评定的指标体系进行分析,应用多元统计中的因子分析与聚类分析,给出了在学年论文成绩综合评定中的一种解决方案,并结合实例进行计算。以验证该方法的可行性。关键词:学年论文;成绩评定;因子分析;聚类分析1 问题的提出论文的成绩评定要根据学生在学年论文中的工作态度、独立工作能力、任务完成情况和论文质量,着重考核学生基本理论、基本知识和基本技能掌握的程度和分析解决问题的能力以及答辩时回答问题的情况,并以此进行成绩评定。成绩评定分为优、良、中、及格和不及格。然而在实际评定中,上述这种方法存在很多种弊端。其中人为因素占了大部分,导师评分的范围仅囊括了其指导的几个学生,而所有学生最终的成绩评定要由学院领导最后综合评定的,评分标准不一致,进而在综合评定时,最好的评定成绩出现了偏向性。并且,平时的概念中,优等生和差生的印象会左右最好评定的成绩。另一方面,虽然目前应用较多的如简单相加法和标准分法各个指标都涵盖了论文的各个方面,但这些指标间存在着相关关系,如何更加准确地从这些指标中获取信息都没有明确的规定再者,最终成绩中往往已划分了优等学生的比例,这也是很不科学的,优劣不是比例来确定的。所以本文根据存在的问题及对他们的分析,本文提出了一种多元统计的方法来处理这个问题并给出解决的答案。2 因子分析法的基本思想和分析步骤2.1 因子分析法的基本思想 因子分析法是能够实现数据简化目的的有效方法之一。其基本思想是根据关性大小把变量分组,使得同组内的变量之同相关性较高,使不同组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就是试图用最少个数的公共因子的线性函数与特殊因子之和来描述原来观测的每个分量,每一个公共因子代表反映变量间相互依赖的作用,抓住这些因子就可以帮助我们对复杂的问题进行分析和解释。因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量 。通过探索性因子分析和验证性因子分析。从而得到显性因子。当然因子分析是社会研究的一种有力工具,但不能肯定地说一项研究中含有几个因子,当研究中选择的变量变化时,因子的数量也要变化。此外对每个因子实际含意的解释也并不是绝对的。2.2因子分析的分析步骤(数学模型呢)(1)以确认学生基本理论、基本知识和基本技能掌握的程度以及分析解决问题的能力这四个原始变量X1 ,X2 ,L,Xn适合作因子分析;(2)设F1,F2,L,Fm为4个因子变量;(3)利用旋转方法使因子变量更具有可解释性; 而旋转方法为了确定因子的实际内容,进一步的旋转因子,来使每一个变量尽量只负荷于一个因子之上。这就是简单的结构准则。 (4)计算出因子得分等中间指标,进行学生学年论文的综合评价及分析。X 1= a11 F1 + a12F2 + L ?+ a1mFm + e1,X2 = a21F 1+ a22F 2+.+ a2mFm+ e2 ,X n= an1F 1+ an2F2 +.+ anmFm + en 以上用数学公式编辑器输入其中X1 ,X2 ,L,Xn为原始变量指标,F1,F2,L,Fm为公共因子,它们是在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量,公共因子的含义,需结合具体问题的实际意义而定; e1,e2, L,en为原变量指标的特殊因子;模型中的 aij为因子载荷它表示 Xi 依赖 Fj 的程度,aij的绝对值越大,表明 Xi 依赖 Fj 的程度越大3 聚类分析的基本思想和分析步骤3.1系统聚类的基本思想聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法,在统计丹析的应用顿域已经得到了极为广泛的应用。它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的。亲疏程度”在没有先验知识的情况下进行自动分类,产生多个分类结果”,。聚类分析不像其他分类方法需要依靠预先定义好的标准或者示例数据,这种方法纯粹是根据数据自身所包含的属性和规律出发进行分析和处理,从而得到一些可能的分类。在上述因子分析的基础之上,将因子分析产生的新变量(因子得分)进行Kmeans聚类分析3.2系统聚类的分析步骤1. 数据预处理 数据预处理包括选择数量,类型和特征的标度,它依靠特征选择和特征抽取,特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类,数据预处理还包括将孤立点移出数据,孤立点是不依附于一般数据行为或模型的数据,因此孤立点经常会导致有偏差的聚类结果,因此为了得到正确的聚类,我们必须将它们剔除。2. 为衡量数据点间的相似度定义一个距离函数 既然相类似性是定义一个类的基础,那么不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,很多距离度都应用在一些不同的领域,一个简单的距离度量,经常被用作反映不同数据间的相异性,一些有关相似性的度量,能够被用来特征化不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两个图形的相似性3. 聚类或分组 将数据对象分到不同的类中是一个很重要的步骤,数据基于不同的方法被分到不同的类中,划分方法和层次方法是聚类分析的两个主要方法,划分方法一般从初始划分和最优化一个聚类标准开始。Crisp Clustering,它的每一个数据都属于单独的类;Fuzzy Clustering,它的每个数据可能在任何一个类中,Crisp Clustering和Fuzzy Clusterin是划分方法的两个主要技术,划分方法聚类是基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类,其他的聚类方法还包括基于密度的聚类,基于模型的聚类,基于网格的聚类。 4. 评估输出。 评估聚类结果的质量是另一个重要的阶段,聚类是一个无管理的程序,也没有客观的标准来评价聚类结果,它是通过一个类有效索引来评价,一般来说,几何性质,包括类间的分离和类内部的耦合,一般都用来评价聚类结果的质量,类有效索引在决定类的数目时经常扮演了一个重要角色,类有效索引的最佳值被期望从真实的类数目中获取,一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳值,这个索引能否真实的得出类的数目是判断该索引是否有效的标准,很多已经存在的标准对于相互分离的类数据集合都能得出很好的结果,但是对于复杂的数据集,却通常行不通。所以基本来说,聚类分析(数学模型肯定有数学公式的啊)首先将每个数据对象各视为一类,根据类与类之间的距离或相似程度将最相似的类加以合并,再计算新类与其它类之间的相似程度,并选择最相似的类加以合并,这样每合并一次就减少一类,不断继续这一过程,直到所有数据对象合并为一类为止。4 样本的选择和指标体系的建立下面以实例说明因子分析、聚类分析在毕业论文成绩综合评定中的应用。 (1)以表1中的12个指标及xx系xx年的毕业论文作为分析依据,随机抽取60名学生的毕业论文并设:X1:目的明确,符合要求;X2:理论意义或实际价值;X3:选题恰当;X4:查阅文献资料能力;X5:综合运用知识能力;X6:研究方案的设计能力;X7:研究方法和手段的运用能力;X8:外文应用能力;X9:文题相符;X10:写作水平;X11:写作规范;X12:论文篇幅(2)采用统计分析软件之一SPSS进行分析 (3)因子分析过程: 第1步,调用 SPSS中的因子分析程序对12 个指标的原始数据标准化,以消除量纲的影响;第2步,建立指标间的相关系数矩阵 R(表格略去) 由相关系数矩阵R 可知,各指标间存在较强的相关关系,且 KMO 统计量的值为 0.892,接近 1,故作因子分析的效果佳; 第3步,求R 的特征值及方差贡献率(见表2) 从表 2 可以发现,前 3 个公共因子的累计贡献率达到89.651%,即前 3 个公共因子可以反映原指标 89.651%的信息量,并且第 4 个特征值小于 1,因此上述 12 项指标可以综合成主因子F1,F2,F3。第4步,建立因子载荷矩阵(见表3) 由表3写出每个原始变量的因子表达式: X1=0.309 F1+0.869 F2+0.148 F3 X2=0.543 F1+0.793 F2+0.155 F3 X3=0.519 F1+0.735 F2+0.206 F3 从表 3 可以发现,每个因子在不同原始变量上的载荷没有明显的差别,不便于对因子进行解释,因此,需要对因子载荷阵进行旋转,这里采取方差最大正交旋转法,得到正交旋转因子载荷矩阵(见表4)。 从表 4 可以看出,经过旋转后的载荷系数已经明显的两极分化了第1个公共因子在指标X4、X5、X6、X7、X8 上有较大载荷,说明这 5 个指标有较强的相关性,可以归为1类,从考核指标类型来看,这5个指标属于能力水平指标;第 2 个公共因子在指标 X1、X2、X3 上有较大载荷, 同样可以归为1类, 这 3 个指标属于选题质量指标;同理,X9、X10、X11、X12可以归为1类,这 4个指标属论文质量指标 第 5 步,给出因子得分系数矩阵(见表 5)。再根据表 5 中的因子得分系数和原始变量的标准化值按照下列表达式: F1=-0.069 X10.042 X2-0.067 X30.384 X40.274 X50.135 X60.239 X70.158 X8 0.115 X90.105 X100.112 X110.114 X12;F2=0.374 X10.370 X20.360 X30.096 X40.021 X50.020 X60.011 X70.025 X80.016 X90.008 X100.037 X110.035 X12; 计算出每个观测值的各因子的得分数。 5 因子分析及其结果分析表 1 毕业论文成绩量化考核项目选题质量(25%)能力水平(40%)论文质量(35%)目的明确符合要求 10理论意义、实际价值 10选题恰当 5查阅文献10综合运用知识 10研究方案设计 5研究方法和手段运用 10外文应用 5题文相符5写作水平15写作规范15论文篇幅5表2 特征根与方差贡献率表序号123456789101112特征值6.6443.8041.2070.4430.2860.2630.1490.1060.0440.0310.0170.006方差贡献率/%51.10629.2589.2873.4102.2042.0221.1450.8190.3360.2390.1274.571E-2累积贡献率/%51.10680.36489.65193.06195.26597.28798.43299.25299.58899.82799.954100.000表3 旋转前因子载荷矩阵 X1X2X3X4X5X6X7X8X9X10X11X12F10.3090.5430.5190.5290.8020.9240.8940.9700.5810.5420.6780.676F20.8690.7930.7356.203E-2-5.253E-2-0.174 -1.640E-2-0.155-0.406-0.450-0.112-0.103F30.1480.1550.2060.687-0.374-5.496E-2-0.291-9.645E-20.4190.3930.3640.366表4 旋转后因子载荷矩阵X1X2X3X4X5X6X7X8X9X10X11X12F14.714E-20.2110.1740.8430.8450.7240.8480.7820.1830.1760.2360.232F20.9250.9500.9093.187E-20.1570.1500.2140.1631.323E-2-4.56E-20.1040.110F3-0.1305.080E-20.109-0.2670.2550.4700.2350.4310.8950.8800.9380.943表5 因子得分系数矩阵X1X2X3X4X5X6X7X8X9X10X11X12F1-0.069 -0.042-0.0670.3840.2740.1350.2390.158-0.115-0.105-0.112-0.114F20.374 0.3700.360-0.096-0.021-0.020-0.011-0.025-0.016-0.008-0.037-0.035F3-0.053 0.0160.058-0.318-0.0050.097-0.046 -0.0580.4270.469 0.3600.120表6 因子得分表序号F1F2F3F名次1 0.87562 1.468480.875690.95847420.67893 1.369521.785630.9135001830.45896 0.014400.828990.3157584258 1.04702 -0.06984-0.12378-0.4606005159 -1.56231 0.874560.882460.5031613660-0.80903 -1.225631.05984-0.67363596 系统聚类分析运行classified命令,以 F1,F2,F3为变量作系统聚类分析,得到聚类树形图。样本聚为5类,拟定为优、良、中等、及格、不及格。对分出的样本分别求其综合因子得分 F 的均值,以均值的高低确定等级的高低得到的结果如下: 优=1,11, 17,34,15,48,56 ; 良=2,5,6,7,10,13,29,30,31,40,42,32,33,14,9,52,50,54;中等=45,51,3,18,35,41,23,22,36,27,8,39,57,4,43,46,55,19,59,12,16; 及格=21,26,25,28,37,20,44,47,49,38,53,5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度健康医疗代理人工作证明模板4篇
- 2025年度餐饮厨房服务合同样本3篇
- 2025年度女方怀孕期间离婚财产分割与子女抚养权分配协议范本4篇
- 2025年度电梯安全培训与考核服务合同4篇
- 2025年度建筑工程承包经营权债务抵偿协议6篇
- 2025年度农家乐餐饮服务与经营管理合同3篇
- 2025年度教育信息化派驻服务合同4篇
- 智能健康监测系统设计-深度研究
- 个性化财产分割方案:2024年离婚合同模板版B版
- 智能工具栏集成策略-深度研究
- 《医院财务分析报告》课件
- 2025老年公寓合同管理制度
- 2024-2025学年人教版数学六年级上册 期末综合卷(含答案)
- 2024中国汽车后市场年度发展报告
- 感染性腹泻的护理查房
- 天津市部分区2023-2024学年高二上学期期末考试 物理 含解析
- 《人工智能基础》全套英语教学课件(共7章)
- GB/T 35613-2024绿色产品评价纸和纸制品
- 2022-2023学年五年级数学春季开学摸底考(四)苏教版
- 【蚂蚁保】2024中国商业医疗险发展研究蓝皮书
- 军事理论-综合版智慧树知到期末考试答案章节答案2024年国防大学
评论
0/150
提交评论