版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、硕士学位论文硕士学位论文基于IRT的数学试卷分析考试招生制度是国家基本教育制度。考试在内容方面,科学设计 命题内容,增强基础性、综合性,着重考查学生独立思考和运用所学 巧识分析问题、解决问题的能力是非常必要的;在评价方面,单一的 分数报告无法多层次反映学生的学习成果,因此要进一步加强考试作 为评价手段的作用。本论文是对试卷进行深层次挖掘,进而对学生能 力进行评价。其中以西藏大学工学院的高等数学成绩及试卷为例进行 分析,运用的方法是项目反应理论,得出学生的数学能力,分析试卷 的信效度,对难度,区分度等参数进行估计,得出试卷的整体效果与 学生的能力,最后发放问卷进行分析。项目反应理论是依据一定的数
2、学模型,用项目特征参数估计潜在 特征的一种测量理论,我们运用这种理论,以藏大学工学院学生的高 等数学成绩为例,运用项目反应理论中的双参数模型,对难度、区分 度等参数进行估计。得出以下结论:(1)试卷信度为42. 6,标准为 25,说明试卷信度良好;(2)难度、区分度参数估计都在(-3,3) 之间,符合项目反应理论的要求。区分度的值大体上都比较良好,但 是由个别题的区分度较低,例如33、34、36题,区分度都较低,只 有0.3左右;难度的值大体上呈上升趋势,满足试题由简单到复杂的 过程。填空题与判断题都是在考察基础知识,基本技能,其难度低于 计算题与应用题,且计算题与应用题难度都是由低到高,越到
3、后面难 度越大,学生作对的概率越低,但是其中有个别题目通过率不符合常 理,难度较低,通过率也较低,例如25、34题。(3)利用项目反应 理论模型估计出学生的数学能力值,学生能力值分布在区间 (-2. 8334, 2. 3726)之间,项目反应理论中对能力值要求在范围(-3,3)之间,符合要求,学生能力在(-1, 0)范围的人数最多为46人, 占总人数的43%左右,在(0, 1)范围的人数为29,占总人数的27% 左右,说明这个专业的学生能力在中等偏下。(4)对工学院高等数 学考试的同学进行问卷发放,并且回收。整份问卷的Cronbachalpha 系数信度为0.856,较为良好,同时各个维度的信
4、度都在0.7以上, 达到了基本要求;KM0系数为0. 744, P值为0. 000,小于0. 05,因 此问卷的结构设计较为良好。(5)问卷分析得出,影响学生数学能 力的因素主要有三方面:1.学校气氛,2.数学学习策略和表现,3. 知识点学习情况。通过问卷发现:1.在平时师生相处中,认为老师不 够关心他们,在学生遇到困难的时候也没有及时给予帮助,这些方面 需要老师和学生的共同努力。2.学生对于数学的学习不是特别积极, 也没有运用一些有效的策略,在考试中也没有和同学一起竞争的想 法。3.学生对于概念掌握的不够好,例题可以听懂做对,但是没有达 到举一反三的效果。最后,本研究针对学生出现的一些问题提
5、出相应的建议,以及对 本研究的创新之处与不足之处的概括。关键词:西藏大学,试卷,项目反应理论ABSTRACTExamination enrollment rule is the national basic education rule.In terms of content, it is necessary to scientifically design proposition content, strengthen the foundation and comprehensiveness, and fbcus on examining students1 ability to think
6、 independently and use their knowledge to analyze and solve problems. In terms of evaluation, a single score report can not reflect students1 learning results at multiple levels, so the role of examination as an evaluation means should be further strengthened.This paper is to dig the test paper in d
7、epth, and then evaluate the students1 ability.Taking the higher mathematics achievements and test papers of Tibet University Institute of Technology as an example, this paper uses the project response theory to get the students1 mathematical ability, analyze the reliability and validity of the test
8、papers, estimate the difficulty, discrimination and other parameters, get the overall effect of the test papers and students1 ability, and finally issue questionnaires for analysis.Item response theory is a measurement theory that estimates potential characteristics with item characteristic paramete
9、rs based on a certain mathematical model. We use this theory to estimate the difficulty, discrimination and other parameters using the two-parameter model of Item Response Theory, taking the higher mathematics achievement of students of Tibetan University of Technology as an example.The following co
10、nclusions are drawn: (1) the reliability of the test paper is 42.6 and the standard is 25, which indicates that the reliability of the test paper is good; (2) the estimation of difficulty and discrimination parameters are between (-3,3), which meets the requirements of the item response theory.The v
11、alue of discrimination degree is generally good, but the difference degree from individual questions is low, such as 33, 34, 36 questions, the difference degree is low, only about 0.3; the value of difficulty is generally on the rise, to meet the test from simple to complex process.Both the filling-
12、in and judgment questions are in the examination of basic knowledge and basic skills. Their difficulty is lower than that of calculation and application questions. Moreover, the difficulty of calculation and application questions is from low to high. The more difficult they are, the lower the probab
13、ility of students1 correct work. However, the passing rate of some individual questions is not in line with common sense, the difficulty is lower, and the passing rate is also lower, such as 25 and 34 questions.(3) Estimate the students1 mathematical ability value by using the project response theor
14、y model. The students1 ability value distributes in the area (-2.8334, 2.3726). The ability value in the project response theory is in the range (-3, 3). It meets the requirements. The number of students whose ability is in the range (-1,0) is 46, accounting fbr 43% of the total number, and the numb
15、er in the range of (0, 1) is 29, accounting for the total. About 27% of the students show that the ability of the students in this major is on the low side.(4) Questionnaires were sent out to the students in the higher mathematics examination of the Polytechnic College and recycled. The Cronbach a r
16、eliability of the whole questionnaire is 0.856, which is fairly good. At the same time, the reliability of each dimension is above 0.7, which meets the basic requirements. The KMO coefficient is 0.744, the P value is 0.000, which is less than 0.05, so the structure design of the questionnaire is rel
17、atively good.(5) Questionnaire analysis shows that there are three main factors affecting students1 mathematical ability: 1. School atmosphere, 2. Mathematics learning strategies and performance, 3. Knowledge point learning. Through questionnaires found that: 1. In peacetime, teachers do not care en
18、ough about them and do not give timely help when students encounter difficulties. These aspects need the joint efforts of teachers and students.2. Students are not particularly active in mathematics learning, nor do they use some effective strategies, nor do they have the idea of competing with thei
19、r classmates in the examination. 3. Students are not good enough at mastering concepts. Examples can be understood and done correctly, but they have not achieved the effect of drawing inferences from inferences.Finally, this study puts forward some correspondingsuggestions fbr students1 problems, an
20、d summarizes the innovation and shortcomings of this study.Key words: University of Tibet, test paper, Item Response Theory目录摘要 TOC o 1-5 h z HYPERLINK l bookmark4 o Current Document h ABSTRACTIll HYPERLINK l bookmark18 o Current Document h 第一章绪论1 HYPERLINK l bookmark21 o Current Document h 1 - 1问题白
21、勺提出1 HYPERLINK l bookmark24 o Current Document h 1.2文献综述21.2.1国外文献综述21.2.2国内研究现状3 HYPERLINK l bookmark27 o Current Document h 1.3研究的意义51理论意义51.3.2实践意义5 HYPERLINK l bookmark30 o Current Document h 1.4研究的框架和方法51研究的框架51.4.2研究的方法6 HYPERLINK l bookmark33 o Current Document h 1.5研究的对象6 HYPERLINK l bookmar
22、k42 o Current Document h 第二章 理论知识与相关概念界定7 HYPERLINK l bookmark45 o Current Document h 2. 1经典测验理论72.1.1经典测验理论的基本假设72. 1.2经典测验理论的优势与不足7 HYPERLINK l bookmark49 o Current Document h 2. 2项目反应理论82.2. 1项目反应理论的基本假设82.2.2项目反应理论基本模型92.2.3项目反应理论的参数112.2.4项目反应理论的优点13 HYPERLINK l bookmark69 o Current Document h
23、3相关概念界定14 HYPERLINK l bookmark77 o Current Document h 第三章 项目反应模型的参数估计15 HYPERLINK l bookmark80 o Current Document h 1参数估计的基本概念15 HYPERLINK l bookmark84 o Current Document h 3. 2极大似然估计15 HYPERLINK l bookmark92 o Current Document h 3.3牛顿一拉夫逊迭代16 HYPERLINK l bookmark102 o Current Document h 4联合极大似然估计17
24、 HYPERLINK l bookmark109 o Current Document h 第四章数据分析21 HYPERLINK l bookmark112 o Current Document h 4.1试卷分析的过程简介21 HYPERLINK l bookmark116 o Current Document h 2 试卷分析224. 2. 1参数估计与项目特征曲线图224.2.2测验信息函数254.2.3 效度264. 2.4学生成绩与能力分析274.2.5试卷分析29 HYPERLINK l bookmark125 o Current Document h 4.3分析结果31 HYP
25、ERLINK l bookmark129 o Current Document h 4.4问卷分析31 HYPERLINK l bookmark141 o Current Document h 第五章 试卷分析的信息反馈38 HYPERLINK l bookmark144 o Current Document h 5.1试卷信息反馈38 HYPERLINK l bookmark151 o Current Document h 5.2学生能力信息反馈39 HYPERLINK l bookmark157 o Current Document h 3教学信息反馈39 HYPERLINK l book
26、mark164 o Current Document h 第六章结论与展望41 HYPERLINK l bookmark167 o Current Document h 1研究结论41 HYPERLINK l bookmark174 o Current Document h 6.2研究不足与创新之处416. 2. 1不足之处416.2.2创新之处42 HYPERLINK l bookmark181 o Current Document h 6.3研究展望42 HYPERLINK l bookmark185 o Current Document h 参考文献:43附录一45 HYPERLINK
27、l bookmark239 o Current Document h 附录二47附录三50 HYPERLINK l bookmark256 o Current Document h 致谢51第一章绪论1 - 1问题的提出考试招生制度是国家的基础教育制度。2014年国务院发布的关于深化考 试招生制度改革的实施意见提出,建设具有中国特色的现代教育考试体系。拉 长学习天桥,连接各级各类教育,识别各种学习成果。这一意见主要是完善考试 评价制度和招生制度。本研究主要围绕考试评价体系进行研究。在考试中,加强 命题内容的科学设计,强调学生独立思考的能力;在内容上,使用单一分数报告 不能反映学生能力。因此应进
28、一步加强考试作为评价手段的作用,想要提供详细 的诊断信息。所以,在考试的基础上对学生的能力进行诊断是十分必要的。教育测量与评价是教育研究的重要手段。在教育诊断、评价等方面发挥着非 常重要的作用。在教育过程中,教师和学生都希望对学生的知识、概念、技能和 策略有更多的了解,从而促进基于这些信息的教学。如果我们能在成绩的基础上 对学生的知识和能力做出进一步的诊断,就可以为学生、教师和学校提供更多的 反馈信息,提高学生的学习和教师的教学质量。这种现象在大型考试中尤为突出 tnO在西藏,由于地理位置和特殊环境的限制,考试评价体系没有得到足够的重 视。众所周知,西藏的数学教育相对落后,主要表现在三个方面:
29、一是学生自身 缺乏积极性对于学习数学,基础相对较差。因为基础差,不能跟上老师的节奏, 那么学习数学的兴趣自然就不高了;小学没有基础知识,初中就不能跟上学习的 进度,它会越来越差。二是教学方法落后,藏族教育仍处于死记硬背的状态。这 种传统的教学模式显然不适应现代教育的发展。在西藏,这种传统的教学模式仍 然很普遍。教师没有意识到学生的主要地位。在教学过程中,学生不应盲目参与 教学。我们应该把教学和学习结合起来。第三,由于西藏特殊的环境,大部分地 区是农牧区。在这里,人们讲藏语,使孩子在出生时接触藏语,而不是汉语,这 对他们的学习非常不利。因此针对西藏数学教育的缺点,认为对西藏的考试进行评价更为重要
30、。本研 究对西藏大学工学院高等数学试卷进行质量分析和考生的作答表现分析,过去人 们常常用经典测验理论。经典测验理论在指导实践的过程中暴露了许多缺点,如 理论操作很难实际界定和操作、参数依赖样本、项目特性与被试特性之间没有建 立内在的联系等等。而项目反应理论则很好的解决了这些问题,因此在指导研究 实践中具有更强的生命力。1.2文献综述1.2.1国外文献综述早期欧关许多国家的学校教育考试,大多使用口头测试,直到1720年英国 剑桥大学才开始使用笔试。后来,法国比内智力测验研究等对教育测量学科的诞 生有很大的作用。20世纪40年代的智力测验运动及其争议导致了经典测验理论的发展。许多 常见的结构,如真
31、实分数、可靠性和有效性,都源于斯皮尔曼为智力理论提供数 学基础的工作。由于主导统计理论是皮尔逊统计学,经典测验理论在很大程度上 依赖于相关概念。后来,洛德和诺维克用现代数理统计重新提出了理论的基本结 构。该理论的基本要素是考试成绩,项目及其特征在理论结构中起着次要作用。 多年来,心理测量理论家和实践者一直对项目角色和测试分数之间的不连续性感 到不满。直观地说,测试理论应该从组成测试的项目的特征开始,而不是从获得 的分数开始。这种基于项目的测试理论的起源可以从Binet和Simon的作品中看 出,他们使用表格来表达正确答案与时间和年龄的比例之间的功能关系,并将项 日放入他们的智力测试中。Telm
32、an使用相同的信息绘制了两个变量的曲线。多 年来,项目特征曲线法一直被简单地视为一种可替代的项目分析技术。劳里的工 作标志着基于测试项目的测试理论的开始。在一篇值得注意的论文中,劳里演示 了如何获得项目特征曲线参数的最大似然估计,根据测试项目定义了真实分数, 并表明经典的可靠性系数也可以表示为这些项目参数的函数。所以过去直观的理 解已经不复存在了。罗德(1952)是劳里工作的主要延伸。他指出,许多附加的 经典测验理论结构可以表示为试验项目特性曲线参数的函数。在他们的工作中, 他们建立了项目反应理论(IRT)心理测量理论的基本概念。在20世纪70年代,项目反应理论成为计量专家研究的主导话题。事实
33、上, 术语“项目特性曲线是项目反应理论的主要概念之一,可以归因于1946年的 Ledyard Tucker 71 o当真分数理论迅速发展并引起主要心理测量学家的注意时, 其公式中固有的问题和弱点开始引起关注。诸如项目参数在整个考生群体中缺乏 不变性,以及经典测试程序不足以检测项目偏倚或为“量身定做的测试”中的测 量提供良好的基础,这些问题引起了项目反应理论的重新兴起。我们现在知道, 项目反应理论的发展是由弗雷德里克洛德通过他的开创性著作项目反应理论 应用提供的。由于题目的数学复杂性和不存在计算机程序,五十年代的进展非 常缓慢。教育测量杂志和应用心理测量专门刊登了项目反应理论及应用, 至此项目反
34、应理论有了很大的成就。近几年,有很多国外的研究者在这方面有很多建树。例如:Kean和Reilly 的Item Response Theory主要讲述了 IRT在临床医学中的应用Pemstein的Evaluating and Improving Item Response Theory Models for Cross-NationalExpert Surveys就说到了 IRT跨国家的观察与评价Andersson和Wiberg的Item response theory observed-score kernel equating 中 论述了 项 日 反应理论的 观测分数和等值法具有较小的标准误
35、差与等值偏差川。可以看出国外的许多文章 不仅对IRT的应用进行研究,而且深入到它本身,研究数学含义,公式等等,而 国内对于IRT本身的研究就比较少,都是运用IRT进行编制试题库,缺少对其含 义的研究。1.2.2国内研究现状考试是人类社会步入强制性脑体分工阶段的产物。约公元前2000年,中土 治国者以考、察、比、试等实践方式选拔人才。汉文帝用对策选贤 良方正,成为考试之滥觞(开始或起源之意)。随之,董仲舒首创了考试的 概念。人类历史上第一个考试制度以隋大业元年(公元605年)由进士科取代 察举科为标志。十六世纪,中国考试制度传至西方,十九世纪,英国建立了文 官考试制度。二十世纪以来,考试随着社会
36、的发展得到广泛的应用。20世纪初,随着智力测验的蓬勃发展,用于指导测验编制的理论一经典测 量理论(Classical Test Theory, CTT)开始得到发展,在这个阶段,大家关注的是 被试在测验上的总分,至于被试在每个具体项目上的表现并没有得到足够的重视1220世纪80年代末,许多学校和辅导机构都进行了基于项目反应理论的试题 编制和题库的建设。现代应用项目反应的例子,如现在的计算机等级、大学英语 四六级考试。基于项目反应理论的试题编制和题库建设,需要专业的IRT分析软 件,在国内走在前沿的是江西师范大学,他们自己研发了国内第一个项目反应理图1-1从1988到2017的文献发表量从图中我
37、们可以看出20世纪以前,对于项目反应理论在考试中的发展非常 缓慢,到2004年开始急速发展,到2008年达到顶峰,发表的文献量达到了 100 篇,至此之后开始处于发展的平缓阶段,从2007年到2017年的十年之间,基本 上都在100篇左右。在国内,项目反应理论在考试方面的应用一般是以下两方面:一是计算机自 适应测验方面的应用。例如:李映红的小学学业成就评价方法探新一项目反应 理论(IRT)指导下的计算机自适应测验(CAT),就是根据小学学业评价的现状, 对经典和项目反应理论进行比较,提出IRT指导下的自算计自适应测验在小学中 是可行的屯;曾尘,翟玉庆的基于项目反应理论的自适应考试系统、张墨的
38、项目反应理论与计算机化自适应考试研究、刘锋,郭维威的基于项目反应 理论的计算机自适应测试算法的研究与实现等等,都是用项目反应理论对自适 应考试的分析研究13H14H15:o二是在一些大型考试中的应用,例如:何立新的基 于项目反应理论的大学英语分级测试题库建设,其中就主要讲述了大学英语分 级测试题库的建设们;龚利的项目反应理论在考试系统试题库中的应用、卢 荣伟的项目反应理论在大规模考试试题分析中的应用、徐爽的基于项目反 应理论的CET4阅读理解试题质量评价等等,都是对大规模试题的研究,有 大学生英语考试等17H18H19O1.3研究的意义1- 3. 1理论意义本研究通过运用具有很多优势的项目反应
39、理论,为教师和学生提供更加详细 和准确的试卷质量和能力水平的分析。本研究利用项目反应理论的科学性,丰富 我国关于项目反应理论在西藏的研究,推动项目反应理论在考试中的发展。 1.3.2实践意义我国考试测评体系发展至今仍有瓶颈始终没有突破。课程设置、教学理念和 培养方式都围绕“升学”这一话题,过多关注学生成绩。本次研究就是希望让学 校和家长两方,不再过多关注学生的成绩,而是重视学生本身的发展。希望能够 对西藏大学学生进行“因材施教”,充分照顾到每一位学生。通过此次研究可以 给西藏大学和数学教师一些启发和建议,促进相关教学工作的开展。1.4研究的框架和方法1.4. 1研究的框架1.4.2研究的方法本
40、研究运用了文献法和问卷法两种研究方法。通过文献法,对国内外的研究 进行综述,对西藏大学工学院高等数学试卷进行分析。运用项目反应理论,分析 出试卷的质量和学生的数学能力水平,然后通过问卷法,对影响学生数学能力高 低的因素进行分析。最后了解学校的实际情况,结合学生的调查问卷,总结出影 响学生能力的因素。1.5研究的对象本次以西藏大学工学院为例展开研究,主要对高等数学考试的两方面进行研 究,一是对西藏大学工学院高等数学试卷进行分析,分析试卷的质量,主要的参 数有:信度、效度、难度、区分度;二是对西藏大学工学院学生的数学能力进行 分析,给出西藏大学工学院学生的数学能力分布,然后分析影响学生数学能力的
41、因素有哪些。第二章理论知识与相关概念界定1经典测验理论经典测验理论(Classical Test Theory, CTT)又称“真分数理论,是最早实 现数学形式化的测量理论。二十世纪三十年代,它形成了一个相对完整的体系, 并逐渐成熟。格里克森在20世纪50年代的作品给了它一套完整的数学理论。1968 年,洛德和诺维克的心理测验成绩统计理论发展到了顶峰,实现了对现代测量理 论的转变。在经典测验理论中,所谓的真实分数是指被试所测量的特质(如能力、知识、 人格等)的真实价值,即真实分数。我们使用一些工具(如测试尺和测量仪器) 获得的值,即观察值。由于测量误差的存在,观测值不等于被测性状的真实值。 换
42、句话说,观察值包含真实分数和误差分数。经典测验理论是把一个测试的分数 看作是真实分数和测量误差的线性组合。它的数学表达式为:X = T + 其中X 是观测值,了是真分数,e表示测量误差网。2.1.1经典测验理论的基本假设根据该公式,我们可以推导出三个关联的公理:首先,误差是完全随机的,它代表一个具有零测量误差均值的正态随机变量。 在许多测量中,有正误差和负误差。如果测量误差为正,则观测分数将高于其实 际分数(真分数);如果测量误差为负,则观测分数将低于其实际分数,即观测 分数将上下波动。然而,只要重复测量次数足够,正负偏差将被抵消,平均测量 误差为零。其次,真实分数和测量误差是相互独立的。第三
43、,每个平行测试的误差相关性为零。经典测量理论是在真分数理论假设 的基础上建立起来的,包括可靠性、有效性、项目分析等基本概念逐。2. 1.2经典测验理论的优势与不足随着经典测验理论的发展,仍有一些学者使用它,这表明它具有优势。其主 要优点如下:1 .容易理解和操作是基于一个相对简单的数学模型,它更直观,更 容易理解和接受,更容易计算和推广。2.其完整的系统易于实现,数学表达式相 对简单:理论假设薄弱,实现条件不严格,易于实现,在实践中具有广泛的适用 性。3.实用性强。在大多数情况下,由于误差可以有效地控制在一定范围内,经 典的测试理论可以被认为是准确的,可以安全地使用。研究表明,对于大多数的测量
44、数据,经典测验理论仍然可以用于分析。随着 教育测量学的不断发展,经典考试理论也有其不足之处,1.真实分数和观察分数 之间的线性关系不真实。在数学表达式中,真分数、观测分数和误差简单地用一 个简单的线性加法表示。然而,大量的实验表明它们之间的关系更符合非线性关 系。2.受试者的能力取决于试题的难度。在试卷中,难度的分布基本上是简单的, 难度较小,大部分是中等的。但这对中学生有好处。对于能力高低的学生,不可 能做出准确的估计。只有当测验的难度与每个受试者的能力相匹配时,才能使测 验的有效性最大化。这就是“因人而异”的问题。经典测验理论并不能解决这个 问题,所以我们不能比较两个不同难度的测试。3.试
45、验参数对样品有很大的依赖 性。在经典测试理论中,最重要的四个参数是可靠性、有效性、难度和判别性。 这些参数对样品有很大的依赖性。例如:难度,如果样本总体水平较高,则估计 难度较大的值,反之亦然次。2项目反应理论基于经典测验理论的缺陷,项目反应理论(Item Response Theory, IRT)是在 反对和克服经典测验理论缺陷的过程中发展起来的一种现代测量理论。它是基于 数学模型,用项目特性参数估计潜在特性的测量理论。2.2.1项目反应理论的基本假设第一,单维假设。这意味着测试只测量受试者的一种能力(如计算能力), 而忽略了其他能力(如阅读能力)对测试结果的影响。也就是说,被调查者对测 试
46、结果的反应只受一个能力水平的控制,而不受其他能力水平的控制。也正是由 于这个假设,项目反应理论受到了反对者的攻击,因为很明显,在测试实践中很 难完全满足一维假设。第二,局部独立。实际上,这和一维假设是一样的。这意味着受试者对测试 中不同问题的回答在统计学上是独立的。也就是说,受试者在试验中的正确反应 概率并不取决于其他受试者的正确反应概率。第三,项目特征曲线形成的假设。这主要是指受试者对物品的反应概率遵循 一定的函数关系,可以用物品特征曲线的形式表不O2.2.2项目反应理论基本模型用平滑的项目特征曲线来拟合被试的原始正确答案比例是很容易的。然而, 如果能用一个合适的数学函数来拟合项目特征曲线,
47、将极大地促进项目与主题之 间关系的深入分析和计算。几乎所有的项目特征曲线都可以用一个相似的累积分 布函数来拟合。累积正态分布函数和累积逻辑斯蒂分布函数是拟合特性曲线最常 用的函数形式。根据评分方法的不同,将项目反应模型分为二值(0, 1)评分模型和多值评 分模型。在试卷分析中,选择题采用二值(0, 1)评分模型。目前,logistic模 型被普遍采用。许多非选择问题,如解答题,说明题等,都采用多值评分模型, 常见的问题是等级反应模型。本文主要介绍了二值评分模型中的双参数logistic模型和多值评分模型中的 等级反应模型。(1)二值评分模型:logistic模型正态肩形模型从理论上建立了项目反
48、应理论初始模型的基本形式,但由于模 型中采用了积分函数,因此估计和使用实际参数非常不方便。1958年,Birnbaum 将其改成了 logistic模型的形式:单参数模型(1PM): = + *)(2-1)双参数模型(2PM): J 厂)(2-2)三参数模型(3PM): 4(。)*+(1 (2-3)项日特征函数也称项日特征曲线(Item Characteristic Curve,简称ICC),是一 种根据测试所获得的考生能力参数和项目特征参数来表示考生可能答对率(成功 率)的数学表示方法,如下图,典型的项目特征曲线图:上渐近线Pi但)图2-1项目特征曲线图这是一个三参数logistic模型的曲
49、线图,它的数学模型表达式为:(24)其中,4(。)是能力水平为。的考生在项目,上的答对概率,弓是项目z的猜 测系数(伪机遇参数),理论上可以取0,1,但是,在实际中,常常低于0.5; 九项目z的难度,理论上可以取(-8,+8),典型值在-3,3之间;是项目z的 区分度,理论上可以取(-8,+8),典型值在-2. 8, 2. 8之间;。一般为常数, 大量证明表示取1.7时,它的概率密度与正态肩形曲线的差异小于0. Olo从上 图中可以看出:(1)在一条ICC中,等于曲线在拐点处的。值。当猜测参数cz=0 (曲线 的下渐近线为。时),次等于月泌)=0.5时的。值,因为对一条完整的ICC,拐 点恰好
50、是曲线的中点和对称点;当乌0时,4(e)= (l + c)/2。(2)在一条ICC中,/的大小决定在拐点处的陡度。/很大时,在附近能力。的增加会导致正确反应概率4很快增长;/很小时,在附近能力。的等量增加不会导致正确反应概率(6)有明显的增长。(3)特征曲线的截距,表示题目的猜测参数,它的值越大,说明无论被试 能力高低,都容易猜对本道题目。(2)等级反应模型1969年,关国学者Samejima提出了多值评分模型中使用最广泛的IRT模型, 该模型假定每个项目只有一个判别度、多个难度级别,并且每个级别的难度值严 格按照单调递增的方式。若项目z的满分值为s,(s,21),且项目,有1个评分点, 即0
51、,12.s,该项目有弟个难度等级且单调递增,即们bl2bl3. 如,,记 能力为。的被试在项目z上的得分恰好为的概率4,(。),F(。)为具有能力。 的被试在项目,上的得分在,或之上的概率,则有:p%e)=pe)-pe)(2-5)在项目z中,令所有得分在或,以上的被试为”通过”,记为1分;得分 小于的被试为不通过”,记为。分。与(6)表示了题目的等级反应运算特征 函数,同样,我们也可以绘制相应的曲线图,称为等级反应运算特征曲线。借用 二值2PM函数模型,我们可以把等级反应运算特征函数写为:4()=i + e-L(f)(2-6)式子中表示被试得分等级,名表示题目z的区分度,表示题目z的第等 级的
52、难度拓。2.2.3项目反应理论的参数只要是测量,就会有误差,项目反应理论也不例外。测量误差是检测质量的 关键指标。测量误差分为系统和随机误差两大类。测量的系统误差是指测量结果 与测量对象的系统偏差;测量的随机误差是指测量结果的随机性与真实值的偏 差,而随机性的偏差是指我们不能预先知道各种因素对测量结果的影响,测量结 果不稳定,不一致。(1)信度可靠性指标一般是测量结果受随机因素影响程度的指标。影响测量可靠性的 因素主要有三个方面:一是测量的情境因素,如时间、地点、评分者等可能影响 受试者反应的环境因素;二是受试者自身的因素,如心理状态和身体状态;三是 量具本身的质量,如量具名称的质量指标、模棱
53、两可的问题、模棱两可的答案和 评分规则等。然后它就模糊了,量具是随意制造的。可靠性主要关系到测量结果 的稳定性和一致性。高可靠性是测量的必要条件,是测量质量的必要保证。效度一般用效度作为测量结果系统性的偏离目标的程度指标,影响测量效度的因 素主要是测量工具本身的内容及编制过程。难度难度参数一般对应着正确作答该项目的概率为0. 5的能力点,也就是项目特 征曲线的中间点落在能力量尺上的位置,认知测量中,许多作者也称为位置参数。区分度区分度参数表示该项目在拐点附近清楚的区分不同能力水平被试的能力。猜测系数猜测系数反映了能力水平趋于负无穷时的渐近正确作答概率。测量标准误信度与测量中的各种随机误差因素相
54、关联,信度越高,意味着测验结果受到 时间间隔等随机误差影响程度较小。因此,在项目反应理论中,关于信度与测量 的随机误差之间有以下关系式:酩(6) = 丁_(2-7)统计量SE叫做测量标准误,4为项日信息函数。信息量与信息函数统计学中的信息量概念指的是信息的确定性程度,或者是认识事物时被消除 的不确定性的大小。项目反应理论借用信息量概念来表示:项目或测验在评价被试特质水平状态 时所提供的信息确定性水平。项目反应理论把信度和信息量的概念定义到了单个 题目和单个被试的水平上,因此,对于评价不同题目对测量被试水平的信息贡献 量,以及评价各个被试的测量结果是否可信,项目反应理论具有更大的优势。项目与测验
55、信息函数的定义项目反应理论在评价被试特质水平时贡献的信息量大小关系定义为:项=嘉施=忠(律伊)(28)这个就是项目反应理论中的项目信息函数。日泌)为项目z的被试反应函数, p (6)为项目反应函数对0的一阶导函数。该函数也就是著名的Fisher信息函数。根据信度与信息量之间的关系,我们也就可以这样理解,上式就是在项目反 应理论框架下,单个项目在单个被试水平上所定义的信度概念。也可以看出,在 同一个项目上,不同能力水平值所求出的项目信息量是不一样的。当然,我们同 样可以在整个测验的水平上定义针对评价单个被试的信度概念,这就是测验信息 函数,其实,测验信息函数就是测验所含项目的信息函数的累加,即:
56、/(e)= EU(e)(2-9)所以,项目信息函数是可以累加的,测验总信息量可以通过增加单个项目信 息量来增大,或者通过增加项目数量来增大盗。2.2.4项目反应理论的优点项目反应理论的优点也并不是只有理论部分,在实践过程中,有许多学者做 了两个理论的比较,得出下面的结果,例如:闫成海,杜文久,宋乃庆,张健写的 高考数学中考试评价的研究一基于CTT与IRT的实证比较中就主要对两种 理论进行比较,得出三个结论:(1)对项目参数来说,IRT得出的估计值更加 精确;(2) IRT框架下,它的信度更加精确(3) IRT对编制测验有指导作用。 陈谨,何静,佟仁城,许健写的英语标准化考试评价中IRT与CTT
57、的比较研究 中得到三个结论:(1) IRT参数不变性的特点;(2) IRT模型可以识别对不同 能力的考生哪些题目更适用,更具有区分度,因此可基于该模型的分析结果可以 构建分水平的题库;(3)将调控及分析的结果及时反馈于教学管理,建立测试结 果评价报告体制,测试的结果服务于教学管理,并将结果及反馈于教学,为教学 提供合理的改进意见的措施,使教与学更具针对性,使教学管理工作更具效率 .生26 27基于上述一些研究者实践得出的优点,结合理论部分,项目反应理论较之于 经典测验理论,有以下一些特征:(1)被试能力参数与项目参数具有不变性的特征参数的不变性是指同一群体(包括题目和受试者)中相同受试者或使用
58、不同 样本估计的相同项目的参数是不变的。(2)被试能力参数与项目参数具有统一的量表在项目反应理论中,受试者的能力参数和难度参数可以放在同一个尺度上进 行比较。因为在项目特征曲线中,难度参数通常对应于概率为0.5的能力点,以 正确回答项目,因此难度参数可以与能力参数进行比较。例如,在项目反应理论 中,进行以下比较是合理的。能力水平为0.8的受试者回答难度值的概率较高, 为0. 5,而回答难度值的概率较小。这一层次的受试者最好用0. 8级的难度回答 项目,如果太难或太容易的话,这样就浪费了受试者的时间。(3)可以针对不同的被试精度估计每个项目及测验的测量误差在项目反应理论中,可靠性与测量标准误差成
59、反比关系o在经典测验理论中, 测试只提供一个统一的可靠性指标,这是项目反应理论的一个优点。在项目反应 理论中,每个参与者和每个项目都提供了独立的可靠性指标,这样我们就可以主 动控制每个参与者的特质水平的估计误差,这更有利于指导测试的准备工作。3相关概念界定(1)项目反应理论:它属于心理学中认知诊断常用的一种理论,即被测试 者针对某个问题的答案来对被测者的认知状况进行估计。其中“项目”指的是试 卷中的试题,“反应”指的是被测试者的答案。(2)教育考试:根据教育目标,选择有代表性的内容,对被试者的知识、 技能等进行测量与评价的过程。(3)数学试卷:数学考试运行的实在载体。目前数学试卷分为四种类型:
60、1.诊断性试卷,例如模拟测试卷等;2.评价性试卷,例如期中、期末考试试卷;选拔性试卷,例如高考试卷;4.竞赛试卷,例如数学建模竞赛试卷。第三章 项目反应模型的参数估计1参数估计的基本概念项目反应理论相对于经典测量理论的优良特性,是通过其构建的模型表现出 来和得到保证的。项目反应理论模型体现的是被试特性与项目特性的组合模式如 何影响具体作答反应结果。所以,通过项目反应理论模型,我们可以理解不同被 试在不同项目上为什么或有不同的得分,同时,还可以预测不同被试在不同项目 上可能的作答结果。不过,要对被试的得分模式作出分析和预测,就必须掌握每 个被试的特质水平参数值和项目特性参数值,然后,通过项目反应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 财务会计说课课件
- 病句复习课-公开课获奖课件
- 《圆锥体积公式》课件
- 玻镁复合墙板生产线建设可行性研究报告
- 科幻故事作文教学课件
- 《瞳高瞳距的测量》课件
- 《盥洗室消毒演示》课件
- 《丰田生产方式》课件
- 《价值工程》课件
- 《企业内部条件分析》课件
- 汽轮机本体检修三措两案
- 索道应急救援培训课件
- 2023-2024学年湖南省长沙市雅礼教育集团七年级(上)期末数学试卷(含解析)
- 普洱茶与黑茶
- 译林版小学六年级Unit7单元测试卷
- 合规管理在国际贸易中的要求
- 2024年高考语文一轮作文复习:二元思辨型作文的巧设分论点方法
- 补中益气汤经肠道菌群的调控改善脾虚证的作用机制
- 电商行业财务分工分析
- 怀孕员工上班免责协议书范本
- 口腔科诊疗规范2023版
评论
0/150
提交评论