经典测量理论、概化、项目反应理论课件

上传人：2*** IP属地：贵州上传时间：2022-07-17 格式：PPT 页数：29 大小：1.06MB 积分：25 举报 版权申诉

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、经典测量理论(classical test theory,CTT)2022/7/171904年斯皮尔曼首次提出了经典测量理论，1950年，美国学者格立克森（Gulliksen）出版了“Theory of Mental Tests”一书，标志着经典测验理论的成熟。经典测量理论主要是以真实分数模型 (true score model)为基础,围绕被试对试题的应答结果(观测分数)和被试所具有的真实的心理特质(真分数)之间存在的误差进行分析,发展并形成了包括信度、效度、区分度、等值等概念在内的比较完整的心理与教育测量理论体系,故经典测量理论又称为真分数理论。2022/7/17X=T+E任何一个测验成绩

2、都看做是真分数和测量误差之和,这是经典测量理论的基本思想。真分数理论的基本假设：在讨论范围内,真分数具有某种程度的稳定性,即真分数不变,是常数；测量误差的期望值为0,即E=0；测量误差与真分数相互独立,真分数与测量误差相关为0；不同测量误差之间的相关为0；平行性假设:以相同的程度测量同一心理特质的测验称为平行测验。每个平行测验的平均数相等,等于同一心理特质,即真分数；测量误差的平均数相等,且等于0；测量误差方差相等。2022/7/17根据上面的假设,可以将真分数定义为:一个被试在某一测量中无限多次测量的均值或数学期望,即经典测量理论的优点与局限性优点：在20世纪大部分年代里,心理与教育测量的理

3、论与实践一直建立在真分数模型基础上。真分数模型是以弱假设为基础的, 采用的计算公式简单明了、浅显易懂,能够对测试结果做出合理的解释,并且可操作性强,便于在实际测验情境(尤其是小规模资料)中实施,能满足人们对将测试作为一种选拔工具的需要,在测验实际工作中有着较强影响力,并发挥着重要的指导作用。局限性：2022/7/17（1）信度估计精确性不高经典测量理论对信度的假设是建立在平行测验的概念假设上的，但很难找到两个测验的测量误差完全相等，不可能要求每位受试者接受同一份测验无数次，而每次测量间都彼此独立不相关。因此平行测验的理论假设很难满足。在平行测验条件不满足的情况下，估计的各种信度可能有较大误差

4、。（2）各参数估计受样本依赖性太大难度、区分度和信度等各项指标，依赖于它们所来自的特定的被试样本。这些指标会因接受测验的受试者样本的不同而不同，因此，同一份试卷很难获得一致的难度、区分度或信度。2022/7/17（3）等测量标准误差难做到真分数模型已经指出测量误差的存在，以一个相同的测量标准误作为每位受试者的测量误差，显然不适当。当测验施测于能力水平高于（或低于）测验难度的被试时就容易产生较大的测量误差，且误差会随着被试水平与测验难度距离的增加而变大。（4）能力量表与难度量表不配套在经典测量理论中，被试能力量表是卷面总分，项目的难度量表是题目难度。因而不能提供不同能力水平的被试如何对项目

5、进行反应的预测信息，找不到验证某个项目是否匹配某种能力水平被试的计量方法，这使得在选题时带有一定盲目性，失去了精确指导测验编制的作用。概化理论(generalizability theory, GT)2022/7/17克朗巴赫等人(Cronbach)于1972年出版的The Dependability of Behavioral Measurement一书是概化理论形成的标志。GT是关于行为测量的可信赖度的统计学理论。概括性：分数能够推论的范围。可信赖度：推广应用时，推广或概括化的准确程度。2022/7/17GT理论的基本思想是，任何测量都处在一定的情境关系之中，应该从测量的情境关系中具体地考

6、察测量工作，提出了多种真分数与多种不同的信度系数的观念，并设计了一套方法去系统辩明与实验性研究多种误差方差的来源。用“全域分数”(Universe Score)代替“真分数”(True Score) ，用“概括化系数，G系数”(Generalizability Coefficent)代替了“信度”。2022/7/17概化理论把全域分数方差对总方差的比称为为概括力系数（简称G系数）。而总方差可以分成全域分数方差2(p)和误差分数方差2()。概化理论的研究程序2022/7/17G研究(G study):测量的过程中有哪些因素会影响被试的测量结果。测量目标主效应方差、测量面的主效应方差、各种交互效应

7、方差。D研究(D study)概化系数可信赖指数2022/7/17测量工作中要加以认识和应用的心理特质水平是测量目标。而构成测量条件与具体情境关系的因素，称为测量侧面(Facets of Measurement)。测量侧面又分为随机侧面和固定侧面。进行测验的标准化就是对某些测量侧面进行固定。固定测量侧面可以减少测量误差，但却会使测量目标变得更为局限，这样，测验所得的分数就不能再推广到原来那么宽广的范围了。GT与CTT的几点比较2022/7/17（1）CTT要求严格平行测验的“强假设”，即两个平行测验的实测分数必须具有相同的平均数和方差，否则无法确定测验信度的意义；而GT只要求随机平行的“弱假设

8、”，所谓随机平行测验是指随机取自同一题库的长度相同的测验。因而CTT的应用范围受到许多限制，而GT的应用范围则更广泛，应用也更合理。（2）CTT把测验分数简单划分为真分数和误差分数两个部分，误差分数是单一的、含混的、随机的，这就导致不能有效地解释影响人的心理活动因素的多样性，从而在实践上对控制误差缺乏有效指导。GT采用方差分析方法，充分考虑了影响分数的所有误差来源，并进一步提出绝对误差和相对误差的划分及其对绝对误差和相对误差的度量。2022/7/17（3） CTT主要关注的是个体之间的差异，而GT除了个体之间的差异以外，还关注个体的绝对水平。（4）在CTT中，测量误差的估计方法导致同一个测量量

9、表往往表现出多种测量信度并存现象，如重测信度、复本信度、同质信度等，这些信度系数之间没有必然的内在关系。而GT则采用具有内在逻辑关系的概化系数、可靠性系数或信噪比等指数来反映各种因素可能对测验分数的影响程度。2022/7/17尽管CTT和GT之间存在着基础性差异，但是在某种程度上，GT仍然可以看做是通过应用适当的方差分析ANOVA程序对CTT的一种拓展。由于统计计算相当繁杂，前在我国还处于实验研究阶段，在面试、考核等主观性测评中有一些应用。项目反应理论(item response theory,IRT)2022/7/17无论是CTT还是GT，其测验内容的选择、项目参数的获得和常模的制定，都是通

10、过抽取一定的样本（行为样本或被试样本）实现，二者都建立在随机抽样理论基础之上。它们的局限性主要表现在以下四个方面：（1）测量结果的应用范围有限。（2）测量分数赖性于具体的测验（内容）。（3）测量参数依赖于被试样本。（4）信度估计的精确性不高。2022/7/17 项目反应理论也称项目特征曲线理论或潜在特质理论，它是依据一定的数学模型，用项目特征参数估计潜在特质的一种测量理论。该理论中最重要的两个基本概念是“潜在特质”和“项目特征曲线”。项目反应理论的基本假设17（一）潜在特质空间假说潜在特质空间是指由心理学中的潜在特质组成的抽象空间。如果考生在测验项目上的反应是有K种潜在特质所决定的，那么这些潜

11、在特征就定义了一个K维潜在空间，考生的各个潜在特质分数综合起来，就决定了该考生在该潜在空间的位置。如果影响考生测验分数的所有重要的心理特质都被确定了，那么该潜在空间就称为完全潜在空间。 2022/7/17目前比较成熟的大多数项目反应模型都假设完全潜在空间是单维的，即只有一种潜在特质决定了考生对项目的反应，也就是说组成某个测验的所有项目都是测量的同一个心理变量。单维项目反应理论多维目反应理论（二）局部独立性假设2022/7/17指某个考生对于某个项目的正确概率不会受到他对于该测验中其他项目反应的影响，也就是说只有考生的特质水平和项目的特性会影响到考生对该项目的反应。在实际的教育和心理测量问题中,

12、如果前一个项目的内容为后一个项目的正确反应提供暗示或其它有效的信息,局部独立性的假设就会遭到破坏,例如所谓的链状试题就会出现这种情况。局部独立性是建立在统计的意义上的，对每一个测验者来说,对整个试题作出某种反应的概率等于对组成试卷的每个项目的反应的概率的乘积。（三）项目特征曲线假设2022/7/17项目反应理论的一个关键就是在被试者对项目作出的反应或作出反应的概率与被测试者的潜在特质之间建立某种函数关系。所谓的项目特征曲线（item charecteristic curve, ICC）,就是相应函数关系的图象。项目反应理论之所以要作出项目特征曲线形式的假设,是因为项目反应理论的建立不是首先从理

13、论上推导出函数关系的存在,而是先假定有某种形式的项目特征曲线,然后找出满足相应曲线的函数形式。所以,关于项目特征曲线的特征形式的假设实际上就是对未来函数关系的假设。项目特征曲线有3个特点：2022/7/17人的潜在特质量表应定义在正负无穷的区域内；被试在项目上正确作答的概率P（）取值在0,1区间之内；若题目质量好，则被试的正确作答率应随被试的特质水平的提高而提高，项目特征曲线应是一条从负无穷到正无穷的递增曲线。三、项目反应模型2022/7/17IRT模型是一种数学模型,它的特点是以概率的概念来解释应试者对试题的反应和其潜在能力特质之间的关系。IRT的模型有20余种,但比较常用的有洛德提出的著名

14、的正态卵形模型和伯恩鲍姆提出的逻辑斯蒂模型(Logistic模型)。这两种函数模型在计算结果上并无大的区别,所绘制的曲线也大体相同,然而,在实际中大多采用后者。其中主要有以下两个方面的原因：首先是它形式上的简洁,更具数学模型的特点；其次是它便于用对数关系作处理,因而模型的项目质量参数和能力参数估计起来较为方便。逻辑斯蒂模型(Logistic模型)2022/7/17由于Logistic模型相对比较简单,准确性较高,计算量较其他模型小,因此在建立自适应考试系统时,常采用Logistic模型。由于参数的不同,分为单参数、双参数和三参数，其中以三参数的Logistic模型最为常用,由于计算机和网络技术

15、的发展,对考试的准确性的要求也越来越高,对三参数的Logistic模型的研究也比较成熟,现在逐步趋向使用三参数模型。式中表示能力为的被试在项目上正确作答的概率；表示被试的能力；表示项目的难度参数；表示自然对数之底=2.71828； D表示量表因字常数=1.7；表示项目的区分度参数；表示项目的伪随机水平参数，习惯称猜测参数。 2022/7/17项目反应理论的优点：2022/7/17（）特质水平的估计可以从任何一组项目属性已知的项目中得出。（）项目属性直接与测验行为联系在一起。（）自变量，即特质水平和项目属性，可以不借助额外数据而分别估计。四、项目反应理论的应用-计算机自适应测验2022/7/17computerized adaptive testing（CAT）是建立在项目反应理论基础上的，由计算机根据被试能力水平自动选择测题，最终对被试能力做出估计的一种新型测验。其目的在于通过被试正确回答题目难度的高低来评价其能力，而不是像传统的纸笔测验那样通过被试能正确回答题目的多少来评价其能力。2022/7/17与传统的纸笔测验相比，计算机自适应测验在理论上可以允许被试在任何时间进行测试，而且测试的时间要比纸笔测验所需时

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

经典测量理论、概化、项目反应理论课件

文档简介

温馨提示

最新文档

评论

经典测量理论、概化、项目反应理论课件

文档简介

温馨提示

最新文档

评论

相关文档