概化理论简介_第1页
概化理论简介_第2页
概化理论简介_第3页
概化理论简介_第4页
概化理论简介_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、概化理论导论,内容,1引言2概化理论的背景和发展3概化理论的基本概念3.1测量目标3.2总体分数和相关假设的概念3.3数学模型和相关假设3.4概化理论的错误观点4概化理论的基本方法4.1概化理论研究的基本过程问题4.2概化研究(G Research) 4.3决策研究(Research),1引言,在评估人的能力或素质时,为了评估工作, 人们通常关注两个问题:第一,考试成绩是否能有效地分离考生(被试)的真实水域(反映在选择性评价工作中),为此目的的考试称为常模参照考试。 第二,评估分数是否是候选人真实水平的适当体现(反映在合规性评估中),为此目的的测试被称为标准参考测试。无论采用哪种方法,如何保证

2、评价质量是首要问题。一般来说,保证评价质量的主要方法是控制评价误差。控制评价误差的方法主要有三种,即匹配或标准化技术、随机化技术和统计调整技术。标准化技术的目的是从测量工作的各个方面控制测量误差,使“测量误差不会干扰被测目标群体中个体之间序列的调度”随机化技术旨在控制测量的系统误差。统计调整技术将误差变量作为模型的参数,以便清楚地了解误差变量对测量目标的影响,从而在可接受的误差范围内解释评价结果。在控制评价误差的各种方法中,标准化技术是最常用的。例如,在各种大规模的常模参照测试中,在经典测试理论的指导下,采用了大量的测试标准化技术,如托福测试,可以控制评估误差,达到测试的目的。当然,这种方法已

3、经付出了很高的代价:建立题库需要时间和精力的临时定额参考测验,以及所有的标准参考测验,标准化的方法难以实施。这使得控制测量误差非常困难,因此有必要找到一种新的方法。概化理论(GT或G理论)是一种现代测量理论,它能同时区分候选人和评价候选人的真实实力,并能更好地控制评价误差。其控制测量误差的方法主要是增加统计调整技术。也就是说,将干扰测试分数的不相关变量或因素引入测量模型,然后通过统计技术估计这些因素或这些因素之间的相互作用对测试分数的影响程度。消除这些影响后,可以清楚地显示出被试之间的真实差异,即达到控制评价误差的目的。概括理论的基本原理如下:首先,运用实验设计的思想,分析影响考试成绩变化的各

4、种来源(如受试者水平的差异、试题的难度、评分者的评分标准等)。)。然后,通过使用方差分析技术,我们估计各种变异源对总得分变异的贡献(通常使用方差变量作为指标)。然后,根据不同研究目标的需要,分别考察研究目标在考试总分变化中的比例。通常,当横向目标引起的变化占很大比例时,测量被认为具有高可靠性。然而,在概化理论中,测量可靠性的概念被概化系数或从属指数所取代。一般化理论的一个显著特征是,对于相同的测量,可以根据不同的研究目的提供多个测量可靠性。事实上,当测量目标改变时(例如,测量目标从受试者的水平改变到评价者的质量),或者当测量结果的范围不同时,测量可靠性将改变。事实上,在各种评价活动中,测量结果

5、会有不同程度的概括,它们的测量精度也会有很大的不同也就是说,测试分数推断的范围越大,测量精度越小(测量误差将增加,测量有效性将降低)。相反,测量精度会提高,误差会减小。如果我们想追求高标准的测量有效性,测量误差不应太大。为了减少测量误差,有必要缩小考试成绩的推断范围。然而,如果我们一味追求高效率,测试结果所能解释或推断的范围就太小了,这将影响整个测试的意义。在现实生活中,当误差在可接受范围内时,测量结果的泛化具有一定的实用价值。显然,我们应该找到一个令人满意的解决方案,即只要误差在允许的范围内,测试结果就应该尽可能地汇总到一个较大的范围内,以满足测试目的的要求。现实中,人们对测试结果的泛化程度

6、重视不够,给测量工作带来了诸多问题。一个常见的问题是,只有有限样本上的数据被用来进行无限的归纳和推理,并且没有指出在这种归纳中出错的概率。值得指出的是,概化理论来源于CTT标准化技术和项目分析技术,通过吸收实验设计的原理和方法,系统地改进了真值理论和参数估计方法。这是连续时间理论的进一步发展,两者都属于随机抽样理论。事实上,在用实验技术处理测量误差的三种方法中,该理论仅使用了标准化技术(包括匹配技术)和随机化技术,而一般化理论还应用了第三种技术,即统计调整技术。此外,与项目反应理论(IRT)相比,概括理论更注重对结论的宏观解释,而IRT更注重内部实质关系,即IRT更注重被试的潜在特质水平与试题

7、正确答案之间的实质关系。简单地说,它在处理微观问题(即受试者水平和回答问题之间的实质性关系)方面有明显的优势。在处理中等水平的问题(如普通标准化考试等)时,综合测试很容易理解。)。GT更擅长处理宏观问题(比如推断结果)。三种现代测量理论各有利弊,各有应用。归纳理论的主要用途如下:首先,根据不同的需要,为各种标准化测试提供更合适的测量可靠性估计,并对测试进行正确、公正的评价;其次,对于非标准化测试,准确分析测量误差的来源,估计各种误差来源对总得分变化的影响,为改进测试提供具体有用的信息;第三,同时对整套测试及其子测试的测量可靠性进行评估,使测试结果的解释更加准确合理。概化理论的背景和发展。当今测

8、量领域最有影响的三种理论是经典测量理论、概化理论和项目反应理论(IRT)。前两种属于随机抽样理论,成组技术是成组技术的延伸和改进,而项目反应理论从另一个角度分析每个项目的项目特征曲线和项目信息功能。成组技术理论产生之前,人们通常用成组技术来分析测量误差。理论体系由三部分组成,即真实分数假设、测量信度理论和测量效度理论。该方法体系包括两部分:主题分析技术和测试标准化技术。其中,考试标准化技术主要包括题目准备的标准化、考试实施的标准化、评分和评分的标准化以及评分转换和解释的标准化。标准化是标准化的理论支柱,在考试工作中起着重要的作用。其突出优点是:理论和方法体系相对完整;前提假设较弱,容易被实际的

9、考试工作所满足;所涉及的数学模型以及概念和估计但是,也有许多固有的缺点,主要的缺点如下:第一,考生的能力参数严重依赖于测试样本。其次,考生能力参数估计的准确性指标不合适。第三,测试结果很容易被错误地扩展到不合适的区域。第四,平行检验的经典假设(测量的可靠性依赖于此)在现实中不能得到满足。第五,话题参数在很大程度上取决于候选人的样本。第六,题目的难度参数和考生的能力参数是在不同的尺度上定义的,不利于考试预期目标的实现。上述缺点限制了综合技术的进一步应用。鉴于传统测量理论的不足,测量的理论和实践领域都需要一种全新的测量理论。成组技术理论就是在这一背景下产生的。1963年,克罗姆巴赫等人(Cronb

10、ach,Ra-jaratnam,Gleser,1963年,他在英国统计心理学杂志上发表了一篇名为“泛化理论:可靠性理论的自由化”的论文,这标志着GT理论的诞生。然而,克朗巴赫等人在1972年正式提出了这一理论。到1983年,理论开始成熟,各种术语开始标准化和统一,相关的计算机软件也成功开发出来。布伦南专著(1983年)的概括理论大纲和同年出版的相应软件GE-NOVA极大地促进了成组技术理论的发展。这本书于1992年再版。在同一时期,沙维森韦博(1991)还出版了他自己的专著:归纳理论导论。2001年,布伦南重新出版了关于一般化理论的专著,其中增加了许多非平衡设计和多元GT理论,并同时推出了相应

11、的软件包。随着研究水平的提高,成组理论的范围越来越广。目前,成组理论不仅被应用于标准化的常模参照测验,而且被广泛应用于标准参照测验、非标准化测验、绩效评价等,这对于教师教学评价和人事评价中的面试有着直接的帮助。3、概化理论的基本概念主要包括:总体得分和测量目标、测量端和观测端总体和广义总体或广义总体相对误差和广义系数(G系数)、绝对误差和可靠性指标(),此外还有测量模式、设计结构、样本量和随机平行检验假设等。3.1测量目标,在CCT中,测量对象通常指被试的某一潜在心理特质,但在GT中,测量目标不仅是被试的某一潜在特质,也是试题或评分者的某一特质。3.2、总体分数的概念及其相关假设,心理和教育测

12、量的主要任务是通过数值确定测量对象(通常是主体)的某些潜在心理特质水平(测量目标)。根据CCT,受试者的这种潜在心理特征水平由真实分数来描述。GT认为被测物体的水平应该用宇宙分数来描述。3.21全球得分,GT认为受试者的潜在特质水平不能抽象地描述为真实得分,而应根据决策的需要在特定条件下进行解释。事实上,每项测量工作所涉及的条件或影响测量结果的因素和方面是不同的,研究人员对测试结果的使用(即推断或概括的程度)也是不同的。GT认为,测量工作的准确性(科学程度)取决于研究人员获取行为样本数据时所涉及的条件的数量、结构和性质,也取决于结果的泛化程度。GT没有提到真实分数的概念,而是提出了全局分数的概

13、念。也就是说,在讨论受试者的潜在特质水平时,必须同时指出这一水平是在什么样的测量条件下获得的,而当根据行为样本的表现(得分)来估计整体行为水平时,必须同时指出测量条件样本是否也推断出相应的条件群体(整个领域)。这种分数定义了受试者在特定测量条件的整个领域(范围)中的潜在特质水平,称为全局分数。3.22测量场景的描述,因为当从行为样本推断整体行为时,有必要指出测量条件是否也是从样本推断到全局场景的因素,因此,GT对测量场景做出了以下必要的解释。()测量方面在描述测量场景时,最重要的是要弄清楚什么因素(条件)会影响受试者的分数。例如,在标准化客观性测试中,因为评分标准不会因人而异,所以评分者因素(

14、条件)不会影响测试分数。然而,话题样本的代表性以及话题与被试之间的互动会对考试成绩产生显著影响。因此,试题的影响因素(测量条件)被定义为测量的一面。因此,除了测量目标(如受试者)之外,所有影响测试分数的条件因素都称为测量曲线。这里的测量边类似于数学中的尺寸,也相当于实验设计中的干涉因子。在本例中,只有一个面,即测试面。实际上,可能有几个测量面。例如,在面试中,通常有两个方面,即试题和平分。有时候有更多的方面。值得指出的是,测量对象不应该是受试者,还应该是试题或评价者。例如,在检查普通话水平测试评分员的水平时,您可以记录下10名代表候选人的普通话测试记录材料,然后让评分员对他们逐一评分。此时,主

15、体成为测量平面,而评价者平面被转换成测量目标。也就是说,燃气轮机可以根据研究需要自行确定测量目标。()观察整个领域和G研究并概括整个领域或概括整个领域和D研究,当我们讨论被测水时,我们通常根据测试对象在一定条件下的回答表现(行为样本)来估计真实分数(行为总体)。现在,GT进一步要求讨论测量表面的条件样本和条件总体之间的一致性程度。为了避免混淆,与测量平面的条件样本相对应的条件总体被重命名为条件通用。这里,测量平面类似于数学中的维度,而整个域类似于由这些维度组成的数学空间。所谓容许观测的普遍性是指在实际测量活动中,所有测量边条件的集合。例如,在人员面试中,测试面条件域和评核人面条件域的集合通常构

16、成面试的观察域。在整个观察区域,研究人员必须估计所有侧面和侧面目标的方差分量及其相互作用。这个过程被称为一般研究。值得注意的是,在推断测试分数时,人们不一定观察到整个领域的每一面(维度),并且一面的条件样本可能不会被推断到条件总体(整个领域)。因此,根据不同的决策需要,对受试者行为整体水平的推断将涉及不同的测量领域。为方便起见,将归纳推理测试结果中涉及的测量表面条件论域集合称为广义论域或广义论域或归纳论域。研究人员在广义全域或广义全域上测量表面或物体或它们的相互作用的研究称为D研究(决策研究)。显然,广义全局或广义全局只是观察全局的一个子集。不同的研究者可以为同一测量目标设计不同的观察域和G研究,同一观察域也可以有不同的广义域或广义域和D研究。()测量模式具有相同的测量条件、相同的概括或概括和观察域。如果它们的测量模式不同,它们的测量“可靠性”也会不同。中讨论了三种主要模式,一种是随机测量模式,另一种是固定测量模式,第三种是混合测量模式。其中,固定计量模式是标准化计量模式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论