版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020/11/9,1,第五章 效 度,孔 明 苏州大学医学部,2020/11/9,2,信度:测量的稳定性(弹着点的密集程度) 效度:测量是否有效(弹着点离靶心的距离),2020/11/9,3,本章要点,1. 效度概念及其演变趋势 2. 传统的三种效度类型:内容效度、效标关联效度、构想效度的概念及其评估方法 3. 现代效度理论:单一效度 4. 影响测验效度的因素,2020/11/9,4,1. 效度概念及其演变趋势,2020/11/9,5,1.1 什么是效度,效度:是一个测验能够测量其所要测量的东西的程度(the extent or degree to which the test measur
2、es what it was designed to measure)。 或测验使用者的预定目的与实测结果相吻合的程度。 这个测验测什么? 测得有多准?,2020/11/9,6,效度的性质,效度是针对测验结果的 效度是针对某种特定的测验目的的 尺子可以用来度量长度,但不能用来度量重量,即便每次度量的结果都完全一样。 16PF是用来测人格的,如果那来测智力的话,就缺乏效度 。 效度只有程度上的差异,2020/11/9,7,1.2 效度的测量学定义,真分数理论回顾: 系统误差(包含在真分数中): Sv2 :有关(有效)变异 SI2 :无关变异(系统误差),效度的测量学定义:与测量目的有关的真实变异
3、(或有效变异)在总变异中的比例 rxy=Sv2/Sx2,2020/11/9,8,1.3 效度与信度的关系?,rxy=Sv2/Sx2 =(Sx2- SI2- SE2)/ Sx2 =1- SI2/ Sx2- SE2/ Sx2 = rXX - SI2/Sx2 SI2=0 rxy= rxx 信度是效度的必要而非充分条件,信度:只考虑随机误差(random error)对测量的影响 效度:同时受到随机误差和系统误差(systematic error)两方面的影响。,2020/11/9,9,例子:三个算术测验的比较,Sv2,SI2,SE2,SX2,Sv2,Sv2,SI2,SI2,SE2,SE2,Test
4、1,Test 2,Test 3,2020/11/9,10,1.4 效度概念的演变趋势,早期:测验成绩与效标的相关 20世纪4、50年代:四类效度 内容效度(content validity)、构想效度(construct validity)、预测效度(predictive validity) 和同时效度(concurrent validity) 1966教育与心理测验的标准和指南(美国心理学会、美国教育研究学会) :效标关联 (criterion-related or empirical)、构想 、内容 单一效度:测验结果的有效性,2020/11/9,11,2. 传统的三种效度类型,2020/
5、11/9,12,传统的效度的种类,证明一个测验是有效的(validation),必须保证在以下三方面均是有效的: 内容效度(content) 效标关联或实证效度(criterion-related or empirical) 构想或结构效度(construct) 不能只独立地保证一方面。,2020/11/9,13,2.1.1 什么是内容效度,内容效度(content validity):测验内容对测验目的的适合程度。 基本前提:测验试题应为所欲测内容或行为范围之代表性样本(representative sample)。 主要用于建构或评价成就测验或职业测验,2020/11/9,14,需要考虑的
6、基本方面: 测验内容范围:应能确切涵盖所界定对象之范围 测验题目的代表性:每个试题应与所界定内容或行为范围有适度相关;试题分配应能反映范围内各种变项或成分所应占的比重 保证测验本身结构、要求受测者对试题做出反应的方式 保证有一定的题量,2020/11/9,15,2.1.2 内容效度的估计步骤,评估内容效度的基本过程: (一) 详细描述内容范围 课程内容、教育目标以及各类题目所占比例 (二) 明确每一个测验项目,即每一道题所测的内容范围 (三)在内容范围和结构方面对测验项目与全测验作比较,2020/11/9,16,1、 内容范围:10以内加减法运算 内容分类:A.运算类型 B.运算范围 1)加法
7、 2)减法 运算结果10 各类的相对重要性 2、分析每一测验题的内容、结构。,例:,2020/11/9,17,2.1.3 内容效度的估计方法,方法: 专家评判 问题:缺乏数量化指标 经验方法 前测学习再测,2020/11/9,18,2.1.4 内容效度与表面效度,表面效度(Face validity): 表面看起来测验内容与测验目的的一致性程度。 市井或通俗测验多有高的表面效度,但它不能保证测量的正确性。 提高表面效度可以起到“包装”的作用 对表面效度的要求 最高水平测验:高;典型行为测验:低,2020/11/9,19,内容效度的适用,成就测验 标准参照测验 不适用:能力倾向(aptitude
8、)与人格 为什么?,2020/11/9,20,2.2 效标关联效度(Criterion-related validation),又称实证效度,指一个测验对处于特定情境中的个体的行为预测的准确性。即:测验结果与效标的关联程度(求相关)。 效标(Criterion):希望做出推断的行为或被预测的行为,是检验测验有效性的标准。 测验=预测源 行为=效标 效标关联效度是基于数据的( data based) 一个选拔测验与工作绩效的相关 一个成就测验与年级的相关 一个诚实测验与偷窃的相关,2020/11/9,21,2.2.1 常见的效标,学业成就: 学科成绩,学历,获奖 实际的工作表现 产量、治愈率、违
9、规次数 特殊训练成绩 培训 临床诊断,对团体的区分(人口统计学变量) 年龄,种族,疾病类型 其他现成的测验,2020/11/9,22,2.2.2 效标的选择,有效符合测验目的 可靠高信度、误差小 可行可以收集到 客观避免“效标污染”,2020/11/9,23,效标污染,效标污染(criterion contamination ) :一般指由于评定者知道其预测源分数而使效标“纯度”降低的情况(Anastasi, 1988) 预测源的知识 评定偏差 团体特征偏差 好的效标应是适当的、可信的和无偏见的(Thorndike, 1949),2020/11/9,24,2.2.3 两种效标关联效度,预测效度
10、(predictive validity): 预测未来 他将来会患焦虑症吗? 同时效度(concurrent validity): 诊断现状 他患有焦虑症吗?,二者的重要差别:进行测验(即预测源)与进行效标测量之间的时间 不同时间=预测效度 同一时间=同时效度,2020/11/9,25,做法不同,理想的策略:预测效度 学生参加高考,把所有的人都录取 一段时间以后,将他们的平均学业成绩与高考分数求相关 这个相关称为效度系数 困境?实践上,伦理上,实践中的选择:同时效度 已经上了大学的学生参加高考,同时收集他们的平均学业成绩 计算高考分数与学业成绩的相关 优势:可行性、易行性 二者的差别 表面上:
11、时间长短 实质上:对样本代表性的要求,2020/11/9,26,2.2.4 效标关联效度的估计方法,1. 相关法: 计算测验分数与效标的相关系数。 2.区分法:根据效标上的成绩将被试分为好、坏两组,那么,这些组在预测分数上应该有显著差异。如果存在显著差异,说明测验的预测效度高。 3.命中率:当使用测验进行决策时,决策的正命中率和总命中率可以作为效度的指标。,2020/11/9,27,总命中率命中人数/总人数正命中率=被录取的成功者/录取人数,2020/11/9,28,2.2.5 效标关联效度的实际应用问题,1. 统计的显著性 样本量对相关系数显著性的影响,相关显著性与样本量之间的关系(p .0
12、5 水平),2020/11/9,29,2. 估计的标准误,估计的标准误 (standard error, SE):使用测验分数预测效标分数时的误差大小的估计值: rxy:测验的效度系数 sy:效标成绩的标准差,2020/11/9,30,估计的标准误的应用:估计真正效标分的变化范围,某能力倾向测验的效标的标准差是15,测验和效标的相关是0.50,那么从该测验估计等级水平的标准误是多少?如果某学生预测的效标得分是50,那么实际获得的效标分数有68的可能落在哪个区间范围内?,2020/11/9,31,3. 效标关联效度在人事选拔中的应用:预期表( empirical expectancy table
13、),2020/11/9,32,4. 测验的效用问题,基础率(base rate):未经选择的人群总体中具有欲选特征的人数百分比 . 录取率(selective ratio):从申请者中选择出的人数的比例 切割线的确定 (cutting - off score ),决策的可能结果,2020/11/9,33,泰勒罗赛尔预期表,2020/11/9,34,2020/11/9,35,增益效度,增益效度(incremental validity):由于应用测验而在决策中提高的效度。,2020/11/9,36,例子:,假设你是一家公司的人事部经理。有100个人申请某一职位。根据以往公司招聘员工的资料,你了解
14、到申请该职位的平均成功率为60%。现在你手头上有个针对该职位的测验,效度为0.7,而因额度限制,你只能招收30人。 你将预期招到的人中有多少是成功的? 如果胜任该职位但未被录取的人提出质疑,你将如何给出合理的解释?,2020/11/9,37,2020/11/9,38,决 策,选择 拒绝 小计 60,绩 效,成功 失败 小计 30 100,27,70,40,3,33,37,根据泰勒-罗塞尔表,正命中率=.91。.91*30=27.3,在所有被拒绝的人中漏报的比率=33/70=.47,2020/11/9,39,2.3.1 结构(构想)效度的概念,结构(构想):假设性的概念或特质 结构(构想)效度(
15、Construct validation ):一个测验度量一个理论上的构想或特质的程度 例如, 一个测验在多大程度上测量了“幸福感”(责任感、自主性等等)? 这个面试(interview)测量了人际技能了吗? 假设验证与累积证据,2020/11/9,40,2.3.2 结构效度的验证步骤,第一步:对结构或特质进行界定(建立理论框架),说明该结构的心理学意义、它与其他结构或特质间的关系 第二步:根据理论定义,推论出一些可能的假设,并验证假设。 例:焦虑测验的结构效度验证 当人面临危险时,焦虑度会升高; 服用某种特殊药物,可以减轻焦虑; 患有某种精神病的人,他们的焦虑程度会比普通人高。,2020/1
16、1/9,41,2.3.3 结构效度的估计方法,(一)测验内方法:主要通过测验内部构造来分析测验的结构效度 内容效度可以作为结构效度的证据 被试解答测题时的反应过程看是否测到要测的结构 测验的同质性内部一致性方法,2020/11/9,42,内部一致性方法,人格测验常用 题目分数与总分相关 分测验与总分相关 注:这种考察方法一般只能根据结果推论出测验是测单一特质还是多种特质的,对于测验效度的贡献比较有限,只是结构效度高的必要条件,需要作进一步的研究才能确定测验所测构想。,2020/11/9,43,(一)测验间方法:通过测验间的相互关联 1. 相容效度(congruent validity):新编测
17、验与某个已知的能有效测量相同特质的旧测验之间的相关。 例:新编智力测验与韦氏智力量表的相关如果高,则新测验的相容效度高,2.3.3 结构效度的估计方法,2020/11/9,44,(一)测验间方法: 2.会聚(辐合)效度(convergent validation):也叫求同效度。 基本思想:如果两个测验是测量同一特质的,那么即使用不同的方法进行测量,他们之间的相关也应该是高的。 例:一个艺术能力测验与其他不同形式的艺术能力测验有高相关,2.3.3 结构效度的估计方法,2020/11/9,45,(一)测验间方法: 3.区分效度(discriminant validation) :也叫求异效度。
18、基本思想:如果两个测验是测量不同特质的,那么即使用相同的方法进行测量,他们之间的相关也应该是低的。 例:一个纸笔形式的智力测验和一个纸笔形式的人格测验,相关应该比较低,2.3.3 结构效度的估计方法,2020/11/9,46,(一)测验间方法: 4.因素分析(factor analysis):一种多变量统计法。目的是降维,即用更少量的因素概括解释许多相互关联的变量。 基本思想:通过对一组测验进行因素分析,找出影响测验的共同因素,从而了解测验的结构效度。,2.3.3 结构效度的估计方法,2020/11/9,47,因素分析 (Factor analysis, FA),例如:假设你有一个包括四个部分
19、的成就测验 阅读理解 词汇 数学计算 数学推理 你可能猜想,阅读理解和词汇都测量了言语技能,数学计算和数学推理都测量了数学技能。 要知道你的想法是否正确,你需要进行因素分享。,2020/11/9,48,2.3.3 构想效度的估计方法,(三)发展(年龄)水平变化 如,智力随年龄而变吗? (四)实验(干预)研究 如,力图提高艺术能力的干预措施确实提高了在艺术能力测量上的分数了吗? 焦虑量表的效度考察: 实验组:焦虑的环境 控制组:舒适安闲的环境,2020/11/9,49,2.3.3 构想效度的估计方法,(五)考察效标关联效度的方法 基本思想:从效标的性质与种类来推论测验的结构效度 具体做法: 根据
20、效标把人分为两类,考察得分上的差异 如,将一个艺术能力测验施测两组人,艺术系和法律系学生。二者的差别? 根据测验分数把人分为高分组和低分组,考察这两组人的差别 如,根据一个内外向测验将被试分为两组,二者的差别?,2020/11/9,50,(六)多特质-多方法矩阵(multitrait-multimethod matrix),Campbell & Fiske(1959)提出的方法:如果我们采用两种以上的方法去测量两种以上的特质或构想,那么这些测量的结果之间可以形成多方法-多特质矩阵形式。 假设我们测量了三种特质: 诚实,攻击性,智力 假设我们测量这些特质使用了三种不同的方法 教师评定,纸笔测验,
21、旁观者评定,2020/11/9,51,2020/11/9,52,小 结,不同方法测量不同特质之间的相关应小于效度对角线 同一方法测量不同特质之间的相关应小于效度对角线,2020/11/9,53,MTMM原理,次低,2020/11/9,54,效度的含义小结,2020/11/9,55,统一的效度概念,更广泛的效度概念:由测验分数所得出的推理和所采取行动的充分性(sufficiency)和适宜性(adequacy)应得到实验证据和理论观点的支持,而对这种支持力量的综合性评估和判断结果便是测验的效度。麦斯科(Messick,1989) 内容效度与构想效度 效标关联效度和构想效度,2020/11/9,5
22、6,内容效度与构想效度,表面的内容效度 受测者的反应过程 例:几何定理测验题 ,测记忆 or 测推理? 只有借助于有关行为或操作的某些概念或构想理论,才能最终描述内容范围的边界和结构。,2020/11/9,57,效标关联效度和构想效度,预测源构想 (认知能力),实际预测源 (SAT),效标度量 (GPA),效标构想 (学业表现),构想-度量之间的关系,2020/11/9,58,构想-构想关系,人们关心的理论问题,预测源构想 (认知能力),实际预测源 (SAT),效标度量 (GPA),效标构想 (学业表现),2020/11/9,59,测量-构想关系,由操作定义的度量作出推断 应根据构想选择操作性度量,预测源构想 (认知能力),实际预测源 (SAT),效标度量 (GPA),效标构想 (学业表现),2020/11/9,60,测量-测量关系,效标关联效度研究获得的东西,预测源构想 (认知能力),实际预测源 (SAT),效标度量 (G
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 土地租赁协议2023
- 部编版六年级语文上册第八单元知识梳理填空
- (2024)1-4酸钠盐生产建设项目可行性研究报告(一)
- 2023年天津市益中学校高考语文模拟试卷
- 2023年家政服务项目融资计划书
- 零食行业蓝皮书
- 电力电缆模拟习题+参考答案
- 养老院老人生活设施维修人员管理制度
- 养老院老人访客管理制度
- 2024年旅游产品销售与推广合同3篇
- 抽水蓄能电站下水库工程土石方填筑工程施工方案
- 智慧物业管理平台建设方案
- SAP-ECCS财务合并解决方案
- 充电桩销售人员培训教程
- 训练及产说改鑫瑞发布会流程
- 产业园EPC总承包工程项目施工组织设计
- 高中生物 人教版 选修二《生态系统及其稳定性》 《生态系统及其稳定性》单元教学设计
- 跨文化交际之中英禁忌语比较
- MS2721A面板介绍课件
- 学校安全教育珍爱生命-拒绝打架斗殴课件
- GB/T 3750-2008卡套式铰接管接头
评论
0/150
提交评论