版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十章、人才测评的信度与效度人才测评的核心价值在于预测的有效性预测好预测不好实际好实际不好 在进行测量时,误差是难免的,这就使得真实值和测量值之间是不可能完全一致。我们可以这样来表示真实值和测量值之间的关系。 X=T+B+E T表示真实值,B表示偏差即系统误差,E表示测量误差即随机误差。 一、信度 测试信度(test reliability)也叫测试的可靠性,指测验结果的一致性、稳定性及可靠性,一般多以内部一致性来加以表示该测验信度的高低。 信度系数愈高即表示该测验的结果愈一致、稳定与可靠。 系统误差对信度没什么影响,因为系统误差总是以相同的方式影响测量值的,因此不会造成不一致性。反之,随机误
2、差可能导致不致性,从而降低信度。 信度可以定义为随机误差R影响测量值的程度。如果R=0,就认为测量是完全可信的,信度最高。 信度评估的方法 (一)重测信度重测信度,又称为稳定性系数,它的计量方法是采用重测法:用同一测验,在不同时间对同一群体施测两次,这两次测量分数的相关系数即为重测系数。 重测信度所考察的误差来源是时间的变化所带来的随机影响。在评估重测信度时,必须注意重测间隔的时间。对于人格测验,重测间隔在两周到6个月之间比较合适。 在进行重测信度的评估时,还应注意以下两个重要问题:重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化。不同的行为受随机误差影响不同。 (二)复本信
3、度复本信度,是以两个测验复本来测量同一群体,然后求得应试者在这两个测验上得分的相关系数。复本信度的高低反映了这两个测验复本在内容上的等值性程度。两个等值的测验互为复本。 计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。复本信度也考虑两个复本实施的时间间隔。 复本信度的主要优点在于:能够避免重测信度的一些问题,如记忆效果、练习效应等;适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响;减少了辅导或作弊的可能性。 复本信度的局限性在于:如果测量的行为易受练习的影响,则复本信度只能减少而不能消除这种影响;有些测验的性质会由于重复而发生改变;有些测验很难找到合适的复本。 (
4、三)内部一致性信度内部一致性信度,主要反映的是测验内部题目之间的关系,考察测验的各个题目是否测量了相同的内容或特质。内部一致性信度又分为分半信度和同质性信度。 分半信度系数是通过将测验分成两半,计算这两半测验之间的相关性而获得的信度系数。测验愈长,信度系数愈高。 同质性信度是指测验内部的各题目在多大程度上考察了同一内容。同质性信度低时,即使各个测试题看起来似乎是测量同一特质,但测验实际上是异质的,即测验测量了不止一种特质。同质性分析与项目分析中的内部一致性分析相类似。 (四)评分者信度评分者信度,是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷,由两个独立的评
5、分者打分,再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。 提高测验信度的方法 影响测验信度的误差归纳起来主要有 :(1) 抽样误差 : 简单说 , 这是在抽样过程中由于被试间的差异所造成的误差。被试间的差异可以用全距和方差大小来表示。全距是指某一心理量最大值与最小值之差。全距大说明被试间差异大 , 全距小说明被试间差异小。被试间在某一心理量上参差不齐 , 差别悬殊 , 则该心理量的方差大 ; 反之 , 方差小。对于方差小的样本 , 被试间在某一心理特征上相差较小 , 则前后两次测验结果的一致性较低 , 即降低了信度。 因为被试之间的差
6、别越小其同质性越高 , 被试的分数只要发生小的变化 , 其名次就可能改变 , 从而降低信度。(2) 随机误差 : 由于各种偶然因素的影响而产生的误差 , 表现为用同一方法多次测量同一对象时结果上不一致。随机误差是由许多因素造成的 , 如量标的质量 , 测量的程序 , 被试的身心状态 , 测量的环境等。 根据影响测验信度的因素 , 可从以下几方面来提高测验的信度 : 一是从测验本身考虑 , 如测验的长度、难度、区分度、速度、程序、环境条件与计分方法等 ; 一是从被试自身考虑 , 如被试在被测心理特征上的差异大小 , 参加测验的动机水平 , 对测验的态度和积极性等。在此主要介绍如下几种提高测验信度
7、的方法 :( 1 )适当延长测验的长度 : 测验的长度主要指量表所包含的题目多少。对一个测验来说 , 测验的题目越少 , 得分越容易受偶然因素的影响 , 故测验的信度越低。反之如果测验题目较多 , 即测验长度延长 , 扩大了被试得分范围 , 可在一定程度上排除偶然因素的影响 , 从而提高测验信度。但是测验信度的增加并不是等比例提高信度系数。当信度系数较小时 , 延长测验长度信度系数增加较大 ; 当信度系数已经较大时 , 延长测验长度对信度系数的影响就较小了。而且 , 在延长测验长度时 , 还需考虑其他因素的影响 , 如被试在回答问题时是否疲倦或产生厌烦情绪 , 是否节省时间、物力和财力 , 测
8、题是否附合测验目的等。 ( 2 )测验的难度要适中 : 难度即测验的难易程度 , 当测验难度太大时 , 被试得分普遍太低 , 呈负偏态分布 ; 当测验难度太小时 , 被试得分普遍较高 , 呈正偏态分布。太难太易的测验都使被试得分差异减小 , 使实得分数方差减小 , 从而降低测验信度。 ( 3 )测验的内容尽量同质 : 性质相同的测验内容 , 对被试也要求相同的能力、知识和技能 ; 而内容不同质的测验 , 则要求被试不同的能力、 知识和技能。因而为了提高测验信度 , 测验内容应尽量同质。( 4 )测验的时间要充分 : 对某一测验而言 , 应保证绝大多数被试在规定时间内完成测验 ; 否则 , 如果
9、被试不能从容回答所有问题 , 就不能反映被试的真实水平。 ( 5 )测验的程序要统一 : 包括测验的题目统一 , 指导语、回答问题的方式、分收试卷的方法、测验时间等都要统一。( 6 )评分要客观 : 评分是否客观对测验信度有直接的影响。对于客观性题目 , 评分标准明确 , 评分容易做到客观 ; 但对于主观性题目 , 受评分者影响较大 , 不易做到客观。为了尽可能客观评分 , 应制定明确而易掌握的评分标准 , 尽量做到一卷多评 , 或一人只评一题等。二、效度 效度(Validity)即有效性,它是指测量工具或手段能够准确测出所需测量的事物的程度。效度是指所测量到的结果反映所想要考察内容的程度,测
10、量结果与要考察的内容越吻合,则效度越高;反之,则效度越低。效度分为三种类型:内容效度、准则效度和结构效度。 从内容效度到准则效度再到构念效度可视为一种累进即构念效度需要比准则效度更多的信息准则效度需要比内容效度更多的信息。 效度比信度有更高的要求信度是效度的必要条件没有信度的测量工具就谈不上具有效度但信度高的测量工具未必具有高的效度。 测试维度测试维度 1)表面效度(face validity)。指测试应达到的卷面标准,即一套测试题从表面看来是否是合适的。例如,若一次阅读理解力的测试包括许多受试者没有学过的方言词汇,则可认为这次测试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素。
11、2)内容效度(content validity)。指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求,即测试的代表性和覆盖面的程度。例如,如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能,如只考单一音素的发音,而不考查重读、语调或音素在词语中的发音,那么,该测试的内容效度就很低。 3)编制效度(construct validity)。指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。例如,以结构主义语言理论为基础,认为系统的语言习惯是通过句型而获得的,那么,强调词汇和语法环境的测试题目就失去了编制效度。 4)经验效度(empirical va
12、lidity)。经验效度是一种衡量测试有效性的量度,通过把一次测试与一个或多个标准尺度相对照而得出。经验效度可分为两种:一是共时效度(concurrent validity),即将一次测试的结果同另一次时间相近的有效测试的结果相比较,或同教师的鉴定相比较而得出的系数;二是预测效度(predictive validity),即将一次测试的结果同后来的语言能力相比较,或是同教师后来对学生的鉴定相比较而得出的系数。 提高测验效度的方法 ( 1)控制系统误差 : 系统误差是影响测验效度的主要因素。它主要包括仪器不准 , 题目和指导语有暗示性 , 答案按排不当 ( 被试可以猜测 ) 等 , 控制这些因素
13、可以降低系统误差 , 提高效度。 (2) 精心编制测题和测验量表 : 首先测题内容要适合测验目的 , 如知识性测题就不能全面反映被试的智力水平 , 它主要测量其知识水平。其次 , 测题要清楚明了 , 用语要让被试理解 , 排列由易到难。第三 , 测题的难度和区分度要合适。 (3) 严格按照测验程序进行测量 , 防止测量误差 : 要严格按照测验手册进行测量 , 不能作过多的解释 , 按标准评分 , 两次测验间隔要适当。 (4) 样本容量要适当 : 当样本容量增大时 , 样本对总体的代表性提高 , 样本大 , 被试的内部差异增大 , 扩大了真分数的方差 , 使效度提高。样本容量一般不应低于 30
14、。另外 , 抽样方法也很重要 , 一般用随机抽样 , 当群体很大时 , 可分层抽样 , 样本容量扩大时 , 其代表性才随之增大。 (5) 正确处理好信度与效度的关系 : 信度是效度的必要条件 , 但信度高的测验 , 效度不一定高 ; 而效度高的测验 , 信度却比较高。但是 , 既要有高效度 , 又要有高信度是不容易做到的。“最大可靠度(信度)要求测验项目之间有高度的组间相关;最大预测有效度却要求低度的组间相关。最大可靠度(信度)要求项目等同的难度;最大预测有效度却要求项目的难度有所区别。中等程度的组间相关( 0.10 0.60), 通常可产生良好的效度 (0.30 0.80), 并且产生满意的
15、信度 (0.90) 。” (6) 适当增加测验的长度 : 增加测验的长度可提高测验的信度 , 也可以提高效度 , 但增加测验的长度对信度的影响大于对效度的影响。三、测评手段有效度切忌以点代面,比如:韩复榘的选任方法过分依赖一个情景也会降低面试效度比如:某商场老总招聘员工的方法员员 工工 未未 来来 工工 作作 绩绩 效效 预预 测测 方方 法法 的的 有有 效效 性性 系系 数数招 聘 新 雇 员 并 进 行 培 训 时 的 预 测 方 法根 据 当 前 绩 效 预 测 未 来 绩 效 时 的 方 法智 力 测 验 0.53工 作 试 用 0.44个 人 简 历 0.37背 景 调 查 0.26实 际 工 作 0.18面 试 0.14培 训 和 实 际 工 作 成 绩 0.13学 术 成 果 0.11教 育 背 景 0.10兴 趣 0.10年 龄 0.01工 作 实 例 测 试 0.54智 力 测 验 0.53同 事 评 价 0.49以 往 工
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年合肥驾驶员货运从业资格证考试题
- 2024年六盘水客运从业资格证到期换证考试
- 2024年南京客运运输从业资格证模拟考试题
- 超声医学之美V31209ByUpdated
- 解析《追风筝的人》的读书心得(31篇)
- 旅游政策与法规题库第十三章-旅游资源
- 北京市丰台区2016-2020年五年高考一模英语试题汇编-七选五专题
- 下载课件怎么下载
- 各个班组三级安全培训试题附参考答案(完整版)
- 宜兴城市形象宣传片解说词
- 高中英语-Explore Peru教学设计学情分析教材分析课后反思
- 2023年威海市商业银行普惠客户经理招聘考试题库
- 信用卡知识点讲解
- 前列腺穿刺活检课件
- 一井区泥炭开采初步设计安全专篇(泥炭)
- 英语教学理论系列:中小学英语教学研究方法
- 室间质评不合格原因分析及纠正措施表
- 创新创业基础知到章节答案智慧树2023年延安职业技术学院
- YDT 5132-2021 移动通信钢塔桅结构工程验收规范
- 电池片外观检验标准
- 《基本天气图分析》
评论
0/150
提交评论