




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、测量手段的信度和效度评价测量手段的信度和效度评价 在科学研究中采用的主要方法有调查研究(survey)和实验研究(experimental study)。 尤其是调查研究被广泛用于公共卫生、临床医学、社会学、教育学等领域。 调查研究的重要内容之一就是制定调查表或问卷。 问卷以及调查质量反映在调查结果的真实性和可靠性两个方面,应采用一定的统计指标和方法加以定量考评。 本章主要介绍信度信度(reliability)和效度效度(validity)分析方法,特别适合于各项目均为线性方式或等级方式的问卷或量表,如心理测量、教育测量、态度测量、生命质量测量等的标准化测定量表。第一节 效度和信度的概念一、
2、效度 效度效度即测量工具(如量表)的有效性和正确性, 亦即准确度准确度(accuracy)。意指量表测定了它打算(所要)测定的特质或功能(而不是其它特质或功能)以及测定的程度。 它包含两层意思:(1) 测量了什么; (2) 测的程度。 比如量表是否测量了生命质量,躯体功能分量表是否测量了躯体功能,其程度怎样。 效度效度具有特殊性和相对性,即每个测量工具只对某特殊目的有效,仅能对其特定项目作正确的度量。 或者说测验的效度总是针对着要解决的问题来说的,亦即针对着打算作出的应用来建立的。 收集大量资料和证据来检验测验效度的过程称为效度验证效度验证(validation)。 严格地说,任何测验在正式实
3、施以前都应做出效度验证。 由于“真实值”往往未知,所以对效度的评价常常不可能有绝对肯定的答案。尽管我们不可能证明效度,但是可以用指标来评价效度。 一般来说,有四种类型的效度:标准效标准效度度、内容效度内容效度、结构效度结构效度和区分效度区分效度。内容效度是一种基于概念的评价指标,其它三种是基于经验的评价指标。(一) 标准效度 标准效度标准效度 (criteria validity) 又称为效标效度,以相对准确的测量手段或指标的测量结果作为“金标准”,考察待评测量手段或指标的测量结果是否与其一致。 例如,评价新的影像学诊断手段的效度,常以病理学检查结果作为“金标准”,考察两种诊断手段诊断结果的一
4、致性。 (二) 内容效度 内容效度内容效度(content validity)评价测量指标的涵义是否能准确反映真实情况。 内容效度是一个定性评价效度的指标,它关心测量手段是否能够测量我们所需要测量的抽象概念、领域和方面。 对比事先对概念的定义和最终的测量工具,可以得到关于内容效度的评价。 可以采用专家评价的方法了解内容效度的大小。 例如,对比生存质量的定义和用于测量的量表,可以得出该量表内容效度的好坏。 缺乏内容效度的测量会歪曲对所关心概念的理解,就像利用不具有代表性的样本对总体进行推断会得到错误结论一样。(三) 结构效度 结构效度结构效度(construct validity)又称构想效度,
5、评价多个测量结果是否具有稳定的结构,是在评价量表效度时最常用的指标。 由于在心理学及社会学领域中一些概念的定义不是十分明确,内容效度在实际应用中存在困难,而标准效度往往因为缺乏比较的标准而难于应用。在这种情况下,可以使用结构效度。(四) 区分效度 如果测量的结果能区分已知的不同特征的人群,就认为该测量具有区分效度区分效度(discriminant validity)。 例如,测量结果能够区分“健康人”和“病人”,分别调查两类人群,计算量表各领域得分和总得分,再进行t检验或方差分析,比较这两类人群得分的差别是否有统计学意义,从而判断量表是否具有区分效度。结果有统计学意义提示量表有区分不同属性人群
6、的能力,具有区分效度。二、信度 信度信度(reliability)又称可靠性、重复性、稳定性或精密度,用以反映相同条件下重复测定结果的一致程度。 信度主要受随机因素的影响,测量结果发生的偏差往往不具有方向性。 (一) 重复测量法 重复测量法重复测量法(test-retest method)要求对同一对象测定两次,在实施中有一定的困难。 另外,被调查者的情况可能随时间发生变化,那么两次测量的差异就不单纯由随机误差造成;受前一次测定的影响,被调查者在接受第二次调查时会记忆前一次调查时填写的答案,因而第二次测定结果不一定能反映被调查者的真实情况。 (二) 分半信度法 分半信度法分半信度法(split
7、-halves method)在不可能进行重复调查的情况下,常用的方法是将调查的条目分成两半,计算这两半得分的相关系数r,又称分半信度系数,以此为标准来衡量整个量表的信度。 整个量表的信度系数 R 可以利用如下的斯皮尔曼布朗公式求得: 采用分半信度法测量信度的优点在于: 分半信度法只在一个时间点上进行;不受记忆效应的影响; 在重复测量法中容易出现的误差项之间的相关在分半信度法中不易出现; 从实用的角度看,分半信度法比较经济和简便。 (三) Cronbachs 系数法 分半信度系数分半信度系数是建立在奇、偶两半条目分数的方差相等这一假定上,但实际数据往往并不一定满足这一假定。如果两半的方差不相等
8、,信度往往被低估。 克朗巴赫(Cronbach L.J)于1951年提出用克朗巴赫系数(Cronbachs coefficient)来测量信度:212(1)1kiiTSkkS 分半信度法和系数实际上都是反映量表内部的一致性(internal consistency)。 前者指的是两半量表所测分数间的一致性,后者指的是量表中条目与条目间的一致性,这是一种同质性的测量。 三、反应度 反应度反应度(responsibility to change)又称敏感度, 指内外环境变化时,若被测对象有所变化,则测量结果应该敏感地显示出反应。 通常总是利用现有知识估计不同条件下被测对象应当具有的变化,然后考察相
9、应的测量结果,看是否确有差异。 例如,通过治疗,病人的疼痛发生了缓解,疼痛测量量表的评分应该发生相应的变化。 通常从以下两方面来考察测量手段的反应度:1. 配对设计的t检验 2. 效应尺度统计量(effect size statistics)治疗前得分的标准差治疗前得分治疗后得分效应尺度第二节 效度的评价方法一、定量观察的标准效度二、定性观察的标准效度表20.1 二分类观察结果的四格表三、半定量观察的标准效度 例20.1 如前所述,某医生对200张某病X线片进行读片,诊断结果分为3类:正常、I级、II级。以另一位专家对该200张片子的诊断结果(同样分为三级)为标准,结果见表20.2。请评价该医
10、生诊断结果的有效性? 表20.2 200张某病 X线片的诊断结果830. 02003256780NAPii355. 0200)4542()7175()8483(22NnnPiie00.8300.3550.736110.355eePPKP第三节 信度的评价方法 例20.2 在某大型的流行病学现场调查中,需要测量调查对象腹部皮肤皱折的厚度以评价其是否肥胖。在正式调查前对调查员进行培训,以保证调查结果真实可信。在培训结束后,安排10名调查员重复测定5名成年女性的腹部皮肤皱折厚度,结果见表20.3。那么测量结果的信度如何呢?表20.3 10名调查员重复测量腹部皮肤皱折的厚度(mm)的结果 在本资料中存
11、在3项误差来源,即调查员间的差异、调查对象间的差异以及随机误差。表20.4 10名调查员重复测量腹部皮肤皱折的厚度(mm)的方差分析表误差处理区组误差区组MSkbMSkbMSMSMSbICC) 1)(1() 1()(5(33.830.197)0.76533.8395.147360.197ICC 在相同条件下,对同一观察对象重复测定结果的均值可靠性高于一次测量的结果。 因此,当信度未达到规定的要求时 ( 如要求ICC0.90),如果每个观察对象重复测定的费用不是很高,在正式调查时可对同一观察对象进行重复测定,用重复测定结果的均值作为该观察对象的测量结果。 重复测定的次数(m)用公式(20.4)估
12、计:*(1)(1)ICCICCmICCICC 例20.3 在例20.2中,信度研究结果ICC0.76,如果欲通过增加重复测定次数将信度提高至0.90,则用式(20.4)计算:0.90(10.76)30.76(10.90)m第四节 量表的效度和信度评价方法 例20.4 以WHO对于生存质量的定义为基础,按量表开发的程序和方法,研制肺结核病人生存质量测定量表,并对量表的效度、信度进行初步考核。(一) 核心讨论组法 核心讨论组是一种定性的访谈法。使用半结构化(semi-structured)的访谈形式,在主持人的引导下,一组人群针对某话题互相交流,深入讨论,最终达成共识。核心讨论组的成员主要包括门诊
13、和住院肺结核患者、肺结核患者的家属以及医护专业人员。以小组座谈为主,问卷调查为补充形式。每次讨论持续约1.52小时。 通过对核心讨论组收集到的资料进行分析,发现肺结核病人生存质量主要包含8个方面。 这8个方面组成4个领域,包括:生理、心理、社会关系及健康教育。 生理领域:包括一般的生理情况和疾病(肺结核)的生理症状两个方面。一般的生理情况是指睡眠休息、食欲胃口、营养、体重、性生活、精力、是否乏力和疲劳等。疾病生理指肺结核病的一些生理症状或不适,包括:咳嗽咳痰、胸闷胸痛、发热盗汗、呼吸不顺畅等。 心理领域:包括由于结核病造成的消极心理、治疗相关心理及被歧视感三个方面。由患病态度、自卑与被歧视感、
14、治疗和疗效对心理的影响等内容组成,如担心复发、病程长、药物治疗影响日常生活、怕传染给他人、影响就业、被疏远或被歧视、情绪低落、工作压力等。 社会关系领域:包括治疗经济(治疗疾病的经济影响)、社会支持与环境两个方面。治疗经济主要是指治疗肺结核导致经济状况差、加重负担等经济方面的影响。社会支持与环境指患病对人际交往、家庭支持、情感关怀、娱乐活动、居住环境等方面的影响。 健康教育领域:由对病情的了解情况、获取结核病知识途径两个因素组成。(二) 编制初步量表 根据不同方面和领域的定义,撰写条目,形成含69个条目的条目池。通过咨询相关的医学专家、量表研制方面的专家及肺结核病人,筛选出41个条目组成初步量表。(三) 预实验 将编制好的量表,采用便利抽样方法在医院对患者进行调查。 预调查的目的是筛选量表的条目和初步考核其计量心理学特征。(四) 量表效度、信度的考核 利用验证性因子分析,了解量表的结构是否与
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 专项5 标点(原卷版)
- 河北省石家庄市新乐一中2024-2025学年高一下学期第一次月考生物试题(原卷版+解析版)
- 商品陈列大全
- 2025年初中鲁科版(五四学制)八年级上册第四章第二节《探究凸透镜成像规律》说课稿
- 【国金证券】人形机器人行业研究:人形机器人从理想走进现实
- 英语护士应聘简历
- 2025年广东省初中学业水平考试模拟英语试题(原卷版+解析版)
- 《会计信息系统应用》课件 学习情境2 系统管理和基础设置
- 二零二五年度北京市电子产品寄存与智能监控服务协议
- 二零二五年度办公空间互换及增值服务合作协议
- 企业人力资源管理师知识考试题及答案
- 2025年上半年宜宾江安县人社局招考易考易错模拟试题(共500题)试卷后附参考答案
- 2025年山东省高考物理复习方法及备考策略指导(深度课件)
- 2025年安徽工业职业技术学院单招职业技能测试题库完整版
- 《C#程序设计基础》课件
- 2024年第五届美丽中国全国国家版图知识竞赛题库及答案(中小学组)
- 2025年江苏航空职业技术学院高职单招职业适应性测试近5年常考版参考题库含答案解析
- 2025年上海市各区初三语文一模试题汇编之综合运用
- 2023年湖北省技能高考计算机类备考题库(万维题库)-中部分(800题)
- S145水表井标准图集
- 2025年云南曲靖市事业单位定向招聘驻曲部队未就业随军家属10人历年管理单位笔试遴选500模拟题附带答案详解
评论
0/150
提交评论