




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十七章 信度与效度分析 第十七章 信度与效度分析 在科学研究中采用的主要方法有调查研究(survey)和实验研究(experimental study),尤其是调查研究被广泛用于公共卫生、临床医学、社会学、教育学等领域。调查研究的重要内容之一就是制定调查表或问卷。 在科学研究中采用的主要方法有调查研究(survey)和实验研 问卷以及调查质量反映在调查结果的真实性和可靠性两个方面,应采用一定的统计指标和方法加以定量考评。本章主要介绍信度(reliability)和效度(validity)分析方法,特别适合于各项目均为线性方式或等级方式的问卷或量表,如心理测量、教育测量、态度测量、生命质量测量
2、等的标准化测定量表。 问卷以及调查质量反映在调查结果的真实性和可靠第一节 信度及其评价方法第一节 信度及其评价方法一、信度的概念一、信度的概念 信度,指量表测量某种特质(属性)或概念的结果的可靠性(dependability)、稳定性(stability)和一致性(consistency)。关于信度尚无公认的定义,一般认为信度是指测量结果反映出系统中偶然误差引起的变异程度,也就是多次重复测量中结果的重现性, 换言之,随机误差的变异。 信度,指量表测量某种特质(属性)或概念的结信度的大小用信度系数(reliability coefficient)来衡量。信度的大小用信度系数(reliabilit
3、y coeffic二、信度的数学模型二、信度的数学模型 在经典测量理论中,Spearman 分数模型起着重要的作用。该模型指出任何测量所得的分数(X)都是由反映对象稳定特质的真分数(T)和由随机因素造成的误差分数(e)构成,即: (17.1) 并假定:(1) e 满足标准正态分布; (2) T,e相互独立; (3) T,e 以简单的线性可加性结合。 在经典测量理论中,Spearman 分数模型起着重 这样,实测分数的方差可分解为真实分数的方差与误差分数的方差之和,即: (17.2) 于是,信度可定义为真实方差与实测方差的比值,也就是总方差中真实方差所占的比例: (17.3) 这样,实测分数的方
4、差可分解为真实分数的方差与 显然,r越大,说明随机误差的作用越小,测定结果越可靠。 由于真实分数的方差无法得到,因此上式可转化为: (17.4) 显然,r越大,说明随机误差的作用越小,测定结三、信度的评价方法三、信度的评价方法 (一) 重测信度 重测信度(test-retest reliability)是在一定时间间隔(所测定的特质或概念尚未发生改变)中运用同一量表作重复测量所得的信度系数,也称为稳定系数,因为它说明了使用同一测量工具重复测量时个体分数的稳定性。 (一) 重测信度 重测信度(test- 重测信度一般用两次测定间的相关系数来衡量。根据所测定的特质的数据表现方式可采用积矩相关系数、
5、等级相关系数、列联系数等来表示(参见相关分析有关章节)。对于标准化的测定量表,所测定的特质均以量化分的方式给出,而且多半服从正态分布,因此可直接计算积矩相关系数。 重测信度一般用两次测定间的相关系数来衡量。根值得注意的是,重测信度考评中,不同种类的受试者重测间隔期限不尽相同,原则上应在其特质无变化的期间内进行。 值得注意的是,重测信度考评中,不同种类的受试者重测间隔期限不 (二) 复本信度 复本信度(equivalent-form reliability )也称替代信度(alternative-form reliability)或平行信度(parallel-form reliability),
6、是以两份等效量表分别做出测量来评价信度系数。即使用相同难度、内容和形式而具体条目不同的两份量表(互为复本)来评价信度。 (二) 复本信度 复本信度(equivalent- 两量表测定结果的相关系数即为复本信度系数。该法弥补了重测信度采用完全相同的测量所带来的一些弊端。但对于量表的设计要求较高,实际中很难得到两份等价的量表,使其应用大受限制。 两量表测定结果的相关系数即为复本信度系数。该(三) 分半信度 前述的重测信度或复本信度,要对每个个体进行两次测定,这较麻烦,而且要求受测者参加两次内容相似的测量也比较困难。为此,人们更愿意采用一次性测定的评价方法,分半信度(split-half relia
7、bility)正是如此。(三) 分半信度 前述的重测信度或复本信度,要 分半信度是在一次测量后将条目分为相等的两部分,分别计算两部分的得分并以其相关系数作为信度指标。这实际上考察的是指标的一致性,但因测量同一特征的指标间应关系密切,故具有一致性则说明结果可信。 分半信度是在一次测量后将条目分为相等的两部分 显然,k个条目的量表分半方法可有k!/(k/2)!(k/2)! 种,如10个条目的量表有252种分法。那么,采用哪种分法呢? 实际上各种分法得到的结果应很接近,因此可随机地抽取一种分法。通常采用奇数条目为一组,偶数条目为一组的分法。 显然,k个条目的量表分半方法可有k!/(k此外,两部分直接
8、算出的相关系数( )只表明一半条目的信度,需用Spearman-Brown公式来确定整个量表的信度(r): (17.5)此外,两部分直接算出的相关系数( )只表明一半条目的信度 值得注意的是,评价分半信度时,需要奇偶项的条目在难度、内容、得分变异等方面相似。否则可用下面的公式来计算: (17.6) 式中, 分别为第一,二部分条目得分总和的方差, 为全部条目得分之和的方差。实际上,该式是下面的 系数公式在分半法中的应用(取K=2)。 式中, 分别为第一,二部分条目得 (四) 内部一致性信度 内部一致性信度(internal consistent reliability)是目前比较流行的信度评价方
9、法,是分半信度的推广。它无需将条目分为两个部分,而是从量表的构思层次入手,以内部结构的一致性程度对信度作出估计。 (四) 内部一致性信度 内部一致性信度(inte内部一致性信度主要有Kuder-Richardson公式和克朗巴赫系数(Cronbachs alpha) 。其中,Kuder-Richardson公式是克朗巴赫系数的的特殊情况,仅适用于两分类条目。克朗巴赫系数 为:内部一致性信度主要有Kuder-Richardson公式和克 (17.7) 式中,K为整个量表或子量表的条目数, 为第i个条目的方差, 为整个量表或子量表得分的方差。 (17.7) 系数根据一次测定即可计算,使用简便,利用
10、的信息也充分,因此,在实际工作中广为采用。 系数根据一次测定即可计算,使用简便, 因此, 系数最好用于量表的低层结构(如领域、方面等子量表)的信度考察,通过每个子量表的考察结果再来综合反映整个量表的情况,而不宜仅计算一个总量表的 系数。原因是低层结构中的条目都是反映同一方面的特征,相关性较高,而总量表要考虑一定的“覆盖面”,因而具有一定的“异质性”。如在生命质量测定中可以分别计算心理功能、躯体功能等领域的 系数,在心理测量中可以分别计算焦虑、抑郁、孤独等方面的 系数。 因此, 系数最好用于量表的低层结构(如领域、方面等子量表(五) 评价者信度 如果量表是他评而不是自评,则还要计算评价者间的一致
11、性,此即评价者信度(inter-rater reliability),也称评分者信度(inter-scorer reliability)。一致性的考察有多种方法,如常用的kappa系数(参见有关章节)、Kendall和谐系数W等。其中,kappa系数用于定性资料,和谐系数W用于等级资料。 (五) 评价者信度 如果量表是他评而不是自评,则还要计信度与效度分析(qiang) 在标准化测量中,不论条目形式如何,一般均转化为计量的得分值来处理,因此可用方差分析的办法来计算评价者信度,也即用组内相关系数ICC (intra-class correlation coefficient)来评价。 在标准化测
12、量中,不论条目形式如何,一般均转化为计量的信度与效度分析(qiang)此外,前述的 系数也可用于考察评价者信度,不过式(17.7)中符号的意义应重新确定。其中的K不再是量表的条目数,而是评价者人数, 为第i个评价者的评分方差, 为被测者在所有评价者上所得总分的方差。 此外,前述的 系数也可用于考察评价者信度,不过式(17.四、影响信度的因素四、影响信度的因素 前已述及,信度分析在理论基础上来源于经典测验理论,特定于测定样本和条目特征。因此,样本的特点(如同质性)和条目的特点(如难度等)都影响着测定的信度。 此外,信度还受以下因素影响: 前已述及,信度分析在理论基础上来源于经典测验理论,特 (一
13、) 测定的具体方式和程序 比如采用测试者与被测者面对面的一一测定方式还是采用发放以后一定时间再收回的方式、指导语是否清楚易懂、测定的场地及环境等都影响着测量的信度。 (一) 测定的具体方式和程序 (二) 测定条目数的多少 凭经验,只有一个条目的测验不如有10个条目的测验可靠。研究表明,在一定限度内,测验的条目越多信度越高。前述的分半信度需要进行校正就是因为由一半条目构成的量表条目数减少,低估了信度。 (二) 测定条目数的多少 (三) 测定者与被测者 测定者的身份和态度不同,常能影响测定的信度,如在我们进行的生命质量评定中,测定者以研究人员的身份和以医生的身份出现是不一样的,后者给被测者的感觉是
14、为了了解其健康情况,是为他们着想。受测者的特征(如文化程度、对测定的认识等)也都影响着测定的信度。 (三) 测定者与被测者 (四) 分数分布范围的影响 信度是用相关系数来进行评价,而相关系数受变量的取值范围(全距)影响。测验得分的分布范围越大,信度越高。因此,在测验中往往要选取不同层次的被试者,一方面增加样本的代表性,另一方面也增加测验的信度。 (四) 分数分布范围的影响第二节 效度及其评价方法第二节 效度及其评价方法一、效度的概念一、效度的概念 效度即测量工具(如量表)的有效性和正确性, 亦即准确度(accuracy)。意指量表测定了它打算(所要)测定的特质或功能(而不是其它特质或功能)以及
15、测定的程度。它包含两层意思:(1) 测量了什么; (2) 测的程度。比如量表是否测量了生命质量,躯体功能分量表是否测量了躯体功能,其程度怎样。 效度即测量工具(如量表)的有效性和正确性, 效度具有特殊性和相对性,即每个测量工具只对某特殊目的有效,仅能对其特定项目作正确的度量,或者说测验的效度总是针对着要解决的问题来说的,亦即针对着打算作出的应用来建立的。 效度具有特殊性和相对性,即每个测量工具只对某特殊目的 收集大量资料和证据来检验测验效度的过程称为效度验证(validation)。严格地说,任何测验在正式实施以前都应做出效度验证。 收集大量资料和证据来检验测验效度的过程称为效二、效度的数学模
16、型二、效度的数学模型 式(17.2)中的真值方差可进一步分解为共同性质所造成的方差(共性方差, )和个别性质所造成的方差(个性方差, )。前者反映所测量的特质引起的变异,后者反映其它特质引起的变异。即: (17.11) 式(17.2)中的真值方差可进一步分解为共于是,效度(V)可定义为与测量特质有关的真分数方差与总方差的比值: (17.12)于是,效度(V)可定义为与测量特质有关的真分数方差与总方差的 与测量特质有关的变异往往要通过与外部标准的比较才能判断,因此,效度是指某测量与外部标准之间关系的程度。 与测量特质有关的变异往往要通过与外部标准的比三、效度的评价方法三、效度的评价方法 效度的评
17、价一般较信度复杂,按评价目的和用途不同可分为以下几种类型。 效度的评价一般较信度复杂,按评价目的和用途 (一) 内容效度 内容效度(content validity)也称内在效度(intrinsic validity)或循环效度(circular validity), 有时也称贴切性(relevance)或代表性 (representativeness),是指量表在多大程度上表示了所测特质的范畴。换言之,量表是否包含足够的条目来反映所测内容。 (一) 内容效度 内容效度的评价主要通过经验判断进行,通常要考虑三方面的问题:第一,项目所测量的是否真属于应测量的领域;第二,测验所包含的的项目是否覆盖
18、了应测领域的各个方面;第三,测验项目的构成比例是否恰当。如量表的条目包含了所测概念的各具体方面而且有一定的比例,则可认为有好的内容效度。 内容效度的评价主要通过经验判断进行,通常要 也可请一些熟悉该测量内容的有关人员来评判,必要时用内容效度比(content validity ratio, CVR)这一指标来衡量: (17.13) 也可请一些熟悉该测量内容的有关人员来评判,必要时用其中,n为评判者中认为条目很好地反映了测定内容的人数, N为评判者总数。其中,n为评判者中认为条目很好地反映了测定内容的人数, N为 (二) 结构效度 结构效度(construct validity),也称构思效度或
19、特征效度(trait validity),说明量表的构造是否符合有关的理论构想和框架,也就是检验量表是否真正测量了所提出的理论构思。因而结构效度是最重要的效度指标之一。 (二) 结构效度 结构效度的评价较复杂,可用各条目与各领域(或小方面)的相关分析和因子分析方法来反映。其中,因子分析除可说明结构的相合性外,尚可用共性变异(共性方差) 与总变异之比作为结构效度的衡量指标。此外,结构效度的分析最好用证实性因子分析,它较探索性因子分析更能说明问题。 结构效度的评价较复杂,可用各条目与各领域( (三) 准则关联效度 准则关联效度(criterion- related validity),也称效标效度
20、(criterion validity)、经验效度(empirical validity)或统计效度 (statistical validity)。 是说明量表得分与某种外部准则(效标)间的关联程度,用测量得分与效度准则之间的相关系数表示。 (三) 准则关联效度 外部准则指不通过该量表,而是通过一些客观指标或某些总体评价性项目来间接反映该测定特质。 根据效标的不同,可分为两种: 外部准则指不通过该量表,而是通过一些客观指标 1. 同时效度(concurrent validity) 量表得分与当前效标间的相关。比如用脱毒的快慢来反映戒毒者生命质量高低,用运动速度反映躯体功能的高低等。 1. 同时
21、效度(concurrent validity) 2. 预测效度(predictive validity) 量表得分与将来的效标(某种结果)间的相关。比如量表得分与将来的疾病复发、恶化、死亡等结果的联系。 2. 预测效度(predictive validity) 在心理、教育和生命质量测量中大部分仅考察同时效度。此外,如果缺乏金标准,可用一种较流行的量表得分为效标。如生命质量测定中可用著名的测定量表SF-36或FLIC的测定结果为效标,也可让受测者自己对其总的健康状况作一个评估(比如按百分制打分),以此权且作为效标,这常称为自我报告的生命质量或总体健康状况。 在心理、教育和生命质量测量中大部分仅
22、考察同时 (四) 判别效度和聚合效度 判别效度(discriminant validity),也称辨别效度,是指运用相同测量方法测定不同特质或构思时,辨别不同特质的程度,也就是说不同特质和内涵的测量结果之间不应有太大的相关性。 (四) 判别效度和聚合效度 聚合效度(convergent validity),也称收敛效度,是指运用不同测量方法测定同一特质或构思时所得结果的相似程度,即不同的测量方式应在同一特质的测定中聚合在一起(收敛)。也就是说,对同一特质的两种或多种测定方法间应有较高的相关性。 聚合效度(convergent validi 使用判别效度和聚合效度主要基于以下两个原因: 1. 任
23、何测量分数的变异中都有一部分应归因于特定的方法,而不仅是测量的特质本身。有时候,即便是不同的特质,也可能因用了相同的测定方法而出现高相关。 使用判别效度和聚合效度主要基于以下两个原因: 2. 只有通过相似性和差异性的综合分析,才能准确地描述和解释测定结果。换言之,必须说明测到了什么,没有测到什么。 2. 只有通过相似性和差异性的综合分析,才能准确地描述和解 对判别效度和聚合效度的评定,通常采用Campbell和 Fiske所提出的多特征多方法(multitrait-multimethod, M-M)矩阵法分析。该法要求用多种(至少两种)方法分别测定了多个(至少两个)特质,从而可计算同一特质的任
24、两种测定方法得分间的相关系数以及同一方法的任两种不同特质得分间的相关系数,还可计算同特质同方法间的相关以及不同特质不同方法间的相关。 将这些结果按矩阵式的表格排出即得到M-M分析。 对判别效度和聚合效度的评定,通常采用Camp 那么,如何判断判别效度与聚合效度的好坏呢,通常认为具有好的判别效度与聚合效度需达到下面四条标准: 1. M-M矩阵中的效度系数均有统计学意义的显著性。 那么,如何判断判别效度与聚合效度的好坏呢,通常认为 2. M-M矩阵中的效度系数大于同行或列邻近的“异特质异方法”三角中的元素。 3. M-M矩阵中的效度系数大于“异特质同方法”三角中的元素。 4. 所有异特质三角,包括
25、“异特质异方法”和“异特质同方法”三角中的元素模式相同。 2. M-M矩阵中的效度系数大于同行或列邻近的“ 此外,尚有表面效度(face validity)、因子效度(factorial validity)、增量效度(incremental validity)等。 此外,尚有表面效度(face validit 效度的评价是较复杂的,实际应用时可结合各情况进行判断。Spitzer认为如果满足以下五个条件, 即可认为量表是有效的: 效度的评价是较复杂的,实际应用时可结合各情况 (1) 说明有内容效度和结构效度;(2) 在量表的制定阶段应让病人、医务人员、 一般公民提出意见,供修正和提高内容效度;(
26、3) 量表经重复使用证明其可靠性;(4) 如果有金标准存在, 应以金标准为准, 对观察对象在相似的条件下进行观察, 确定结构效度;(5) 如果无金标准, 结构效度由判别效度和收敛效度代替。 (1) 说明有内容效度和结构效度;(2) 在四、影响效度的因素四、影响效度的因素 一般说来,前述影响信度的因素也都能影响效度。对于结构效度还受测定的条目构成的影响,效标效度还受所选用的效标的特征所影响。 一般说来,前述影响信度的因素也都能影响效度。第三节 信度与效度分析的应用第三节 信度与效度分析的应用一、应用中的几个问题一、应用中的几个问题 (一) 应用范围 信度与效度分析被广泛地用于调查表(尤其是标准化
27、测定量表)、实验研究和考试(测验)等的评价。一般说来,凡是通过测量工具得到的结果,无论是通过测定仪器得到的硬数据(如物理测定),还是通过测定量表、考卷等得到的软数据(如心理测定、考试等),均需进行信度与效度分析。 (一) 应用范围 除了用于评价和比较测验的优劣外,还可以用于预测和决策方面,如凭高考成绩预测学生以后是否能顺利完成学业,在人才选拔上采用效度好的能力测验来进行筛选等。 除了用于评价和比较测验的优劣外,还可以用于预 (二) 考评对象 信度与效度评价的对象可以是整个测定量表(对整个量表评价),也可以是各个方面或领域(对领域评价),也可以是具体的条目(对条目评价)。一般说来,如果是标准化测定量表,通常分别进行总量表和各个领域的评价;对于包括各种条目的一般调查问卷,很难进行整个调查表的考评,一般就对某些条目或领域进行考评,并以此间接说明整个调查表的好坏。 (二) 考评对象 (三) 信度与效度的关系 从前面的内容可以看出效度更重要,一个无效或效度很低的测验
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 差旅服务定制化解决方案合作协议
- 车辆抵押反担保借款合同解除后的后续处理
- 建筑行业常年法律顾问专业服务协议
- 土地利用规划保密及实施合同
- 仓储空间转让与仓储管理软件应用合同
- 钓鱼艇转让协议书范本
- 木房合同协议书范本
- 生物质发电项目安装与运营管理合同
- 旅游企业特色旅游办公用品采购及服务协议
- 城市综合体停车场场地租赁及收费管理制度合同
- 2025年中小学暑假安全教育主题家长会 课件
- 颅内血肿护理查房
- 门诊急救室管理制度
- 2025年沈阳水务集团有限公司-企业报告(代理机构版)
- 近视管理白皮书(2025)专家共识-
- 2024年深圳市深汕特别合作区农村工作者招聘真题
- 数字化艺术-终结性考核-国开(SC)-参考资料
- 2024年贵州省粮食储备集团有限公司招聘考试真题
- 2025山西晋城市国有资本投资运营有限公司部分子公司招聘11人笔试参考题库附带答案详解
- 2025盘锦市兴隆台区辅警考试试卷真题
- 压缩空气储能系统透平膨胀机流动特性与损失优化研究
评论
0/150
提交评论