信度与效度分析_第1页
信度与效度分析_第2页
信度与效度分析_第3页
信度与效度分析_第4页
信度与效度分析_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2讲信度与效度分析方法 根据调查目的设计的调查问卷是一种测量工具 其质量高低对调查结果的真实性 适用性等具有决定性的作用 为了保证问卷具有较高的可靠性和有效性 在形成正式问卷之前 应当对问卷进行试测 并对试测结果进行信度和效度分析 根据分析结果筛选问卷题项 调整问卷结构 从而提高问卷的信度和效度 调查问卷的信度和效度分析绝非赘疣蛇足 而是研究过程中必不可少的重要环节 信度和效度分析的方法包括逻辑分析和统计分析 第一节信度分析方法 一 信度的概念 信度 Reliability 即可靠性 是指根据测量工具所得到的测量结果的一致性或稳定性 反映客观事物被测特征真实程度的度量指标 一般而言 两次或两个测量的结果愈是一致 则误差愈小 所得的信度愈高 信度 reliability 又称稳定性或精确度 用以反映在相同条件下 对同一客观事物测量若干次 测量结果的相互符合程度或一致程度 说明数据的可靠性 当使用同一测量工具重复测量某一客观事物时所得结果的一致程度越高 则该测量工具的信度就越高 误差 error 是指对事物某一特征的度量值偏离真实值的部分 即测定值与真实值之差 样本统计量与总体参数之差 二误差的分类 1 抽样误差 二误差的分类 抽样误差 sampleerror 由于抽样造成的样本指标与总体指标之间及各样本指标之间的差异 与测量的优劣没有必然的联系 进行信度和效度分析时 可以忽略抽样误差 2 系统误差 systematicerror 系统误差是指由于偏倚 使测量结果系统地偏离真值 bias 产生的错误结果 与随机误差不同 可校正和消除 3 随机测量误差 随机测量误差 randommeasurementerror 是指在测量过程中 即使消除了系统误差 但由于各种偶然因素的影响也会造成对同一个体的多次测量结果的不一致 测量结果发生的偏差往往不具有方向性 信度主要受随机测量误差的影响 问卷 量表 测量中的测量误差通常来源于两个方面 一是产生于问卷 量表 测量过程中的误差 称为测量误差 measurementError 也称为随机误差 randomerror 二是由问卷 量表 的结构质量造成的误差 称为系统误差 systemError measurementErrorreliabilitysystemErrorvalidity 信度是用估计测量误差大小的尺度 来说明测量结果中测量误差所占的比例 信度可定义为真实分数 truescore 的方差与测量实得分数 observedscore 的方差之比 当实得分数变异可以全部由真实分数的变异解释时 测量误差就是0 这时测量结果的信度为1 实测值 真实值 系统误差 测量误差 若用变异表示测量结果的信度 理论上应有或式中表示真实分数的方差 表示实得分数的方差 表示误差的方差 信度包含两层含义 一是相同的个体在不同时间 以相同的测量工具测量 或以复本测量 或在不同的情景下测量 是否能得到相同的结果 即测量结果是否随时间和地点等因素而变化 二是能否减少随机误差对测验结果的影响 从而能够反映测量工具所要测量的真实情况 即测量结果是否具有稳定性 可靠性和可预测性 一个好的测量工具必须是稳定可靠的 且多次测量结果应前后一致 信度指标多以相关系数表示 大致可分为三类 稳定系数 跨时间的一致性 等值系数 跨形式的一致性 和内在一致性系数 跨项目的一性 三 信度的种类及计算方法与评价 信度主要是指测量工具是否精准 precision 信度分析涉及了问卷测量结果的一致性和稳定性 其目的是如何控制和减少随机误差 三 信度的种类及计算 信度主要分为四大类 重测信度 Test retestReliability 复本信度 Alternate formReliability 内部一致性信度 InternalConsistencyReliability 评分者信度 ScorerReliability 重测信度是指用同样的测量工具 对同一组被调查者间隔一定时间重复测试 两次测试结果的相关程度 重测信度可以通过两种途径进行考察 1 重测信度 1 计算两次测试结果的相关系数 如果经过统计检验 相关关系有统计学意义 则认为测量工具的信度高 否则信度低 也有人提出 测量工具的重测信度可以接受的标准是两次测试的相关系数在0 7以上 重测信度的计算方法 1 重测信度 2 对两次重复测试结果进行两个相关样本差异的统计检验 如果差异有统计学意义 则认为测量工具的信度低 否则 信度高 重测信度法特别适用于事实式问卷 如性别 出生年月等在两次施测中不应有任何差异 大多数被调查者的兴趣 爱好 习惯等在短时间内也不会有十分明显的变化 如果没有突发事件导致被调查者的态度 意见突变 这种方法也适用于态度 意见式问卷 由于重测信度法需要对同一样本试测两次 被调查者容易受到各种事件 活动和他人的影响 而且间隔时间长短也有一定限制 因此在实施中有一定困难 1 重测信度 复本信度法是让同一组被调查者一次填答两份问卷复本 计算两个复本的相关系数 复本信度法要求两个复本除表述方式不同外 在内容 格式 难度和对应题项的提问方向等方面要完全一致 而在实际调查中 很难使调查问卷达到这种要求 因此采用这种方法者较少 2 复本信度 2 复本信度 alternateformreliability 复本通常是根据相同的设计说明分别独立编制的两个平行问卷 即题目不同但是内容相似的两份问卷 复本信度也叫等值性系数 coefficientofequivalence 两个复本间隔一定时间或同时施于同一答卷者所得分数的相关系数就是复本信度 缺点 如复本编制不容易 易出现顺序效应 受练习的影响 复本信度只能反应问卷内容所造成的误差 无法反应答卷者本身所造成的误差等 3 分半信度 split halfreliability 分半信度常用在不可能进行重复调查的情况下 其计算方法是将调查的条目分成两半 计算这两半测量结果的相关系数r 又称分半信度系数 以此为标准来衡量整个量表的信度 3 分半信度 分半信度是将调查项目分为两半 计算两半得分的相关系数 进而估计整个量表的信度 分半信度属于内在一致性信度 测量的是两半题项得分间的一致性 这种方法一般不适用于事实式问卷 如年龄与性别无法相比 常用于态度 意见式问卷的信度分析 在问卷调查中 态度测量最常见的形式是5级李克特 Likert 量表 3 分半信度 使用分半信度评价信度时 应注意 一是问卷题项所测的应是同一种特质 二是如果量表中含有反意题项 应先将反意题项的得分作逆向处理 以保证各题项得分方向的一致性 三是然后将全部题项按奇偶或前后分为尽可能相等的两半 计算二者的相关系数 rhh 即半个量表的信度系数 最后用斯皮尔曼 布朗 Spearman Brown 公式 求出整个量表的信度系数 ru 为问卷测验总得分的方差 pi表示答对该题的人数占总答卷人数的比例 pi可视为该题的难度 qi 1 pi 式中n为问卷包含的题项总数 4 库得 理查森信度 Kuder Richardson 库德 理查森信度适用于计算 对或错 的是非题的同质性信度 其是计算所有可能的分半信度的平均数 最有代表性的计算公式是库德 理查森公式 Cronbach s 系数是Cronbach于1951年创立的 用于评价问卷的内部一致性 系数取值在0到1之间 系数越高 信度越高 问卷的内部一致性越好 Cronbach s 系数不仅适用于两级记分的问卷 还适用于多级计分的问卷 5 Cronbach s 信度系数 Cronbach 信度系数是目前最常用的信度系数 其计算公式为 其中 K为量表中题项的总数 为第i题得分的题内方差 为全部题项总得分的方差 5 Cronbach s 信度系数 从公式中可以看出 系数评价的是量表中各题项得分间的一致性 属于内在一致性x信度系数 这种方法适用于态度 意见式问卷 量表 的信度分析 5 Cronbach s 信度系数 系数有以下性质 1 系数是所有可能的分半信度的平均值 2 系数是估计信度的最低限度 3 当问卷计分为二分名义变量时 即答案为0或1 系数与KR20值相同 即库德 理查森信度公式是克隆巴赫的 系数的一个特例 低信度 0 35 中信度 0 35 0 70 高信度 0 70 一般地 问卷的 系数在0 8以上该问卷才具有使用价值 Cronbach s 值皆达0 85以上 表明问卷信度良好 6 评分者信度 inter scorerreliability 考察评分者信度的方法为 随机抽取相当份数的问卷 由两位评分者按记分规则分别给分 然后根据每份问卷的分数计算相关系数 就得到评分者信度 评分者信度也可以是一位评分者两次评分的相关系数 如果是多个评分者或一位评分者两次以上的评分 可采用肯德尔和谐系数和Kappa系数 肯德尔和谐系数用于等级资料 Kappa系数用于定性资料 四 影响信度的因素 被试方面主试方面施测情景方面测量工具方面两次施测的时间间隔 提高信度的方法 问卷的信度越高 受到人 时 地 物的干扰就越低 其所能反应事实或让人相信的程度越高 因此在问卷实施前如何有效提高信度是问卷测验成败的关键 通常提高问卷信度的方法为 1 适当延长问卷的长度 问卷题目较多 其在一定程度上排除了偶然因素的影响 从而提高了问卷的信度 但是问卷长度的增加与问卷的信度的增加并不总是成正比的 当信度系数较小时 延长问卷长度 问卷的信度系数增加较大 而当信度系数较大时 延长问卷长度对信度系数的影响就较小 2 问卷的难度适中 当问卷题目难度太大时 问卷得分普遍过低 当问卷题目难度太小时 问卷得分普遍较高 问卷题目太难或太易都会使问卷得分差异减小 使实得分数方差减小 从而降低了问卷的信度 3 问卷的内容尽量同质 内容同质的问卷 要求答卷者具有相同的能力 知识和技能 因而为了提高问卷的信度 问卷的内容应尽量保持同质 4 测验的时间要充分 一份问卷应保证绝大多数答卷者在规定的时间内能完成测验 当答卷者不能从容地回答所有题目时 问卷的得分就不能反映答卷者的真实情况 5 测验的程序要统一 问卷题目要统一 指导语 回答问题的方式 分收试卷的方法和问卷测验的时间等都要统一 这些是问卷有较高信度的基本保证 例1世界卫生组织生存质量测定量表简表 WHOQOL BREF 包含24个问题条目 从生理 心理 社会关系和环境领域考察个人的生存质量 量表的结构见表1 使用量表对47名患者进行调查 试对环境领域进行信度分析 环境领域包含8个条目 各个条目的内容 平均得分和方差等列于表2 表1WHOQOL BREF量表的结构 表2环境领域各条目得分情况及领域总分的相关分析 克朗巴哈信度系数 折半信度系数 把1 4个问题条目分在前半部分 第5 8个问题条目分在后半部分 计算第1 4个问题条目得分的总和 h1 再计算第5 8个问题条目得分总和 h2 计算h1和h2的相关系数 于是折半信度系数 注 环境领域总分等于8个问题条目得分相加 例2在一项关于社会支持的研究中 研究者用社会支持量表测试了30名受试者的社会支持情况 量表包括2项来自家庭内部的支持和2项来自家庭外部的支持 分别是 父母支持 亲戚支持 朋友支持 同学支持 每个题项回答都采用1 5级评分反映获得社会支持的多少 1表示从不 2表示较少 3表示中等 4表示较多 5表示绝大部分 结果见下表 试计算量表的分半信度和克朗巴哈 系数 效度 Validity 即有效性 它是指测量工具能够准确测量出所欲测量特性的程度 即测量到的是不是所要测量的特征 比如一项知识水平的测量测得的结果竟是逻辑能力 那么这种测量就完全没有效度 对于一个标准测验来说 效度比信度更为重要 第二节效度分析 一 效度的概念 效度是指测量工具的准确性 即测量结果能够反映所要测量特性的程度 其包括两个方面的含义 一是测量的目的 测量了什么 二是测量工具对测量目标的测量精确度和真实性 测的程度 效度是一个具有相对性 连续性 间接性的概念 比如量表是否测量了生命质量 躯体功能分量表是否测量了躯体功能 其程度怎样 表示测量的效度系数 代表有效变异数 代表总变异数 在测量理论中 效度被定义为在一系列测量中 与测量目的有关的真实的变异数 即有效变异 与总变异数之比 效度具有特殊性和相对性 即每个测量工具只对某特殊目的有效 仅能对其特定项目作正确的度量 或者说测量的效度总是针对着要解决的问题来说的 亦即针对着打算作出的应用来建立的 二 效度分析的意义 效度是问卷调查研究中最重要的特征 问卷调查的目的就是要获得高效度的测量与结论 效度越高表示该问卷测验的结果所能代表要测验的行为的真实度越高 越能够达到问卷测验目的 该问卷才正确而有效 问卷的准确性或称为有效性是用问卷的效度加以刻划的 它反映了对问卷的系统误差的控制程度 收集大量资料和证据来检验测量效度的过程称为效度分析 validation 严格地说 任何测量在正式实施以前都应做出效度分析 三 效度分析方法 由于 真实值 往往未知 所以对效度的评价常常不可能有绝对肯定的答案 尽管我们不可能证明效度 但是可以用指标来评价效度 一般来说 有三种类型的效度 标准效度 内容效度 结构效度和区分效度 内容效度是一种基于概念的评价指标 其它三种是基于经验的评价指标 1 标准效度 标准效度 criteriavalidity 又称为效标效度 以相对准确的测量手段或指标的测量结果作为 金标准 考察待评测量手段或指标的测量结果是否与其一致 例如 评价新的影像学诊断手段的效度 常以病理学检查结果作为 金标准 考察两种诊断手段诊断结果的一致性 2 内容效度 内容效度 contentvalidity 评价测量指标的涵义是否能准确反映真实情况 内容效度是一个定性评价效度的指标 它关心测量手段是否能够测量我们所需要测量的抽象概念 领域和方面 对比事先对概念的定义和最终的测量工具 可以得到关于内容效度的评价 可以采用专家评价的方法了解内容效度的大小 例如 对比生存质量的定义和用于测量的量表 可以得出该量表内容效度的好坏 缺乏内容效度的测量会歪曲对所关心概念的理解 就像利用不具有代表性的样本对总体进行推断会得到错误结论一样 2 内容效度 contentvalidity 内容效度是指问卷内容的贴切性 relevance 和代表性 representativeness 即问卷内容能否反应所要测量的特质 能否达到测验目的 较好地代表所欲测量的内容和引起预期反应的程度 内容效度常以题目分布的合理性来判断 属于命题的逻辑分析 所以 内容效度也称为 逻辑效度 logicalvalidity 内在效度 intrinsicValidity 循环效度 circularvalidity 内容效度的评价主要通过经验判断进行 通常考虑3方面的问题 其一是项目所测量的是否真属于应测量的领域 其二是测验所包含的项目是否覆盖了应测领域的各个方面 其三是测验题目的构成比例是否恰当 常用的内容效度的评价方法有两种 一是专家法 即请有关专家对问卷题目与原来的内容范围是否符合进行分析 作出判断 看问卷题目是否较好地代表了原来的内容 二是统计分析法 即从同一内容总体中抽取两套问卷 分别对同一组答卷者进行测验 两种问卷的相关系数就可用来估计问卷的内容效度 计算某个问题与去掉此问题后总得分的相关性情况 分析是否需要被剔除 敏感性分析 3 结构效度 结构效度 constructvalidity 又称构想效度 是指测量工具对某一理论概念或特质测量的程度 是在评价量表效度时最常用的指标 由于在心理学及社会学领域中一些概念的定义不是十分明确 内容效度在实际应用中存在困难 而标准效度往往因为缺乏比较的标准而难于应用 在这种情况下 可以使用结构效度 结构效度是指测量结果体现出来的某种结构与测值之间的对应程度 结构效度分析所采用的方法是因子分析 有的学者认为 效度分析最理想的方法是利用因子分析测量量表或整个问卷的结构效度 因子分析的主要功能是从量表全部变量 题项 中提取一些公因子 各公因子分别与某一群特定变量高度关联 这些公因子即代表了量表的基本结构 通过因子分析可以考察问卷是否能够测量出研究者设计问卷时假设的某种结构 在因子分析的结果中 用于评价结构效度的主要指标有累积贡献率 共同度和因子负荷 累积贡献率反映公因子对量表或问卷的累积有效程度 共同度反映由公因子解释原变量的有效程度 因子负荷反

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论