二章 教育测量的质量指标2_第1页
二章 教育测量的质量指标2_第2页
二章 教育测量的质量指标2_第3页
二章 教育测量的质量指标2_第4页
二章 教育测量的质量指标2_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章教育测量的质量指标第二节效度第二节效效度一、效度度的概念念二、效度度的统计计学原理理及其与与信度的的关系三、效度度的估计计四、提高高效度的的方法一、效度度的概念念效度(Validity)是指测量结果果的准确性和有效性的程度,亦即测测量是否否达到了了预期的的目的。。第一,效效度是一一个相对对的概念念。1.测量的效效度始终终是对一一定的测测量目的的而言的的。2.测量的效效度是相相对于测测量的结结果而言言的。第二,一一种测验验的效度度只是高高或低的的问题。。第三,在在教育测测量中,,效度问问题比在在其他领领域的测测量中更更为重要要。一、效度度的概念念这是因为为:⑴教育测测量的对对象大多多是精神神现象,,只能通通过对其其具有可可测性的的外部表表现(如如语言或或动作等等)的测测量,以以间接认认识其心心理活动动、心理理特征或或知识水水平等。。⑵学生的的心理活活动、心心理特征征与其外外部表现现之间,,一般仅仅具有相相关关系系而无函函数关系系,外部部行为并并不能准准确无误误地反映映某种心心理状态态。⑶教育测测量的对对象不是是物而是是有主观观能动性性的人。。人能有有意识地地调节自自己的外外部行为为,掩盖盖自己的的内心活活动,这这就增加加了认识识其精神神现象的的难度。。二、效度度的统计计学原理理及其与与信度的的关系1、效度的的统计学学原理在实际测测量中,,影响效效度的主主要因素素是系统统误差。。因而在在讨论效效度时,,还必须须把真分分数方差差分解为为两个部部分,一一是潜在在真分数数方差((σV2),另一部分分是系统统误差分分数方差差(σI2),它它与由随机机误差引引起的变变异(σE2)不同。2、效度与与信度的的关系σV2σI2σE2σV2σI2σE2σV2σI2σE2根据公式式(2-2)和(2-3),可将将效度与与信度的的关系图图解于后后:根据分析析,可得得结论如如下:1)高信度是是高效度度的必要要条件,,而非充充分条件件。2)效度系数数不会大大于信度度系数的的平方根根。可以用下下式表示示:高效度、、高信度度低效度、高高信度低效度、低低信度三、效度度的估计计效度估计计就是多多方寻找找证据来来证明一一个测验验的有效效性程度度的过程程。1974年美国心心理学会会发行的的《教育和心心理测量量的标准准》一书将效效度分为为三大类类:内容效度度、效标标关联效效度和结结构效度度。(一)内内容效度度(Contentvalidity)又称合理理效度或或逻辑程程度,是是指测验验内容或或行为取取样的代代表性和和适当程程度;即测验的内内容范围围、材料料与所要要测量的的内容范范围、教教育目标标是否相相符合;;测验中中测题所所引起的的行为是是否是所所要测量量的属性性的明确确反应;;测验的的结果是是否是一一个有代代表性的的行为样样本。估计内容容效度的的方法::估计内容容效度的的方法::(1)逻辑分分析的方方法。其工作思思路是请请有关专专家对测测验题目目与原定定内容范范围的吻吻合程度度作出判判断。(2)统计分析析法。从从同一个个教学内内容总体体中抽取取两套独独立的平平行测验验,用这这两个测测验来测测同一批批被试,,求其相相关。若若相关高高,表明明测验内内容效度度较高;;若相关关低,表表示测验验的内容容效度较较低。采用求统统计量的的公式进进行计算算,其公公式有以以下三种种形式::内容效度度主要应应用于成成就测验验、学科科测验、、选拔和和分类职职业测验验。内容效度度不适合合用于能能力倾向向和人格格测验。。(二)效效标关联联效度又可称为经验验效度或或统计效效度,是是以测验验分数和和效标之之间的相相关系数数来表示示测验效效度的高高低的。。效标就是足以以显示测测验所欲欲测量的的特性的的变量或或足以显显示测验验所欲预预测的特特性的变变量。它它是用来来检验测测验效度度的外在在的、客客观的标标准和尺尺度。效标关联联效度又又可分为为同时效度度和预测效度度。(用全国国高考的的成绩作作为效标标来检验验高中毕毕业生会会考的成成绩,计计算两者者之间的的相关系系数就是是会考的的同时效效度;而而用大学学一年级级的成绩绩作为效效标来检检验高考考的成绩绩,计算算两者的的相关系系数就是是高考的的预测效效度。))估计效标标关联效效度可采采用积差差相关、、二列相相关或点点二列相相关、四四格相关关和多元元相关系系数等计计算各种种相关系系数。1、用积差差相关系系数的方方法估计计效度积差相关关,是计算算两个变变量线性性相关的的一种方方法,由由英国统统计学家家皮尔逊提出,因因此也称称为皮尔尔逊(Pearson)相关。要要使用积积差相关关必须同同时具备如下下几个条条件:①两个变变量都是是由测量量获得的的连续性性数据,,即等距距或等比比数据。。②两个变变量的总总体都呈呈正态分分布,或或接近正正态分布布,至少少是单峰峰对称分分布,当当然样本本并不一一定要正正态。③必须是是成对的的数据,,而且每每对数据据之间是是相互独独立的,,即各自自互不影影响,本本条件是是难以检检验的。。④两个变变量之间间呈线性性关系。。一般用用描绘散散点图的的方式来来观察,,最好是是先各自自转化为为Z分数,单单位会统统一些。。例:某中学数数学教研研组的教教师积多多年的教教学法经经验,认认为刚入入高中的的学生学学习立体体几何感感到困难难的主要要原因是是空间想想像力弱弱。为了证明明这个论论点,他他们让刚刚入高中中的103名学生作作10道题,测测量其空空间想像像力。为为避免知知道了某某些学生生的刚入入高中时时的成绩绩影响以以后考试试的评分分,试卷卷暂不评评阅。立立体几何何学完后后,进行行考试,,按得分分多少把把成绩分分为五等等(A、B、C、D、E)分别得5、4、3、2、1分。这时时才评阅阅入学时时的试卷卷,统计计出期末末得5、4、3、2、1分者在入入学测验验中分别别答对1道题至10道题的人人数(见见表2-1)。就现有资资料,用用什么方方法可以以判断教教师们的的意见是是否正确确?表2-1:(答对的题数)12345678910所评的等级ABCDE543211310542168843124598311321111211解:(1)设期末末考试的的等第为为y,空间想像像力测验验答对的的题数为为x,列出二重重交叉次次数分布布表:X(答对的题数)12345678910Y所评的等级ABCDE54321131054216884312459831132111121125313296合计241014202017952103(2)用积差差相关系系数公式式计算效效度系数数:二列相关关适用于两两个变量量就其实实际含义义而言是是等距或或等比数数据,它它们服从从正态分分布,其其中一列列人为地地划分为为两类。。点二列相相关适用于一一列数据据为等距距或等比比且总体体服从正正态分布布(实际际上只需需要单峰峰对称分分布,如如T分布布),另另一列变变量是按按事物的的性质划划分为两两类的变变量,也也可以是是一个双双峰分布布,人为为划分为为两类,,如文盲盲与非文文盲。这这种相关关系数多多用于测测验中评评价题目目的区分分度。对对选择题题、判断断题在整整个测量量中作用用作出判判断。基本计算算公式::例:有一位教师自编编了一套套测验题题,用来来预测学学生一年年后的某某科成绩绩,自编编测验按按百分制制评分,,一年后后考试评评分只把把学生分分为及格格者和不不及格者者。试就就所获资资料估计计自编测测验的预预测效度度。解:1)把两次测测验成绩绩成对排排列:被试者1234567891011121314自编测验的成绩(X)6710204460436110262330183523一年后考试成绩(Y)111001101001112)计算出二二列相关关公式所所需统计计量:(三)结结构效度度(Constructvalidity)结构效度度是指一个个测量能能实际测测量出理理论上的的构想或或心理特特性的程程度。它它的目的的在于从从心理学学的理论论观点就就测验的的结果加加以解释释和探讨讨。这里的结构的含义是是心理学学理论所所涉及的的抽象而而属假设设性的概概念、构构想、特特性或变变量,如如智力、、焦虑、、机械能能力倾向向、成就就、动机机等。结构效度度主要用用于智力力测验、、人格测测验等一一些心理理测验方方面。例如:人人的创造造力可以以分解为为人的思思维流畅畅性、灵灵活性和和创造性性三大特特性,并并根据这这三大特特性编制制测验,,若有足足够的证证据来证证明该测测验确实实可以测测到这些些特性,,则认为为该测验验是个结结构效度度较高的的创造力力测验。。(1)结构效效度的特特点结构效度度的大小小完全取取决于事事先假定定的心理理特质理理论,一一旦人们们对同一一种心理理特质有有着不同同的定义义或假设设,则会会使得关关于特质质测验的的结构效效度的研研究结果果无法比比较。当实际测测量的资资料无法法证实我我们的理理论假设设时,并并不一定定就表明明该测验验结构效效度高。。因为还还有可能能出现理理论假设设不成立立,或者者该实验验设计不不能对该该假设作作适当的的检查等等情况,,这就使使得结构构效度的的获取更更为困难难。(2)建立结结构效度度的步骤骤A、提出理论论假设;;B、根据假定定结构拟拟定测题题,编制制测验;;C、以测验结结果为根根据来验验证假设设结构中中的各种种因素是是否成立立。(3)结构效效度的估估计A、因素分析析法其目的是是把一些些具有错错综复杂杂关系的的因素归归结为数数量较少少的几个个综合因因素或称称共同因因素,并并以此测测验所测测之特质质对测验验分数作作出解释释。B、多元特质质多重方方法矩阵阵法是由肯贝贝尔和菲菲斯克1959年提出的的最受欢欢迎的一一种结构构效度的的评估方方法。这种方法法的设想想:若采采用两种种方法以以上的方方法去测测量两种种以上的的特质,,那么这这些测量量结果之之间可以以形成一一个多元元特质多多重方法法矩阵。。四、提高高效度的的方法(一)各各种效度度系数的的要求(二)影影响效度度的因素素测验的构构成(要要素)测验实施施方面((过程))被试主观观状态方方面估计效度度所依循循的效标标样本方面面四、提高高效度的的方法(三)提提高效度度的方法法:1、控制制系统误误差2、精心心编制量量表3、妥善善组织测测验4、扩充充样本的的容量和和代表性性5、合理理处理效度和信信度的关关系6、适当增加加测验的的长度表2.1测验验长度与与信度和和效度的的关系题数与原测验题数之比信度系数效度系数1020306012014048012361214480.3000.4620.5620.7200.8370.9110.9540.4000.4960.5480.6190.6680.6790.713第三节难难度及及其计算算一、难度度的概念念难度是指指测量试试题的难难易程度度。一个题目目的难度度大小,,除了所所测的内内容本身身的难易易程度有有关以外外,还与与测验的的编制技技术和被被试的知知识经验验有关。。这就是说说测验的的难度具具有相对对性,正正因为此此,必须须让试题题通过实实践来对对难度作作出检验验。二、难度度的计算算(一)计计算难度度的基本本公式1、客观题题难度的的计算2、主观题题难度的的计算P表示难度度指标,,N表示参加加考试的的总人数数,R表示答对对某道客客观题的的人数。。二、难度度的计算算例1:在100个学生中中,答对对第一题题的30人,答对对第二题题的60人,求第第一、二二道题的的难度??比较这这两道题题谁比谁谁难?例2:某道论论述题满满分12分,所有有考生在在这道题题上的平平均得分分为3.6分,求该该题的难难度?例3:语文测测验第五五题最高高得分为为12分,这道道题考生生的平均均得分是是8.5分,求该该题难度度?例4:60人参加考考试,某某题满分分为12分,正确确得分累累积是480分,求该该题难度度?(二)用用极端分分组法计计算试题题的难度度1、用极端端分组法法计算客客观题的的难度具体步骤骤如下::1)先按测测验总分分的高低低,按由由高到低低的顺序序依次排排列试卷卷。2)从得分分最高的的一份试试卷开始始依次向向下选出出全部试试卷的27%作为高分分组;从从得分最最低的一一份试卷卷开始依依次向上上选出全全部试卷卷的27%作为低分分组。3)按计算算公式计计算难度度例题5:某区域1000人参加考考试,试试卷第一一题高分分组180人答对,,低分组组60人答对,,求该题题难度??(约为0.44)如果该题题满分为为10分,高分分组得分分总数为为2100分,低分分组得分分总数为为830分,求该该题难度度?2、用极端端分组法法计算论论文试题题难度步骤如下下:1)按测验验得分排排列试卷卷,确定定高分组组与低分分组,各各占总人人数的25%(方法同同前)。。2)分别为为高分组组、低分分组编制制每道试试题的分分析表。。3)按下列列公式计计算难度度,例:某道论文文题,高高分组得得分总和和为40分,低分分组得分分总和为为15分,有40人参加考考试,这这道题最最高得分分为8分,最低低得分为为2分,则此此题的难难度为多多少?(0.125)计算解:依据据主观题题极端分分组法计计算公式式=0.125三、难度度的分析析与控制制1、难度分分析进行难度度分析的的主要目目的是为为了筛选选题目。。A、测验题目目难度水水平的确确定测验题目目难度水水平的适适当与否否,取决决于测验验的目的的、性质质和题目目的形成成。当P值接近于于0或接近于于1时,即被被试在该该题上全全部答对对或全部部答错,,则该题题无法提提供个体体的信息息。而只只当P值接近于于0.50时,题目目才能把把被试做做最大的的程度的的区分。。但在实际际工作中中,若每每一题的的难度值值均为0.50,那么此此测验很很可能只只能区分分出好与与差两种种极端被被试的差差异,却却不能对对各种被被试作更更精确的的区分。。因此,,一般各各题的难难度可在在0.50+20之间。B、测验难度度对分数数分布的的影响1)测验难难度影响响分数的的分布形形态。难度值越越接近0,测验的的难度就就越大,,测验分分数就越越是集中中在低分分端,其其分数分分布越呈呈现正偏偏态;反反之,难难度值越越接近1.00,其难度度就越小小,测验验分数越越集中在在高分端端,分数数分布呈呈负偏态态。2)测验难难度影响响测验分分数的离离散程度度测验难度度过大过过小,都都会造成成测验分分数偏离离正态分分布,从从而使分分数的全全距缩小小,使测测验分数数的离散散程度变变小。3)测验难难度影响响测验的的鉴别能能力在测验中中,考生生之间相相互配对对比较的的可能性性越多,,就越有有利于准准确地鉴鉴别考生生的不同同能力。。2、难度的的控制一般说来来,影响响题目难难度的主主要因素素有:考察知识识点的多多少;考察能力力的复杂杂程度或或层次的的高低;;考生对题题目的熟熟悉态度度;命题的技技巧。难度控制制:正确估计计考生水水平;弄清弄懂懂各知识识点;掌握命题题技巧。。第四节区区分度度及其计计算一、区分分度的意意义(一)区区分度((Discrimination))是指测测验对考考生实际际水平的的区分程程度,用用符号D表示。。又叫鉴鉴别力,,它是评评价试题题质量,,筛选试试题的主主要指标标与依据据。区分度((D)的取值值范围介介于-1..00——+1..00之间,值值越大,,区分度度的效果果越佳。。区分度D>0为正区分分,D<0为负区分分,D=0为零区分分。区分度的的高低直直接影响响到测验验的信度度和效度度。(二)区区分度与与测验信信度、难难度的关关系1、区分度度与信度度的关系系(见下下表2.2)这里是假假定全部部试题的的难度均均为0.50时所预测测的信度度系数。。区分度指指的是平平均值。。可见,要要想达到到理想的的测验信信度,提提高区分分度是一一个好办法法。区分度信度0.12250.160.200.300.400.500.000.420.630.840.9150.949(二)区区分度与与难度的的关系表2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论