教育统计与测量测量质量_第1页
教育统计与测量测量质量_第2页
教育统计与测量测量质量_第3页
教育统计与测量测量质量_第4页
教育统计与测量测量质量_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

测量质量分析难度与区分度信度与效度为了使测验得到的分数准确可靠,我们要求使用的测验是高质量的,因此必须对分析测验的质量,而测验又是由一个个题目或者说测试项目所组成,整个测验质量要高,必然要求各个题目的质量要高。因此分析一个测验的质量,一般就要从两个方面来进行:一是考察整个测验的质量指标,即考察测验效度与信度;二是考察所含项目的质量指标,即考察测验项目的难度和区分度。测验项目的难度测验项目的难度,就是被试完成项目作答任务时所遇到的困难程度。有的项目很容易,几乎所有初试都能正确完成作答任务;有的项目却很难,只有少数高水平被试能正确完成任务。困难的项目,被试在其上得分的可能性就小,失分的可能性就大;容易的项目,被试在其上得分的可能性就大,失分的可能性就小。总之,每一个测验项目都有自己的难度;不同项目间其难度常常是不同的。定量刻画一个测验项目的被试作答困难程度的量数就叫项目的难度指数或难度系数。难度系数的求法最通用的项目难度系数的求法就是计算被试在项目上的得分率或者说通过率。像选择题这种测验项目,评分采取“全或无”的方式,答对给满分,答错给零分,难度指数就可以求通过人数比例或称通过率。对于不采用“全或无”的方式给分的测验项目,难度系数的求取方法是先求所有被试在该项目上的平均得分值,可记为;再用它去对测验项目总分(满分),可记为K,求比值,这个比值就是全体被试在该测验项目上的得分率即难度指数p了。R通过人数n接受测试的总人数P难度指数例如,有一满分值K=5的试题,测试10名被试,实得成绩为5,3,4.5,2,5,0,3.5,1,3,4要求其难度指数p。先求平均得分然后用平均得分值对满分值求比整体试卷的难度,就是全体被试测验的总分平均值与全卷满分的比值。有人觉得用得分率p来表示难度别扭,主张用失分率q来作为难度指数。得分率p是可以与失分率q相互转换的,q=1-p。我们一般用得分率p来表示难度,但也有人用失分率q来表示难度,所以当我们听取人家报告难度系数时,一定要弄清是指p还是q值不同目的的测试,测验难度系数要求也不相同。一般的标准化测试,目的是要尽可以把握住被试的个别差异,因此希望测验后所有被试的分数“尽可能拉开距离”。这样,测验项目的恰当难度,就应该是p值尽量接近0.5.如果一个测验对某一被试团体来说,难度相对显得大,那么,被试团体中大多数人就会得低分,被试总分分布就会形成正偏态分布;如果相反,难度相对显得小,被试团体中就会有很多人得高分,总分分布就会形成负偏态。区分度项目区分度就是项目区别被试水平高低的能力的量度。项目是用来测试被试水平高低的;在所测特质上,被试水平也不会人人相等,总是会有高低水平差异的。倘若,高水平被试,在测验项目上能利市中分,而低水平被试则只能得低分,测验项目区分被试高低的能力就强;如果高水平被试和低水平被试在测验项目上所得分数并无差别,项目提供不出被试水平差异的信息,它的区分能力就弱,更糟糕的是,高水平被试在测验项目上反而得低分,低水平被试在测验项目上所得分数却不低,这种项目的性能就跟测验目的相违背,只会起破坏作用。所以,项目区分度是测验性能的一个重要指标,说明的正是项目对测验目的来说的有效性程度区分度度指数数的求求法计算被被试在在该项项目上上的得得分与与其测测验总总分的的相关关系数数。如如相关关一致致性高高就认认定该该项目目区分分力强强;如如果相相关低低,甚甚至负负相关关,就就认定定为区区分力力弱整整形无无效的的项目目。这里,,确定定项目目区分分度的的标准准就是是测验验总分分,要要考察察总分分高的的被试试在该该项目目上是是否也也得高高分,,总分分低的的被试试在该该项目目上是是否也也得低低分。。显然然,这这种标标准就就是测测验内内部而而非测测验外外部标标准。。假定有有30名被被试在在两个个项目目上的的题分分以及及全卷卷总分分情况况如下下表,,请计计算项项目①与项项目②②的区区分度度项目①计算项项目①①的区区分度度指数数,也也就是是计算算被试试在该该项目目上的的得分分与总总分的的相关关系数数。项目①①为二二分称称名变变量,,总分分为连连续变变量,,该用用哪种种相关关法??需要用用点双双列相相关,,点双双列相相关公公式为为:答对被被试的的比率率为::p=18/30==0.6答错被被试的的比率率为::q=0.4答对被被试的的总分分平均均成绩绩:(100+100+98+……+)÷÷18=69.94答错被被试的的总分分平均均成绩绩:(90+79+89+……+0)÷÷12=59.42所有被被试总总分标标准差差:29.23项目②项目2与总总分都都为连连续变变量,,应该该采用用哪种种相关关方法法呢??积差相相关的的公式式为::采用软软件分分析,,得到到结果果为高低分分组法法求取项项目区区分度度指数数的主主要办办法,,是求求题分分与总总分的的相关关系数数。但但是,,还有有一种种“高高低分分组求求得分分率差差”的的办法法。方法::将全全体被被试按按总分分寡加加以排排队,,然后后取得得分最最多的的27%的的被试试作为为“高高分组组”,,得分分最少少的27%的被被试作作为““低分分组””,最最后求求这两两个组组上项项目得得分率率(通通过率率)的的差来来作为为区分分度指指数的的取值值。D=PH––PL以上面面的30名名被试试为例例先将30名名被试的总总分从高至至低排序30人的27%:30*27%=8.1=8((人)计算高分组组8人的得得分率PH:PH1=0.63;PH2=4.44/5=0.89计算低分组组8人的得得分率PL:PL1=0.50;Pl2=2.06/5=0.41D1=PH1–PL1=0.13;D2=PH2–PL2=0.48用高低分组组法丢弃了了中部的数数据,因此此只能是较较为粗糙的的估计值,,当被试总总人数够多多,高分组组与低分组组容量都相相当大时,,这种估计计值还是可可以满足实实用要求的的。所以高高、低分组组法,是一一种常用的的项目区分分度指数求求取方法。。项目区分度度指数的取取值范围,,跟一般的的相关系数数的取值范范围一样,,在-1.00至+1.00之间。如果项目区区分度指数数D≤0.20,项项目应该被被淘汰如果0.2<D<<0.3,需要修改改如果0.3≤D<<0.4,合格如果0.4≤D,性能优优良测验信度测验信度,,就是测验验在测量它它所测特质质时得到的的分数的一一致性(稳稳定性)。。它是反映映测验性能能的一个重重要的质量量指标。各种类型的的测量,无无论是物理理测量还是是教育与心心理测量,,先后对同同一对象施施测,所得得测量值都都很难做到到绝对一致致。同一教育与与心理测验验先后向同同一被试对对象施测,,所得测值值会系统地地起伏变化化,原因是是多方面的的。这可以以是由于测测验项目抽抽样不妥,,或语言表表达引起误误解,也可可以是施测测环境影响响,施测时时指导语、、完成时限限、主被试试关系的影影响或者是是评分过程程的偏向与与误差,还还可以是被被试的动机机和情绪等等因素所造造成的。测验信度,,就是指对对这种无系系统的随机机误差的控控制。测验验本身抗干干扰能力强强,测验实实施过程各各方面误差差因素都控控制得好,,多次施测测时所得分分数的一致致性程度就就会好,这这就叫测验验信度高,,人们在使使用所得测测值时就会会感觉可靠靠。改进测验信信度,就是是要努力从从各个方面面控制测量量误差,使使所得分数数(测值))尽量接近近被试在所所测特质上上的真值。。如果从测验验实施过程程中实际得得到的被试试分数,叫叫做观察分分数,这可可记为X;;被试在所所测特质上上客观具有有的水平值值,叫真分分数,这可可记为T,,那么,观观察分数与与真分数的的差就是测测量误差,,它可记为为E。X=T+E信度的测量量方法与种种类重测相关法法(重测信信度)平行相关法法(复本信信度)内部一致性性系数法((折半系数数,a-系系数)重测信度同一测验向向同一批被被试重测两两次,将得得到的两批批独立测值值进行相关关分析,求求出相关系系数,就可可为测验信信度的估计计值。这样的相关关系数,就就叫信度系系数,一般般记为rxx。例如,编制制了一个词词汇理解测测验,测试试一批被试试共15人人,头一次次测验与第第二次测验验分开独立立进行,间间隔时间两两周。所获获资料如下下表:计算两次测测验的相关关系数———积差相关关Rxx=0.94由于重测法法十分强调调特质的稳稳定性,所所以,用这这种方法求求取的信度度系数就叫叫做稳定性性系数大家讨论一一下重测信信度的局限限性复本信度复本信度是是指通过使使用两个平平行形式的的测验来测测查同一批批被试,这这样也可获获得同一批批被试的两两批独立值值,从而通通过求相关关系数,估估出测验的的信度。这要求两个个测验所测测的东西实实质完全相相同,只是是使用的具具体测验项项目不同。。这种用平行行形式相关关求得的信信度系数,,因为特别别强调两测测验形式的的等值关系系,所以又又叫等值性性系数。内部一致性性系数利用单一测测验内的项项目之间的的一致性关关系来估出出测验信度度。常用的有折折半相关系系数,a系系数折半相关系系数“折半”是是指将一个个测验拆成成两个半测测验,再计计算两个半半测验的相相关系数,,通过此相相关系数来来估计整个个测验的信信度。拆分测验,,可以采用用项目序号号拆分,奇奇数项目构构成半个测测验,偶数数项目构成成另外半个个测验,例例如:rxx=0.86由“半测验验”得来的的相关系数数,还需要要进行校正正,才能得得到估计““全测验””的信度系系数,校正正公式是::ru是经校正后后的“全测测验”信度度系数值rxx是“半测验验”上的信信度系数值值a一致性系系数用折半法求求测验信度度系数,可可以利用单单一测验形形式作施测测所得数据据来进行,,显得简单单有效。但但问题是要要把一个现现成的测验验分拆成真真正平行等等值的两半半,却并不不容易。那那能否不作作分拆而直直接利用单单一形式作作一次施测测所获资料料来估计测测验信度呢呢?于是就有人人研究提出出了求a-系数的办办法,公式式是:a就是是测验信度度系数n是测测验所含项项目个数是被试在第第i个项目目上得分的的方差是被试总分分的方差折半法(经经校正)求求信度系数数,可以看看成在测验验内部求项项目间的相相关;研究究说明,求求a-系数数,也可看看成在测验验内部求项项目间的相相关。因此此,折半相相关系数和和a-系数数都被叫做做测验的内内部一致性性系数。测验的内部部一致性系系数取值高高,说明测测验项目同同质性好,,都在有效效测查同一一特质。信度系数的的应用信度系数取取值大,所所得测值偏偏离真分数数值的幅度度就小,误误差就得到到了较好控控制。而实实际测验中中所得测值值偏离真分分数的程度度,被叫做做测量标准准误差。可可记为SEM,它跟跟信度系数数之间显然然存在着必必然的联系系。这种关关系可定量量地表示为为:rxx是测测验验的的信信度度系系数数;;SX是被被试试在在该该测测验验上上所所得得观观察察分分数数的的标标准准差差。。假设设52名名被被试试在在拼拼写写测测验验中中,,所所得得分分数数的的标标准准差差SX=9.48,已已知知拼拼写写测测验验的的信信度度系系数数rxx=0.92,,按按照照上上述述公公式式,,该该测测验验的的测测量量标标准准误误为为::也就就是是说说,,该该拼拼写写测测验验所所测测52名名被被试试的的真真分分数数,,并并不不恰恰好好就就是是所所测测到到的的观观察察值值。。观观察察分分数数与与真真分分数数有有一一定定程程度度的的偏偏离离,,大大约约偏偏离离2.68分分。。就就最最高高分分59分分的的被被试试来来说说,,其其真真分分数数值值应应为为59+2.68==61.68((分分)),,或或59-2.68==56.32((分分)),,或或其其间间的的任任何何一一个个值值。。从以以上上公公式式可可以以看看出出,,测测量量标标准准误误的的大大小小,,取取决决于于测测验验值值信信度度系系数数rxx取值值的的高高低低。。rxx值越越高高,,则则观观察察分分数数偏偏离离真真分分数数越越小小。。假设设上上述述例例子子中中测测验验的的信信度度为为0.82,,则则其其SEM==4.02;;如如果果信信度度为为0.98,则则其其SEM==1.34.一个个测测验验其其信信度度系系数数rxx的取取值值处处在在0.00和和1.00之之间间;;当当然然值值越越高高越越好好。。一一般般来来说说,,公公开开大大规规模模使使用用的的标标准准化化测测验验,,其其信信度度系系数数的的取取值值不不应应小小于于0.90;;主主要要用用来来起起预预测测作作用用的的标标准准化化测测验验,,希希望望能能更更大大一一点点,,最最好好能能接接近近或或大大于于0.95;;当当然然,,教教师师自自编编的的课课堂堂测测验验,,对对其其信信度度系系数数值值的的要要求求就就不不能能过过高高测验效度测验效度,就就是测验实际际上测到它打打算要测的东东西的程度。。真正测到了要要测的东西,,就是有效、、效度高;否否则,就是无无效或不十分分有效,就是是效度低。显显然,测验只只有真正测到到了要测的特特性、特质、、结构,测验验结果即测验验分数的应用用与解释,才才能起到它应应起的作用,,才能发挥出出有效性。因此,测验效效度就是测验验工具的正确确性问题,是是测验分数的的真实有效性性问题,是测测验质量高低低的根本表现现所在,是测测验性能的最最重要的指标标。心理与教育测测量具有间接接性特点,所所测对象是被被试的内部心心理特性、特特质或结构,,测量工具是是否真正测到到了它,绝非非一目了然,,而且,这种种特性、特质质、结构本身身到底什么样样,许多都没没有公认的定定义,甚至还还存在严重的的分歧。如语言能力和和水平,就是是一个不很清清楚概念,它它的内涵与外外延是什么,,存在着分歧歧,那测量语语言能力就存存在着很大的的困难。也许许目的是测量量语言能力但但是实际测到到的是语言知知识。效度的种类根据验证测验验效度的角度度与方法的差差异,可以把把效度验证工工作大体分为为三类,即内内容效度、效效标关联效度度和结构效度度。三种效度度说明的都是是测验的正确确性,不过是是从三个不同同的方面来说说明而已。内容效度———通过对测所所含项目作内内容的系统考考察,以确定定由这些项目目所构成的测测验,是否是是测验应测特特质行为领域域的代表性样样本。代表性程度高高,就是内容容效度好;代代表性程度低低,就是内容容效度差;根根本不具任何何代表性,就就是全无内容容效度。内容效度内容效度的分分析首先就要要求测验所测测特质涵盖的的整个行为领领域有明确的的范围,有比比较清楚的组组织结构。但但许多心理特特质,如“智智力”、“创创造力”等,,都是外延范范围不明、内内部结构复杂杂,人们对其其看法很不统统一、无法满满足上述要求求的测量对象象。所以,内内容效度主要要适应于对学学业成就测验验的正确有效效性的分析。。主要分析测测验项目所考考核的知识技技能覆盖面、、能力水平的的考核情况、、以及各部分分内容的深度度广度与结构构比例等。分析的办法一一般是请学科科专家作出系系统评判;侧侧重定性分析析,也辅之以以定量评价;;还可以采用用恰当办法把把不同遥意见见综合起来。。有一个跟内容容效度有关的的概念叫表面效度,指的是从被被试或非专业业人员看来,,测验表现得得是否在有效效地测验着应应测的东西。。在那些需要被被试尽其所能能对所测问题题正确作答的的测验中,比比如学业成就就与智力测验验中,它有改改善与被试合合作关系的作作用。由于合合作改进,测测验质量也就就更有保证。。这样的测验验,应力争有有高的表面效效度。而人格格测验和态度度测量等,有有时被试并不不愿意直陈自自己内心想法法,所以就不不必明白在测测查什么,不不必追求高的的表面效度。。效标关联效度度效标关联效度度就是指测验验预测个体在在类似或某种种特定情境下下行为表现的的有效性。这这里的“预测测”既指同时时性的类似情情境下的行为为的“预测””,也指间隔隔一段时间特特定情境下的的行为的“预预测”。因此,效标关关联效度又包包含“并存””效度和“预预测”效度这这两个小类别别。效标关联效度度是可以测量量的,可以通通过求取有待待验证的测验验的测值与效效标测验所得得的测值之间间的相关系数数获得。得到到的相关系数数,就叫效度度系数结构效度结构效度指的的是测验测行行心理学理论论所定义的某某一心理结构构或特质的程程度。这种结结构或特质的的例子有智力力、学术能力力倾向、人格格结构以及焦焦虑等。这种结构或特特质都是理论论上定义的,,其内涵与外外延并不十分分确定,人们们之间的看法法也可能有分分歧;但又的的确反映了客客观存在着的的心理现象与与事实,所以以又是可测的的。通过分析析这些结构与与特质的性质质,可以推论论出一些假设设,然后使用用测验来检验验这些假设。。倘若测验结结果能证实这这些假设,那那么这就从一一个方面验证证了测验的结结构效度。比如,我们知知道,智力在在人们儿童和和青少年时期期,会随年龄龄增长而发展展提高,因此此,智力测验验的分数也应应随年龄增大大而增加,直直到个人成熟熟为止。如果果所编出的智智力测验,施施测结果说明明情况果真如如此,能证实实这种看法,,我们就说从从发展成熟的的角度看,所所编智力测验验确具有较好好的结构效度度。效度系数与估估计标准误验证测验实测测值与效标测测量值之间的的相关系数,,就是效度系系数。一般为为符号rxy表示。一般来说,测测验即使相当当有效,效度度系数的取值值也很少能超超过0.70,一般取值值能达到0.40就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论