第七章测试项目分析

上传人：文*** IP属地：山西上传时间：2022-07-09 格式：DOC 页数：25 大小：3.38MB 积分：20 举报 版权申诉

已阅读5页，还剩20页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第七章测试项目分析早期，任何测试设计之前都需要认真地考虑测试目的和相应的测试规范。如今，我们需要了解一个给定测试或项目如何能完成多少这些既定的目的。不幸的是，很多老师认为，一旦分数得出，考试便可以画上圆满的句号。当然，这是远远不够的。因为，这些所得结果能够提供很有价值的相关信息。一组或一个班级的学生表现能够告诉老师教学的有效性；个体学生的表现；测试中每一个项目的表现。关于学生的整体变现或个体表现相关信息对于教学目的来讲是非常重要的，尤其因为很多测试结果能够不仅显示出最常见的错误的种类，而且找出错误产生的原因。客观测试一个伟大的优点是它能够通过清清楚楚所做出的选项来反映出学生们头脑中真正掌握的

2、知识状况。因此，相应的纠正能够被及时提供。测试项目表现本身对于将来的测试有着显而易见的重要性。因为好的客观性测试需要大量的时间和精力，大多数老师和测试设计者将都期待无需改变或适当地改变来再一次使用这些好的客观性测试。所以，去找到这些能让更好能力的好学生有好表现的以及能让能力低一些的学生有差表现的项目是非常有用的。测试中某些难项目的发现和多项选择中干扰项的表现了解，两者即为教学提供了有价值的帮助，也为将来的考试准备了储备。第一节项目设计过程中应该避免的问题1混合选项项目有时是用来测试一种特殊技巧或能力，但是回应选项的检查显示选项实际上测量出的是其他方面的技巧，而非想要测量出的技巧。例如：Joh

3、n _ flowers to the party last night. a) carries c) lifts b) carried d) lifted如果想这样一个项目用来测试一般过去时语法知识，显而易见的缺陷是回应选项需要一个有关词汇选项来作为一个任务。此项目既是词汇项目又是语法项目。更加贴切的一组回应选项如下： a) carries c) is carrying b) carried d) has carried当时态想要被测试时，选项却测试的是主谓一致。这种类型问题例子如下：The woman _ to the same shop every week. a) go c) have

4、gone b) goes d) am going 很显然，项目中的干扰项(a), (c), 和(d) 能够被排除掉，不是因为时态的错误而是因为主谓的不一致性。该项目的根本问题不是他们无法显示出答题者的总体水平，而是缺乏他们想要的测试能力效度。2. 选项提示或许在准备多项选择干扰项时最难的任务是避免给出选项提示。一些有过类似考试经验的学生或许已经培养了一种“测试智慧”；也就是，这样的学生不用掌握要被测试的相关领域知识，而能够选出正确的选项。他们通常仅仅通过在选项中识别出选项提示而成功地作出正确选项。选项提示的例子如下：长度提示通常来说，最长最清楚的选项是最显然的答案。例子如下：In the s

5、tory, the merchant was unhappy because it a) rained. c) was windy. b) was dark. d) was windy and rainy and he had forgotten his raincoat.如果我们既没有读过也不明白问题里的故事，我们或许仍旧选择选项 (d) 并且我们有很合理的机会将题答对。趋同提示考虑下面选项 a) tea c) party b) tee d) dinner尽管我们没有选项来源，但是因为趋同性，我们能够猜到正确地选项。选项(a), (c), (d) 都属于提供食物或点心的聚会。选项(b)仅仅是

6、选项(a)的同音选项，提供了一个同音的干扰项。两种干扰（语音和语意）趋同的选项是(a) tea, 它便是这种情况的正确选项。不一致的干扰项提示Examine the following set of distractors: a) ran c) is running b) runs d) fast显然，选项(d) 从词根和语境都区别于其他选项。我们或许在最开始的时候可以去除该选项。在效果上，该选项只有三个可变化选项。这就使其变的比预想的更加简单。当然，还有其他种类的提示可以被避免。但是，以上的例子是他们中更具代表性的。在正式的项目分析中，这些提示的出现不总是被发现。所以，如果学生的分数一定要反

7、映出他们在某期待领域里所掌握的知识状况，那么项目设计者一定要对该事项敏感。选项的数量对于任何选项来说，选项的合适数量应该被确定。当回应选项的数量太少时，问题或许会出现。对/错型选项只容许两种选项。这意味着需要超过不寻常大量的项目来增加测试的有效范围和以此确定测试整体的信度。除非在同一测试中有很少这样的项目，不然有这样如此少的选项是错误的。选项或许可以很多。例如，在听力测试项目中五个选项可以被使用。通常在听力测试中，在考试者有时间看完所有选项前，他或她忘记了听觉的刺激。从这个角度上来看，该测试成为了一种记忆回顾的测试，超过了正常交流范围的约束。因此，作为听力理解的测试，它或许是无效的。选项在数量

8、上或许是无规则的，就像在统一测试中或分测试中，有些项目有三个干扰项或是四个干扰项等。拥有类似项目的测试或许可以满足信度和效度的需求，但是在分析过程中该项目会带来一定问题。例如，这样的项目不容许猜测形式的应用。当该项目经过分析表明是弱的或是错误的，不会立刻明显的判断出是否问题是内生于项目或选项中，或是否问题是不同选项的迹象。4. 无意义的干扰项在大多数情况下，无意义干扰项应该避免。无意义的选项有两个根本问题。第一，他们通常是弱的干扰项。第二，他们通常具有消极的反驳作用；例如，学生或许可以从考试本身学到一些错误。考虑下面的例子： They said they a) had gone. c) hav

9、e went. b) had go. d) had went.显然，干扰项(b),(c),和(d)是和我们课堂上学习的正确语法知识相违背的。一方面，没有上下文的考虑，仅仅因为另外的准则三个选项或许被排除掉，从而正确的选项被挑出来。另一方面，如果该选项恰巧包括了考生刚刚接触的现在完成时，可想而知的是该考生或许开始接受这样无意义的选项。评述选项评述选项应给予足够的谨慎。例如：The stranger had left his native land because he wished to seek his fortune.wanted to avoid his creditors.preferr

10、ed the new land.none of the above.a and b but not c aboveb and c but not a above例子中选项(d), (e), 和(f)需要考生回顾前三个选项并且得出他们相关性和同现相关结论。从性质上来说，后三个选项是区别于前面的选项。不仅如此，这些选项需要足够地集中注意前三个选项中比较小的信息。这样的项目或许更加倾向于测量注意力和推断能力而不是阅读理解或其他单纯的语言技能。6. 陷阱式问题对于一些老师来说，考试中他们总是想要出一些陷阱式问题。很难说出是否老师的目的是展示聪明，报复得使学生们发窘，或仅仅是确认测试的难度。关键是如此的

11、问题会导致不准确的测量和糟糕的教育学。考虑一下的例子：When is it not appropriate not to be absent from class?When you are sick.When you are young.While class is in session.Whenever the teacher is angry.注意到例子中的项目主体应用了双重否定结构，次结构严重违反了正常谈话交流时所能应用的话语结构。该项目结构更加合适的问法应为，“When should you be absent from class?” 陷阱式问题增加了猜测，糟糕的动机，对老师和目标语

12、言所产生的不友好态度，以及测量结果的不理想。7. 常识性知识回应尤其当测试阅读理解技巧的时候，项目或许测试普通知识。这种方式下，正确的答案或许在没有理解阅读文章的情况下被选出来。例子如下：We learn from this passage that Napoleon was a) British c) Polish b) French d) German 对于大多数人来说在没有阅读文章段落的情况下，答案是常识性的知识。匹配材料在测试阅读理解中，另外一个常见的错误是容许任务简并成选项中词语简单地与段落中的词语的匹配。不幸的是，在这种情况下，提供正确答案的人或许没有真正理解文章，但是仅仅是熟练与

13、词语的匹配。基于这种原因，出题人应该需要改变回应选项材料。通常的方法是认出题中的同义词，而不是文章中的确切词汇。冗长另一个可以避免的错误是在回应选项中重复一些冗长的材料。考虑下面的例子：The boy took the newspaperbecause he wanted to read it.because he wanted to wrap a gift in it.because he wanted to dispose of it.because he wanted to remove an article. 在这个例子中，应试者需要阅读多余的额外材料。这使得考试在这层意义上没有效率，

14、花费很多时间来明白所获得信息。对于同样项目一个更好的形式是： The boy took the newspaper because he wanted to a) read it. c) dispose it. b) wrap a gift in it. d) remove an article.10. 回应媒介在测试给定语言技巧时，准备测试的人有时有助于选项的不合适的媒介。作者发现测试阅读理解时，要求学生对书面问题给出简短句子回答比起多项选择，同义词/反义词选择，或是完形填空要差一些（Henning, 1975）。结果显示，回应被列出的方式是测量任务本身的一部分。项目设计者应该仔细确定回应

15、媒体应该与测试目的一致。第二节适合的干扰项选择我们或许会问什么样的干扰项选择技术将会提供出确实能吸引考生的合适的干扰项。为了达到目标，我们必须注意考生的语言输出。一种一直被使用的技术是对于干扰项来说的完形填空的使用。测试设计者管理着完形填空以及记录给定选项的错误回应。它被认为，错的最多的错误将用多项选择的形式使用并会成为最具吸引力的干扰项。留意学生们平时的作文或是比较随意的讲话例子也是非常有用的。比较常出现的作文错误会形成带有错误确认形式的理想的项目。下面的例子是用来测试第三人称单数的使用情况： A B C DThe man frequently / go walking alone / w

16、hen he is / tired or sad.这里的任务是将选项B挑出来作为含有错误的句子部分。但是句子本身的选择或许依据学生作文的一个常见的错误。这种方式下，错误可能不会被一些学生辨认出来。此外，这样的项目如果有适和的反馈，它会提高学生们的作文写作能力。第三节项目特征考虑完项目设计中可能出现的主要缺陷和干扰项选择后，我们来看项目分析的主体部分。尽管前面两章或许可以作为好的项目设计的准则，但是最终是要经过该试题被合适的样本考生提前测试过，并直到数据已经被采集和分析后才能确定，该项目是有价值的。一个项目最重要的特征之一是它的难度。通常来说，对于给定样本考生当测试因为测试方法不可靠而被拒绝时

17、，原因多半不是项目设计者的粗心，而是项目难度与考生能力的不匹配性。如果测试对于给定考生而言过于太难或太易时，该测试则显示出较低的信度。但是如果同样的测试配额与能力适当的考生想匹配的时候，该测试则会表现出较高的信度。1. 项目难度的意义项目：所谓项目(item)，就是构成一个测量工具的基本单位，在教育情境中，测量一般指测试或者考试，国内心理学界一般称测验。测量工具一般指的就是考试用的试卷（test）。项目就是构成试卷的一道道的小题目。由数个小题目组成的大题或者部分，一般不叫做项目，子测试或自测验（sub-test）。例如，一份英语试卷中有一道完形填空大题，该大题有一段有20个空的文章组成，这种情

18、况下，我们通常把每一个空看作一个项目，而不是把全部29道题目看成一个项目。项目难度的实质：项目难度就是项目的难易程度，有时用易度指数来表示，有时用难度指数来表示。如果用易度指数表示，难么它的量值越大，难度反而越小，项目也越容易。如果用难度指数表示，那么它的量值越大，则难度也就越大，项目也就越难。一个项目的难度，代表着这个项目关于所测量对象的量的多少。一个项目越难，说明我们能用它测量的量越大；反之，一个项目越容易，说明我们用它能测量的量越小。打个比方：一份完全有较难项目组成的试卷，就相当于一台量程较大的磅秤（譬如最大可以称500公斤），一份完全有较容易项目组成的试卷，就相当于一台量程较小的磅秤（

19、譬如最大可以称50公斤）。但是，在实际的教育和心理测量实践中，不同的测量对象对应的项目难度也不同，例如，难度测试的项目难度就不同于速度测试的项目难度。因此，在确定项目的难度参数时，一定要首先分清具体的测量对象以及性质。由以上的分析不难推断，关于项目难度的理论是测量理论的一个基本的、必不可少的组成部分。在一百年的教育和心理测量理论建设中，关于项目难度的操作化定义，一直是研究的焦点之一。本节，我们主要讨论难度测试和速度测试中项目难度的操作化定义。速度测试的测量目标速度测试的目的是测量受考完成任务的速度。一般情况下，对于速度测试我们假定，如果有足够长的时间，受考应该做对或者几乎做对任何一道题目。因此

20、，在速度测试中，如果一个受考把某个题目做错了，我们认为这位受考不是不会做这道题，而是没有时间做。可见，速度测试中一个项目的难度，实际上取决于一组受考对这个项目做出正确反应所用的时间。虽然速度测试一直是教育和心理测量中的形式，但对于速度测试项目的定量分析，也一直是一件颇令教育和心理计量学家头痛的事。余嘉元(1987:178)指出，虽然很多学者对速度测试的项目分析方法做了研究，至今仍然没有一种令人满意的结果。Anastasi和Urbina(1997:194)提醒我们最好记住，关于速度测试的项目分析结果是可疑的，应该谨慎对待。事实上，情况本不应该这么糟。早在20世纪50年代，Georg Rasch

21、在研究朗读速度的客观测量问题时，已经提出了速度测试项目难度分析的思路和方法，并记录在他的那本木册子一些智力和成就测试的概率模型之中。但是，由于在教育和心理测量界，人们对智力或能力测试的兴趣一直远远压倒对成就测试的兴趣，Rasch在成就测试方面的遗产一直未被发觉，尽管引起Rasch特别关注特定客观性的是成就测试，而不是智力测试。今天我们常说的Rasch项月反应模型实际上是在客观成就测试理论成功的基础上发展出来的智力测量模型，而且那本小册子也主要是关于成就测试的。下面是Rasch关于速度测试项目难度分析的思想。 2. 项目区分度测试项目中另一个重要特征是一个项目如何在要测试的能力上把好的考生与差的

22、考生区分开来。依据项目难度本身不能最终拒接或接受一个给定项目。例如，在一个给定项目中，一半的考生通过，一般的考生没有通过。如果用项目难度作为唯一的标准，我们将视该项目为一个理想的项目。但是，如果我们发现通过考试的考生是被测试能力本该弱的一般，而没有通过的考生是被测试能力本该强的一半。那么，该项目的持久性会受到质疑。如果我们的测试全部由这样的项目组成，一个高的分数将会意味着低能力，低分数则意味着一个相对能力。在这点上，我们需要的是一种区分地计算项目的方法。项目的区分度和区分力一个项目的区分度是这个项目区分性能的量度。在项目分析中;有关项目区分性能的定义很多，已经提出和投入使用的项目区分性能指

23、数就有五十多种9（Anastasi和Urbina，1997：182）。其中绝大部分指数都是关千项目在多大程度上能够把受考在所测量的目标或对象上区分开来的。为了有所区分，在本书中，我们管前者叫项目区分度（discrimination），管后者叫项目区分力（power of discrimination）。区分力和区分度差别很大。区分力只能告诉我们一个项目能把受考区分得多么开，但是它不管区分对了还是错了。如果用方差定义的区分力，一个项目的区分力最大为0.25。假定有一个项目，我们把它施测于一组受考以便做项目分析，测试结果是：50%总分高的受考全部答错它，其余50%的总分低的受考全部答对它。显然，

24、这是一道再差不过的项目了，然而，它的区分力仍然很大。如果还有一道题目，测试结果是:50%的总分高的受考全部答对它，剩下的50%的总分低的受考全部答错它。显然，这是一道再好不过的题目了。不幸的是，如果用方差表示的区分力鉴别这两个项目，它们两个具备同样高的质量，这种结果显然是无用的，甚至是有害的。这一可能事实说明，严格区分项目区分度和区分力的实践意义。项目区分度的实质一个项目的区分度，就是这个项目正确鉴别不同受考在所考目标方面的能力，其实质很像一般衡器的灵敏度。例如有一袋大米，已知这袋大米的重量是10斤。如果有一台磅秤，用它称这袋大米，也能称出它是10斤，可是从袋中拿走半斤米或往袋里再加半斤

25、米，其结果还是10斤。显然，这是一台很不够灵敏的磅秤。同理，如果我们把一道题目施测于一组受考，他们中间水平高的和水平低的答对这道题目的比例差不多，我们就说这道题目的灵敏废差、区分度低。如果对于一道题目，水平低的受考反而比水平高的受考答对率高，我们就说这道题目是一道坏题目，是一道破坏性的题目。如果我们把测试看作一种测量，我们测试用的工具-试卷就相当于一台衡器。显然，对于一台衡器;它的灵敏度是至关重要的。同样的道理，对于一份试卷，每道题目在既定测量目标上的区分度也是非常重要的，这不仅关系到测量结果的信度，也关系到效度。如果一道听力试题和听力部分总分的相关较高，这道题目对于听力部分的内部一致性信度的

26、贡献量就大;如果除此之外，这道题目跟其他外部准则的相关较高，这就为这道题目测量的确实是准则变量所测量的目标提供了坚实的效度证据。如果一道题目同时满足这两个条件，它当然是一道很好的题目。一般说来，项旧区分度是项目的质量指标。对于以区分为目的选拔性测试，满足既定的区分度水平是项目合格的必要条件。换句话说，如果一个项目的区分度不够高，这个项目要么需要修改，要么需要彻底淘汰。但是，对于以检验教学大纲为目的的测试，区分度只是衡量项目质量的一个重要条件，但绝对不是必要条件。也就是说，即使一个项月的区分度很低，也不一定要修改或者淘汰，而是要根据教学大纲认真核对罩下该项目，看它考的是不是教学大纲规定的内容，如

27、果是选择型题，还要分析干扰项是否与教学大纲的规定内容有关。如果确系大纲要求的内容(尤其是重要内容)，区分度再低，该项目也应该保留。第四节经典项目分析理论和项目反映理论 1. 经典项目分析理论我们这里谈论的项目分析测试指的是客观测试。传统上，有两种方法能够计算测试的项目，难度和区分度指标。Facility Value (F.V.)测试的是项目的难度水平，discrimination index (D.I.) 测试的是个体项目结果与整个测试结果的相关程度。项目难度一个项目的难度是指学生答对项目的百分比，在前面我们以及提到了相关的基本概念。例如，如果有300个学生，150个学生答对了项目，那么该项

28、目的难度是150/300，业绩是0.5。这种简单的测量能够立刻给项目设计者相应该项目对于样本受考有多么容易的概念。如果难度是6/300，那么难度是2%，很显然该项目很难。同理如果难度是285/300（95%），项目就显得很容易了。因为这样的项目无法很好区分受考学生的能力区分程度，那么该项目就不具有信息价值了。举一个极端的例子，如果一个项目的难度是0%，除了该项目非常非常难外，此项目没有任何信息价值。如果项目设计者需要从考试结果中分数分布广泛的结果，如果他们需要学生的分数从非常高到非常低的话，那么，他们选择项目的难度应该尽量接近于50%。然而，如果测试者需要一个特定的难度水平，他们可以通过选择合

29、适的难度的项目从而达到自己所需的平均分数（mean score）。例如，如果学生在测试中的平均分数是70%，所有项目的平均难度是70%，那么测试必须有很多难度超过70%的项目。如果测试的指导者需要项目更难一些，他们可以去掉容易的项目，去掉一些项目F.V.超过80%，这样平均的F.V.就会变低。项目区分度指数项目区分度指数是项目区分的测量方法，d(d)来表示。项目区分的这个估计值本质上是比较给定项目中连续测试分数分布中的高分与低分区域。如果分数分布正常，低分与高分的最佳分界线是分数分布的上下27%（Kelley, 1939）。如果测试分数比较集中，那么最佳分界线会变得更大，接近33%（Curet

30、on, 1957）。Allen和Yen(1979,p.122)认为，对于大多数应用，任何介于25到33之间的分布都将产生相似的估计值。项目区分度指数是高分答对该项目的比率与低分答对项目的比率之差；d值越高，高分答对此项目的人数越多。d的负值意味着该项目亮红灯，因为它暗示着低分的受考会比高分的受考更加可能可能答对该项目。这种情况需要采取行动，例如修改项目或去除项目。2. 项目反映理论经典项目分析理论的主要局限性是它无法提供一个令人满意的基础来预测一个受考将如何在给定的项目中表现。主要有两个原因：第一，经典项目分析理论没有提供假设在个体的能力水平是如何在测试中影响他表现的方式上。第二，预测个体在

31、给定项目中的表现的唯一信息是难度指数，p，它仅仅是答对给定项目中个体的比例。因此，唯一可用来预测个体将如何回答一个项目的信息是给定项目中受考团体的平均表现。然而，显然在预测个体在给定项目中的表现时，个体的能力水平是一个重要的参考因素。当然，一个具有高水平能力的受考与一个具有相对低水平能力的受相比较时，前者往往将被期待在一个难得项目中有更好的表现。因为该理论的局限性，测试心理学家根据个体水平能力与个体测试表现建立了模型。这些模型都基于最根本的原理：个体在给定测试项目中的表现是项目难度水平和个体能力水平的函数。这些模型被称为“项目反映”模型，以此基于的理论被称为项目反映理论（IRT）.单向度性假

32、设与经典理论比较，项目反映理论是基于更加大，更严格的假设，所以能够作出关于给定项目中的个体表现，能力水平以及项目的特征更加有力的预测。为了考虑到测试受考的能力水平信息，项目反映理论必须对被测试能力的数量提出假设。现在应用的大多数模型的假设是测试中的项目测量单一或单向度能力或特征，项目形成了测量的单向度规模。项目特征曲线除了上面提到的总的假设外，每一个具体的项目反映理论模型对于在给定项目中测试受考的能力与表现作出具体的假设。这些假设能够清楚地用数学公式或表示其关系的项目性格曲线来表示（ICC）这些项目性格曲线是项目反映理论模型的基石。曲线显示了受考个体通过给定项目的可能性和他能力水平的假设关系。

33、不同模型的形式，用来表示项目特征曲线的项目本身特征的信息或参数，这些形成了模型的不同特征。数学模型决定了项目特征曲线。项目特征的信息种类包括：(1)不同能力水平中项目区分度（区分度参数a）(2)项目难度水平（难度参数b）(3)低能力水平受考答对项目的可能性(猜对机会c)当其基本形式确定下来以及给定项目参数已知，项目的特征曲线便可以完全界定。在应用反映理论模型中一个重要参考因素是项目参数的估值。一个项目反映理论模型包含用来描述项目特征曲线的三个参数。三参数模型简短阐明项目特征曲线的特征。模型明确说明，能力水平与一个正确回应的可能性关系为非线性，并且它是一个关于所有三个参数的函数。图4.1 三参数

34、项目特征曲线在上图中，能力范围由水平轴线表示，其平均值为0，标准方差为1。正确回应的可能性有垂直轴线表示，理论上其范围油0到1。代表三个项目的特征曲线是（1），（2）和（3）。第一，我们可以看出猜对可能参数c对于三个项目都是一样的（p=0.20）。在这个模型中，该参数限定了项目特征曲线的下线。第二，难度参数b被定义为能力水平，在该水平上，一个正确回应的可能性是介于猜对机率参数c与1之间（图中显示为0.60）。项目（1）难度参数为-0.20，是最容易的项目。而项目三难度参数为+2.0，是最难的项目。也就是说，能力水平低的受考（低于平均值2个标准方差）有60%可能性答对项目（1）。然而，低于或高于

35、平均能力一个标准方差个受考会完全答对该项目。对于项目（3），只有高于平均能力一个标准方差的受考才有更大的机会答对此项目。在难度参数点上，区分度参数，a，与项目特征曲线的斜率成比例并且项目根据区分度参数的变化而变化。斜率越高，区分度参数越大。因此，拥有最低斜率的项目（2），其项目区分度也最低。换句话说，最为测量能力不同的函数，该项目的正确回应可能性是几乎没有变化的。此外，项目（1）和（3）拥有更陡的斜率，在不同能力水平的受考中，其区分度会更加的有效。比较普通的另外两个项目反映理论模型是二参数模型。该模型假设，低能力个体将没有任何机会作出正确回应。所以，猜对机会参数实质上是0。一参数模型（Rasc

36、h模型）中，所有项目区分度被假设相等，换句话说，该假设认为没有猜对机率。值得注意的是，尽管三参数模型用来使用英语测试的发展和分析，但是大多数项目现今反映理论的语言测试应用一直使用的是Rasch模型（例如，Davidson和Henning1975; Griffin1985; Henning et al. 1985; Madsen和Larson 1986; Pollitt和Hutchinson 1987; Larson 1987; Madsen 1987; Adams et al. 1987; Henning 1987）。第五节测量方法及结果分析在这一部分，主要介绍在项目分析中常用到的公式以及如

37、何计算经典测试中的项目难度和项目区分度，以及干扰度、干扰区分度和干扰灵敏度的计算和解释以及相关的注意事项。1. 常用概念解释在介绍测量方法以及测试结果之前，在这一部分我们先将前面所介绍的概念总结一下，这将便于学习者在使用公式的同时可以快速的查找到相应的概念，同时也是对前面的内容作一个简要的回顾。1项目（item）：构成测量工具的基本单位,即试卷中的一道道小题目。2子测试/子测验（sub-test）：由数个小题目组成的大题或者部分。3错对型项目：（true-false item）就是其答案只有错或者对这种可能。4非错对型项目：(non true-false item)如果一个项目的答案不是非错

38、即对这两种可能，而是在错、对之间有多种5可能程度的答对（percentage of correct answers），其中完全答错，就是0%答对，完全答对就是100%答对。（例如简答题，填空题等）6测量：(measurement) 在教育情景中，测量一般指测试或者考试，也称测验。7测量工具：（instrument of measurement）考试用的试卷。8易度指数（facility index）：即项目的容易程度。量值越大，难度越小，项目越容易。易度指数倒数（inverse of facility index）关于项目难以程度的一种定义方式，用1/易度指数定义9难度指数：(powe

39、r index)即项目的难度。量值越大，难度越大，项目越难。10项目的难度：(item difficulty)这个项目所测量对象量的多少。一个项目越难，测量的量越大。项目容易，测量的量越小。11校正后项目难度：(corrected item difficulty) 对于存在猜测因素的项目（例如选择，判断对错等。），扣除或校正猜测得分对难度影响之后的难度。成绩率。13成绩率：(accomplishment rate) 就是一组受考在一个项目上的平均成绩与这个项目完全做对时的成绩比率。14 易度指数补：( complement of facility index) 易度指数补越大，项目越难。15项

40、目反映理论（item response theory）：根据受考对于一组项目的反映结果来估计英气受考做出这种反映的潜在能力的理论。16项目反映理论中的核心是一组项目反映函数（item response function）,项目反映函数通常又叫项目特征曲线（item characteristic curve）17项目的难度：（difficulty）在教育和心理测量界，一般假定一大批人的能力或水平都呈正态分布。于是我们可以把一个项目施测于一组数量足够大的受考，并假定这组受考在项目所测量方面的水平呈标准正态分布(normal distribution)。这样，就可以把项目的易度指数难度当作标准正态

41、曲线下自右向左的面积，通过反差正态分布表就可以确定一定易度指数所对应的Z值（Z scores）。18项目反映理论（item response theory）中的项目难度：根据受考对于一组项目的反映结果来估计引起受考做出这种反映的潜在能力理论。19项目反映理论的核心是一组项目反映函数（item response function）,项目反映函数通常又叫项目特征曲线（item characteristic curve）.20常用的反映函数总共有三个：但参数逻辑斯蒂模型，双参数逻辑斯蒂模型和三参数逻辑斯蒂模型。用以测试项目的难度。21逻辑斯蒂函数(Logistic equation)：22速度测试(

42、 speed test) 的目的：测量受考完成任务的速度。23速度测试中的项目难度：取决于一组受考对这个项目做出正确发应所用的时间。体现在受考成功完成该项目所用时间的多寡，用时越多，项目越难，用时越少，项目越易。24速度测试的原始数据收集( raw data collected)：精确纪录下每个受考成功完成各个项目所用的时间。25项目的区分度：这个项目区分性能的量度。项目的质量指标。区分度指数作行为项目能力指标。用于筛选为目的测试的参考指数。26项目区分度（discrimination）:关于项目在多大程度上能够把受考在所测量的目标或对象上正确区分开来。27项目区分力（power of dis

43、crimination）：项目在多大程度上能够把受考在所测量的目标和对象上区分开来。一个项目能把受考区分得多么开，但它不管区分对了还是错了。只是做区分，不能够估算项目的好坏。28题目的灵敏度( sensitivity)：如果把一道题目施测于一组受考，他们中间水平高和水平低的答对这道题目的比例差不多，我们就说这道题目的灵敏度差，区分度地。29坏题目/破坏性题目：(interference item) 如果对于一道题目，水平低的受考反而比水平高的受考答对率高，我们就说这道题目是一道坏题目，也是一道破坏性题目。30项目合格的必要条件：对于一区分为目的选拔性测试，满足既定的区分度水平是项目合格的必要条

44、件。以检验教学大纲为目的的测试，区分度支使衡量项目质量的一个重要条件，但绝对不是必要条件。如果确系大纲要求的内容，尤其是重要内容，区分度再低，该项目也应该保留。31干扰项( distractor) 的一般原则 (general principle of distractor)：对于任何一个干扰项，都应该做和答案项一样严格的分析。在分析一个项目的干扰项时，我们也要分析干扰项的“难度”（即干扰力的大小）和它的“区分度”。32干扰度（foil）：是干扰项干扰力度的大小的量度。（选择它的人数越多干扰力度越大，选择它的人数越少，干扰力度越小。）33干扰区分度 (distractor discrimin

45、ation)：是干扰项的区分度，用于常模参照测试中的项目干扰分析。34干扰灵敏度 (distractor sensitivity)：是干扰项的灵敏度，用于标准参照测试中的项目干扰分析。2易度指数估算项目的难度 1. P：易度指数； R: 做对人数（参与考试的一组人数中，有R个做对了）N：一组受考总数；注意事项：1) 用易度指数定义的错对型项目难度。2）R 值越大，P值越大，题目越容易。2. R: 做对人数（参与考试的一组人数中，有R个做对了）N：一组受考总数； cP：校正后的项目难度 A：一道有A个备选答案的项目注意事项：1) 存在猜测因素是项目难度的计算。 2）cP为扣除或较正猜测得分对

46、难度影响之后的难度。 3）cP值越大，题目越容易。测试项目易度3. ：一组受考在一个非错、对型项目上的平均成绩。XMAX：该项目的满分注意事项：1) 非错对型项目的难度的计算 2）P值越大，题目越容易。测试项目易度。4 P：易度指数； R: 做对人数（参与考试的一组人数中，有R个做对了）N：一组受考总数； q：不存在猜测因素的易度指数补注意事项：1）不存在猜测因素是项目难度的计算。测试项目那度。 2）q越大，题目越难5P：易度指数； R: 做对人数（参与考试的一组人数中，有R个做对了）N：一组受考总数； cP：校正后的项目难度 A：一道有A个备选答案的项目 cq：校正后的易度指数（存在猜测因

47、素时的项目）注意事项： 1）存在猜测因素是项目难度的计算。 2）校正后的易度系数补，cq越大，题目越难。6 ：一组受考在一个非错、对型项目上的平均成绩。XMAX：该项目的满分 q：不存在猜测因素的易度指数补注意事项： 1）非错对性项目难度补的计算。用于测试项目难度。 2）不存在猜测因素，因此不需要校正。q 越大，题目越难。3难度指数计算项目的难度1项目难度指数R: 做对人数（参与考试的一组人数中，有R个做对了）N：一组受考总数； XMAX：该项目的满分 H：项目难度指数A：一道有A个备选答案的项目：一组受考在一个非错、对型项目上的平均成绩。注意事项： 1）H为易度指数的倒数 2）H越大，题目

48、越难。用于测试项目难度。 3)2 项目的难度：=4Z +13注意事项：1）假定该组受考在项目所测量方面的水平呈正态分布。2）Z的取值范围在-3和3 之间。4项目反映理论中的项目难度测试单参数逻辑斯蒂模型：双参数逻辑斯蒂模型：三参数逻辑斯蒂模型：p: 一个项目做出正确反映的概率：受考能力 bi: 项目i 的难度D=1.7 或1.72 /也用来表示项目区分度指数e=2.71828 （自然对数的底）ai :项目i的区分度 ci: 项目i的猜测度注意事项：项目反映函数种的难度参数是能力维度上的量。受考的能力和项目难度的关系。易度指数以及易度指数补和项目反映理理论中的P（正确反映的概率）是定义项目难度但

49、参数模型和双参数的模型中的难度就是以50%的概率大队这个项目的受考的能力值。三参数模型中的难度参数出现在存在猜测因素的题目中，不再是一50%的概率答对一个项目的受考能力值，而是以的概率答对一个项目受考的能力值。或者，用一组大量的、难度相等或者几乎相等的项目施测于一个受考，这个受考答对了其中的百分之的项目，这个受考的能力就是这组项目的难度参数值。这组受考的能力值或者能力均值就是这个项目的难度参数值。5速度测试中的项目难度的估算一组受考完成一个项目所用的平均时间Xr: 成功完成参照项目所用的时间Hs: 速度测试的项目难度（s: speed-test; r: reference）注意事项：该组受考成

50、功地完成这组项目的平均时间成功完成一个项目用时超过该平均时间的项目，其难度大于1用时少于该平均时间的项目，其难度小于1用时等于该平均时间的项目，其难度等于1。在实际的测试中，记录大队题目的个数，题目的数量要足够的大，务必使受考无人能全部做完。如果某个受考作错了试卷中的某个项目，他就不能参加该项目的分析。 6项目区分度的计算区分度指数计算 D=PH-PL注意事项：区分度指数的最大值为1（总分高分的该项目全部做对，总分低分没有做对该项目的），最小值为-1（总分高分的该项目全没有做对，总分低分的该项目全做对）。对于多项选择型的题目，区分度指数的最大值一般是达不到1 的。区分度指数作为项目区分能力

51、的指标，衡量结果参照下表：项目区分度指数与项目的质量评价区分度指数项目质量等级0.4以上非常好0.3-0.39良好，但可能有待改进0.20-0.29勉强可以，通常需要且有待改进低于0.19差，淘汰或改写Sources: Ebel, R.L.&Frisbie, D.A.(1986). Essentials of educational measurement (4th ed).Englewood Cliffs, NJ: Prentice Hall.， P234 项目分-总分相关系数区分度计算（1）点二列相关系数区分度计算rpb: 二列相关系数 np: 标准受考样本中答对该题的人数nq: 标准受

52、考样本在中答错该题的人数p：受考样本在该项目上的答对率 q: 受考样本在该项目上的答错率：为标准受考样本中答对某项目的手铐在参照准则上的评分：为标准受考样本中答错某项目的手铐在参照准则上的评分：为全体标准受考样本参照准则上的平均数S：标准受考样本在参照准则上的分数的标准差注意事项：项目采用错、对形式。项目和准则分数间的相关系数。用于区分和定额选拔为目的的测试（2）积矩相关系数区分度的计算S：标准受考样本在参照准则上的分数的标准差s: 标准受考样本在该项目上的分的标准差xi: 标准受考样本中受考i在该项目上的得分X：标准受考样本在参照准则上的平均分Xi: 标准手铐样本中受考i 在参照准则上的得

53、分注意事项：项目采用非错对形式项目和准则分数间的相关系数。（用excel软件计算，用“=correl”）用于区分和定额选拔为目的的测试7项目灵敏度的计算为使测试公平，用项目灵敏度这一概念重新定义项目区分度。把区分度指数计算公式中的低分组的答对率改称一组学生学习前在一个项目上的答对率，把高分组的答对率改称这组学生经过学习后在该项目上的答对率，并用学习之后的答对率和学习之前的答对率之差定义区分度。把这样定义的区分对称为项目的灵敏度指数（sensitivity index）. （1）错对型灵敏度计算DS 为项目灵敏度指数Ppost为经过学习后一组手铐在该项目上的答对率Ppre 为学习前这组手

54、铐在该项目上的答对率Rpost该组受考学习后答对该项目的人数Rpre 该组受考学习前答对该项目的人数注意事项：灵敏度指数最大值是1，最小值是-1。对于选择性的项目，灵敏度指数的最大值一般达不到1。四选一型项目最大灵敏度指数为0.75；五选一，其最大灵敏度指数为0.80。（2）非错对型灵敏度计算DS 为项目灵敏度指数Ppost为经过学习后一组手铐在该项目上的答对率Ppre 为学习前这组手铐在该项目上的答对率: 该组受考学习之前在一个项目上的前平均成绩:该组受考学习之后在一个项目上的前平均成绩Xmax：该项目的满分成绩注意事项：用于检验学生的学习效果，对基础知识的掌握程度一般最好不要低于0.4

55、如果一个项目的灵敏度指数达到我们的最低要求，我们可以认为这个项目质量达标，可以编入试卷或者收入题库。对于选择型项目，如果他们有似是而非的措辞或者似是而非的干扰项，而且该项目优势非靠不可的重要内容，那么这个项目就得保留。对于非选择型项目，如果表述确切且无任何含糊之处，而且问题系大纲规定的重要内容，灵敏度再低这个项目也要用。对于标准参照性测试，项目灵敏度高是项目质量的充分条件；对于常模参照性测试，项目区分度告示项目质量的必要条件。8项目反映理论中区分度和难度的关系对于双参数和三参数模型，如果我们在项目反映函数的图像上找出一个点，在这个点上，即能力正好等于该项目的难度，项目的区分度就是一个和项

56、目反映曲线在该点的斜率成正比的参数。因为定义区分度的这一点正好呵项目的难度对应，所以我们说他们之间的颚关系仅仅是参照关系；又由于项目的区分度与项目难度的大小无关，因而我们说他们之间没有任何依存关系。（邹申，2008）对于多选择型项目，存在着很大的哀册因素，这样区分度的极大值就包含了很大的水分。为了解决这个问题，席仲恩（ 2003a）建立了关于项目难度和区分度极大值之间的一般函数关系，不仅仅概括了灭有擦侧因素的非选择性项目，也概括了由各种猜测因素的多项选择型项目。Dmax=2-2P.(a)Dmax =2P-2/A.(b)Dmax: 项目区分度指数的极大值P：项目易度指数A：备选项个数注意事项

57、：对于非选择性项目，无猜测因素因此A=。在P0.50时用公式(a)在 P0.50时用公式(b)对于多项选择性题目，P0.50+1/A时用公式(a)在 P0.50+1/A时用公式(b)（转引自邹申，2008）9干扰项干扰度在分析一个项目的干扰项时，同样也要分析干扰项的“难度”，即干扰力的大小和它的区分度。干扰度是干扰项干扰力度大小的量度，对于一个干扰项，选择它的人数越多，它的干扰力就越大；反之亦然。干扰度是一个介于0和1 之间的小数。对于一个干扰项，其干扰项不可太强也不可以太弱。不同选择型项目的干扰度如下表所示项目类型干扰度五选一型0.25四选一型0.33三选一型0.50设定A为备选项的个数，其

58、中有一个为答案项，在实践中只要不偏离1/（A-1）太大就可以。干扰度的分析公式如下所示：F：干扰项的干扰度n: 选择该干扰项的人数w: 大错该项目的人数干扰区分度和干扰灵敏度干扰区分度是指干扰项的区分度，干扰灵敏度是指干扰项的灵敏度，前者用于肠膜参照测试中的项目干扰分析，后者用于标准参照测试中的项目干扰分析。二者之间的具体区别如下所述：对于答案项而言，其区分度或者灵敏度越高，该项目质量越高。对于干扰项而言，其干扰区分度和干扰灵敏度越低越好。干扰区分度和干扰灵敏度应该是负值，而且其绝对值越大越好。即总成绩高的受考选择它的比例小，同时也希望总成绩低的受考选择它的比例高。第六节项目分析的其他考

59、虑因素1猜测在测试中，如何解决受考猜测的问题一直是困扰着语言测试学者们的问题。尽管有关纠正猜测的一些不同步骤已经出版，但是没有一个证明是令人满意的。原因是猜测问题要远远比它最初出现是复杂的多。考虑到以下猜测问题要满足的三个标准以及提出的互动问题，我们就知道原因了。(a) 纠正猜测必须要意识到，当受考在给定测试中答题时，猜测不完全建立在随机的基础上。我们可以更加合理地假设，受考测猜测是建立在对一些该科目理解上以及排除一个或更多干扰项的能力。然而，个体受考对该科目的知识程度将随着项目的改变而改变。(b) 猜测的纠正必须要考虑遗漏项目的问题。有时，受考没有猜测，只是遗漏了一个项目的作答。是否该遗漏项目被判定为错误？是否被遗

人人文库> 全部分类> 办公材料 > 对照材料

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第七章测试项目分析

文档简介

温馨提示

最新文档

评论

第七章测试项目分析

文档简介

温馨提示

最新文档

评论

相关文档