课后练习答案-第7章_第1页
课后练习答案-第7章_第2页
课后练习答案-第7章_第3页
课后练习答案-第7章_第4页
课后练习答案-第7章_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第7章课后习题详解1.语言测试发展大致经历了几个阶段?每个发展阶段有什么不同的特点?答:语言测试的历史可以追溯到19世纪末、20世纪初,大体经历了四个主要的发展阶段,每个发展阶段的特点包括:(1)传统时期或前科学时期(自20世纪初~50年代初)这一时期,语言测试基本上不是在语言学理论的指导下开发的,测试方法主要是作文、口试、翻译等,测试结果主要靠考试实施者的直觉来评判,缺乏科学性。(2)心理测量——结构主义时期或科学时期(20世纪50年代末、60年代初~70年代)这一时期的语言测验以结构主义语言学为理论基础,同时,心理学的行为主义理论以及心理测量学的原则和方法对语言测试起到了重要的指导作用。这一时期,语言测试已经成为一个相对独立的学科并日趋走向成熟,一个标志性的转折点就是RobertLad0于1961年出版了著名的《语言测试——外语测验的开发与使用》,这本书是第一部全面论述语言测验的原理、原则和方法的专著,可以说RobertLad0是现代语言测试的创始人。这一时期的主要测试方法是所谓分力式测试。从测量学的角度看,这一时期特别重视测验的信度。(3)心理语言学和社会语言学时期或后现代时期(20世纪70年代~80年代初)这一时期,语言测试的语言学理论基础从结构主义语言学转向了社会语言学,测验更多地关注如何从功能性、社会性和语言应用的角度考察被试,测试方法从分力式转向了综合式,新的测验形式如完形填空(clozeTest)等应运而生。这一时期,语言测验的效度问题得到了足够的重视,语言测试专家对语言测验究竟测到了什么东西这样的问题进行了深入的探索,提出了一些假说,是著名的就是JohnOuer提出的“一元能力”假说(unitarycompetencehypothesis),Ouer认为语言能力是一个单一的能力并用因素分析的方法验证自己这一假说,产生了广泛的影响。(4)交际法语言测试时期(20世纪80年代初至今)70年代末到80年代美国语言教学界开展了一场“水平运动”(ProficiencyMovement),很多语言教学界人士认为,语言教学以及语言测验要以语言水平为中心,而语言水平表现为交际的能力。这场运动的一个直接成果就是1982年美国外语教学委员会(AmericanCouncilonTeachingofForeignLanguages,简称ACTFL)制定的一个水平大纲(ACTFLGuidelines)。同一时期,欧洲相继出现了建立在语言交际理论基础上的《功能意念大纲》和《交际大纲》。这些文件对语言测验的开发有很强的指导作用。这一时期,人们更多地把注意力集中在探讨语言交际能力方面,在语言测试研究领域,到1990面,Bachman在Canale和Swain模型的基础上提出的语言交际能力模型,成了语言测试发展史上一个新的转折点。2.语言测试的主要作用是什么?举例谈谈语言测试在语言教学研究中的作用。答:(1)评价学习者的学业成就和语言水平、评估教学效果、选拔人才、改进教学中的问题语言测试是语言教学的重要环节,有教学就会有测试,语言测试任何时候都没法脱离教学,几乎每一个语言教学工作者都会接触到各种各样的语言测验。但语言测验的作用又不仅仅局限于教学。(2)为语言研究和语言教学研究提供信息语言测验作为一种测量工具,是语言研究和语言教学研究的一个重要手段。人类的语言是一个非常复杂的系统,直至目前为止,人的语言能力还是一个“黑箱”,它究竟是由哪些东西构成,还没有人能说清楚。对于各种各样有关人的语言能力的假说,都需要实证性的数据的证实或证伪,而语言测验恰好在这方面可以充分发挥作用。从语言测试的角度看,第二语言习得研究的发展一定会带动语言测试研究,而语言测试研究也一定会为第二语言习得研究提供更为可靠而游戏的方法和手段,可以说语言测试大有用武之地。3.客观性测验与主观性测验各有什么利弊?答:(1)主观性测验主观性测验的正确答案一般不止一个,而且往往不是实施测验前能够确定的,需要评分员在评分过程中自己作出主观的判断,对于同样的考生答案,不同的评分员很可能会有不同的评判。①主观性测验的优点a.考察有深度和层次主观性测验能够使被试有足够的发挥自己水平的余地,特适合考查被试语言运用的能力和产出性技能,特别是书面表达能力和口头表达能力。像作文这种主观性测验,一般认为比一些客观性测验更能直接测出被试的书面表达能力,因而更有效。b.命题容易考写作一般只需要一两个、两三个题目就可以了,口试即使是采取面试的形式,主考人一般也不需说过多的话,而主要把说话的机会留给被试。c.某种程度增加了测验对考生能力的区分作用由于答案不惟一,而且不像选择题那样正确答案包括在几个给定的选择项里,因此被试很难猜测。②主观性测验的缺点a.评分结果的偏差由于评分标准不详尽周到,不同的评分员理解和把握评分标准会存在差异,评分结果很难完全一致。即使评分标准十分详尽,但由于评分标准带有命题人或标准制定者个人倾向等主观色彩,评分员会因有不同看法而不认可事先制定的评分标准,这样,评分员在评判被试答案时就会发生偏差。另外,评分员自身的条件或因素,如水平、经验、态度、情绪等也会影响评分质量。评分的不一致使主观性测验的信度难以保证。b.评卷费时费力,工作量大虽然命题柔以,省时省力,但阅卷评分时却费时费力,工作量很大,因此,如果考虑到人力、物力、财力的因素,大规模的语言考试就很难采用主观性测验形式。(2)客观性测验客观性测验是指事先规定了答题方式、答题范围和标准答案,在评分过程中不需要评分员主观判断对错的测验。①客观性测验的优点a.题量大,内容覆盖面广一份测验有100多甚至200个题目,可以包括的测试点非常多,因此可以比较全面地了解被试的语言知识和语言技能,特别是接受性技能,例如听力理解技能和阅读理解技能。客观性测验的长度在很大程度上保证了测验的内部一致性信度。b.评分简单、客观由于事先规定了答题范围和标准答案,评分非常简单、客观。另外,像多项选择题这样的客观性测验题目,一般都可以由光电阅读机来阅卷,因此评分误差很小,而且极其省时省力。c.为测验质量和特性的科学性研究提供条件由于客观性测验多采用0/1记分的方法,分数是连续变量,再加上被试样本一般比较大,因此可以满足统计学上的一些要求,例如正态分布、分数等距等,这为测验质量和特性的科学性研究提供了条件。②客观性测验的缺点a.不太适合测试出性语言技能和综合运用语言能力十多年来,用客观性测验题目来比较间接地考查写作能力和口语水平的尝试,虽然信度很高,但其效度一致受到质疑。b.测验分数不完全是真实能力水平客观性测验题目,特别是多项选择题,都可以靠猜测来答题,四选一形式的多项选择题猜对的可能性是25%,而是非判断题猜对的可能性就是一半,这样被试的测验分数并不完全是他真实水平的体现。近年来多项选择题等客观性测验题目遭到了很多批评。c.题目的编制费时费力编制客观性测验题目比编制主观性题目要费时费力得多,特别是多项选择题的设计和编制对命题人员的经验、命题技巧等各方面的要求很高,每一道高质量的多项选择题都需要反复的推敲和打磨。4.举例说明什么是分力式测验?它的理论基础是什么?答:(1)分力式测验的内涵分力式测验是建立在结构主义语言学理论基础上的一种测验,它把语言分解成语音、语法、词汇等不同的语言要素或语言点来测。分力式测验中的一个项目只测试被试对某一个具体的语言知识或语言要素是否掌握例如了解被试者是否掌握某一种语法结构,是否认识某一个单词,是否会写某一个汉字。很多语言测验(如TOEFL、HSK等)都包含分力式测验的部分,如初中等汉语水平考试(HSK[初中等])的第二部分“语法结构”就是典型的分力式测验,这一部分一共有30个题目,每个题目分别测试一种句型结构或一个虚词,考生在这30个题目上的总得分被看成是其语法知识水平的体现;HSK(初中等)中的“阅读理解”的第一小部分“词汇”也是分力式测验,一共有20个题目,每题测试一个单词。传统的课堂测验很多也是分力式的。分力式测验往往采用多项选择题、是否判断题等题型,因此评分客观、准确、可靠。从测验编制的角度看,分力式测验命题针对性强,测试点容易明确。(2)分力式测验的理论基础分力式测验是建立在结构主义语言学理论基础上的一种测验。5.为什么说语言测验的开发是一个系统的过程?这一过程主要包括哪些步骤和环节?答:(1)语言测试的开发是一个系统的工程语言测验的开发是一个系统的过程,这一过程既包含研制测验也包括使用测验。为了保证我们所开发的测验有较高的科学性和可行性,我们需要遵循一定的步骤,并对每一个步骤都实行质量监控。Bachman和Palmer在《语言测试实践》一书中用一张图示意语言测验的整个开发过程。如下图所示:(2)语言测试开发的步骤和环节语言测验的开发大体需要三个阶段,即设计阶段、操作化阶段和实施阶段,每个阶段都有一系列的任务需要完成。①设计阶段在设计阶段,需要对测验的几个重要方面作出详细的描述。a.对测验目的的描述任何一种测验都有区别于另一测验的特定的目的,有的是为了评价学生的学业成就,决定学习者是否成功地完成了学习任务;有的是为了估计被试的语言熟巧程度,以确定被试能够用语言做什么;有的是为了诊断教学过程中出现的问题,从而为改进教学提供反馈信息;有的则是为了判断学习者的能力倾向,从而选拔出有潜力学好语言的人才。在设计阶段,必须对具体开发的某一特定测验的目的和用途作出明确的说明,这是防止日后测验被滥用、保证考试效度的首要措施。b.对目的语的使用范围和需要用目的语完成的任务的确定和描述一个特定的测验要求被试使用目的语的范围以及要求被试用目的语完成的任务的类型是不同的,因此在测验的设计阶段,需要对这两个方面都作出明确的概括和描述。c.对测试对象的描述在测验的设计阶段,还必须对测验所针对的不同的潜在考生的特征作出尽可能详尽的分析和描述,这样做有助于提高测验的效度。语言测验的参加者代表的是实际生活中目的语的使用者。d.定义测验所要测量的结构与对目的语使用的范围的描述不同,对测验所要测量的结构(construct)的定义一般是比较抽象的,即我们需要在理论上定义所要开发的恻隐试图测到的语言能力的基本特征。e.对测验的质量监控计划在一个测验的整个开发过程中,需要对每一个具体的步骤和开发措施进行质量监控。主要包括信度和效度的评估和监控以及影响效果和实用性等方面的评估和监控。需要说明的是,在设计阶段主要是要考虑监控的计划和方案,但实际的监控要靠后面的开发环节提供的反馈(特别是施测阶段提供的反馈)来完成,也可以说质量监控在整个开发过程中是贯穿始终的。f.开发资源的分配计划如果是开发一个大规模的语言测验,需要在人力、物力、财力、时间等方面作出合理的分配计划,并制定出切实可行的开发资源的管理办法,以保证测验开发计划的顺序实现。②操作化阶段操作化阶段中主要有两项工作要做,一是要确定好整个测验试卷的构成,二是制定出测验作业任务细则即题目细则。a.制定测验作业任务细则测验作业任务细则包括概述(即测验总的说明)和题目细则两方面内容。在概述部分要介绍测验的用途、对象、目的(要考查什么能力)、测试时间等;而在题目细则里要包括答题指导语、例题、题目形式及其他题目属性、记分方式等。下面是某测验的一个分测验测试任务细则的例子。b.编制试卷构成说明如果一个测验包含若干个分测验(若干部分),那么针对每个分测验或每种题型都需要分别测验任务细则。而试卷构成说明,主要是确定各个分测验的作业任务,根据什么样的设计原则和方式整合在一起,构成一个完整的测验试卷。③施测阶段测验根据测验题目细则编制完成以后,接下来的工作就是实施测试。在施测阶段要解决两个问题,一是通过施测搜集数据以便对测验的质量作出分析和评估,二是根据测试结果作出关于被试能力等的推断,以便为决策提供依据。a.预测预测是指在测验正式投入使用之前,预先把按照测验题目编写好的题目让一组对测验目标团体最有代表性的被试来做,然后收集关于测验题目质量的信息,为确定正式施测的题目提供反馈。b.实测预测的题目数量一般远远多于正式试卷时尚的题目,根据预测后的题目分析,把符合预先制定的质量标准的题目筛选出来,再按照测验试卷构成规定的各分测验的题目数量等要求拼合成正式的测验试卷,排版印刷后就可以对测验的目标团体正式实施测试了。6.应该如何描述测验的实施对象?答:在测验的设计阶段,还必须对测验所针对的不同的潜在考生的特征作出尽可能详尽的分析和描述,折这样做有助于提高测验的效度。(1)描述测试对象在个体特征、知识结构和知识水平、一般语言能力水平等语言测验的参加者代表的是实际生活中目的语的使用者,因此,我们必须对测试对象在个体特征、知识结构和知识水平、一般语言能力水平等方面的情况作出概括和描述,比如在考生对象的个体特征方面,我们必须描述和知识水平、一般语言能力水平等方面的情况作出概括和描述,比如在考生对象的个体特征方面,我们必须描述他们的年龄、写别、学历或受教育程度以及母语背景等;(2)分析被测者的需求我们还必须对被试的需求作出分析,我们需要确定被试参加测试是为了谋职、求学、提升还是仅仅为了评价自己的语言水平。为了使所要开发的测验在难度等方面适应潜在的被试,还需要对他们的一般语言能力水平作出大体的估计,我们可以根据被试在另外的公认有效的水平测验(如HSK)上的得分,对他们作出大致的划分。7.对语言测验的质量监控主要应该从哪些方面考虑?答:在一个测验的整个开发过程中,需要对每一个具体的步骤和开发措施进行质量监控。主要包括信度和效度的评估和监控以及影响效果和实用性等方面的评估和监控。(1)信度信度指考试结果的一致性和稳定性程度,它是考试效度的必要前提条件。标准化测验要求信度系数在0.9以上,“汉语水平考试(HSK)”信度系数一直保持在0.96~0.98。(2)效度效度是考试质量的最重要的方面,它所涉及的是测试是否测到了它所想要测的东西。与信度不同,效度很难用一个具体的数字来表示。效度包括效标关联效度、内容效度、表面效度和构想效度等多种不同的效度,根据所开发的测验的用途和性质,我们可以追求不同的效度,例如,如果所要开发的测验是成绩测验,那么我们应该更重视内容效度,但如果所开发的测验是水平测验,构想效度无疑是最重要的,其次是内容效度。(3)影响效果后效(Washback)主要是指语言测验对教学产生的影响。一般认为,测验后效果是由测验本身带来的。在测验设计阶段考虑后效问题,主要是预防测验结果被决策者滥用。(4)实用性对于任何一个测验,实用性是必须要考虑的问题,必须考虑所要开发的测验是否便于实施、是否经济。像口语测验和书面表达测验,如果是大规模的而又找不到比较客观化的测验手段或评分手段,实施起来就非常困难。8.试按照本节所举的例子,给某测验某类题目编写一个题目细则。答:以语言运用测验为例。概述测验名称:语言运用测验对象:在中国高等院校从零起点开始学习汉语600~800学时的母语非汉语者。测验目的:了解被试使用汉语进行交际时的准确性和恰当性程度。测验用途:评估被试的现有汉语水平,为用人单位选拔人才提供信息。测试时间:30分钟。题目细则答题指导语:语言运用分测验包括40个句子,每个巨资都有几个地方标有下划线,其中只有一个地方含有错误。请考生找出含有错误的那一部分,然后在答题卡上找到相应的题号,把代表考生认为有错误的那一部分的字母框涂黑。例题:81他一会儿要打了一个电话,告诉小王我们今天晚上不能去参加宴会了。A.BCD刺激属性:(1)题干的文字选字中国大陆出版的报纸、杂志以及其他一般性读物,除了含有错误的那一部分,其他都是原文,不经过改写。内容不涉及专业知识,不涉及敏感性题材,不能有性别歧视或种族歧视等冒犯性语言。(2)题干是单句,只有一个表示句子完结的标点符号(如句号、问号、叹号等)。(3)题干的句子最长不超过40字。(4)标有下划线的部分是词或词组。(5)每个题干(句子)中都只有一处包含错误。(6)题干(句子)中的错误可能是语法错误、词性误用、搭配不当等各种表达方面的错误,但不是汉字书写错误或标点符号使用错误。反应属性:(1)被试从试卷上标有下划线的四个部分中辨别出包含错误的那一部分。(2)被试需在答题卡上找到相应的题号,然后用铅笔将代表错误的部分的字母框涂黑。评分方法:客观性(多项选择)题目,使用光电阅读机阅卷。记分方法:采用0/1记分方式,答对一题计1分,答错1题计0分,漏答计0分;每题若选择一个以上答案,即使包括正确选择项,亦计0分。9.什么是客观性题目?什么是主观性题目?都有哪些客观性题型?答:一个语言测验根据测验特定的目的和测验内容的特点,可以采用多种多样的题型。我们在测验的类型一节里,曾经讨论过主观性测验和客观性测验的问题,一般来讲,为了保证测验的信度和效度,一个测验应该既包括主观性题目也包括客观性题目。(1)客观性题目客观性题目是指题目不仅有题干,而且已经将答案列出,由你做出选择的题目。客观性题目的形式是多种多样的,如多项选择题、是非题、排序题等。在标准化语言测验中,最常用的客观性题型就是多项选择题。多项选择题的好处是内容覆盖面大,评分客观,但偏斜多项选择题既费时又费力,需要遵循一定的原则,也要讲究一些技巧,因此,我们主要介绍这种题型。(2)主观性题目主观性题目是指只有题干,答案需要你自己写出来的那些试题,如名词解释、简答、论述、案例分析等。10.多项选择题核心的编写原则是什么?为什么要遵循这样的原则?答:多项选择题是考查阅读理解、听力理解等语言技能时常用的题目形式。这种题型的最大好处就是评分客观,而评分客观可以为测试可能性(信度)提供一定的保证。多项选择题的编写原则具体包括:(1)题干本身要有意义并且应该是一个清晰的问题,应该清楚地点明问题的实质,让被试明确被询问的究竟是什么?不要让被试猜测你小问他什么。(2)主干语应尽可能多地包含师徒内容,共汉的因素、重复性的词语(如相同的叙述或修饰成分)应放在主干语中,而不要在选择项中重复使用,备选答案则要尽可能精炼。(3)题目与题目之间或答案与答案之间应避免相互依赖,相互包含或相互暗示。(4)一个题目应该只有一个正确答案或最佳答案。(5)每个迷惑项都应该似是而非。(6)听力理解和阅读理解试题的备选答案应尽可能回避语料中有的精辟。(7)所有备选答案难度应大体相当。(8)所有备选答案应尽可能涉及同一类事物、活动或同一领域。(9)备选答案若用解释性语言,应避免牵强附会。(10)所有备选答案在誉发商应该与主干语一致。(11)备选答案在形式上应尽可能避免任何可能的暗示。(12)整个测验中正确答案的位置不应固定,应保证出现频率相等,出现顺序随机。总之,上述各条编写原则围绕着一个核心原则,即在设计多项选择题的题干和备选答案时,应尽可能避免任何对考生有意或无意的不必要的暗示,因为这类不必要的暗示往往会削弱题目的需分能力,最终导致整个考试的信度和效度被降低。11.如何用极端分组法来计算题目区分度指数?答:用极端分组的方法计算题目区分度指数的方法和步骤如下:(1)把所有被试按测验总分,从高到低排队,如果一个测验包含若干分测验,就应该按分测验分数排队。(2)取全体被试中分数最27%的人作为高分组,取全体被试中分数最低的27%的人作为低分组,中间的46%的人不参加计算。(3)按下列公式计算区分度指数:例如,测验一共有100人参加,第3题高分组的人(正好是27人)都答对了,而低分组的人都答错了,则区分度指数为:“1”是区分度指数的最大值,一般不可能得到。12.一个难易度中、区分度高的题目是否绝对是好的题目?为什么?答:难易度适中、去高的题目绝非是好的题目,区分题目好坏的因素主要包括:(1)检验题目难易度是否合适,是否太难或太易,一般认为,一个题目若有20%到80%的被试能够做对,就比较恰当。(2)检验各个题目在区分被试水平方面起了多大作用,一个好的测验(特别是标准化的水平测验(每个题目都应该对区分被试的水平作出一定贡献。(3)检查多项选择题各个干扰项是否起到了干扰水平差的被试的作用,干扰作用有多大。(4)检查每个题目选择各个干扰项的人数的分布情况,看各个干扰项的干扰作用是否大体相当。(5)检查各个题目的答案惟一性和正确性,如果一个题目的某个“非正确”答案有过多的高水平被试选择,就可能存在正确答案不惟一或预设的正确答案并非正确答案的问题。13.为什么说信度和效度是语言测验最重要的质量标准?答:我们根据特定的目的编制测验,并对特定的被试实施测验,我们首先希望测验能够准确地反映出我们所要考查的东西,即我们希望测验是有效的;其次,如果重新对被试施测,我们希望得到同样的结果,即我们希望言的分数是稳定的、可靠的。不光是语言测验,任何一种测量工具都存在可靠性(即信度)和有效性(即效度)的问题。因此,信和效度是测验质量评估的最重要的两条标准。14.信的基本概念是什么?如何从测量学的角度理解信度的概念?答:(1)信度的基本概念信度是指测量结果的可靠性、一致性和稳定性程度。一个高质量的测验,对同样一组被试反复多次测量,其结果应该保持不变。即信度指在不同的时间或不同的测试条件下,使用同一测验(或者使用同一测验的不同版本),对同一组被试实施多次测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论