语言测试 - 理论 - 实践与发展-_第1页
语言测试 - 理论 - 实践与发展-_第2页
语言测试 - 理论 - 实践与发展-_第3页
语言测试 - 理论 - 实践与发展-_第4页
语言测试 - 理论 - 实践与发展-_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2000年1月第32卷第1期外语教学与研究(外国语文双月刊Foreign Language Teaching and Research (bimonthly Jan.2000Vol.32No.1语言测试:理论、实践与发展北京外国语大学韩宝成提要:本文综合分析语言测试的两个基本问题:语言能力和如何对其进行测量,并讨论语言测试研究与发展趋势,如重视行为测试、注意研究被试特征对测试行为的影响、在语言测试中采用新的研究方法及结合计算机技术开发新一代测试及评估系统等。关键词:语言能力、行为测试、被试特征、e 2rater 中图分类号H310.4文献标识码A文章编号1000-0429(200001-004

2、7-611引言 语言测试的主要目的是对被试的语言能力做出准确、公正的测量。那么,什么是语言能力?如何对语言能力进行测量?这是语言测试研究要解决的两个基本问题。本文综合分析关于这两个问题的研究情况,并结合计算机及网络技术等方面的进展,分析未来语言测试的发展。21什么是语言能力?这是任何语言测试工作者首先面对并必须回答的问题。对于什么是语言能力,历史上不同时期人们的观点和看法不尽一致。在科学前语言测试时期,语言学虽然有了一定的发展,但尚未形成指导语言教学的系统理论,外语教学基本上是一种凭经验或遵循传统的教学。语言教师把语言当作一门知识在教,包括语音知识、语法知识和词汇知识。语言测试也就考察被试对这

3、三方面知识的掌握情况。20世纪40年代,结构主义语言学兴起。语言学家提出“语言是一套形式结构,一套符号系统”的论断。与此同时,行为主义心理学大行其道。受结构主义语言学和行为主义心理学的影响,人们认为学习语言就是要获得操作这套符号系统的技能,即训练对刺激做出正确反应的一套语言习惯。在这个时期,心理测量学理论对语言测试也产生了很大的影响。心理测量学坚持语言能力可分说,认为语言可以分解为语言技能和语言成分,人们运用这些语言技能和语言成分的能力就是一个人的语言能力。这个时期的语言测试称为心理测量学结构主义语言学测试。与科学前语言测试相比,它更加注重听说技能,尤其是听的技能。这种测试在5060年代占统治

4、地位,到80年代甚至90年代初仍是主流。60年代中期,Chomsky (1965提出了语言能力和语言行为的概念。Chomsky 所说的能力,只是抽象的语言能力。不少语言学家指出,人们进行交往,光有抽象的语言能力是不够的,还会涉及到许多超出语言能力的能力。如语言的运用涉及到一系列的社会文化因素。另外,一些语言学家也提出了语言的功能作用。至此,人们对语言能力的认识扩大了,不仅认识到使用语言时考虑语境的重要性,同时还认识到语言的使用是一个动态的交际过程,由此便产生了交际能力这一概念。由此可见,交际能力不仅包括语言能力,还包括超出语言能力的能力。交际能力,作为一个整体,是由哪些因素构成的呢?这个问题决

5、74定着教学和测试内容。在1979年举行的第一次语言测试研究研讨会上(Language Testing Research Colloquium ,简称L TRC ,Canale 和Swain (1980向大会提交了“交际语言能力的理论模式”。此模式充分吸收了许多研究者的成果,在80年代的外语教学界和测试界产生了深远的影响。Canale 和Swain 的交际语言能力模式由四个部分组成:1语法能力;2社会语言能力;3语篇能力;4交际策略能力。虽然这一模式在80年代很流行,但问题是它没有明确指出这四种能力之间的关系。进入90年代,Bach 2man (1990,1996又提出了一个全新的交际语言能力

6、模式。他认为,交际语言能力就是把语言知识和语言使用的场景特征结合起来,创造并解释意义的能力(capacity ,它由语言知识(language knowledge 、策略能力(strategic com 2petence 和心理生理机制(psychophysiological mechanisms 三部分组成:语言知识由组织篇章;策略能力指在具体的语言交际时,运用各种语言知识的心理能力(mental capacity ,它是语言能力通向现实世界的桥梁,是将语言知识运用于交际目的的手段;心理生理机制则指把语言交际看作一种物理现象,运用语言交际时所牵涉到的神经和心理过程(关于Bachman 交际语

7、言能力的详细评述,见韩宝成1995。由此可见,以Bachman 等为代表的新模式与旧模式的区别主要是:第一,旧模式把语言看成知识或一种体系,而新模式则认为语言是用来表达思想和办事情的手段。语言的使用不仅受制于语音、词汇、语法规则,还受使用环境、社会文化背景的影响。第二,旧模式认为考生语言知识掌握得越多越全面,其语言运用能力就越强。而新模式认为,语言能力是一个动态的概念,不仅包括对知识的掌握,而且包括在交际时对所掌握的知识的运用,这就是所谓交际语言能力,它意味着测试时要把涉及交际能力的各种因素结合成一个整体加以测试。Bachman 的交际语言能力模式比旧模式确实有了质的改进,对近十年来的外语教学

8、和测试产生了深刻的影响。但是,如何正确理解交际语言能力的各个方面,尤其是如何理解其中的语用能力和策略能力,它们之间的相互关系和相互影响,以及如何对它们做出有效的测量等,还有待语言测试工作者进一步探讨。31设计、开发语言测试的原则3.1一致性原则语言测试的第二个基本问题是如何测量。这里我们不谈具体的测试方法,只是介绍设计或开发语言测试应该遵循的几条原则。Bach 2man 和Palmer 在其新著(1996中指出,设计或开发一项新的考试时,应首先考虑语言测试行为要与语言的实际使用情况相一致。众所周知,语言测试的目的是根据被试的考试分数对其语言能力做出推断。此时必须能够证明被试的测试行为与在具体场

9、景下的语言使用存在一致关系。要做到这一点,需要设定一套理论框架,使我们能够考虑把被试的测试行为视为语言使用的一个特例。设计这个理论框架时需要考虑两方面的因素。首先要考虑的是语言使用任务和情景(language use task and situation 的特征及测试任务和情景(test task and situation 的特征。考虑任务特征的目的是为了确保并证明测试任务与语言使用任务相一致。此外,还要考虑语言使用者的特征和被试的特征,目的是为了证明这些特征在语言使用任务和测试任务中参与的程度有多大。因此,影响语言使用和测试行为的这两组特征是我们开发和设计考试时最关心的问题。个人特征与对语

10、言能力做出推断的构念(construct 效度有关,而任务特征与确定所做推断的范围有关。这两组特征对语言使用和语言测试行为产生的影响可用下图(图1表示:如图所示,横线A 表示语言测试行为与非测试环境下的语言使用应存在一致关系,它是设计、开发及使用语言测试的核心问题。不管我们自己设计、开发一项测试,还是采用他人开842000年外语教学与研究第1期图11语言使用与语言测试行为的一致关系发的测试,都需要证明语言使用任务与情景特征和测试任务与情景特征之间存在一致关系,这种关系在图中由横线B表示;此外,还要能证明无论是语言使用者还是被试,他们之间也存在一致关系,这种关系由横线C表示。图1显示,个人特征包

11、括几个方面,其中最重要的是语言能力,因为它正是我们通过测试要作出推断的东西。另外两个特征是话题知识和情感图式。需要考虑这几个特征的理由有两条:第一,它们无论对语言使用或测试行为都有重要的影响;第二,这些特征应当有助于而不是妨碍被试语言水平的发挥。3.2有用性原则设计、开发语言测试的第二条原则是,测试工作者要对测试有用性(test usefulness的性质有一个正确的清晰的定义。在Bachman看来,语言测试的有用性包括六个方面的特性,即:信度(reliability+效度(validity+真实性(au2 thenticity+交互性(interactiveness+影响(impact+可实

12、践性(practicality。信度和效度是语言测试的两个基本概念,在此不再赘述。我们重点谈真实性和交互性。语言测试的真实性指目标语言使用任务特征(target language use task与测试任务(test task特征的一致性。一致性越高,测试的真实性就越强。真实性是语言测试一个很重要的特征。测试任务越真实,与被试平时使用的语言或内容越接近,其测试行为就会发挥得越好,那么,根据测试结果(分数对被试语言能力所做的推断就越准确,因而测试的构念效度就越高。测试任务真实还会使被试对测试产生良好的感觉,从而使其能力得到充分发挥。如果测试任务与被试平时所用的语言相去甚远,会对被试造成错觉,影响

13、其水平发挥。因此,设计一件真实的测试任务,必须首先调查目标语言使用环境下语言任务的特征。交互性指被试在完成一件测试任务时,涉及到的个人特征类型及程度。与语言测试最有关的个人特征主要有语言能力、话题知识和情感图式。被试在完成一件测试任务时,这三个方面的特征是否都起作用?抑或只是其中的一个或两个方面起作用?各自起作用的程度有多大?前面谈到,语言能力包括语言知识和策略能力(或称元认知策略,为了对被试的语言能力作出推断,测试任务的设计就必须能够激发被试运用其语言知识或认知策略来完成,否则就无法根据被试的测试行为对其语言能力作出推断。影响指测试对社会、教育制度以及处于这个制度内的个人的影响。可实践性则指

14、从物力或财力上测试是否得以实施,是否可行。如不可行,就必须对测试做出修改。上述六种特性不应在测试实施以后才加以考虑,而应贯穿测试质量控制的每个阶段,只有这样才能保证测试的有用性。在测试界,传统的看法认为上述这些性质互不相干,或片面地强调其中一个特征。有的学者认为信度和效度是矛盾的(Heaton1988,或者认为同时兼顾真实性和信度是不可能的(Morrow1986。而Bachman(1996的观点是,要充分认识到各种性质的互补性,从中找到平衡,根据不同情况又可有所侧重,以取得某一测试在整体上的有用性,因为任何测试都有其特定的目的,都是针对特定的被试和特定的语言使用范围。大规模测试通常对被试做出某

15、种决策,因而注重测试的信度和效度。一般的随堂94韩宝成语言测试:理论、实践与发展 测试则更加注重测试的真实性、交互性和影响。41语言测试研究及发展方向4.1行为测试通过对语言能力研究的回顾发现,语言测试由重视知识转向重视技能,再转向重视语言能力的实际运用,这种测试现在被称为交际能力测试或行为测试。其特点是对被试进行直接测量,如让被试写作文,或对被试进行口试等。Bachman的语言测试理论模式为行为测试注入了新的特点,即强调测试任务和测试过程的真实性。行为测试研究自70年代末期起逐渐成为 测试界研究的热点。行为测试首先要解决的问题是确定测试构念,并把它与测试方法区分开来。如口语测试中,按照当今的

16、语言能力模式,首先确定口语测试要测量什么,即确定口语测试的构念,而且还要能够解释方法因素,如测试任务或评分人因素对测试分数的影响。方法因素会使人们对测试分数的解释变得模糊。关于测试方法对测试行为的影响,Bach2man(1990已提出一个模式。但应用到行为测试上来,Milanovic(1996认为除测试任务和参与者因素之外,还应考虑其他因素以及它们之间的相互影响。他提出的模式如图2所示:图21行为测试中各种因素及其相互作用图2显示了在行为测试(口语和写作中涉及到的各种因素及其影响。Milanovic认为,作为测试开发人员,应首先确定在某一特定环境下评估被试口语或书面表达能力的程序,按此程序操作

17、便会得到被试的测试分数或对被试行为(表达能力的描述,测试的结果由使用者作出解释。为了获得被试口语或书面语的真实情况,测试任务及环境的设定必须恰当合理,与评估条件相吻合。与阅读和听力测试不同,口语和写作测试要求被试在特定的环境下讲出或写出一段话,然后由考官打分定级。定级需有定级量表,且考官必须经过严格培训(Alderson1991。传统行为测试的研究重点是放在评估标准上面,认为这是保证测试信度的重要措施。但现在的研究重点则转移到研究评估过程本身。因此,测试开发或设计人员要清楚地预见到上图中各因素之间的相互作用。这些因素之间的关系相当复杂,被试的分数会受多种因素的影响。测试工作者更要花大气力对此进

18、行研究。4.2研究方法从对行为测试的研究方法上来看,既有定量方法,也有定性方法。有的研究则两种方法并用。需要指出的是,一些新的统计方法被应用到行为测试研究上来,如推断理论(G eneral2izability Theory,Brennan1983。推断理论又称泛化力理论,是经典测试理论(Classical TestTheory的一种扩展。在所有行为测试中,几乎52000年外语教学与研究第1期总是有一个或多个可能的误差源(error sources。经典测试理论把这些误差源作为一个整体(entity来对待,而推断理论则把它们分别对待,并采用方差分析的方法估计每个误差源对总体误差的贡献有多大。该理

19、论在用来调查不同评分人(rater对同一被试测试行为的打分情况时非常有用。口头记录分析(Verbal Protocol Analysis,以下简称VPA也是目前外语测试界经常用到的一种方法。它是根据被试讲出的话(verbalisa2 tion来研究其思维过程。注意要把它和面谈( Interview及会话分析(Discourse Analysis区别开来。VPA指被试在特定环境下一边解决问题,一边把他脑子里想到的解决问题的思路讲出来(think aloud,而面谈和会话分析着重分析讲出来的话的内容和语言结构。VPA属于一种定性研究方法,无需经过统计运算研究者就可根据所收集到的信息做出相关的推论,

20、因试任务涉及到的各种信息。VPA对研究测试的效度非常有用。例如,一项测试是不是测量了它要测量的东西,我们可以通过研究被试的口头记录来回答这个问题。当然,传统的测试研究及评估方法,如项目分析、项目反应理论、相关分析及因素分析等仍然是目前语言测试分析的主要分析方法。4.3被试特征研究同外语教学界由研究教学方法转移到研究学习者本身上来一样,被试特征对测试行为的影响也是当前测试界十分关注的问题。被试特征包括文化背景、背景知识、认知能力、性别和年龄等(Bachman1990。就笔者接触的材料来看,英国的UCL ES(University of Cambridge Local Examination Sy

21、ndicate和美国的ETS(E2 ducational Testing Service合作,就FCE(First Certificate in English和TOEFL进行对比研究,其中一个很重要的问题就是研究被试特征对测试行为的影响,它是目前该领域最大的一个研究项目。研究在Milanovic和Bachman的指导下进行,研究范围主要包括两个方面:第一,社会心理因素,包括态度、动机、焦虑感和努力程度四个因素;第二,策略因素,包括认知策略、元认知策略和交际策略。作为该研究的一个部分,Kunnan(1995采用一种结构模式方式(structural modeling approach着重研究了

22、文化背景、接触英语的机会、学习英语的态度和动机及监察模式对测试行为的影响。在谈到研究被试特征及测试方法因素对测试行为影响的意义时,Bachman(1990:156指出,随着个人特征及测试方法对测试行为影响研究的不断深入,测试开发人员对哪些特征因素与方法因素产生交互作用会了解得更透彻,并且在实践中能够设法减少这些因素对测试行为带来的影响,为被试最大限度地发挥其测试水平提供机会,这样我们就会更好地、更公正地测量其语言能力。4.4机助测试计算机是20世纪一大发明,它对我们生活各个方面的影响是显而易见的,对语言测试的影响亦如此。计算机发明之后即被尝试应用到语言测试上来。早期的机助测试多属练习性质。随着

23、教育测试技术的发展及计算机性能的提高,新的机助测试系统被不断开发出来。以美国的ETS为例,其计算机化TOEFL考试已在北美和世界许多国家推广。2002年我国将引进这种测试方式。英国剑桥大学考试委员会也开发出了基于计算机语言测试系统Commu2 ni2CA T。与纸笔测试相比,计算机化测试有许多优点。它可以使用先进的测试模式,如自适应测试。计算机自适应测试(Computer Adap2 tive Testing属于个体化的测试,它不仅节省测试项目,缩短测试时间,而且测量误差较低。在21世纪,随着人们对语言运用理论更深刻的理解及因特网技术的发展,语言测试将会发生重大变革。因特网彻底消除了人们的时空

24、观念,把地球上每个角落里的人都联系起来。将来,人们通过网络可足不出户对自己的语言水平进行测量。4.5电子评分系统由于行为测试越来越受到重视,语言测试15韩宝成语言测试:理论、实践与发展2000 年 外语教学与研究 1 期 第 中会出现较多主观性题目 。主观题的批改既费 时又费力 , 且标准不易掌握 。研究者尝试用计 算机来对被试主观题的答题情况进行评分 。经 过 5 年的努力 , ETS 采用先进的计算语言学技 术成 功 地 开 发 出 了 一 套 电 子 作 文 打 分 系 统 ( Elect ronic Essay Rater ,简称 e2rater 。与人工 阅卷相比 ,其准确率已达 8

25、7 %至 94 % 。e2rater 的开发和利用 ,大大降低了阅卷的成本 ,将会引 起测试评分的革命 。e2rater 系统的设计原理 是 ,根据评分专家事先设定的评估作文成绩的 rater 的准确率 ,并开发其诊断和解释功能 。可 实的语言运用 ; 第三 ,从测试以设计者为中心到 注意研究测试方法及被试特征对测试行为的影 响 ; 第四 ,从只看答卷结果到注意研究被试的答 题过程 ; 第五 ,开始纠正主观题阅卷中的固有毛 病 ,结合最新电子技术开发智能型电子评分及 测试系统 。 参考书目 Alderson , J . & B. Nort h. 1991. L anguage Testi ng

26、 i n t he 1990 s. London and Basingstoke : Macmillan 标准 ,计算机自动分析被试作文的特征 ,并与专 家设定的特征相对照 , 然后给出一个等级 。该 系统实行 6 分制 。如果被试文章内容切题 , 结 构合理 , 逻辑性强 , 句式 、 用词等富有变化 , e2 rater 可给出 526 分 。如果被试作文不具备这 些特征 , 得分自然很低 。目前 , e2rater 还不能 完全取代人工阅卷 ,当 e2rater 和人工阅卷的结 果出现较大差异时 , ETS 再请第三位阅卷人对 被试的作文进行评阅 , 因此也提高了作文阅卷 的信度 。他们

27、的下一个目标是进一步提高 e2 以相信 , 随着 e2rater 功能的不断完善 , 总有一 天人们会对自己阅卷的思维过程有一个透彻的 了解 。而且随着语音合成技术的发展 , 这样的 电子口语打分系统也将会实现 。 语言测试总的发展趋势是 : 第一 ,从只看单一的 语言能力到注意被试全面的能力 ; 第二 ,从只测 量假设的 、 不自然的语言项目到注意自然的 、 真 52 Publishers Limited. Bachman , L . F. 1990. Fundamental Consi derations i n L anguage Testi ng. Oxford : OU P. Bac

28、hman , L . F. & A. S. Palmer. 1996. L anguage Elements of Generaliz ability Testi ng i n Practice. Oxford : OU P. Brennan , R. L . 1983. Theory. Iowa City , IA : The American College Testing Program. Canale , M. & M. Swain. 1980. Theoretical bases of ing and testing. A pplied L i nguistics 1 , 1- 47. Mass : MIT Press. communicative approaches to second language teach2 Second edit

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论