二外语写作测试评分研究综述

上传人：1*** IP属地：广东上传时间：2023-11-30 格式：DOCX 页数：7 大小：45.44KB 积分：12 举报 版权申诉

已阅读5页，还剩2页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

二外语写作测试评分研究综述

1.自动化评分sqp通过行为（反映行为）的语言测试（作文测试、口语测试等），提高了效率，因为它的固有复杂性和多样性（例如作文测试、口语测试等）。引入了许多误差因素（schonen20005）。当前使用的写作测试大都需要人工评分。在评分过程中,测试任务、评分方法、评分标准、评分员的评分策略、评分风格等方面的变量对评分员的评分决定起着很大作用(Weigle2002)。国内外的语言测试界已经对该领域做了一些探索。鉴于人工评分的诸多缺陷,计算机自动化评分成为当前研究开发的热点。本文拟对评分方法、评分标准及其设计方法、评分模式、评分员差异性(variability)、计算机评分等相关方面的研究加以综述。2.2.外语写作考试评分研究2.1于写作测试的反思评分方法可分为关键属性评分法(primarytraitscoring)、整体式(holisticscoring)和分项式(anyliticscoring)(1)。第一种评分方法是针对某个特定写作任务设计的,分数的意义不能外推到其它任务。这种方法多用于母语(L1)写作评分,在二/外语(L2)写作评分中极少使用。整体式评分法是评分员根据对受试文本的总体印象给出一个分数,分项式评分法则是对受试文本的不同方面的质量分别给分,然后把分项的分数加起来作为受试的写作成绩。在分数报道时,前者只有一个总分,后者则可以提供各分项的分数和总分,均可外推到其它写作任务。二者的优劣在学界争论已久。Bacha(2001),Kroll(1990),Hamp-Lyons(1991,1995),Shi(2001)等学者主张,分项式评分法更适用于二/外语写作测试。按照Bachman&Palmer(1996)的语言测试质量评价标准——“实用性”(usefulness)原则,两种常用评分方法可以比较如下(见表1,H表示较高,L表示较低)(Weigle2002;Shaw&Weir2007)。两种评分方法的优势和不足可以归纳如下。整体式评分法的优点:(1)可行性较强,省时省力,效率高;(2)重视受试的优势而不是缺点;(3)符合真实自然的阅读特点。但其缺陷也很明显:(1)不能为教学提供足够的诊断性反馈信息;(2)分数不易解释,因为同样的分数可能具有不同的意义;(3)尽管整体式评分法强调整体印象,要求评分员对文本的质量全面把握,但是,在实际评分中,评分员对不同方面的侧重可能存在较大差别;(4)一些实证研究表明,整体式评分法得出的分数与文本的表面特征高度相关(Weigle2002)。分项式评分法的优点是:(1)能提供较详尽、具体的诊断性信息;(2)有利于准确评价写作能力发展不平衡的L2学习者;(3)有利于评分员的培训;(4)信度较高。但是这种评分法也有很多不足之处:(1)花费高,效率低,可行性不强;(2)把分项的分数加起来构成总分后,分数包含的信息也大多失去了;(3)评分员倾向于根据得出的总分调整分项的得分,分项分的意义值得怀疑。在EFL/ESL写作测试领域对两种评分方法比较的实证研究并不多见。Carr(2000)比较了整体式评分法和分项式评分法对ESL作文评分的影响。因子分析和回归分析发现,不同评分法得出的分数的意义存在差异,两种评分法得出的分数无法比较。整体式得分似乎仅仅反映了一个构念(写作能力的整体),而分项式得分则反映了不同的构念成分。Bacha(2001)探索了EFL分班写作测试评分时两种评分法的差异。两位评分员分别根据Jacobsetal.(1981)的评分标准对学生的30篇作文进行整体式和分项式评分。其研究表明,两种方法得出的分数之间的相关很高,评分员内部及之间的信度也都较高;但是,分项式评分方法提供了受试在不同写作能力方面表现的更多具体信息。Barkaoui(2007)结合概化理论(G-theory)和有声思维(think-aloudprotocol)研究方法考察了整体式评分法(Tydall&Kenyon1996)和分项式评分法(Brown&Bailey1984)对EFL作文得分、评分员评分过程和评分员的认可程度的影响。他发现整体式评分比分项式评分的信度(评分员之间的一致性)更高,但两种评分法的评分过程基本相同;整体式评分法信度高的原因可能是评分员倾向于依靠自己的评分经验而不是所提供的评分标准,评分员是决定评分和评分行为的最重要的因素。罗娟(2007)对整体与分项两种作文评分方法比较研究表明:(1)整体评分法的评分效率显著高于分项评分法,整体评分法在经济性与可操作性方面比分项评分法更具优势;(2)整体评分法的评分结果概化系数及可靠性系数与分项评分法相比都更高;(3)在大规模的写作测试评分中,使用整体评分标准更加合适。李清华(2010)比较了TEM-4写作新的分项式评分标准与原整体式评分标准。肯德尔和谐系数和多层面Rasch模型分析表明,分项式评分标准在区分受试写作能力、评分员之间及内部一致性、评分员与受试之间的交互作用偏差、评分量表的区分性等方面优于整体式评分标准。问卷调查发现,尽管评分员对新标准的一些方面还不太满意,但他们倾向于选择新的分项式评分标准。该研究的初步结论是,对于TEM-4这种EFL写作测试而言,在其写作部分评分中分项式评分标准好于整体式评分标准,根据新的分项式评分标准评分可以在一定程度上提高TEM-4写作的评分效度。这几项研究的局限性在于,受试样本较少,研究结果的外推力不够强。整体式和分项式评分方法孰优孰劣似乎没有定论。在设计评分标准时,评分方法的选择应当主要取决于测试目的和当地的实际条件(Barkaoui2007;Knoch2009)。对于大规模语言测试而言,如果仅仅为了达到甄别选拔的目的,效率高的整体式评分方法更合适;如果需要对受试及其他相关人员提供详尽的反馈信息,分项式评分方法则是更好的选择。在制定评分标准时,既要有专家参与,也有必要充分了解广大教师评分员的意见。评分标准初步方案应在评分员中反复讨论,并且在试评后进行修正。在具体的评分标准制定之后,仍有必要对评分员进行培训,以便调整他们的评分行为和策略,尽可能用评分标准指导评分实践。2.2感官评分interpersonal评分标准(量表)是评分员判断受试文本质量的依据,应充分反映写作能力的构念,并且有较强的可操作性。一般来说,评分标准应包括写作能力的维度、每个维度的详尽描述语;如果采用分项式评分法,还应为每个维度赋分或设定权重。从使用者的角度看,评分标准可以分为三类:(1)供命题人用(constructor-oriented)——提供命题人所需的信息,如对测试任务的详细描述;(2)供评分员用(assessor-oriented)——指导评分员的评分行为和过程,应对每个维度及其权重进行详细说明;(3)供用户用(user-oriented)——用户能够参照评分标准解释分数的意义(Alderson1990;Weigle2002)。2.2.1ask的写作任务等级总起来说,在ESL/EFL写作测试中,以英国为代表的欧洲多采用分项式评分法,如IELTS,而以美国为代表的北美则多用整体式评分法,如TOEFL。有代表性的整体式评分标准主要有:TOEFL作文评分标准(ETS2000),Tyndall&Kenyon(1996),TOEFLCBT写作部分的整体式评分标准(Leeetal.2008)等。下面以TOEFL作文评分标准为例加以说明。在TOEFL作文包括三种写作任务:独立写作任务(IndependentWritingTask),读—写结合写作任务(Reading/WritingTask)和听—写结合写作任务(Listening/WritingTask)。独立写作任务含六个等级(0到5),读—写和听—写任务则没有0分。所有等级都包含4个维度:(1)切题;(2)论证充分;(3)结构统一,衔接连贯;(4)语言的丰富性和恰当性。每个等级都有明确的描述语,如满分(5分)的标准是:“完全切题,充分完成任务;结构完整,论证清晰,例证丰富;衔接和连贯;语言使用自如,句式多样,用词恰当,语言地道,允许有少量词汇或语法错误。”目前,比较有影响的ESL/EFL分项式作文评分体系有Jacobsetal.(1981),Weir(1990),Hamp-Lyons(1991),IELTS(2005)等。我们以“以英语为第二语言的作文评分标准”(ESLCompositionProfile,缩写为ESLCP)为例作简要说明。ESLCP由Jacobs及其同事一起开发(Jacobsetal.1981),包括5个维度,其权重不完全相同:(1)内容30%;(2)结构20%;(3)词汇20%;(4)语言使用25%;(5)写作规范(Mechanics)5%。对每个维度的评价又分为四个分数段:优秀、良好、一般、差。该标准是最早的分项式评分标准之一,经过多年的检验,证明是较为可靠的,成为分项式评分标准的典范,广泛应用于L2写作评分研究。后来开发的L2写作分项式评分标准大多以此为蓝本(如Sasaki&Hirose1999;Eckes2008;Schaefer2008),对L2写作研究的分项式评分也多以此为工具(如Bacha2001)。2.3语言行为特征Fulcher&Davidson(2007)主张,评分标准的设计方法有两种:(1)基于直觉式(intuitionbased):相关专家根据直觉制定评分标准。当然,专家并不是依靠自己的主观印象,而是基于他们的理论和经验决定评分标准所应包括的维度及其权重。(2)基于实验数据式(databased):通过对受试的语言行为样本进行语篇分析或话语分析得出受试的语言行为特征,也可以让评分员对受试的语言行为进行评价,并归纳出他们作为评判依据的语言行为特征。越来越多的学者主张采用第二种方法(如,Bacha2001;East&Young2007;Fulcher&Davidson2007;Hamp-Lyons1991;Knoch2009;McNamara1996;Weigle2002)。对于L2写作测试而言,这种方法表现为两种模式:第一,文本特征模式(textcharacteristicsmodel):经过实验研究,归纳出能够反映受试写作能力的文本特征;第二,读者—作者互动模式(reader-writermodel):根据评分员的评分行为,归纳出评分员评阅作文时所关注的文本特征。一般说来,这两种方法得到的数据可以互相补充(Cummingetal.2001)。当代大规模、高风险写作测试的评分标准大都是基于实验数据设计的,如新IELTS的写作评分标准(Shaw&Weir2007;Shaw&Falvey2008)、新TOEFL的写作评分标准(Cummingetal.2001,2002;Leeetal.2008)、TEM-4写作测试分项式评分标准(李清华2010)等。2.4s12写作测试模式鉴于行为测试评分的复杂性,为了探究影响评分的诸多因素的作用,一些学者试图构建评分模式,以期通过图解的方式使评分过程中的因素及其关系明晰化。下面试归纳行为测试,特别是写作测试领域的相关成果。McNamara(1996)在比较客观语言测试与语言行为测试时,提出了“语言行为测试评分模式”。他强调,受试的语言能力通过考试工具(测试任务)表现为“语言行为”,评分者需要根据评分量表对受试在测试中的行为表现评出等级或分数。这一模式具有开创性但却失之简单,各变量之间的关系不够清楚。随后,Fulcher(2003)基于口语测试和语言测试其它领域的研究成果,提出了口语测试行为模式。这一模式突出了构念的核心地位:评分标准和细则应依照测试的目标——构念来设定,所得出的分数是用来推测受试的语言能力(构念)的;强调评分标准的重要性:评分标准制定的依据和过程会影响分数意义的解释和基于分数作出的决定;强调除了语言能力之外,受试的背景知识、应试过程等个人因素以及测试任务的特征、测试的物理条件、其他参与者等外部因素也会影响其测试表现。该模式反映了当代语言测试效度观,对口语测试及其它行为测试的评分研究具有较大的指导意义。但是,该模式没有明确“评分标准的设计依据”、“评分标准”和“构念”的关系。在L2写作测试领域,较有影响的评分模式包括Milanovicetal.(1996)的试探性评分过程模式、Upshur&Turner(1999)的行为测试评分模式、Sakyi(2000)的整体性评分试探性模式(atentativefactorsmodel)、Lumley(2005)的写作评分过程模式及TOEFL作文评分过程模式(Cummingetal.2002)等。Upshur&Turner(1999)的实验研究表明,评分员在评分时不仅参照评分标准评价受试文本,而且会受到测试任务的影响。他们据此提出了行为测试评分模式:第一层次是受试的应试过程,即受试完成测试任务的过程;第二个层次是影响评分员评分的外在因素,包括受试写出的文本和评分标准;第三个层次表示评分员作出评分的决定。Milanovicetal.(1996)根据Cumming的评分员评分行为和Milanovic等人的研究结果,总结出一个试探性评分过程模式(见图1):第一步,评分前对评分标准、写作任务的理解和内化;第二步,跳读,观察文本的表面特征,如,篇幅、书写等;第三步,快速阅读,形成对文本质量的整体判断;第四步,打分;第五步,调整分数;第六步,作出评分的最后决定。该模式包括评分员的评分行为(如,扫读、速读、调整、重评、最终打分等)和评分员在评分过程中所关注的文本特征(如,扫读时注意文章的长度、书写、结构等)。Sakyi(2000)采用有声思维方法对6位ESL评分员的写作评分过程的研究表明,有多种变量影响评分决定。他提出了整体评分的试探性模式(图2)。该模式涉及两个方面的因素(变量):左侧内容因素和语言因素指作文文本的特征,这两个方面的因素使评分员形成“总体印象”(generalimpression)。同时,评分员的个人倾向或期望及其个人调整因素也可能影响其印象(用虚线表示)。中间的三个圆所表示的评分员个人因素决定了评分结果。Cummingetal.(2002)发现,ESL/EFL评分员评阅TOEFL作文的典型评分过程(PrototypicalSequence)可分为三个阶段:第一、扫视作文的表面特征(surface-levelidentification),如篇幅长短、分段、格式等;第二、运用解释性评分策略和评价性评分策略对文本质量作出判断:(1)辨别错误类别,以便确定受试的语言掌握情况;(2)判断文本的可理解程度(comprehensibility),以便评价其语言使用和修辞的恰当性;(3)根据衔接连贯和思维逻辑判断文本的内容表达和组织结构;(4)设想写作的交际情景,决定对受试的个人看法;第三、总结或调整以上判断,作出评分决定。Lumley(2005)的研究也表明,评分员评分的基本过程可以分成三个阶段:(1)阅读——评分员读文并形成对文本质量的总印象;(2)打分——按照评分标准给分;(3)证实或调整/校正——对评分做出明示或内隐的确认或修改。但是,这一过程不总是直线性,是循环反复的过程。他还发现,评分员的评分不仅仅是一种个人行为,会涉及三个层面,一是机构层面(institutionallevel):评分员的评分受到相关机构制定的评分标准的限制,还要接受机构的培训等;二是工具层面(instrumentallevel):评分员使用评分标准,参照写作任务对受试的文本质量作出评价;三是解释层面(interpretationlevel):评分员会在个性化的主观印象与机构要求的评分客观性之间取得平衡。2.5评分员间的一致性大量研究表明,行为测试的评分差异更多来自于评分员的差异而不是受试行为表现的差异或评分标准(如Bachmanetal.1995;Engelhard&Myford2003;Eckes2008;Lumley2005;Lumley&McNamara1995;Schoonen2005;Weigle1998)。在很多情况下,严格的培训可以提高评分员的内部一致性,但评分员之间差异性并没有显著减少(Lumley&McNamara1995;Weigle1998),甚至于在评分员得到反馈信息之后,评分行为也未发生明显变化(Elderetal.2007)。评分员的差异性表现在很多方面,目前研究较多的是评分风格和评分策略。2.5.1通过文本评分筛选Milanonicetal.(1996)对评分员的即时口头报告(introspectiveverbalreport)和回顾式书面报告(retrospectivewrittenreport)及访谈数据的分析,发现4种评分风格:(1)原则性两次阅读(principledtwo-scan/read):总是读两遍文本,在读第二次时,把该文本与其它文本作比较;(2)实用性两次阅读(pragmatictwo-scan/read):只有当第一次读后仍难以作出评分决定时才不得不读第二次;(3)通读一次:从头到尾读文本一遍,找出其优点和不足,然后评分;(4)打出预测分(provisionalmark):边读边给出一个暂时分数,然后在后面的文本中找出更多证据支持或修正已给出的分数。在Sakyi(2000)的研究中,通过对6位评分员分别评阅12篇作文过程的观察,研究者发现了4种评分风格:(1)专注于文本中的错误;(2)专注于思想表达;(3)受个人情感反应的影响;(4)专注于评分标准。Cummingetal.(2001,2002)的研究发现了3种风格:(1)自我调整(self-monitoringfocus):读或重读文本,与其它文本比较;(2)关注思想表达、任务完成的程度;(3)关注语言质量:词汇、句法、错误出现的频率。Eckes(2008)对65位评分员进行问卷调查,了解他们对TestDaf所使用的分项式评分标准的看法。多层面Rasch模型和聚类分析发现,尽管该评分标准呈现出单维性(unidimensionality),但评分员之间的差异显著。按照评分标准各维度所得到的重视程度,所有的评分员可以分成6种风格,其中4种类型最重要:(1)关注句法(syntaxtype);(2)关注准确性(correctnesstype);(3)关注结构(structuretype);(4)关注流利度(fluencytype)。另外,这些类别的评分员都未能全面重视评分标准的所有维度,而且评分员的差异与他们的背景变量(年龄、海外经历、掌握的外语种类等)显著相关。该研究表明,即使有评分经验的评分员在经过严格细致的培训后,其评分行为仍存在较大差异,表现出不同的评分风格。上述研究结果表明,评分员的评分风格具有较大差异,表现在所关注的焦点及其评分决定依据往往不同。但这些研究的参加者较少,研究结果的外推力不大。2.5.2egies和评判评分员的差异还表现在他们所使用的评分策略(decision-makingstrategy)方面。Cummingetal.(2002)对TOEFL评分员的研究发现,评分员主要使用了两类策略:解释(InterpretationStrategies)和评判(JudgmentStrategies)。按照评分员关注的焦点,评分策略可以分为三种:自我调整(MonitoringFocus)、关注修辞和思想表达(RhetoricalandIdeationalFocus)、关注语言(LanguageFocus)。Lumley(2005)对四位有经验的评分员评分策略的分析显示:(1)评分员在做出评分决定时,往往要在自己对文本特征的印象、文本的具体特征和评分标准说明语之间进行调整;(2)评分员似乎能够对评分标准达成一致理解,但在实际评分时使用方式和侧重仍有不同;(3)评分员可能先做出评分判断,然后再到评分标准中找依据并对评分判断加以调整。Lumley的研究结果也支持Barkaoui(2007)的结论:在作出评分决定时评分员因素比评分标准的作用更大。2.6心理情感智能的自动作文评分系统鉴于人工评分存在的诸多问题,近年来自动作文评分(AutomatedEssayScoring,AES)系统的研究与开发成为研究的热点。该领域的开拓者Page在1966年开发了ProjectEssayGrader(PEG)系统,但这个系统只是通过文章的浅层语言形式特征的分析对作文进行评分,没有触及文章结构或者内容,因而受到人们的批评。上世纪90年代,自然语言处理(NaturalLanguageProcessing,NLP)与信息提取(Informat

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

二外语写作测试评分研究综述

文档简介

温馨提示

最新文档

评论

二外语写作测试评分研究综述

文档简介

温馨提示

最新文档

评论

相关文档