语言测试分类

上传人：1*** IP属地：天津上传时间：2023-08-28 格式：DOCX 页数：16 大小：33.56KB 积分：30 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第一章语言测试的分类语言测试的分类决定着测试的形式，题目的类型。语言测试大体上能够从用途、构建、考察重点、评分方式、对测试分数的说明等方面进行分类。正如Henning(2001)指出的，语言测试有多少个目的，就会有多少种测试类别。语言测试的分类能够帮咱们弄清“什么缘故测试？”、“测试什么？”、“如何测试？”等问题。关于语言测试类型的了解能够帮忙教师更有效地组织测试，更好地实现英语语言测试的信度和效度，更科学地依照测试的目的衡量信度、效度之间的关系。第一节以测试用途为标准的分类从测试用途角度进行分类，大致能够将语言测试分为五种测试形式，即水平测试(proficiencytests)、成绩测试(achievementtests)、分级测试(placementtests)、潜能测试(apititudetests)和诊断性测试(diagnostictests)。水平测试(proficiencytests)水平测试是用来测量人们的某一语言能力，往往与被测试者先前所受的语言训练无关。水平测试多针关于来自不同窗校，不同国家，不同语言背景的受试者，因此水平测试与他们过去的学习内容、课程目标、课程大纲等没有直接联系。那个地址的水平更强调以某一特定目标为基础的，关于语言的充分驾驭。水平测试的目的之一是用来选拔。这种选拔能够是为某一工作职位进行的招聘，现在的测试目标着重于受试者可否胜任某一工作，测试内容往往与这一工作中的实际场景相关，如联合国译员考试。这种选拔也能够是升学选拔，现在的测试内容是向前看的，如测量学生是不是具有足够的语言能力来跟上大学中的课程和学业，如美国的托福考试，英国的剑桥英语水平证书测试(UniversityofCambridgeCertificateofProficiencyinEnglish)等。大多数试题内容来自国外大学本科生教材。升学选拔水平测试在范围上有所区分，有的只是针关于大学中某一具体专业，如艺术专业；而有的那么是针关于所有专业，如牛津EFL考试。现以雅试探试为例对水平测试做一具体说明。雅思即国际英语水平测试(InternationalEnglishLanguageTestingSystem)，简称IELTS。IELTS的考试中心遍及全世界105个国家。考试可分为两种类型，学术类和培训类。学术类IELTS(AcademicIELTS)适合于打算申请报读国外高校本科或研究生课程的考生，专门测试考生是不是具有必然的英语语言能力完本钱科或研究生课程。因此若是打算出国留学深造或同意高等教育，应选择学术类IELTS考试。一般培训类IELTS(GeneralTraining)是针对去英语国家完成中学教育,学习非学位培训课程,和赴加拿大、澳大利亚、新西兰等国移民居住的人员，要紧测试在一样的社会和教育情景下的大体生存技术(basicsurvivalskills)。因此若是打算完成低级教育，同意非学术类培训，工作或移民到英语国家，应选择培训类IELTS考试。IELTS考生需要参加听力、阅读、写作和口语四项测试。每项测试不同的技术。听力要求考生明白得日常生活中的口语和非正式场合的口语，比如在讲座，研讨时利用的口语，雅思的听力部份确实是测试考生在这方面做得如何；阅读部份要紧考察考生从许多信息来源中快速、准确地搜集找到要紧信息的能力，此部份要紧针对往后学习中常面对的问题，即在学习中没有时刻阅念书单上所有的书。写作部份测试考生在搜集和组织信息后，以文章或报告的形式表述方式的能力；口语部份测试考生谈论自己的情形，表达对各类问题观点的能力。总之，雅思的所有考试都面对尔后学习中常显现的情形，即在时刻紧迫的情形下寻觅信息，快速思维，并恰本地做出反映。我国的水平测试主若是全国公共英语品级考试，教育部和许多单位调派出国留学人员的标准之一确实是通过全国公共英语品级考试的第五级。水平测试往旧事关重大，因此在水平测试试卷的设计上必然要有信度和效度。很多水平测试都往往委托于专业的考试机构。同时水平测试的出题机构应普遍吸收应试者的见意，使水平测试具有正面的“回波效应”(backwasheffect)。成绩测试(achievementtests)成绩测试用来测量学生关于所学知识的把握，与所学课程直接相关，目的在于评判学生个体、小组或班级在学习目标实现方面的成功度。成绩测试一样包括:终结性成绩测试(finalachievementtests)和进程性成绩测试(progressachievementtests)。终结性成绩测试在学科终止时进行。试卷命题一样由年级组、学校教务部门、教育部官方命题机构等负责。考试内容与教学内容相关。就考试内容而言可分为基于教学大纲的内容模式和基于教学目标的内容模式。前者的考试内容多数是学生所熟悉的，但问题在于若是大纲设计不合理或教材选取不妥，考试结果将会误导师生。例如，某一课程目标是进展学生的口语能力，可是课程本身和测试内容是要求学生在充分的预备下发表对家乡、对天气的观点，那么测试结果就不能反映出学生是不是达到了课程目标所要求的程度。基于教学目标的内容模式使测试内容与课程目标直接相关，其优势在于第一使课程设计者更精细地描述目标；第二使测试结果更好地反映学生是不是达到了课程目标所要求的程度；同时关于大纲的制作和教材选择有更好地标准作用。Hughes以为：“它能为个人和群体的成绩提供更精准的信息，并为教学提供更有利的'回波效应'(backwasheffect)”(Hughes2000:11)。终结性成绩测试的试题一样是主观性和客观性试题相结合，试卷制作较为标准。每学年的期末考试、我国的中考及高考，严格来讲都应属于终结性成绩测试，因为这些测试都是以教学大纲为内容的测试，而且试题多是查验学生对已学知识的把握。进程性成绩测试，顾名思义，是测量学生在学习进程中的进步。关于进程的衡量能够通过成立短时间目标来实现。教师多采纳突击考试的形式来检查学生的学习进程，并使学生时刻维持警觉。因此进程性成绩测试的试卷制作相对不太严格，每一份试卷都具有其专门性，而且多依照具体任课教师对班级成员的了解及其自身制定的时期性目标为命题依据。进程性成绩测试作为一种有效的测试方式，能够对教学和学习动机产生有利的回波效应。好的进程性成绩测试能够鼓舞学生学习目口号言并取得自信，还能推动学习并巩固已学知识。成绩测试方式应当与教学中所利用的方式相一致。例如，教学中利用的是交际能力教学法，那么成绩测试的方式也应为交际能力测试方式而不是结构主义测试方式，不然就会致使考试不公平的问题。最近几年来关于标准化试题的争议多源自于测试方式与教学方式的不合。目前，自我评估(self-assessment)测试方式慢慢融入到成绩测试中。所谓的“自我评估测试方式”确实是鼓舞学生参与到评估中，能对自己在不同情景中所表现出的语言能力给予评判。分级测试(placementtests)分级测试是依照学生的不同能力将学生分为不同的品级或不同的班级。分级考试的试卷设计应当量文体衣，即在分级测试前要弄清不同级别的要紧教学特点，然后依照这些教学特点设计具体的测试内容。分级测试的试题难度应包括不同难度水平的题目，即遍及从最简单到最难题目的两极之间。关于百分制的测试而言，最好以10分为一个段，每一个分数段都有学生，以便于分班。分级测试符合现代教育理论所强调的因材施教，即针对不同水平的学生采取不同的教学方式和教学内容。可是分级测试也应考虑学生的心理经受能力，幸免挫伤学习者的学习踊跃性。分班分级所致使的压力不仅阻碍到学习能力较弱的学生，也会阻碍到尖子班里的优秀生。心理学研究说明，压力大造成的过强学习动机反而会使学习者心情过度紧张、焦虑、阻碍经历明白得能力。因此如何恰本地利用这一测试方式，还有待于进一步的探讨。潜能测试(apititudetests)语言潜能测试也叫做预测性测试(prognostictests),是通过衡量学生在一门陌生语言中的语言表现，以预测其是不是有学好这门语言的潜力。语言学习潜力受到多方面因素的阻碍，如智商、年龄、动机、经历力、语言灵敏度和语法结构灵敏度等。语言潜能测试与之前所学的知识无关，很多情形下是学生以前从未接触过的语言。一些专家以为在实际操作中不太可能对应试者的语言潜能进行全面的测试，因此多数测试只是衡量考生某一部份的潜能如听、译领域的潜能。辞汇测试常被以为是有效的潜能测试方式，因其与智商紧密相连而且能反映出应试者对这一领域的爱好。测试语言多采纳人工语言，多关注音位区分能力和系统运用语言结构的能力，潜能测试题目数量较多，如TheModernLanguageAptitudeTest。诊断性测试(diagnostictests)诊断性测试用来识别学生在学习方面的优势和劣势，从而确信以后的教学走向。诊断性测试较关注于学生在哪些方面犯了错误，并借此找出补救的方法。从广义上说，诊断性测试能够帮忙改良教学，调整教学打算，进行个别指导。现行课堂中采纳的诊断性测试多是教师依照教学重点、难点及本班实际情形自行进行的小考试，从而及时发觉学生的问题，尤其是普遍性问题，以此给教师提供依据，对前一时期的教学进行反思，对尔后的教学给予指导。这种诊断性测试得分应在平均80%以上，以鼓舞学生的学习。“诊断性测试能够作为形成性评判的组成部份，将一个学期的试卷存入学习档案就会使学生清楚地看到自己的学习进展情形”(武尊民2020：32)。这种课堂上的诊断性测试，从本质上来讲，与成绩测试尤其是进程性成绩测试相吻合。正如Heaton所说：“尽管诊断性测试的术语被普遍利用，但几乎没有什么测试是只被做为诊断性测试而构建的”(Heaton2000:173)。成绩测试和水平测试常常被用于诊断性测试当中。缘故在于，从大的方面，例如从语言技术的角度而言，一套综合性试卷就能够够帮忙咱们判定某一学生在听说读写译五个方面哪个方面最强，哪个方面最弱。在写作和口语方面，在现有的成绩测试和水平测试中，咱们也能够依照测量标准，很容易地判定出学生在写作或口语中较弱的方面，例如辞汇匮乏，或是不能较好地利用连接手腕等。可是关于超级具体的内容，现有的测试手腕和模式很难构建出真正具有诊断性特点的测试内容。例如，关于语法方面的考察，就缺少真正意义上的诊断性测试。假设咱们想诊断学生是不是具有对某两种相似语法结构或时态进行区分的能力，那么数量太少的题目尤其是选择题那么不能实现诊断的信度和效度，因为样本过少那么不能排除运气及猜题之嫌。现在的样本应尽可能的丰硕，并应包括每一种它们能够实际应用的情景。可是，大量的样本之需常常使试题出题人和利用者避而远之。那么，是不是因此就要遗弃单纯的诊断性测试呢？显而易见，诊断性测试本身的意义就已否定了这种观点。尤其是在现代社会，人们大力提倡终生学习，自主学习。诊断性测试关于自主学习的意义是庞大而又明显的。关于这种矛盾的解决方式就要向运算机系统寻求帮忙了。第二节以测试构建为标准的分类从测试构建的角度进行分类，英语语言测试能够分为直接测试(directtests)和间接测试(indirecttests)。换句话说，这种分类形式取决于测试者是想直接地测量语言实际运用能力，仍是想间接地反映出某种语言能力。1.直接测试(directtests)当某一测试使应试者精准并直接地表现出咱们想要测量的能力时，那么该测试就被视为直接测试。直接测试的结果能够直接反映应试者在某一方面的语言能力。如咱们想考察学生的写作能力，就能够够让他写一篇作文。再比如咱们想考察学生的语音语调，就能够够让他读一小段文章。直接测试较适用于产出性的语言技术，如阅读和写作。直接测试的优势在于：第一，若是咱们很清楚想要测量的语言能力有哪些，那么就能够够相对直接地制造出相应的情景，使考生产出的行为在该能力所要求的行为范围之内；第二，关于产出性技术，很容易直接地给予评估和阐释；另外，关于直接测试的预备那么会催促考生多次训练相应的技术，对教学和学习有专门好的回波效应。直接测试的选材要求尽可能真实，最理想的考试环境应当是现实中的实际环境而非人为策划出来的交际环境。因此这也是直接测试的瓶颈所在。因为任何的现行的直接测试从本质上来讲都不可能是完全真实的。McNamara(2003)曾举过如此的例子来讲明那个问题，在为移民健康从业人员进行的英语口语测试中，所设置的对话、角色扮演都发生在医生和患者之间，场景相对真实，可是显而易见这种行为本身并非存在，医生并非是真正地在向患者提供效劳。McNamara进一步引用一名闻名作家的话来讲明这一点，即“每一个人都意识到评估口语能力的对话只是一种测试而不是真的发生在茶话会上(teaparty)((McNamara2003:9)。Henning也曾指出：“许多语言测试都应被视为自然场景(natural-situational)到非自然策划场景(unnatural-contrived)所组成的持续体(continuum)当中的一点”(Henning2001:5)。因此，测试的直接性只是相对而言，例如口语中的采访形式要比完形填空直接；语境化的辞汇测试要比同义词匹配自然直接。就信度和效度而言，直接测试效度好而信度差。直接测试能更为直观地反映出考生的语言能力，接近真实生活中的语言表现，因此效度好。可是由于直接测试的题目往往是主观性测试题目，因此评分所具有的主观性相对较高，致使其信度较差。直接性测试要幸免场景构建失真，同时要注意简化的评分方式也会阻碍有价值的直接语言能力数据。2.间接测试(indirecttests)间接地观看言语行为的测试称为间接测试。间接测试的结果不能直接反映语言能力，可是能够提供判定语言能力的信息。Lado在1961年提出了间接测试语言能力的一种方式，即让学生判定所给出的辞汇中哪些辞汇能够组成同音辞汇对。这种题型在我国初、高中英语测试中普遍应用，即给出一个词，然后让学生从四个选项当选出一个与所给出辞汇发音相同的词。间接性测试的优势在于适用范围较广，而且其结果也更具概况性。但问题在于如何判定某一能力的组成成份，这些组成成份的测试分数是不是能够真正反映出考生对该能力的把握程度。在实际操作中，如语法知识的考察中，间接性测试只能从语法单项中进行取样测试，考试结果只能反映所取样的内容，而不能说明所有语法知识的把握程度。间接性测试与直接性测试相较较效度差，但信度高，这主若是由于间接性测试多采纳客观性试题。关于直接性测试和间接性测试的选择受本钱效益、信度和效度等因素的阻碍。第三节以考察重点为标准的分类John.B.Carroll(1961)第一提出了分立式测试(discretepointtests)和综合性测试(integrativetests)之分。这两种测试的不同在于考察重点的不同。1.分立式测试(discretepointtests)分立式测试是将知识和能力分成假设干小的单元，然后一项一项地进行测量。因此分立式测试具有诊断性的意义。分立式测试受到结构主义理论的阻碍，即语言有许多成份组成，把握一种语言确实是要把握这些组成成份。分立式测试的每一个题目一样只考查一个语言点，而且多采纳单项选择的形式。例如：Beforethefirstnon—stopflightwasmadein1949,it necessaryforallplanestolandforrefuelling.A.wouldbeB.hasbeenC.hadbeenD.wouldhavebeen(1996年1月CET-4：25题)这道题要紧考察若是before引导的时刻状语从句是一样过去时，那么主句的时态应为过去完成时态。分立式测试试题应幸免在单项选择中设置两个以上的考点。例如：Researchfindingsshowwespendabouttwohours everynight,nomatterwhatwe duringtheday.A.dream,musthavedoneB.dreaming,shouldhavedoneC.dream,wouldhavedoneD.dreaming,mayhavedone关于这道题，学生若是答对，那么能够判定出学生把握了spendsthdoingsth的用法,同时又把握了虚拟语气中mayhavedone的用法。可是若是答错，那么很难判定学生明白什么不明白什么。2.综合性测试(integrativetests)综合性测试用来同时测量学生的多种语言能力，需要考生综合多种语言能力来完成某一语言任务。因此综合性测试不具有诊断性的意义。综合性测试是一种较为流行的测试形式，包括无选项完形填空、听写、口语面试、写作、记笔记、翻译等例如：PETS5级第二部份中的英语知识应用部份就属于综合性测试。这部份采纳无选项完形填空的形式，在一篇250-300词的文章中留出20个空白，要求考生依照短文内容填空，使补全后的文章意思通顺、前后连贯、结构完整。其中约有12题考查语法和语段结构，8题考查辞汇。考试大纲中明确了这部份的考查目的，即该部份不仅考查学生对诸如连贯性和一致性等语段特点的辨识能力，还考查学生对用于必然语境中标准的语言成份的把握，这些标准的语言成份主若是辞汇和语法结构。现举一小段为例：Mrs.Thomasbelievesthatthe___betweenolderandyoungerwritersis___toodramatictobeaccountedforsimplybythepossibilitythatpeoplegetbetteratwritingastheygrow___.Sheattributesittoafailuretoteachthemosteffectivemethods,pointingoutthatthedifferencesbetween___groupscoincideswiththeabandonmentofformalhandwritinginstructioninclassroomsinthesixties.“The30-year-oldsshowedahugerangeofgrips,___theover40sgroupallhadauniform‘tripod'grip.”(全国英语品级考试考试大纲第五级1999：27)考生要得分就必需第一读懂文章，因此会利用必然的阅读技术。考生要对文章所处的语境有必然的背景信息，在填空的进程中，考生要考虑所填辞汇的形式，与前后文的搭配，还要考虑整篇文章的逻辑结构，连接手法等。考生还要把握介词短语、转折辞汇等的利用方式。在此段中，考生只有明白上文意义才能做出正确的判定。第四节以评分方式为标准的分类Pilliner(1968)指出，依照试卷评分方式的不同，英语语言测试可分为主观性测试(subjectivetests)和客观性测试(objectivetests)。1.主观性测试(subjectivetests)主观性测试和客观性测试的区别在于评分方式的不同。主观性测试需要评分人对答案做出观念性判定，这种判定往往基于评分人的体会和所受过的相关训练。主观性测试的题目要紧有简述题、翻译题、作文、面试等。但这些题目在主观性的程度上有所不同，例如自由写作比基于阅读的简答题明显具有更高的主观性。主观性测试由于需要评分人做出主观性的判定，因此在信度上明显稍差。一篇作文，让不同的评分人去评阅，就会显现不同的分数，乃至相差很多的分数，这主若是由于评分人的观点、知识背景等各不相同。信度是主观性测试一直追求的目标。实现主观性测试的信度要紧要考虑以下几点:①对评分人给予足够的培训。主观性测试的评分人最好要有相关的体会，在每次评分前，都要针对本次测试的主观性试题进行培训，以熟悉试题内容、评分标准。同时还要进行试评，每轮试评后，应付每一名评分人的评分结果进行分析，若是某位评分人的分数老是与标准分数相差甚远或不符合标准，那么应再也不利用该评分人。以雅思为例，根据《IELTS评分、分数报告和说明》，关于受考官主观性阻碍较强的写作和口语考试部份，IELTS官方强调：考官均须依照已制定的明确标准进行及培训，且须每两年同意查验证明其评分符合标准。②在评分初始，就要确信可同意的答案，考试终止后应该当即选样。例如作文测试，应被选取不同层次的样本，供评分人进行讨论，当所有评分人意见一致后，才能够进行大规模评阅。关于简述题、翻译题等，考试终止后也应当当即选取必然数量的样本，在试评中应注意把握不准是不是给分的语言点，尤其是共性的问题，然后进行讨论订立标准，并告知所有评分人引发他们的注意。③利用多名独立评分人。一样来讲，关于主观题应至少有两名独立评分人，两人应在不明白对方所给分数的前提下进行各自的评分，最后由他人汇总两位评分人的分数，进行比较。若是相差太大，那么退回重评或交予权威专家进行评判。④幸免给予应试者过量项选择择的权利。在主观性测试中，应幸免让考生从一系列题目当选取某一题目回答。例如，在写作中提供多个题目，让学生从当选取一个题目进行写作，这只会干扰测试的信度，并有不公平之嫌。主观性测试的效度较好，因其能够直接地考查考生的语言应用能力，同时命题相对简单。可是主观性测试对考生的回答内容缺少操纵，尤其是当考生把握了一些语言策略以后。比如在口语考试中，考生可能会采纳迂回策略来幸免利用自己可不能的单词或表述方式。因此就无法判定考生是不是已把握了某些测试所要考查的内容。主观性测试需要较多的人力和物力，因此更适用于小规模测试，如班级测试等。关于大规模测试，那么应依照具体情形安排好主观性测试试题的数量，使主观性测试题目数量适当，幸免过量。在实际教学中，很多教师不太清楚主观性测试具体的题型，以为只若是写单词确实是主观性测试题。教师应当对此进行有效的区分才能保障试题的效度和信度。教师应当明确主观性试题应涉及学生的语言产出，应当使学生展现实际运用语言的能力。武尊胜等人在1999年对长江以北地域初中毕业、升学考试英语试卷进行评判时就发觉一些自以为主观题占到40%的试卷事实上一个主观性试题也没有。“有的安排在书面表达部份的题目，事实上只是操纵性写作题目，留有10个空，让学生在读了短文以后填写”(武尊胜2020：27)。由于该题目不涉及语言产出，应属于客观性试题。因此，教师有必要学习此方面的知识。2.客观性测试(objectivetests)客观性测试是指不需要评分人主观判定、答案唯一或固定的测试形式。客观性测试不需要对评分人进行培训，也不需要评分人的专业性判定，乃至直接利用阅卷机就能够够完成阅卷工作。客观性测试的典型题目是单项选择题。可是单项选择题不是唯一的客观性测试题型，单词拼写、动词填空、正误判定、配伍题等都是客观性试题。客观性测试内容较为普遍，比较适合分离式测试。但这也使客观性测试只能间接反映考生语言能力，同时增强了考试内容取样的主观性。客观性测试效度差，它往往只要求考生涂卡、打钩等，答题存在猜想性因素，无法考察考生的实际语言应用能力。客观性测试信度好，唯一或固定的答案维持了评分标准的准确性。客观性测试能够对语言点有所操纵，阅卷省时省力。但有一点咱们需要注意，客观性测试并非是完全客观的，决定考点的进程、制作试题的进程本身确实是主观的。很多教师偏向于利用单项选择题，以为出题容易，评分省力。但事实上单项选择题的命题十分困难，并耗时耗力。单项选择题由题干、答案和干扰项组成，每一个项目的编写都要求命题人精心地考虑。单项选择题要符合多种条件，如每一个单项选择题都应只有一个答案，每道题只能测试一个语言点，每一个选项放入题干中都能保证语法正确，这看似简单，但实际做起来却很难。对题干内容也有很多要求，如，题干必需准确，不可有无关的、混淆所测试问题的内容，不然考生就无法明白题干，无法做出选择，也就无法判定考生对所要测试的问题的把握程度。另外，能放到题干中的词就不能在选项中重复显现。干扰项那么要求即不能太难，又能起到干扰的作用，另外还要保障考生只能通过直接选择来回答，不能通过排除等手腕来答对。关于客观性试题的争辩一直都有，Fry曾经用如此的一段话来批评客观性测试中的单项选择题：“所谓猩猩的分数(orangoutangscore)确实是指一只训练有素的猩猩在标准化阅读测试中所取得的分数。一只饥饿的猩猩被放在了配备长方形窗户和四个按钮的小笼子里，来同意如此的训练，即每次当阅读教师将工整打印的阅读测试单项选择题放在长方形窗户上时，大猩猩若是想要取得香蕉，所要做的确实是任意地按任何一个按钮。这些按钮上都别离标有A、B、C、D四个字母”(Fry1971:360)。固然这是对客观性测试尤其是单项选择题的极端观点。Heaton(Heaton2000:26-27)曾就客观性测试的两种误解进行了澄清，他以为第一种误解源自于客观性测试的外观形式，从那个角度看，客观性测试似乎很简单。但事实上并非简单，出题人不仅需要选择和构建试题项目，而且还要分析学生在每一项目上的表现，而且据此从头书写项目，直到测试具有普遍的区分分辨能力(discrimateswidely)。第二种误解是以为单项选择题鼓舞猜题。Heaton以为选项的数量能够有助于降低猜题的概率，另外从体会上来讲，即便考生在回答时有猜题的行为，可是这种猜想大多是基于所把握的部份知识。第五节以对测试分数的说明为标准的分类不论举行任何测试都是有目的的，测试结果能够用来反映这一目的。常模参照性测试(norm-referencedtests)和标准参照性测试(criterion-referencedtests)正表现了关于测试结果进行说明的不同参照标准。1.常模参照性测试(norm-referencedtests)所谓“常模”，刘润清以为：“常模是指一群类型相同的人在一类考试中的成绩，那个常模一样用该考试的平均分与标准差来表示”(刘润清2000：13)。因此，常模参照性测试是指对同一次测试的结果进行比较，参照考试目的与要求设定合格分数线。合格分数线的设定要紧以平均分数为依据。现以四、六级大学考试为例，自2005年6月起，大学英语四、六级考试的原始分数在通过加权、等值处置后，参照常模转换为均值为500、标准差为70的常模正态分数。四、六级考试报导总分计算公式为：TotSco= X70+500SD公式中X表示每一个考生加权、等值处置后的原始分数，Mean表示常模均值，SD表示常模标准差。常模正态分数的特点是能够报导考生在常模群体中所处的百分位置。如某考生四级报导总分是550分，那么依照大学英语四级考试(CET-4)报导分数百分位对照表，可判定其在常模群体中的百分位是76%，表示这名考生的英语成绩优于常模群体中76%的人。如某考生六级报导总分是600分，那么依照大学英语六级考试(CET-6)报导分数百分位对照表，可判定其在常模群体中的百分位在87%〜92%之间，表示这名考生的英语成绩至少优于常模群体中87%的人，但可不能优于92%的人。常模参照性测试以与其他考生的分数进行比较来衡量某一考生的成绩，确信其在全部考生中的位置，因此常模参照性测试适用于选拔性测试，我国比较重要的考试多数是常模参照性测试，如中考、高考、研究生入学考试等。常模参照性测试的选拔性目的决定了其特有的特点，从命题角度而言，命题内容覆盖面宽，命题难易度离散程度较高，有助于拉开分数段；分数要紧采纳百分或标准分数的形式。常模参照性测试的优势在于关于大多数考生来讲较为公平，因为通过考试与否的标准是以与其他考生公平竞争的结果来确立的，尤其是中国学生比较适应于这种测试模式，他们较适应于从自我位置的确信中找到前进的目标。常模参照性测试的不足在于常模的效度往往受到受试人群的阻碍，常模随着受试人群的转变而转变。第二，学生在常模参照性测试中的表现不能直接说明其在语言中的实际表现。另外，常模参照性测试的回波作用有待商议，在实际操作中，若是大多数学生没有通过考试，那么责任往往推卸给试卷内容，而不是第一考虑教学目标和教学质量是不是显现了问题。2.标准参照性测试(criterion-referencedtests)Carrol,Cronbach,Glaser在1963年发表了三篇论文，提出了标准参照性测试的概念。与常模参照性测试不同，标准参照性测试在考试之前就已经预先定好了衡量标准，然后依照这些标准来判定学生是不是通过和不通过。在标准参照性测试中学生的表现并非取决于与其他学生所做的比较。标准参照性测试依照考生可否令人中意地完成某些任务来划分档次。例如，雅思中的学术类作文考试，若是某一学生取得6分，那么与这一分级对应的写作水准如下：在任务完成方面，达到写作任务各项要求、能确切选择有效信息进行全面评述、呈现并强调要紧特点或要点，但细节可能与要点无关、不适当或不准确。连贯及衔接方面，信息和分论点安排连贯，论证进程清楚，有效利用衔接手腕，但句内或句间衔接有错误或显机械呆板，有时指代不清楚或不适当。辞汇量方面，相对写作任务而言，所运用的辞汇量充沛，尝试运用超级见辞汇但有时显现错误，拼写和构词显现一些错误，但不阻碍交流。句式多样性及语法准确性方面，混合利用简单和复合句，语法和标点显现一些错误但大体不阻碍交流。一样在口语部份，考官会以流畅度及持续性，辞汇内容丰硕性及语法标准性与语音作为评分标准。若是一名考生取得6分，那么他已达到的相应的口语标准如下：流畅度及连贯性方面，情愿进行详细描述，但有时因重复、自我更正或停顿而造成不连贯，运用不同的连接词和语篇标记但有时不适当。辞汇方面，尽管有时辞汇运用不适当，但辞汇量足以详细表述主题，表意清楚；整体上能成功地变换措辞进行复述。句式多样性及语法准确性方面，混合利用简单和复合句式，但不够灵活；常常在利用复合句式时犯错，但很少因此给明白得带来障碍。语音方面，整体能听懂，偶然因发音错误给听者明白得造成负担。再比如，全国公共英语品级考试，也是依照国际英语测试标准设定的标准参照性测试。共设五个品级。其试题难度不以考生群体的水平不同为转移。“PETS的各级考试大纲对级别定位等有关标准都给出了尽可能详尽的文字描述，并详细、具体地列出了交际话题、功能意念、语法项目、语言技术和辞汇等，这对标准命题、考生应考和教师辅导有实在际的指导意义”(全国英语品级考试考试大纲第五级1999：前言2)。各级别都对语言知识和语言运用的能力做出了描述，现以PETS五级的语言应用为例。PETS第五级考生应具有的互动、同意和产出能力如下：互动能力能够就普遍的社会问题和在学术和专业方面用英语与外国人交谈，且其语言符合英语的文化适应。能踊跃主动地参加学术研讨或导师主持的课堂讨论。同意能力能够听懂英文讲座、学术发言、讨论或争辩，同时还能听懂英文广播节目。能够分析性、评议性地阅读，并从具体目的动身确信有关资料的价值。产出能力能够较好地写出专业文章，诸如科研论文、实验报告、并能预备有效性文件。在学术研讨中，能够清楚地表达或论证与自己学科相关的内容。标准参照性测试与常模参照性测试相较较具有以下优势：第一，它以实际语言要求为标准确信衡量标准，从而更偏向于直接反映并描述语言能力；第二，标准参照性测试能够鼓励学生实现标准。考生以事前确信的标准做为目标，不用担忧自己比他人差，就必然会被淘汰。标准参照性测试不以淘汰多少考生为目的；另外，标准参照性测试与教学目标紧密相连。考生的表现可增进课程、教学方式、教学目标的改良。标准参照性测试的缺点在于：第一，考试内容范围狭小，只涉及标准规定的内容；第二，考生不能够通过与他人比较明白自己在考试人群中所处的地位。尤其关于勤学生而言，缺少取得更高成绩的动力；另外，标准的设定不免有随意性之嫌。Popham曾指出：“关于这种测试，信度(reliability)和效度(validity)的评估技术才方才开始，因此大多数情形下，仍不能清楚某一考试，从科学的角度来讲，是不是具有信度和效度”(Popham1978:15)。在美国，标准参照性测试受到了普遍的欢迎，除上述提到的缘故外，一个很成心思的缘故是标准参照性测试幸免了关于学生人权的违背。Guy,Chambers曾指出，常模参照性测试组成了对学生人权的违背，因为在这种考试中学生的排名被公布发表，会使学生感到羞耻。Wood在《评估与测试：研究综述》一书中写到了常模参照性测试所涉及的法律问题，在美国，尤其是在佛罗里达州(Florida)，法院听取了一系列的标准参照性测试违背人权的案件,但法院判诉讼人败诉，这或许是鼓舞标准参照性测试的一个成心思的例子。第六节语言测试的其它分类除以上谈到的测试类型，最近几年来比较流行的测试还包括交际性测试(communicativetesting)和运算机辅助测试(computer-assistedtesting)。交际性测试(communicativetesting)自从Hymes提出了交际能力理论，语言教学开始注重学生交际能力的培育，因此交际性测试也就应运而生。Hymes的语言交际能力框架由possible(可能)、feasible(可行)、appropriate(适当/得体)、done(完成)组成，换句话说语言能力不仅包括语言知识(辞汇、语法知识)而且也包括交际能力，即有能力利用这些语言知识来得体地完成交际任务。以后Oller在70年代中期提出“单一语言能力假想”(unitarycompetencehypothesis),即“这种假设以为语言水平(languageproficiency)是一种单一能力(singleunitaryability),而不是分立的技术(skills)和成份(components)”(Bachman2006:48)Oller的这一理论提倡完形填空这一测试项目。Canale和Swain将交际能力概念为“语法能力(语法规那么的知识)和社会能力(语言利用规那么的知识)的彼此作用与彼此关系”(Bachman2006:49)。尔后他们又将策略能力(strategiccompetence)列入交际能力中，所谓的策略能力是指“用来弥补交际中断(breakdowns)的言语(verbal)和非言语性(non-verbal)的交际策略，交际中断由行为转变(performancevariables)或能力不足(insufficientcompetence)引发”(Bachman2006:50)。1983年Canale又将话语分析能力纳入交际能力中，Swain在1985年提出了交际语言测试的四条归纳性准那么即①从高处而言②集中于内含③偏倚最好部份④有助于回波。1995年Bachman对语言能力进行了归纳，即语言能力包括组织能力(organizationalcompetence)和语用能力(pragmaticcompetence)。组织能力二分为语法能力(grammaticalcompetence)和语篇能力(textualcompetence)；语用能力二分为施为能力(illocutionarycompetence)和社会语言能力(sociolinguisticcompetence)。交际能力的进展关于交际性测试有专门大的推动作用。例如，Bachman的社会语言能力包括方言能力。方言的利用符合交际性测试对语言材料的要求，即语境的真实性。在英国剑桥大学地址考试委员会的熟练英语证书考试(CPE,五级水平考试中的最高级)听力材料中就有带地址口音的发言。McNamara提出交际语言测试应具有两种特点(McNamara2003:16-17)：交际语言测试是语言表现测试(performancetests),其评判需要在学习者从事交际的扩展行为时进行。这种扩展行为能够是同意性的，也能够是产出性的，或二者兼而有之。交际语言测试偏重参与者在实际场景中可能扮演的社会角色，并提供具体说明这些角色需要的方式。Weir在《CommunicativeLanguageTesting》一书中提到了交际语言测试的一些要紧特点：①重点是意义②语境化③语言活动带有可同意的目的性④有实际意义的言语⑤利用真实的语言材料⑥文本处置有真实性⑦考试结果不可预见⑧以互动为基础⑨考生在真实心理状态下展现语言能力⑩依如实际结果判定成绩。(Weir1990:167)正如McNamara所说:“交际能力理论代表了对语言的研究已从心理角度研究深刻地转移到社会角度的研究。心理角度研究将语言视为内在的现象，而社会角度研究那么注意语言的外在社会作用”(McNamara2003:17)。交际性测试在英国和澳大利亚等国家很受欢迎，例如，澳大利亚为以英语为第二语言的健康从业人员设计的考试。在考试中，任务的设计以真实诊所常见的场景为背景，包括：与病人交流，为同事提供病例等。分数以交际的复杂性、流畅性做为标准。我国的交际语言测试主若是全国英语品级测试，其考试大纲中就明确了该考试是交际性语言测试，即“其语言运用能力的分类和概念成立在交际性语言活动模式的基础上”（全国英语品级考试考试大纲第五级1999：7）。其不同的级别描述了不同的交际能力，及这些能力所能应付的语言需要。例如：该考试对三级水平的描述“通过该级考试的考生，其英语已达到高等教育自学考试非英语专业本科毕业水平或符合一般高校非英语专业本科毕业的要求，大体符合企事业单位行政秘书、领导助理、一样治理人员或科技工作者、外企职员的工作要求，和同层次其他工作在对外交往中的大体需要”（全国英语品级考试考试大纲第三级2003：11-12）。五级水平为“通过该级考试的考生，其英语水平大体知足在国外攻读硕士研究生非英语专业或从事学术研究工作的需要。该水平的英语也能知足他们在国内、外从事专业和治理工作的大体需要”（全国英语品级考试考试大纲第五级1999：8-9）。交际性测试典型的测试形式是要求考生选择语法准确并符合社会标准的句子。例如：Youwereapplyingtoauniversityandneededaletterofrecommendation.Youwenttoaprofessor,whowasalsoyourfriend,andsaid:“I'dappreciateitifyoucouldwritealetterofrecommendationforme.”（正确，得2分）“Iwanttoaskyoutowritealetterofrecommendationforme.”（语法正确，不够得体，得1分）“Iwonderifyoucouldwritealetterrecommendingme.” （还算得体，但语言有误，得1分）“Hey,givemerecommendationletter.” （语言有误，又不得体，不给分）（刘润清2000：15）运算机辅助测试（computer-assistedtesting）运算机辅助测试（computer-assistedtesting,CAT），是指利用运算机协助关于学生的学习成效进行测试和对学生的能力进行评估。它以现代教育测试测量理论——项目反映理论（itemresponsetheory）为基础，以运算机和网络技术为依托，力图快速准确地测量考生的潜在语言能力。运算机辅助测试有联机测试与单机测试两种方式。闻名的EducationalTestingService于1998年设计出了TOEFL的CAT,并于2006年开始全数在互联网上进行测试。TheUniversityofCambridgeLocalExaminationsSyndicate开发了不同语种，不同用途运算机辅助语言测试，并与剑桥大学出版社一起开发了QuickPlaceTest(computerbasedversion,QPT)以便于学生的分级、分班。运算机辅助测试能够利用先进的测试模式，如运算机自适应性语言测试(computeradaptivelanguagetesting,CALT)和网络化语言测试(Internet-basedtest)。网考的典型性代表确实是新托福考试，它通过网络技术实现了试题和答案的双向传输，它对试题题目给出了详细的分析并为考生提供了人性化的成绩报告单。运算机自适应测试是“量文体衣测试”(tailortest)的变体。它依照考生答对、答错情形自动生成接下来的题目。若是考生答对某一题目，那么运算机自动生成更高难度的试题，若是考生答错某一题目，那么运算机自动生成较低难度的题目，直到搜集到足够信息以评判学生的能力。Henning曾指出运算机自适应测试的优缺点：第一运算机自适应测试能够减少个体测试时刻及挫败感和厌倦感，因其幸免了考生多次面对相同级别的试题或高于、低于其能力水平的试题。

人人文库> 全部分类> 应用文书 > 事务文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语言测试分类

文档简介

温馨提示

最新文档

评论

语言测试分类

文档简介

温馨提示

最新文档

评论

相关文档