国际阅读测试项目的设计思路及操作技术转帖.doc_第1页
国际阅读测试项目的设计思路及操作技术转帖.doc_第2页
国际阅读测试项目的设计思路及操作技术转帖.doc_第3页
国际阅读测试项目的设计思路及操作技术转帖.doc_第4页
国际阅读测试项目的设计思路及操作技术转帖.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国际阅读测试项目的设计思路及操作技术 转帖国际阅读测试项目的设计思路及操作技术兼谈其对中国阅读测试的启示发表时间:2009-1-6 14:19:36来源:首都师范大学学报(社会科学版)2007年第2期作者:张颖摘要:本文对几个重要的国外阅读测试项目(NAEP,PISA,PIRLS)进行了综合的介绍,主要侧重各阅读测试项目在设计思路和操作技术上的可资借鉴之处。其中,明确界定评价核心、明晰分解评价内容、理性选择阅读材料、系统设计评价工具、有效保证评分信度以及对评价结果的分析反馈等方面都为我们系统化、理性化地构建阅读测试框架提供了更广阔的视野和思考空间。关键词:阅读测试;NAEP;PISA;PIRLS阅读能力不仅是学生语文素养中一个十分重要的方面,也是人们整体素质的重要组成部分之一。中国从20世纪80年代开始进行大规模的现代文阅读测试,现在,对学生阅读能力的测试已经成为各种测评的重要内容之一。经过多年实践,我们摸索出了一套适应中国阅读测试的体系框架,积累了大量宝贵经验。但中国现在的阅读测试大多停留在凭经验操作的层面上,设计思路往往不够清晰明确,缺乏系统化、理性化的整体规划与结构,而国际上的一些阅读测试项目,如经济合作与发展组织(OECD)的国际学生评价项目(PISA)、国际教育成就评价协会(IEA)的国际阅读素养进展研究项目(PIRLS)、美国的国家教育进展评价(NAEP)中的阅读评价在设计思路和操作技术方面都为我们系统化、理性化地构建阅读测试框架提供了更广阔的视野和思考空间。一、对评价核心的明确界定在一系列国际阅读评价项目中,评价核心的界定是被特别重视的,评价活动的最初工作就是对评价核心?阅读素养的界定。如PIRLS2001将阅读素养(reading literacy)定义为:理解和运用社会需要的或/和个人认为有价值的书面语言形式的能力,儿童阅读者能够从各种文章中建构意义,他们通过阅读来进行学习、参与阅读者群体、并进行娱乐。1(p.4)PISA对阅读素养作了如下界定:阅读素养是指学生为实现个人目标、发展个人知识和潜能及参与社会活动,而理解、运用和反思书面材料的能力。2(p.21)PIRLS主要是对四年级学生进行的阅读素养水平的国际评价项目,主要关注学生的阅读成就及其在具体情境中的影响因素。PISA则是对15岁学生进行的阅读素养的国际性评价项目,主要关注学生的阅读素养对于其今后走上社会的生活、工作、学习的准备状况如何。因而,两个项目对阅读素养的界定也不尽相同,各有侧重,这是由其各自的评价目的和任务所决定的。同时,以上两个项目对阅读素养的界定并不止于概念的明确,而是以此来指导和统率整个评价项目,从测试框架的设计理念中,我们可以清楚地看出评价活动对阅读素养这一明确界定的评价核心的体现。如,PIRLS依据其对阅读素养的界定,确定了学生阅读的目的(为文学体验或娱乐而阅读,为获取和使用信息而阅读),细分了学生建构文章意义的心智活动(关注并提取明确陈述的信息;进行直接推论;解释并整合观点和信息;检视并评价内容、语言和文本成分),关注了可能影响学生阅读成就的具体情境(家庭,学校,社会),以此来进行试卷的编制和问卷的设计。PISA依据其对阅读素养的界定,确定了不同的阅读情境(为了个人应用而阅读,为了公共应用而阅读,为了工作而阅读,为了教育而阅读),并将理解、运用和反思书面语言的能力划分为五种具体的阅读任务(形成广义的、总体上的理解;获取信息;形成解释;反思和评价文本的内容;反思和评价文本的形式)。通过这种在测试框架上对阅读素养界定的具体化,使得评价内容能够在真实评价活动中得到有效测评。进行一次评价,必须要明确评价什么的问题,只有这样,才能有的放矢,才能在评价的全过程中始终进行清晰理性的思考、设计与实施。因而,在评价活动之初,需要对所评价的内容进行明确的思考与界定,以指导整个评价活动,确保实际的测评内容正是所要评价的内容,这是保证评价效度的基本一环。通过对阅读测试核心的明确界定,并将对这种界定的理解贯穿于整个阅读测试设计中,可以更有效地保证阅读测试真正测试出学生的阅读能力,避免在阅读测试中出现一些并不能有效反映所要测查的核心阅读能力的题目。二、对评价内容的明晰分解如果仅有一个宽泛的阅读素养的定义也是难以进行有效评价的。测评的内容应该是相对具体的、可操作的,尽可能是行为化的。因此,几个国际评价项目在对阅读素养界定的基础上,又对其进行了具体的分析与描述。基于对阅读素养的定义,PIRLS确定了阅读素养需要进行测评的三个方面:理解过程、阅读目的、阅读行为和态度。理解过程和阅读目的通过阅读测试的内容来测评,阅读行为和态度则通过调查问卷中的学生问卷来进行评价。在对阅读能力进行的纸笔测试中,理解过程和阅读目的是紧密结合在一起来考查的。PIRLS评价框架确定了与参加测试的年龄组学生相关的两个主要的阅读目的:为文学体验而阅读;为获取和使用信息而阅读。另外,框架还确定了读者在两种阅读目的中同样要使用的四个理解过程:关注并提取明确陈述的信息;进行直接推论;解释并整合观点和信息;检视并评价内容、语言和文本成分。1(p.13)PISA认为人总是在某一特定情境下进行阅读活动的,所以将阅读素养的评估放置在各种阅读情境中。但这里的阅读情境不能简单地被理解为阅读活动发生的环境,它所强调的是不同的阅读目的。这样,PISA将阅读情境分为以下四类:为了个人应用而阅读,为了公共应用而阅读,为了工作而阅读,为了教育而阅读。另外,PISA按照真实社会生活中学生需要完成的任务确定了。阅读素养要测查的五个方面,即:形成广义的、总体上的理解;获取信息;形成解释;反思和评价文本的内容;反思和评价文本的形式。2(p.21)NAEP认为阅读活动的发生有三种不同的阅读情境:为获得文学体验而阅读、为获取信息而阅读、为完成任务而阅读,并将学生的阅读素养分为四个方面:整体感知、形成解释、联系自身、做出评价。3以上这些评价项目对阅读情境(目的)的区分以及对阅读的内在心智技能的划分,使得其对阅读能力的评价更加明晰,也更容易操作。依照这样的框架设计,命题者可以更加理性并有针对性地设计测试题目、结构试卷,从而使试卷结构更加严谨,试题的测试指向更加具体和全面。这样可以避免那种对照阅读材料随意找点命题、组合试题的纯经验化做法。三、对阅读材料的理性选择阅读文段是阅读测试成功实施的基础。因此,阅读材料的选择是阅读测试的一项重要工作,要想选到既适合测试对象阅读又适于命题从而实现测评效果的文段是相当困难的。中国的阅读测试在选取文段的时候,或者盲目随意,或者注重感觉,或思路难以打开,其本质往往是凭借经验,尤其是命题者的个人经验进行选择,而命题者也没有及时将个人经验明确化、条理化,形成可供参考的文段选择范围和条款明晰的文段选择标准。在这一方面,国际上的阅读测试也给了我们很好的启示。PIRLS 2001明确提出选择能使学生投入到阅读过程中的真实的阅读材料来测量其阅读能力,所选用的文段是从学生日常生活中能够接触到的故事书和其他信息来源中抽取出来的。这是其选择文段的根本原则。同时规定了诸如字数、难易度等具体的条目。另外,PIRLS认为,读者构建意义的方法因阅读的目的和文本类型而变化,某种阅读目的对应某类型文本。因而,PIRLS从阅读目的出发,来考虑阅读测试中所使用的阅读材料的类型。PIRLS预期9岁左右的学生应该已经形成了为各种目的而进行阅读的能力,所以,PIRLS认为通过阅读目的来描述测试文本的类型保证了测试的广泛覆盖性。对9?10岁的学生来说,两个最普遍的阅读目的是为娱乐而阅读和为学习而阅读,在这个年龄阶段这两种阅读类型都是十分重要的。相对应地,PIRLS评价框架中包含以下这两个主要类型的文章:为文学体验或娱乐而阅读的文学型文本,为获取和使用信息而阅读的信息型文本。针对这两种类型,PIRLS做出了详细的描述,并且举出很多示例,如前者可以包括小说、故事、传说等,后者可以选择广告、说明书、网页等。PIRLS依据阅读目的的不同将阅读材料分为文学型和信息型,分类简单明确,也有较好的覆盖性。3(p.13)PISA描述了不同的阅读情境中包含哪些类型的文本,如:为了个人应用而阅读,其阅读内容一般包括个人信件、小说、传记以及为满足好奇心而阅读的信息性材料;为了公共应用而阅读,其阅读内容一般包括官方的文件和关于公共事务的信息等,如通知、布告、规章、计划方案等;为了工作而阅读,其阅读内容一般包括说明书、手册、计划表、报告、备忘录、项目表等;为了教育而阅读,其阅读内容一般包括课本、地图、纲要等。这样的描述为命题者打开了思路,明确了指向性,有利于阅读文段的选择工作高效地进行。另外,PISA将测试所用文本分为两种类型:连续性文本(章、节等)和非连续性文本(曲线图、图表、表格、示意图、地图等),认为不同类型的文本需要学生使用不同的阅读技能,这就将文段的选择与题目的设计、能力的考查贯通起来考虑,增强了选择文段时的目的性和针对性。2(p.21)NAEP的文段选择标准主要有以下几点:可发展性,主题的适切性,语言的适切性,公平性,兴趣水平,允许使用,作者多样性等。这一标准关注了学生年龄特点、认知水平、文段的主题及语言,考虑到文章内容对不同知识经验背景的学生是否公平、是否能吸引学生阅读,并且还提到不要侵犯版权,尽量选择不同作者的文章。这些都是在选择文段时必须要考虑的问题。另外,NAEP也规定了测试材料的长度等具体的问题,如:四年级:250?800字;八年级:400?1000字;12年级:500?1500字。3通过上面三个阅读测试项目对阅读文段的理性选择,我们可以看到,国外阅读测试不仅关注阅读材料是否有利于命题,而且更加关注文段是否是真实的阅读材料,是否适合学生阅读(包括字数、主题、语言、知识背景等),对每一阶段学生适合阅读怎样的文章都有明确的说明,并特别强调学生对阅读材料是否感兴趣,这是中国在选择阅读材料时不太注重的一个方面。另外,国际阅读测试所涉及的阅读材料的类型非常广泛,这有助于拓展我们选择阅读材料的视野。四、对测试工具的系统设计国际上阅读素养评价项目的测试工具主要是试卷,其对测试工具的设计是通盘考虑的,形成一个完整的体系。试卷中测试内容分布、不同测试点所占比例、不同题型所占比例、赋分、试卷的结构等都有全面系统的设计。如:NAEP根据不同年级学生的认知水平以及对其阅读素养的相应要求,设计了不同阅读情境以及阅读素养的不同方面在4、8、12年级测试中所占的不同的分值比重(见附表1、2)。这使得适用于不同年级学生的试卷有全盘的考虑和设计,并且兼顾到了不同年级学生对不同阅读情境的接触情况以及阅读素养的各个方面对不同年级学生的不同要求。PIRLS认为阅读素养包括理解过程、阅读目的以及阅读的行为和态度,其中,在对阅读素养进行的阅读测试中,理解过程和阅读目的是紧密结合在一起来考查的。PIRLS评价框架确定了两个主要的阅读目的以及读者在两种阅读目的中同样要使用的四个理解过程,每一个理解过程在不同的阅读目的中都将受到评价,但是,不同阅读目的及理解过程在评价中所占的百分比存在着一定差异(见附表3),这种差异与阅读的目的有着直接的关系,不同阅读目的的阅读对阅读理解过程的要求有所不同,各有侧重。PIRLS利用这四个理解过程来为体现不同测试目的的测试文段编制试题,在整个测试中,每个题目指向一个理解过程,众多题目结合在一起,可以显示出学生从文本中建构意义的一系列技能和能力。PIRLS将阅读目的与理解过程紧密结合在一起来进行测评,不仅使不同阅读目的的阅读活动具体化在理解过程之中,而且为阅读的理解过程提供了测评的具体情境。另外,PIRLS还考虑到了四个理解过程在不同的阅读目的中的侧重程度,避免了在阅读目的与理解过程相结合的过程中进入将阅读目的同化或将理解过程泛化的误区,使整份试卷形成一个统一的体系。对于试卷的设计与结构来说,预先编制一个周详的双向细目表是十分必要的,这一点在中国的阅读测试中没有引起足够的重视,但从国际阅读评价项目的实践经验来看,这是很重要也很必要的一步,确定出要考查的项目及其权重,可以更好地指导命题工作和调整试卷的结构,从而更好地为达到测试目的服务。五、对评分信度的有效保证对于阅读测试来说,主观性试题对考查学生的阅读素养往往是不可缺少的,因为它可以考查学生对文章的理解感悟等较高层次的心智活动,并且能够给予学生自由表达个人阅读感受的机会,但这种题目的使用也带来了一系列问题,特别是评分者效应难于控制便是主观性试题的一大弊端。为了更好地发挥主观题的效用,同时尽量降低评分者效应的影响,一系列阅读素养评价项目都做出了巨大的努力,其主要措施是:严格、科学地编制评分标准及培训评分人员。国际上的阅读素养评价项目都有明确严格的主观题评分标准,为评分者评价学生的回答提供清晰的标准。评分标准的编制是与相应的主观题的编制同时进行的,评价标准确定出每道主观题所期望的答案。然而,在题目编写阶段,不可能预见到所有可能的学生的理解方式。因而,评分标准的制定必须参照在预测中收集到的学生的真实回答,在预测中仔细审查和分析学生的答案对于最终确定评价标准和选择样例显得尤为重要。在预测中可以收集到能够用来制定和说明评分标准的学生回答,有些回答明显是可接受的,有些回答则明显是不可接受的,还有一些是模棱两可的,可以将这样的答案进行归类,作为打分的分界线。按照这种对学生回答的整理,在题目编制过程中可以继续修订所起草的评分标准,学生回答中所出现的一些更细致的区分特征可以被描述得更加清楚。在题目审核过程中也包含着对评分标准的审核,这样做的目的是使标准清晰化,并且进一步筛选出一系列可接受回答和不可接受回答的样例,不断完善评分标准。最终的评价标准包括不同层次回答的具体描述与说明、所得分值以及相应的样例。仅有科学严格的评分标准也是不够的,毕竟主观题的评分还是要依靠评分者的,良好的评分标准只是为更有效的评分打下了必要的基础,其价值的真正实现还要依赖经过良好培训的评分者。为了给评分者提供更多的指导和实践,收集到的众多学生回答会被集中在一起制作成锚卷和练习卷。锚卷起示范作用,可以使各评分等级间的区别清晰化,并能示范出各种各样的可接受回答的方式。练习卷可以让评分者或审查者自己来为题目评分,并根据先前所确定的评分标准来检查他们的评分情况。在最终确定的评分标准中,锚卷是作为评分标准的重要补充的,锚卷提供了各个回答水平的更加详细的描述和更多的具体样例。锚卷是为了说明所期望的一系列回答以及学生回答主观性试题的最通常的答案。此外,还有两套练习卷,第一套体现预测中最通常的回答类型,第二套提供一些可能让评分者难于给定分值的回答样例。设计这两套练习卷的目的是,使评分者对最通常的回答类型和那些可能接近评分等级分界线的答案都能做出恰当和具有一致性的评判。为了更加清晰,锚卷和练习卷中的回答样例都有明确的注释,以此来解释给分的根本原因。中国的阅读测试中也有大量的主观题,但我们对于主观题的评分标准的编制往往不够重视,国际阅读评价项目的主观题评分标准的编制过程和样式对于我们为主观性试题编制科学实用的评分标准提供了很好的借鉴。另外,中国阅读测试的评分者往往是一些比较有经验的老师,因此,往往由于对其经验的信任而不太注重评分者的培训问题,在这方面,国外阅读测试项目中对于培训评分者的重视程度及具体的培训方式也值得我们注意。应该说,阅读测试中主观性试题的评价关键的两个环节就是评分标准的制定和评分者的培训,只有在这两方面有了质的提高,才能保证主观性试题在阅读测试中真正发挥积极有效的作用。六、对评价结果的分析反馈各个国际阅读测试项目都有强有力的数据分析支持,使得测评的结果能够被充分利用,形成有效的反馈。当然,由于任务目的的不同,不同的测试项目对数据的利用和分析也就不尽相同。上面我们所谈到的PISA和PIRLS,由于其国际评价项目的任务使然,它们的数据分析多是对各个国家学生的阅读水平进行比较分析,以及进行相关影响因素的分析反馈等。但这些国际评价项目对数据信息的充分而有效的利用对我国的阅读测试活动应该是大有启发的。应该说,我国的阅读测试在测试结果数据的利用上还是不够充分的。对于教育教学来说,测试评价并不是最终的目的,应该通过测评为教育教学提供反馈、明确问题,以促进教育教学。对于阅读测试来说,测试数据的分析不仅仅可以描述当下学生的阅读成就情况,而且可以为教育决策者甚至是一线教师提供大量具有重要意义的信息,而且,这样的信息对于一线教师来说,具有尤其重要的价值。但现在一线教师所获得与所关注的往往只是某一题的答案应是什么,而没有从关注学生阅读素养的成就水平这个高度来对待问题。从某种程度上说,对于阅读测试结果的有针对性的数据分析可以引导教师关注深层次的问题,并且可以帮助教师了解如何关注并分析这些问题的途径。结语现在,国际上的阅读素养评价项目越来越引人关注,各个评价项目因任务目的的不同,其理念和评价框架也存在着一定差异,这对于中国的阅读测试来说是一笔宝贵的财富,其中具有大量的可资借鉴之处。他山之石,可以攻玉,国际性阅读评价项目在测试的设计思路与操作技术方面带给我们的启示可以为中国的阅读测试提供良好的范例以及更广阔的视野和思考空间。附表1:NAEP不同的阅读情境在不同年级测试中的比例分布年级阅读语境为了获得文学体验为了获取信息为了完成任务44554无8404020 12354520附表2:NAEP阅读素养的不同方面在不同年级测试中的比例分布年级阅读素养的不同方面整体感知/形成解释(%)联系自身(%)做出评价(%)4601525 8551530 12501535附表3:PIRLS不同理解过程在体现不同阅

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论