(课程与教学论专业论文)timss、pisa、naep科学测试框架与测试题目的比较研究.pdf_第1页
(课程与教学论专业论文)timss、pisa、naep科学测试框架与测试题目的比较研究.pdf_第2页
(课程与教学论专业论文)timss、pisa、naep科学测试框架与测试题目的比较研究.pdf_第3页
(课程与教学论专业论文)timss、pisa、naep科学测试框架与测试题目的比较研究.pdf_第4页
(课程与教学论专业论文)timss、pisa、naep科学测试框架与测试题目的比较研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ii timss、pisa、naep 科学测试框架与测试题目的比较研究科学测试框架与测试题目的比较研究 姓名姓名:梁润婵 导师导师:李宏翰 博士 年级年级:2006 级 专业专业:课程与教学论 方向方向:科学教育 摘摘 要要 进行教育评价,是教育活动中的一个重要方面。但因其评价对象的复杂性,对教育评 价的研究一直以来都是人们争论的热点。考试作为评价的重要手段之一,是目前进行大规 模教育评价的主要方式。近年来,我国也开始在一些省市推行一些大规模学业评价项目。 但是如何确定考试的测量目标以及如何设计出高质量的试题来完成对测量目标的测量? 尤其是对于实践性较强的科学学科,对学生科学能力的考查应包含哪些方面?如何用纸笔 测验来对这些科学能力进行评价?都是当前亟待解决的问题。 本研究对国际上现行的三大教育评价项目 timss2007、 pisa2006 和 naep2000&2005 的八年级科学的测试框架和测试题目进行了分析和比较,旨在发现它们在进行科学评价时 的理念以及实现这些理念所采用的方式,期望能对我国的大规模考试提供一些线索和帮 助。 为达到本研究的目的,特确立了如下研究内容: (1)对测试框架的研究 其中包括:评价目的、评价设计的哲学基础、评价中各内容领域所占的比重、评价中 各认知能力所占的比重。 (2)对测试题目的研究 其中包括:试卷结构、试卷难度和对科学探究的考查。其中试卷结构又包括:试卷的 长度(或题量)、题型以及不同题型试题的比例。其中试卷难度包括:情境与不同情境试 题所占的比重、对多步推理能力的要求及不同要求所占的比例。 比较的过程分几个阶段:确定比较的问题;确定比较的标准;收集资料并加进行分析、 解释; 比较分析和结论。 其中在确立试卷难度的比较标准时, 借鉴了 david nohara 和 arnold a.goldstein 在 2001 年 6 月撰写的naep、timss-r 和 pisa 的比较研究。经过以上研 究过程,我们得到了如下结论: 1测试框架方面 (1)在评价目的方面,timss 与 naep 比较接近。 其中 pisa 是在教育框架之外对教育成效的评价。 而 timss 和 naep 是在教育框架之 内,对课程实施成效的评价。 iii (2)在评价设计的哲学基础方面,timss 与 naep 比较接近。 timss 是建立在三种课程的关系的基础之上,检验习得课程与目标课程之间的关系。 naep 是以课程标准为主要依据来设计题目以发现学生对课程标准中的要求的实现程度。 而 pisa 则是以终身学习模型为基准设计题目来考查学生为适应不断变化的社会所应具备 的能力。 (3)在对内容领域和认知能力的考查方面,三者的表述和界定差异较大。 timss2007的科学测试中包括四个内容领域:生物、化学、物理、地理,其中生物科 目稍有侧重。考查的认知能力包括三个层次:了解、应用和推理。其中对应用能力和推理 能力考查的比重都较大,均占总测试时间的35%左右。 pisa2006和naep2000&2005中都包括三个内容领域:物质科学、生命系统、地球和 空间系统,其中pisa2006对生命系统的考查稍有侧重,考查的科学能力包括三个方面:确 立科学问题、解释科学现象和运用科学证据,其中解释科学现象和运用科学证据两项能力 所占的比重最大,均约占试卷总分数的35%。naep2000中在生物科学上稍有侧重,考查的 三种过程技能包括:概念理解、科学研究、实际推理,其中概念理解所占的比例最大,约 占总测试时间的45%。 2测试题目方面 (1)三者的试卷结构比较接近。 三者的试卷结构比较接近。主要由选择题和问答题构成,在问答题中都含有一定数量 的扩展题。其中 timss 中的选择题比例最大,约占三分之二;pisa 中的所含的问答题比 例最大,也约占三分之二。 (2)试卷难度上,pisa 最难,naep 和 timss 相对来说较易。 (3)在对科学探究的考查上,三者的考查方式各不相同。 在timss中既作为科学探索活动的结果也作为科学探索活动的一种方法来考查。大约 要占用15%的考试时间。 pisa将其作为科学相关的知识来考查即科学探索活动的一种方法来考查。此外,它还 在试题中考查了学生对科学探究的支持程度。pisa将科学探究作为科学相关知识来考查的 部分所占的分数为15-20分,与科学地解释现象共同占总测试时间的60%。 在 naep 中是作为一项科学过程技能即科学探索活动的一种方法来考查,考查的比重 约占总测试时间的 30%。 3比较过程中,还发现了三者各自的一些独特之处。 如 pisa 以单元为题目组织形式;naep 中包含对某概念或心智模型进行深入考查的 题组,以及观察预测解释题目。 关键词关键词 timss pisa naep 框架 比较 iv a comparison of science framework and items of timss, pisa and naep name: liang runchan director: li honghan enrollment: 2006 major: curriculum & pedagogy research-orientation: science education abstract educational assessment is an important part of education activity. but because of complication of its target-person, research on educational assessment is very controversial. recent years some student achievement tests have taken place in some provinces of our country, but how to fix the goal of the test and how to design high quality items to achieve these goals are very important questions at present. as for the assessment design of such a practical subject as science, what kind of abilities should be contained and how to assessment them are all very pressing problems. this study compares the eighth-grade science portions of timss 2007 (trends in international mathematics and science study) with pisa 2006 (programme for international student assessment) and naep 2000&2005(national assessment of educational progress). framework and items of each assessment are examined and compared so that we can find out their conceptions of assessment design and ways to realize them which would be helpful to assessment design in our country. to achieve these purposes of the study, we fix on the research contents as follows: (1) research on the framework it consists of purposes, philosophy basis, content coverage and cognitive coverage. (2) research on the items it consists of the assessment structure, difficulty and science inquiry. assessment structure includes testing time (or item number), response type and distribution of different item type. assessment difficulty includes context and the distribution of different context, multi-step reasoning and items amount demand it of the assessment. there are four stages of comparison. the first stage is fixing the problems. the second stage is fixing the criterion of comparing. the third stage is collecting data and analyze them. the last stage is comparing and concluding. the assessment difficulty criterions is based on written by david nohara and arnold a. goldstein. after the above study, the results were shown as follows: 1. assessment framework (1) the assessment purpose of the three projects is different. pisa focuses on the result of education and timss and naep focus on the curriculum implementation. v (2) as for the philosophy basis, timss is based on the relationship the three kinds of courses to examine the gap between intended course and attained course. naep is mainly based on the curriculum standard to design to find out students achievement level. however, pisa is based on the lifelong learning model to design items to examine the abilities helping students accommodate to the changing world. 2. assessment items (1) structure of the three projects is very similar. they are all made up of selected -response questions and constructed- response questions. there are some extended-response items in the constructed-response items. there are most selected-response items in timss (up to two-thirds) and most constructed-response items in pisa (up to two-thirds). (2) as for the assessment difficulty, pisa is most difficult and timss is the easiest one. (3) the way of testing scientific inquiry of the three assessments is very different. the ratio of it is 30%, 30% and 15%. 3. specialties in the comparing courses, some specialties are found. for example, items in pisa are organized into units. there are items which test some key conception or mental model of students and some p-o-e items which demand student to predict what will happen in a given situation and observe the real things happened and then explain why it is like that. key words timss pisa naep framework comparison 42 论文独创性声明论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下进行的研究工 作及取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或其 他机构已经发表或撰写过的研究成果。对本文的研究作出重要贡献的个人和 集体,均已在文中以明确方式标明。本人承担本声明的法律责任。 研究生签名: 日期: 论文使用授权声明论文使用授权声明 本人完全了解广西师范大学有关保留、使用学位论文的规定。广西师范 大学、中国科学技术信息研究所、清华大学论文合作部,有权保留本人所送 交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存 论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密 论文外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分 内容。论文的公布(包括刊登)授权广西师范大学学位办办理。 研究生签名: 日期: 导 师签名: 日期: 1 一一 前前 言言 (一) 研究背景及意义 教育评价,是教育活动中的一个重要方面。对教育评价进行的研究,也一直都是教育 研究的重要组成部分。但因其评价对象的复杂性,对教育评价的研究始终是讨论最热烈的 话题。学业水平考试作为评价学生学业水平的重要手段之一,是目前进行大规模教育评价 的主要方式。但是在学业水平考试中如何建构科学、有效、精准的测试题库,测试学生的 综合能力,从而有效地监测教育成效更是教育评价研究的重点。尽管我国高考命题、中考 命题已经从单纯的知识考核发展到能力与知识考查并重,但如何通过纸笔测试考查学生综 合素养,一直没有找到良好的途径。1 我国最大规模的一次学业评价考试可以追溯到 1996 年。当时正值义务教育法颁布十 周年,为了制定切合全国实际情况并适应发展需要的义务教育质量标准以及分析影响义务 教育质量的各种因素,国家教育发展研究中心和华东师范大学教科所的研究人员组成了课 题组,组织了北京、天津、辽宁、上海、浙江、广州、河北、湖北、四川、宁夏、甘肃等 11 个省、市、自治区的教育工作者和科研人员,对当时我国教育质量的现状进行了全面的 调查和分析。测试的项目包括对我国义务教育阶段的所有科目的学业测试和对学生、教师 以及校长进行的问卷调查。此次调查为提高我国义务教育质量奠定了坚实的基础。2 近年来,为检验国家课程的实施情况以及学生学业质量,我国一些地区相继开始实施 一些大规模学业评价项目。这类评价项目主要以纸笔测试的方式进行,由教育机构负责学 科测试题目的命制,并配合问卷,在一些地区抽取一定的样本进行测评。最终通过对样本 的测评结果和问卷结果的统计分析来推断该地区学生学业的总体质量并找出影响学生学 业质量的主要因素,以此来对当地的教育方针以及教师的课堂活动进行及时的反馈和有针 对性的指导。 但是如何确定考试的测量目标以及如何设计出高质量的试题来完成对测量目标的测 量,一直以来都是众多研究者苦思冥想的问题。尤其是对于实践性较强的科学学科,对学 生科学能力的考查应包含哪些方面?如何用纸笔测验来对这些科学能力进行评价?都是 当前亟待解决的问题。本研究以试题设计为视角,从试卷结构、试卷难度、对科学探究的 考查三个角度对国际上现行的 timss2007、pisa2006 和 naep2000&2005 三大教育评价 项目(以下简称三项目)的八年级科学测试框架和测试题目进行了分析和比较,旨在发现 它们在进行科学评价时的理念以及实现这些理念所采用的方式,以期能对我国的大规模学 业水平考试的试题设计提供一些线索和帮助。 2 (二) 相关概念 1 评价、测量、考试 许多教育工作者往往将测量、考试和评价当作同义词。在实践中,测量、考试和评价 有时的确指的是相同的活动。例如,对一个考生进行评价时往往用考试分数来说明。这种 对测量、考试和评价表面性的注意,往往使人们忽略了三者的不同,而对三者不同特征的 适当理解,对考试的开发和使用是非常重要的。 (1)评价 robert l.linn & norman e.gronlund(美)认为:评价是在获取关于学生表现的信息时 所使用的各种方法的总称。它包括传统的纸笔测验、开放性问题(如论述题)以及对真实 性任务的操作(如实验室实验)。评价所要回答的问题是:“个人的表现如何?”3 雷新勇对评价作了如下定义: 评价是指为决策收集系统资料的过程。 在一定的条件下, 做出正确的决策的概率不但取决于决策者本身的能力,也取决于决策所基于的信息的质 量。如果其他条件相同,信息越可靠,相关性越强,做出正确决策的概率就越高。4 ellenweber(美)认为评价是反映学生学习过程,共同合作解释学习资料,制定标准、 描述发展、收集结果、记录反思和表现、发现学生优点及帮助他们改正缺点的过程。5 从以上定义中,我们不难发现评价的一个重要特征就是收集可靠的相关信息。评价所 依赖的信息不一定是定量的,语言描述、档案袋、推荐信以及对人的总体印象,都可以成 为评价人的信息。 (2)测量 robert l.linn & norman e.gronlund(美)对测量提出了简单准确的定义。他们认为测 量是对个体具有某一特征的程度进行量化描述的方法,测量所要回答的是“程度”的问题。 3 雷新勇认为测量是按照确定的过程方法和规则对研究对象的特征进行量化的过程。4 通过以上定义,我们可以看出测量有两个最主要的特征: 一是定量化。定量化是对考生的特征进行赋值,这是测量与其他定性描述的最显著的 区别。一些非数值的类型和排序,如 abcde,以及优秀、良好、一般等,可能也具有测 量的特征,然而实际使用上述这样的类型或排序时,常常要对其进行赋值以对其进行分析 和解释。人们既可以对人的生理特征进行赋值,也可以对人的心理特征进行赋值,其中心 理特征包括考生的天赋、智力、动机等。教育考试通常将要测量的心理特征称为能力。 对 能力做出准确的定义相当困难,心理学上将能力看作是“能够完成某种事情”。从测量学 来看,这个定义是没有用处的,除非能够说明“某种事情究竟是什么”。凯诺尔建议:要 求考生完成一组特定认知任务,根据其完成这组任务的情况来定义“能力”。因此按照凯 诺尔的建议,“能力”是指考生在一组认知任务上的表现。 二是定量化时必须按照明确的规则和过程方法进行。对人的特征进行盲目的赋值不能 3 看作是测量。作为测量,其对人的心理特征的观察必须可以为其他观察者所重复。4 (3)考试 凯诺尔(1968 年)对考试的定义是:教育考试是一个设计的过程,该过程要诱使考生 表现出某种行为,根据这些行为,可以对考生的某些个人心理特征做出推测。按照上述定 义,可以认为教育考试是通过设计用以获得考生专门行为样本的测量工具。考试作为一种 测量的类型,必须按照确定的规则和过程方法,对考生的某些心理特征进行定量化。考试 与其他类型测量的显著区别就是考试要获得专门的行为样本。因此教育考试更加关注的是 考试要推测的某些专门的学科能力或综合能力。正因为如此,可以将考试看作是其他测量 手段的补充。更加严格地来说,由于测量的局限性,以及测量方法对考生在考试中表现的 潜在影响,只能将教育考试看作是:为了满足测量的目的,获取足够的考生行为样本的工 具。因此,认真设计的、明确的考试过程和方法是保证获得可靠、有效、有意义的考试分 数的保证。4 因此,评价不一定需要有考试。同样,考试也并不一定是为了评价。考试也经常用于 教学法研究,在这种情况下,不需要根据考试结果做出任何决策。只有当用考试结果做出 某种决策时,考试才与评价有关。当然,在我国大规模教育考试结果一般均用于指导考生 个人做出决策。因此,有必要将测量提供的信息功能与评价的决策功能区别开来。总之, 并非所有的测量都是考试,并非所有的考试都是评价,也并非所有的评价都涉及到考试或 测量。 2 学业水平考试 为确定考生通过课程学习是否达到课程学习目标而进行的考试,属标准参照考试。大 规模教育考试按目的可以分为两类:一是对学生进行选拔,如高考、中考这样的考试;二 是确定学生是否达到合格要求,如会考以及目前很多市在推行的学业水平考试。此外,大 规模教育考试还有另一个重要的用途,那就是对某些教育项目的效果进行评估,如对某种 课程标准以及配套的教材、教学方法等实施效果的评估等,但大规模教育考试的这一功能 在我国似乎没有得到充分的重视。4 3 测试框架(framework) 测试框架是对评价的目的、测量的具体内容和方法的表述和界定。类似于我国的命题 双向细目表。只不过长久以来我们所使用的命题双向细目表是以知识为立意的,主要关注 学生对知识的掌握情况。而 timss、pisa 和 naep 三国际评价项目中的科学测试框架则 不仅仅关注知识领域,更着眼于学生的科学认知和科学探究。 4 内容领域 内容领域就是对考试内容的范围、内容的结构,即不同方面知识的比例,以及相关的 行为目标进行的明确定义。4 4 二二 文献综述文献综述 (一) 对测试框架的研究 目前我国对 timss 测试框架的研究主要是简要介绍,如李建华对 timss 的背景以及 结果报告进行了比较详细的介绍。 6此外也有一些是透过 timss 框架对某些地区的课程演 化和进步做出推断, 如苏咏梅就对香港小学在参加的几次 timss 测评的表现与国际平均水 平进行比较,并透过这些结果来审视近二十年来香港小学科学课程的演化和进步。7 对 pisa 测试框架的研究相对较多。如周琴对 pisa2003 中各学科的测评原则与目的、 测试框架与方法等进行了简要的介绍和分析,尤其是对 pisa2003 测评结果的分析,对我 国教育政策的制定和教育改革的深化有着重要参考价值。 8王蕾和亓永平等对 pisa 的评价 理念、 内容、 目的、 取样和结果报告等方面进行比较宏观而全面的介绍。 9 10李广则对 pisa 评价思想的价值取向以及其它方面的总体特点进行描述和总结,并在结尾提出了对我国基 础教育课程评价改革的启示。11 由于naep是一项只在美国本土进行的评价项目, 所以naep测试框架相关的文献比较 少。其中马文琴对naep2006的评价框架、评价结果以及评价结果中反映出的一些美国公 民教育中存在的一些问题进行了分析。12赵保钢以几道典型试题为例对naep的测试框架 进行了介绍。13 此外, 也有一些学者对三者的测试框架进行了初步的比较研究。 如王蕾对 timss、 pisa 和 naep 三评价项目在评价理念、内容、目的、对象取样和结果报告的主要特点进行了介 绍。14蒋盛楠和任长松等对三项目在目的、内容、取样、结果等各方面的特点进行比较全 面的介绍。15 16 (二) 对测试题目的研究 目前,国内对三项目的测试题目同时进行了研究的文献比较少。只有王蕾对pisa的命 题框架进行了简要的介绍,并给出一些例题对框架进行了说明。1黄慧娟等人对国外某些 研究结果进行了简要介绍。17 国外在相关方面的研究相对较多,比较有权威性的研究主要有两项。 第一项是由美国教育部下属的国家教育统计中心(nces)于 2006 年 3 月发表的 naep2000 与 timss2003 科学领域的比较研究(comparing science content in the national assessment of educational progress (naep) 2000 and trends in international mathematics and science study (timss) 2003 assessments)。 18 这项研究主要由11位科学教育和教育评价专家组成。 旨在对naep2000和timss2003 5 的评价框架和基于框架而设计的题目进行比较。比较的主要内容包括:如何确定与各个年 级水平相适应的科学内容、认知技能和科学过程技能;每个内容领域应包含的主题;每个 评价项目如何考查科学探究;以及题型和各题型的分布。 用到的比较方法主要是交叉分类法,即将各评价项目中的试题按学科进行分类后,用 自身的评价框架和对方的评价框架分别进行一次分类,再根据年级水平,分别按四年级和 八年级进行一次分类。 主要程序如下: 首先将所有题目按内容领域分类。 这一过程中, 他们将来自naep2000 和timss2003的八年级和十二年级的共630道题目按内容领域共分为三类:生物、物理、地 球和环境科学。其次,将所有专家按内容领域分组。每组专家负责一个内容领域,对该领 域内的题目进行浏览和分类。在这个过程中要确保每组内包含对两种评价都非常熟悉的专 家。再次,每组开始对题目按内容、年级水平、题型、是否属于科学探究来进行分类。分 类时要将各个题目分别按自身框架和对方框架各进行分类,然后得出各题目在两框架下的 分类结果的吻合程度。在这一过程中为保持分类的信度,即组间一致性,三组成员在将所 有题目按认知水平和科学探究两个维度分类过程中,会相隔一定间隔地被要求对60道信度 题目进行分类。这60道题目中包含了本研究中的两个维度的所有类别。 这一研究表明,timss2003中包括五个内容领域(物理、化学、生命科学、地球科学 和环境科学),而naep2000中包含三个内容领域(物质科学,生命科学和地球科学)。 在naep中,物理和化学统称为物质科学(physical science),而且它还有独立的环境科学 领域。在框架水平的细致分类使得timss2003的内容要比naep2000的内容覆盖更广一些。 在题型方面,naep的选择题与问答题的比例相当,而timss中,选择题与问答题比例是 2:1,在问答题中简答题与扩展题各占二分之一。在科学探究这一层次上,naep中有25% 的内容属于科学探究,而timss中只有12%属于科学探究。另外,naep中有很多跨年级题 目。 另外一项相关研究是由美国教育部于 2001 年 6 月公布的naep、timss-r 与 pisa 的比较研究报告(a comparison of the national assessment of educational progress (naep) , the third international mathematics and science study repeat (timss-r) , and the programme for international student assessment (pisa)。19这一研究旨在对三项 目的目的、相似点和不同点以及在不同内容领域和知识类型上的侧重点进行比较,同时在 一定程度上对三项目的试题难度进行了比较。 该研究主要围绕三个问题展开:三者覆盖的主题是否相同,问题的类型是否相同,要 用到的思维技能是否相同。对三大评价项目中的试题题目在内容、科学术语、题型、情境、 对多步推理能力的要求和对数学能力的要求几个方面进行统计分析。 这一研究所使用的分类标准主要是基于美国教育部 1997 发表的 naep1996 与 timss 的数学与科学之间的比较研究。得到的主要结果如下:在内容领域方面,naep 在各内 6 容领域的比例相当, timss 含有较多的物质科学相关的题目,而 pisa 含较多的地球科学 的题目。在题型方面,三者的选择题都是比重最大的题型。naep 中的问答题所占的比例 比其余两者都要高,占 43%,而 timss 和 pisa 的问答题的比重分别是 21%和 23%。情境 方面,pisa 里有 66%的题目要求与现实情境相关。而在 naep 和 pisa 中的实际情境题的 比例则分别为 23%和 16%。在对多步推理能力的要求方面,pisa 要求多步推理的有 77%, 而 naep 与 timss 的比例分别是 44%和 31%。 7 三三 研究设计研究设计 通过对以上文献综述的内容进行分析后,我们不难看出,我国对三项目科学学科的测 试框架和测试题目的研究还相当匮乏。国际上虽有一些比较权威的比较研究,但他们的研 究目的与选择的比较标准是否与我国大规模考试的现状相适应还值得商榷。本研究在前人 的研究基础之上,试图对 timss、pisa 和 naep 三评价项目中八年级科学试题的设计框 架和题目的主要特点进行比较分析,得出它们之间的相似与不同之处,并尝试对这些不同 之处进行解释。 (一) 研究内容 进行试题设计,最主要的两个因素就是考什么和怎么考。其中考什么指的是试卷中应 包含对哪些知识和能力的考查,简言之就是测试框架。怎么考指的是试卷中应包含哪些题 型,各题型所占的比重应为多少,不同难度试题的比重应为多少,即试卷的结构。本研究 在以往研究的基础上,将着重对三评价项目的测试框架和测试题目两方面进行比较研究。 其中对测试框架的研究包括:评价目的、评价设计的哲学基础、评价中各内容领域所 占的比重、评价中各认知能力所占的比重。 对测试题目的研究包括:试卷结构、试卷难度、对科学探究的考查。其中试卷结构又 包括:试卷的长度(或题量)、题型以及不同题型试题的比例。4对试卷难度的研究包括: 试题情境与不同情境试题所占的比重、对多步推理能力的要求及不同要求所占的比例。 (二) 研究方法 文献法。是指以现存文献为主要资料来源,对社会问题和社会现象进行研究的一种方 法。20本研究对国内外与评价相关的文献进行了梳理,对学业水平考试中的试题设计进行 了研究,期待“他山之石,可以攻玉”。 比较法。比较法就是根据一定的标准,将彼此有某些联系的事物放在一起进行考察, 寻找其异同点,以把握研究对象的质的规定性。20本研究所采用的比较法属于同质比较, 即把三种评价项目进行比较,提取其共同的特征,为进行大规模考试提供参照。同时也关 注各自的独特性,为我国的评价改革提供思路。 个案法。个案法指的是为理解某一现象,而选择一些分析单位来进行深入的描述并提 出对其可能的解释和评价。21在本研究中,为了找到一些学业评价水平考试试题的设计规 律,选取了国际上较有影响的三个评价项目 timss、pisa 和 naep 作为具体案例进行分 析与整理,从中寻找对我国大规模学业水平考试极具价值的独特经验。 (三) 研究程序 比较研究一般可分为五个步骤:确定比较的问题;确定比较的标准;收集资料并加以 分类、解释;比较分析;结论。20 8 四四 结果与讨论结果与讨论 本研究在前人的研究基础之上,对 timss、pisa 和 naep 中八年级科学试题的测试 框架与测试题目的主要特点进行比较分析后,得出它们之间的相似与不同之处,并尝试对 这些不同之处进行解释。 (一) 确定比较的问题 为能对我国的教育考试提供一些线索,本文从试题设计的角度对国际上现行的 timss2007、 pisa2006 和 naep2000&2005 的八年级科学测试框架和测试题目进行比较研 究。 (二) 确定比较的标准 本研究对三项目科学测试框架方面的比较包括:评价目的、评价设计的哲学基础、试 卷中各内容领域的考查和各认知能力的考查。因为前两项比较内容的复杂性和宏观性,以 及后两项内容的定义的不统一性,本文只对它们进行描述,然后归纳出各自的侧重点。 在对三项目科学学科测试题目方面的比较包括:试卷结构、试卷难度和对科学探究的 考查。 试卷结构一般包括:试卷的长度或题量、题型以及不同题型试题的比例、试题难度以 及不同难度试题的比例等。其中不同试题难度的比例在试卷难度中单独分析。 1 试卷结构 试卷结构 (1)试卷的长度 试卷的长度,可以用两种方法表示。一是试卷的题量,二是试卷的测试时间。题量只 能反映题目的个数,并不能反映不同题型、不同难度试题对试卷的影响。由此看见,选择 试卷的测试时间来表示试卷长度要相对比较合理一些。 (2)题型 虽然三项目中的题型略有差异,但我们不难发现,他们都可以分为选择题和问答题两 大类。对于不同题型试题的比例,一般有三种表示方法:一是看不同题型试题在试卷题目 总数量中所占的比例,另一种方法是看不同题型试题所用的测试时间在试卷总测试时间中 所占的比例,第三种表示方法是看不同题型试题所占的分数在试卷总分数中所占的比例。 因为试卷中包含不同的题型,而不同的题型会影响到试题的难度和测试时间等要素,所以 只用题目的总数量并不能很好地反映试卷长度。后两种表示方法都可较为全面地表示出不 同题型在试卷中所占的比例,但结合资料在两种方法上提供的信息的完整程度,我们选择 用不同题型试题所用的测试时间在试卷总测试时间中的所占的比例来表示不同题型在试 卷中所占的比例。 9 2 试卷难度试卷难度 参照naep、timss-r 与 pisa 的比较研究报告,对试题难度的表征可以通过两种 方式进行:一是通过学生在试卷中的表现水平来确定;二是通过试题本身的一些特征来确 定。在真实评价过程中,往往需要在题目命制之时就能对每道题目的难度有所估计,这就 需要通过第二种方式来确定。在上述研究中,专家在对包括内容领域、专业术语、题型、 情境、多步推理、数学水平等六个特点进行分析后,选出其中四个特征量对试卷的总体难 度进行估计:扩展题、情境、多步推理和数学能力。由于上述研究是对 timss1999、 pisa2000、naep2000 进行的比较研究,而现在三者在试卷中对数学能力的要求都已下降 (从测试框架中可发现)。所以本研究选择其中的三个特征量对试题难度进行估计:扩展 题、情境和多步推理能力。 (1)扩展题(1)扩展题 不同的题型对思考技能的要求不同。一般情况下,问答题对高层次思考技能的要求更 多一些。 虽然一道选择题可能涉及到的推理很复杂, 而一道问答题涉及到推理可能很简单。 但至少选择题无法考查到学生进行解释或为得出自己的判断进行的推理过程和表达能力。 在三评价项目所用到的几种题型中,扩展题对思维能力的要求最高。这类题目通常是对多 内容领域、多种能力的综合考查,形式多样,有些要求考生根据题目要求作出判断并对自 己的判断进行解释,也有一些是根据题目来进行预测并给出实验设计。而且它对学生的表 达能力要求很高。由此可见,扩展题对试卷的难度确实有贡献。 在对它的表示方法中,与不同题型所占的比例的表示方法不同。因其题型的定义较具 体明确,所以虽在不同的评价项目中,但每道题对试卷难度和所用的测试时间比较接近。 因此,我们直接使用题目数量在试卷题目总数量中所占的比例即可较好地表示。 (2)情境(2)情境 从学习心理学的角度看,可以将考生应考看作是学校学习结果的迁移。大规模教育考 试多数是学科性的考试,因此,发生在考试中的迁移主要是专门迁移。专门迁移成功与否 取决于两个条件:一是考生对相关知识,如概念、原理的理解及其本身的思维能力;二是 其对迁移的新情景的熟悉程度。 在前一条件相同的情况下, 对背景材料了解的深度和广度, 可能决定了考生能否在考试环境中进行成功的学习迁移。4由此可见,生活情境的题目所 占的比例是影响试题难度的一个重要因素。 按照题目呈现的问题情境可将题目分为学科情境和生活情境两大类。前者指的是只在 课堂中出现的情境,但因科学以观察和实验为基础的这种学科特殊性,在题目中不出现任 何对学校之外事情的描述,几乎是不可能的,所以直接将问题情境按呈现方式进行分类是 不全面的。在对有实际情境的题目进行分类时还要考虑题目的主要关注点。有些题目虽应 用了实际情境,但主要考查的是科学概念或理论,则也划为学科情境;若题目主要考查的 是某概念或理论在该给定情境下的实际应用,则将其划为生活情境。换句话说就是要根据 10 题目答案对问题情境的依赖性对情境进行分类。只有当实际情境能够直接影响到问题的答 案时,才将该题目的情境划为生活情境。 在此,我们用生活情境的题目在试卷题目总数量中所占的比例来表示情境对试卷难度 的影响。 (3)对多步推理能力的要求 (3)对多步推理能力的要求 研究者通常将考生对题目进行思维的过程分为两类:简单思维过程和高级思维过程。 其中简单思维过程包括:对一些事实性知识的简单回忆或对一些常规方法的运用。而高级 思维过程则包括设计一套办法来解决一些不熟悉的问题。 在本文中, 运用 naep、 timss-r 与 pisa 的比较研究中的定义:将多步推理定义为需要构建一个中间形象或者子问题来 使所要回答的问题更清楚从而更容易地被解决的过程。多步推理能力作为一种高级的思维 能力,对题目的难度有着重要影响。但对于同一个题目来说,不同的学生进行的思考过程 可能很不一样。在有些同学看来也许需要进行很多推理,但另外一些同学则很有可能只是 进行了简单回忆,这在很大程度上取决于老师在课堂上所教的内容。所以我们在对这一点 作出判断时,只能根据多数的八年级科学课堂所教的知识和能力来决定。在此,我们用考 查多步推理能力的试题在试卷题目总数中的比例来表示其对试卷难度的影响。 3 对科学探究的考查对科学探究的考查 近年来,科学探究已成为科学教育的一个热门词汇。以科学探究为核心的很多概念、 方法和教学方式都成为了科学教育者们讨论的热点,但是对科学探究的考查方式却一直是 个难点。科学探究可以被看作是人类进行科学探索活动的结果,根据这一含义,人们可以 将其作为科学相关的知识来进行考查;它也可被看作是人类进行科学探索活动的一种方 法,根据这一含义,人们又可将其作为科学过程技能来进行考查。所以在试卷中很多没有 明示是考查科学探究的题目,在用其他定义来分类时,也有可能属于科学探究。由于内涵 和外延并不统一,对其进行量的比较,意义甚微。所以本研究主要对其考查的方式进行介 绍,以期可以对我国科学探究的考查提供一些线索。 基于以上分析,本研究对要比较的各个方面,特确立以下比较标准:基于以上分析,本研究对要比较的各个方面,特确立以下比较标准: 试卷的长度以试卷的总测试时间表示。 题型以及不同题型试题的比例以不同题型所用的测试时间在试卷总测试时间的比例 来表示。 试卷难度以考查影响试卷难度的各因素的题目在试卷题目总数量中所占的比例表示。 其中影响试卷难度的因素包括:扩展题、情境和多步推理能力。分别用扩展题型试题在试 题总数量中所占的比例;生活情境试题在试题总数量中所占的比例和考查多步推理的能力 的试题在试题总数量中的所占的比例表示。 对科学探究的考查主要是对其考查方式的描述性研究。 11 (三) 收集资料并进行分类、解释 1 资料来源资料来源 本研究主要通过从三评价项目的官方网站搜索与本研究相关的资料进行分析。其中以 第一手的官方资料为主。这些资料包括:timss2007 测试框架和测试题目、timss2003 的测试框架;pisa2006 的测试框架和测试题目;naep2000 和 naep2005 的测试题目、 naep2009 的测试细则。 第二手资料包括:国内外对三评价项目测试框架和测试题目的研究文献。 国内的有教育部考试中心王蕾在能力测试题库的建构-来自 pisa 的启示。国外的 有:由美国教育部下属的国家教育统计中心(nces)于 2006 年 3 月公布的naep2000 与 timss2003 科学领域的比较研究报告和由美国教育部于 2001 年 6 月公布的naep、 timss-r 与 pisa 的比较研究报告。 2 资料分类资料分类 在将研究所需的资料收集完成后,本研究对上述资料进行了全面的阅读和翻译工作, 得到了很多相关的信息。 timss (1)背景)背景 国际数学和科学趋势研究(trends in international mathematics and science study, timss) 由国际教育成就评价协会(international association for the evaluation of educational achievement,iea) 于1995年发起,每四年为一个周期,评价目标为四年级、 八年级和十二年级学生数学和科学成绩的发展趋势。参与国家和地区既包括发达国家也包 括发展中国家。iea的国际研究中心设在波士顿大学。 成立于1959年的国际教育成就评价协会(iea)于二十世纪六十年代初组织了有十多 个国家参加的第一次国际数学研究和第一次国际科学研究; 七十年代末、 八十年代初, iea 又组织了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论