sysaSYSTAT在语言测试研究中的应用以TEM4语法词汇题为例_第1页
sysaSYSTAT在语言测试研究中的应用以TEM4语法词汇题为例_第2页
sysaSYSTAT在语言测试研究中的应用以TEM4语法词汇题为例_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

sysaSYSTAT在语言测试研究中的应用以TEM4语法词汇题为例

一对经典测量理论和项目分析中的项目分析在语言测试研究中使用现代信息技术是一种趋势。基于现代信息技术的教育测量统计软件运用于外语教学及测试的研究在我国起步较晚,许多外语教师对其如何用于试卷质量分析还感到陌生。MicrosoftWindows系统自带的Excel软件可以处理经典测量理论(ClassicalTrueScoreTheory,简称CTT)中的项目分析(Brown,2005)语法词汇是外语教学研究与实践的一大重点。《高校英语专业四级考试大纲》(2004年版)(高校英语专业四级考试大纲修订小组,2004)本文尝试运用SYSTAT统计软件分析TEM4语法词汇质量,同时希望借助详细的介绍,与更多的一线外语教师和研究者分享SYSTAT软件在定量分析的应用功能,其目的在于让现代信息技术更好地服务于外语教学与测试研究。二systat软件概述SYSTAT是统计学家T.Krishnan教授领导的核心团队开发的一种集数据分析、技术绘图和演示的专业科学软件,几乎囊括所有统计功能。该软件除了具有SPSS已有的常见统计功能,如描述统计和推断统计等功能外,还有专门进行测验试题分析的模块—TestItemAnalysis(简称TESTAT)。TESTAT的试卷质量分析包括CTT和IRT项目分析。SYSTAT非常适合教学及研究使用,使用对象涵盖了所有理工农医法商各科系,是美国许多大学规定的统计教学研究工具,但在国内还局限于医学范围内的研究。2008年SYSTATSoftware公司发布了专门针对广大师生可免费下载的统计分析软件MYSTAT12(下载地址:/products/mystat)。MYSTAT12具有SYSTAT12大部分的核心统计功能,常应用于本科和研究生初级阶段的统计相关课程。本文探讨将这一工具引入语言测试客观题的质量控制环节,使外语教师和研究者都能了解并学会该软件。图1显示了SYSTAT的TESTAT(项目质量分析模块)功能界面。数据的输入准备大致和EXCEL、SPSS等一样,不同之处在于,变量属性的设定需点击变量名,根据需要设定变量名的类型。图1所示的Classical分析指CTT的项目难度、区分度和信度分析,Logistic分析指IRT的单参数和双参数模型分析(彭康洲、李清华,2009)目前,常见的试卷质量分析方法包括三类:CTT、概化理论(GeneralizabilityTheory,简称GT)和IRT(Bachman,1990;漆书青、戴海崎、丁树良,2002)三tem4语法词汇的质量分析1不同能力水平上的考生人数本研究借助SYSTAT拟解决2个问题:(1)从CTT和IRT角度来讲,2007年的TEM4语法词汇题的难度和区分度如何?(2)考生能力分布如何?TESTAT所显示的统计结果除了两种测量理论所含的项目难度和区分度指标以外,还显示不同能力水平上的考生人数,类似于传统的各个分数段的人数比例,以及不同能力水平段上的考生答对题目的概率。第一个问题可以采用SPSS和SYSTAT来完成,但是第二问题只能采用SYSTAT来实现。为了检验语法词汇项目是否考查一个维度的能力,我们需要进行探索性因子分析,若提取的一个因子能够比其他因子更能解释这个项目,则说明这个项目考查的能力是单维性的。2tem4考生词汇题质量本文旨在通过范例操作,详解SYSTAT的试题质量分析功能,并非专门研究语法词汇题的质量,所以从2007年TEM4考生中随机抽取1%的样本,共计2490个考生。SYSTAT的操作方法和SPSS一样简便,只需将所需统计的题目选中,添加到右边的“测验项目”(Testitems)方框内,如图2所示。3对结果的分析与讨论(1)迭代主轴模型本研究采用该软件多维方差分析模块(MultivariateAnalysis)的因子分析功能,使用反复迭代主轴模型(IteratedPrincipalAxis)的正交旋转法。结果显示,语法词汇项目只有一个特征根值(eigenvalues)大于1,而且第一个因子的特征根值比第二个因子的特征根值大4倍以上(如表1所示),可以认为该项目考查单一的知识或能力,达到了出题者测试学生的语法词汇能力的目的。(2)问卷的区分度使用该软件的Scale模块,统计项目的Cronbach信度。结果显示,依据现有的样本(2490),语法词汇项目的信度为.6479,比较理想。该项目的平均分为14.29分,标准差为4.16分,最高分为25分,最低分0分。统计结果同时还呈现了考生的原始分数和标准分数(Z分数),这样便于对学生做选拔和排名(如表2所示)。和SYSTAT相比,SPSS软件无法直接估算题目的标准分数。为便于了解考生整体的水平,该软件还用柱形图的形式呈现出各分数段的人数和累积百分比(如图3),其中分数段参照15个标准分该软件详细地呈现出每道题目和整个项目信度的关系,即题目的区分度(如表3所示)。如果去掉某道题目后,整个项目的信度反而提高,说明这道题目对整个项目的影响很大,不利于区分考生,其区分度较低,需要进一步改进。如前所述,语法词汇项目的信度为.6479。这样,2007年的语法词汇项目有7道题目的区分度不甚理想(第58、63、66、71、75、76和78题),需要依据情况做修改。SYSTAT的这一功能在SPSS中也可以实现。为了解区分度较差的题目的问题,该软件提供了不同能力水平的考生在该题的分布情况(如图4所示)。可以看出,71题的难度非常大,只有3.5%的考生(Mean=0.035)答对,无论哪种水平的考生,答对此题的机会都较少。和SYSTAT相比,SPSS无法实现这一功能,而SYSTAT非常直观地呈现出试题区分度存在的问题。又如,第58题,能力水平极低的考生(Z=-.250)答对此题的人数高达71.43%,而与此对应的能力水平极高的考生答对此题的人数却为62.5%(如图5所示),说明此题的区分度存在问题。(3)能力很差的考生有问题的题目需要从定性角度来分析问题的根源。定性分析通常可以借助考生的答题过程,借助有声思维发现问题,也可以直接分析题目本身,找出个中原因。本文就试着从试题本身来分析,限于篇幅,仅举一例。此题给定的答案为A。图5显示语法能力最好的考生(Z=2.5)中只有12.5%的能答对,而能力很差的考生(Z<-1.5)中竟然超过11%的学生能做对此题。因此该题不能有效地区分学生的水平。此句源自Merriam-Webster'sLearner'sDictionary:“Thiskindofbehaviorhardlybecomesapersonofyourageandposition”,此处become表示“适合”。而选项B“fits”恰恰有“适合”之意,具有较强的干扰作用,当然在此上下文中,它无法直接搭配“person”,而通常是fitsomething或者fitsomebodyforsomething。四影响新件效度的因素本研究仅从项目难度和区分度示范了SYSTAT对试题质量控制的作用,并且指出和SPSS的异同,没有提及语法词汇题的效度问题。虽然效度验证较为复杂,但是题目的难度和区分度也会影响题目的效度。教师们掌握外语教学研究中新的统计软件,就会多一种角度来审查试题的质量,提高命题质量,更加有助于诊断教学问题。测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论