自制思辨能力量具的修订及信效度检验_第1页
自制思辨能力量具的修订及信效度检验_第2页
自制思辨能力量具的修订及信效度检验_第3页
自制思辨能力量具的修订及信效度检验_第4页
自制思辨能力量具的修订及信效度检验_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自制思辨能力量具的修订及信效度检验

时间与数据分析2008年,文秋芳等人申请了国家社会科学基金项目“中国外语学生思维能力现状”(编号08by026),以研究中国外语学生和其他文科学生的思维能力。2008年5月课题组构建了思辨能力量具的理论框架,后将其发表在《外语界》2009年第1期上(文秋芳等2009:37-43)。2008年6月课题组就思辨能力客观性量具的构建开展了先导研究(文秋芳等2010:55-58)。该研究设计了60道题,将其分为两套题型和数量相同、难易度相近的A卷与B卷,测试时间为50分钟。参加测试的是来自3所不同学校一、二、三年级英语与非英语专业750名文科学生,其中约一半学生用A卷,一半学生用B卷。课题组分析了测试题的难易度、区分度与信度,并进行了因子分析,还就量具的构建与先导研究结果咨询了心理测量、心理学、哲学、应用语言学领域6位专家的意见。总体结论是,构建量具的理论框架与思路符合研究规范,但有一半以上题目的区分度未达到要求,总体难易度偏低,题型不够丰富,同时参加先导研究的样本不够大,也不具典型性。据此,我们进一步阅读文献,修订现有量具,接着用新量具在更大更典型的样本中进行测试。本文将报告对新量具信效度检验的结果。全文分为3部分:第一部分报告新量具的结构与内容,第二部分介绍新量具的测试过程,第三部分报告并解释新量具难易度、区分度、内部一致性分析结果以及效度证据。1.老量具中各题型的合并新量具包括40道题,其中25道题来源于先导研究所用的量具(本文简称为老量具),新增15道题。我们把老量具中的10种题型合并为6类,同时新增了4种题型。表1列出了10种新题型的名称以及每种题型所包含的题目数。前6种题型源于老量具,具体例子见文秋芳等(2010)所撰写的论文“我国外语类大学生思辨能力客观性量具构建的先导研究”。表2列出了增加新题型的理由及对新题型内容的说明1。2.新标准的尝试2.1创建普通高校2770名被测学生来自12所高校的81个班级,其中有3所“985”学校,3所“211”学校,3所省部共建的省属本科院校,2所省属普通高校,1所2004年专升本院校。本课题先导研究只涉及其中3所学校的750人,参加本次研究的人数增加了2.69倍,学校数增加了3倍,学校类型也变得多样化,涵盖外语类、综合类、理工类、财经类、师范类学校,涉及的文科专业有17个。我们认为本样本应该具有较好的代表性(见表3)。2.2个人承担一个班级除了课题组的4名老师外,我们还邀请了70名教师协助组织测试。一般情况下由两名教师负责一个班级。测试前,我们向这些教师详细解释了测试要求、流程与应注意的问题,同时还印发了书面测试指导语,以便在12个学校81个班级中统一测试要求。2.3建立学生测试指导语本次测试与先导研究测试不同的地方有两处。第一增加了题量,但答题时间从50分钟缩短到45分钟,目的在于提高量具的难度。第二,本次测试前我们将研究目的如实告知被试,原因是先导研究访谈数据表明学生渴望了解自己的思辨水平。下面是我们印发给组织者的测试指导语。在动员学生配合做题时,请按如下要点说明:(1)本测试来源于一个国家级课题。该课题研究大学生思维能力现状,并通过测试找到问题所在,对高校今后开设该类型的课程有重大意义。测试题目由课题组成员编制。(2)思维能力对一个人的成长非常重要,也是目前各种就业、选拔型考试(如公务员考试等)涉及的内容。本测试有助于学生了解自己的思维能力现状,并相应进行有意识的训练和提高。(3)我们承诺评分结束后为每个被试提供成绩(请学生一定配合写上名字和学号)。2.4信度指标的计算我们在EXCEL中分别输入12所学校的数据,然后合并、整理,纠正数据输入错误。数据整理完后,我们从项目分析(itemanalysis)入手,列出每题选项的选择分布情况,然后计算难易度与区分度,再计算量具中40道题的内部一致性作为信度指标。难易度计算的公式是:P=得分/满分;区分度计算公式是:D=P1(27%高分组难易度)-P2(27%低分组难易度)(Brown2006:68)。为寻找量具效度的证据,我们运用单因素方差检验,比较不同类型学校、不同年级学生测试平均成绩的差异,分析了部分学校英语专业四级考试成绩与思辨测试成绩的相关情况。3.研究结果3.1新量具的区分度分布表4列出了每个题目的难易度、区分度以及总体难易度、区分度与内部一致性信度。总体来说,新量具比老量具有了显著改进。它的平均难易度为.61,即学生答题的总体正确率为61%,比老量具下降了11%;区分度达到.31,比老量具提高了.03;内部一致性信度也有了一定改进,Alpha系数达到.70,比老量具中的A卷高.06,比B卷高.02,符合统计要求。一份试卷应该由难易度不等的题目按一定比例组成,理想的难度均值是.50(李筱菊1997:274)。表5列出了新老量具试题难易度的分组情况以及理想比例(李筱菊1997:274)。虽然新量具比老量具的难易度有所改进,但与理想比例相比,似乎还有必要减少高于.70这个难易度段的题目数量,增加低于.29这个难易度段的题目数量。导致高难度题目数量不够的原因也可能是参加测试学校的类型分布不够均衡,特别是近年来专升本的院校数量较少。如果增加这一类学校的数量,量具的难易度可能就达到了要求。当然这一推测需要实证数据支持。与难易度值相似,区分度值也在0至1之间。表6列出了新老量具试题的区分度分组情况以及评价区分度好坏的一般标准(Brown2006:75)。很明显,新量具中符合区分度要求的题目比例达到了62.5%,比老量具增加了19.1%,需要删除题目的比例从30.0%下降到10.0%。根据表6,新量具中仍旧有27.5%的题目需要修改。我们有必要进一步查看这11道题的各个选项的设置情况。从表7我们发现一个最明显的问题是,干扰项的作用不均衡,有的几乎未起到干扰作用。第二个问题是,需要进一步分析第25、30、33、34、38题为什么有几十、甚至上百学生未回答。初步解释是,这些是新题型,学生一般不熟悉,需要花费力气理解答题的指导语,部分学生不愿意多动脑筋,进而选择放弃答题。3.2不同类型学校学生的思辨水平的差异我们在先导研究中已经说明了因子分析结果不能成为本量具的效度证据,本研究只能从其他方面寻找证据来检验本量具的效度2。我们的证据来源于3个假设。第一,不同类型学校的学生应该具有不同的思辨水平,因此本量具测到的成绩应能区分不同类型学校,也就是说“985”、“211”学校学生的总体思辨水平应该高于省部共建的省属本科院校学生,省部共建的省属本科院校学生的水平应该高于省属普通高校学生,省属普通高校学生的水平又应该高于新近专升本院校的学生。第二,不同年级学生的思辨水平应该具有差异,因此本量具测到的成绩应能区分不同年级的学生,即三年级学生的思辨测试成绩好于二年级学生,二年级学生的成绩又好于一年级。第三,思辨水平应该对英语专业四级考试成绩产生积极影响,因此本量具测得的成绩应与英语专业四级考试成绩呈正相关。如果上述3个假设都能得到验证,本量具就有了系列效度证据。下面我们将逐一验证上述假设。3.2.1类学校学生思辨水平总体差异分析表8列出了12所学校学生思辨测试的平均成绩与标准差。这12所学校成绩的排序基本验证了我们先前的假设。如果能将12所学校的名称列出来,这个假设的检验就极其容易。然而出于对测试学校情况保密的需要,我们将这些学校分为5类后进行统计比较。第一类为教育部直属第一梯队3,第二类为其余的“211”学校,第三类为省部共建的省属院校,第四类为省属普通高校,第五类为近年内专升本院校。从平均分来看,只有某些二类学校的顺序排在三类学校之后,其他基本上符合类别的排序,即类别越高,成绩越高。下面我们将运用单因素方差分析考察5类学校学生思辨水平总体差异情况,并进行两两配对比较,以考察每两类之间的差异是否达到显著性水平。表9列出了5类学校的描述性数据、两两配对比较以及总体差异比较的情况。除第二类学校学生以外,其他4类学校学生思辨水平测试成绩的变化均呈线性趋势,即随着学校类别的提高,思辨成绩也随之增高。5类学校之间的总体差异达到.000显著性水平(F=212.95)。两两配对比较的结果是,除二~三类学校外,其他3对比较(一~二类学校,三~四类学校,四~五类学校)均显示显著性差异。巧合的是,这3对呈现显著性差异的学校,差异都在7.45到7.85之内。导致二类与三类学校无显著性差异的可能原因是,国家确定“211”学校首先着眼于国家经济发展与学科布局的需要,继而考虑的是学校发展的整体实力。换句话说,确定“211”学校的因素很多,生源质量有时可能不是首要因素。就参加本次测试的院校来看,个别“211”学校地处我国中西部,生源质量并不比某些省部共建的省属院校好。这可能是导致二类学校与三类学校的配对比较未出现显著性差异的原因。3.2.2教育影响学生思辨能力发展的单因素分析表10列出了12所高校3个不同年级学生思辨能力测试的平均成绩以及单因素方差分析结果。从平均数来看,3个年级学生的思辨能力确实随着年级的升高而增强,标准差随着年级的升高而降低。换句话说,高等教育对学生思辨能力的提高产生了积极影响,同时有利于缩小学生之间的差异。3个年级之间的差异达到.000显著性水平(F=14.61)。但单因素方差分析结果表明,一、二年级学生之间的差异不具统计意义,二、三年级学生之间以及一、三年级学生之间的差异分别达到.001和.000的显著性水平。这一结果似乎表明大学生思辨能力变化的关键时期是二年级到三年级之间,比较符合学生的实际情况。刚进入高校的第一年是调整期,学生需花费气力适应大学的学习与生活,第二年才是大学生活的真正开始。3.2.3英专四级考试成绩本次思辨能力测试于2008年11月举行。用于本次研究的英语专业四级考试于2008年4月举行,成绩于2008年9月公布。本次相关分析只涉及两种测试均参加的06级学生。参加思辨能力测试的学校有12所,提供英专四级考试成绩的有11所学校。表11列出了11所学校325名学生的英语专业四级考试成绩与思辨能力测试成绩的平均分、标准差、总体差异及两种测试成绩的相关系数。11所学校的两种测试总平均成绩都在.000水平上呈现显著性差异。两种成绩呈正相关,其系数为.26,在.000水平上具有统计意义,但相关程度不算高。这一结果并未出乎我们的意料。英语专业四级考试涉及语音、语法、词汇知识与听、读、写技能,更多测试的是英语语言基本功,而思辨能力测试以母语为中介,考查的是分析、推理与评价技能。我们认为,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论