句酷批改网英语作文评分的信度和效度研究-现代教育技术_第1页
句酷批改网英语作文评分的信度和效度研究-现代教育技术_第2页
句酷批改网英语作文评分的信度和效度研究-现代教育技术_第3页
句酷批改网英语作文评分的信度和效度研究-现代教育技术_第4页
句酷批改网英语作文评分的信度和效度研究-现代教育技术_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第23卷 现代教育技术 Vol. 23 2013年第5期 Modern Educational Technology No.5 2013句酷批改网英语作文评分的信度和效度研究*何旭良(南通大学 外国语学院,江苏南通 226019)【摘要】作文批改与反馈是英语写作教学的一个重要环节, 对提高学生的写作能力有着不可低估的作用,句酷批改网以其优势而深受广大师生的喜爱。句酷批改网的作文评分有很高的信度,但评分显著地高于教师的评分,尚不能反映学生英语作文的真实水平。从效度上看,以句子为单位,在词汇和语法等方面进行详细的评价,但在篇章结构、文体修辞、内容逻辑性和连贯性方面不能给学生充分的反馈。在运用批改网

2、的同时,我们还要同其他的评估方式结合起来。 【关键字】英语作文;信度;效度;句酷批改网一 引言作文批改与反馈(feedback)是英语写作教学中的重要环节之一,它向写作者反馈作文修改的信息:如“逻辑性不作文表层纠错性反馈(corrective feedback),又包括作文语篇强”、“内容不充分”、“词汇、时态错误”1等等。既包括层面的反馈。评语和评分也是信息反馈的重要方面2。学生依据反馈信息对作文进行修改,是第二写作过程3,所以其信度和效度对学生提高语言能力和写作能力起重要的作用。评估的信度(reliability)也叫评估的可靠性,指的是测试结果是否稳定可靠。就是说,评估的成绩必须反映受试

3、者的实际水平。评估的信度主要包括两个方面:试题本身的可试题数量及试题区分度等;评分标准的客观性和准确性决定指的是试题对应该测试的内容所检测的程度:试题要达到其预定目的、检测其要检测的内容。信度和效度关系密切,只有信度较高的评估才能有较高的效度,但效度高不能保证信度也高。4传统的批改和反馈大多是纸质的书面形式,一方面,由靠性和评分的可靠性。试题本身的可靠性决定于测试的范围、评分的可靠性。评估的效度(validity)亦称评估的有效性,于繁重的教学任务,很多英语教师批改学生的作文时提供反馈的信息极其有限;另一方面,学生对教师的这一有限的反馈也不认真对待,马虎了事。随着现代化教育技术的发展, 人们开

4、发网络英语写作教学或评估反馈平台,在改进写作教学方法上进行了有益的教学实验和探索。例如,郭晓英5 研究等介绍了清华大学外语系研发的“易得”写作软件的理论背景、技术探索和系统设计过程。自动写作评改系统(Automated Essay Scoring,AES)是www学生的英文写作适用性并不是很强。10利用计算机技术对作文进行评估与评分。40年来,自动写作评改系统采用了统计、自然语言处理及人工智能等方面的最新成果,于1999年进入实际应用阶段8。自动作文评改系统国外研发成功并投入使用的自动评改系统有十余种,其的研究和应用在国内外已成为计算机辅助写作教学的热点。 中最具代表性的是EG(Project

5、 Essay Grade)、IEA(Intelligent Essay Assessor)和E-rater,它们各具特色。PEG重语言形式,IEA重作文内容,E-rater则既重形式又重内容9,但这些自动评改系统多适用于以英语为母语的写作评估与反馈,对中国北京词网科技有限公司开发的句酷批改网(简称批改网)在国内高校得到广泛的使用。它是基于语料库和云计算的英语作文自动批改在线服务,通过计算学生作文和标准语料库之间的距离,即时生成学生作文的得分和评语及内容分析结果,帮助学生通过自助练习提升写作能力。它既能够激发学生修改英语作文的积极性又能够减轻教师的作文批改工作量,帮助教师更加直观地了解学生的英文

6、写作水平11。2011下半年以来,我校英语教师在英语教学中广泛使用批改网,它已成为我们英语教学中不可多得的工具。批改网的诸多优点让师生收益匪浅,但也逐渐出现了一些问题,如批改网评分与教师评分很多时候不一致等等12。因此,有必要探讨其信度和效度,以指导英语作文教学实践。二 句酷批改网评改的信度和效度了博客环境下写作能力的培养模式;而张文霞6、杨永林7英语作文反馈形式有教师反馈和同伴反馈。教师反馈的时候,教师找出文中的错误,提出修改建议或者直接改错,教师评改权威、灵活且全面。学生喜欢教师面对面的批改,详细评点语法及用词上的错误。按照教学大纲或考试大纲进64行评价,既有效度又有信度。但教师教学工作量

7、大,难以满足每个学生的这一需求;另一方面,越来越多的英语教师感到疲惫和困惑,仅仅依靠教师的反馈并不能使学生的写作能力得到提高13。同伴反馈(peer feedback)是学习者之间的评估,它能增强学生的读者意识;提高学生学习和掌握英语写作技巧的积极性;提高学生的文章质量意识,提高学生作文内容和语言质量;帮助学生形成英语学习社群14。但同伴评价可以作为一种教学活动,不一定有很高的信度和效度。现在的句酷批改网深受广大师生的喜爱,是因为它使用便捷、反馈及时、按句点评,能够检测抄袭和报告学习进度11。为度和效度两方面考察批改网对英语作文的评估。1 信度引导师生正确使用批改网,切实提高英语写作水平,本文

8、信容连贯;能熟练使用长难句,文中的长短句搭配合理,此外文中句式变化多样,希望继续努力,再创佳绩;文章用词基本恰当,但学术词汇不够丰富,建议平时多积累,同时注意文中的拼写问题。”批改网以句为单位进行评论,评论之后有“学习提示”。 (1)At present, there are lots of fake commodities fluding in the markets.搭配错误 fake commodity形名搭配不地道拼写错误 fluding拼写错误,可替换选项为:flu ding, flu-ding, fluting学习提示 易混词汇:goods, merchandise, ware,

9、freight,我们从中国学习者语料库(CLEC)中随机抽出30篇英语作文样本(writing samples),每篇作文都有原始作文分数。我们首先原始分数转换成百分制的分数,得到第一组分数。我们用SPSS16.0版进行信度分析(Reliability Analysis)。结然后,把每篇英语作文输入批改网的评分,得到第二组分数。果表明这两组分数高度一致,因为两组数据的克隆巴赫系数(Cronbach's Alpha)为0.694。当克隆巴赫系数在0.6以上,就可以认为可信度较高。所以这两组分数具有一致性15。手工评分高,批改网上的评分也高;手工评分低,批改网上的评分也低。我们发现批改网上

10、的评分要比手工评分要高,他们的评价分数分别为62.2、70.7,t检验表明他们之间的差异显著t (40.8) = 2.8, p = 0.008 (2-tailed)。统计表明虽然二组分数高度一致,但批改网上的评分显著偏高。2 效度下面是从CLEC语料库选的一篇学生英语作文,以此为例看看批改网对这篇英语四级作文的评价,每句评价之后有“好评”、“报错”、“删除”等选项,需要读者自己的判断和决定。At present, there are lots of fake commodities fluding in the markets. Why can this phenomenon occer.Th

11、e major reason, in my opinion, is that: for the sake of more prifit, merchents and factories make the fake commodities in low values, while, sell those goods at usual cost. sell the fake commodities is another reason.In addition, the shoppers' wanting to make more money to But, all of these have

12、 a bad result to customs. It can do lotswww(2)Why can this phenomenon occer. soccer merit。 profitsmerchant's, merchant 似中式英语trade.goods, deal.goodsto sell the fake commodities is another reason. intend或modity 都可表示“商品”、“货物”之意。goods:一般生活或商业用词,指销售或购入的商品。merchandise:正式用词,指商业上销售或商家拥有货物的总称。war

13、e:指上市待卖的商品或货物,多用复数形式。freight:指“货物”时,可与goods互换,此系美国英语,在英国,freight志指船装货物。commodity:作“商品”解时系经济学名词,也可指日用品。拼写错误 occer拼写错误,可替换选项为:occurs, ockers, 学习提示 易混词汇: marvel, miracle, wonder,phenomenon均含“奇迹”之意。marvel:侧重异乎寻常,奇怪,从而使人好奇。miracle:一般指被认为是人力所办不到的奇异之事。wonder:通常指使人惊奇的事迹、人物或景观,主要指人创造的奇迹。phenomenon:指罕见的现象或奇人、

14、奇事。(3)The major reason, in my opinion, is that: for the sake of more prifit, merchents and factories make the fake commodities in low values, while, sell those goods at usual cost. 点评高分词汇 value是普通词汇,可以在某些语境中替换为拼写错误 prifit拼写错误,可替换选项为:profit, privet, 拼写错误 merchents拼写错误,可替换选项为:merchants, 低频警示 the fake

15、commodities在语料库中无此用法,疑搭配统计 动名搭配sell.goods在语料库中出现过1159次,goods前面的动词分布,sell后面的名词分布(4)In addition, the shoppers' wanting to make more money 高分词汇 want是普通词汇,可以在某些语境中替换为搭配统计 动名搭配make.money在语料库中出现过of harm to the individuals. It not only takes money but also causes a lot of deseases, such as, Losing sigh

16、t, heart desease, What the important is that it can cause the market disturbed批改网给出的分数是67.5,总评如下:“文章行文连贯,文中的过渡词和衔接词相当丰富,内20192次,money前面的动词分布,make后面的名词分布65do.money, cause.money学习提示 易混词汇:money, cash, coin, currency均有“金钱”之意。money:钱的通称,可以是硬币可以是纸币,也可指用作货币的其它物品。cash: 特指立即可以兑现的现金或现款。coin:指铸造的硬币。currency:指在

17、流通中的货币,是全部流通中通货的总称,也可指纸币。(5)But, all of these have a bad result to customs. 高分词汇 custom是普通词汇,可以在某些语境中替换为convention或tradition。高分词汇 but是普通词汇,可以在某些语境中替换为nonetheless或nevertheless。 疑似中式英语。低频警示 a bad result to customs在语料库中无此用法,have.money, accept.money, admit.money。由此可以看出:批改网是以句子为单位,评价其长短、句式变化,着重评价文中词汇和语法的

18、使用;从学习的角度,提出改进的建议:使用高级词汇、注意单词拼写以及同义词辨析。批改网充分满足学生个性化评改和反馈的需求,并在词汇、语法层面给予学生详细的评改与反馈。学生根据批改网提供的点评,反复修改自己的作文直至得到满意的分数。过程写作理论认为:写作过程是非直线性的,没有反复思考和修改不可能有好的作文 16 17。批改网提供即时的反馈,学生根据反馈修改作文,体验过程写作,这对提高学习者的写作能力起到了积极的作用。然而,在作文的思想内容、逻辑性以及篇章结构方面,搭配统计 动名搭配 have.result在语料库中出现过1704次,result前面的动词分,have后面的名词分布accept.re

19、sult, have.outcome, take.result。have.effect, have.consequence, have.issue, have.event,(6)It can do lots of harm to the individuals. 名词错误 to the individuals冠词多余搭配统计 动名搭配do.lot在语料库中出现过10次,lot前面的动词分布,do后面的名词分布do.deal, do.bunch, do.luck, do.draw, do.batch, do.pot, do.mountain, do.slew, do.fate, do.pile,

20、 do.mass, do.heap。do.portion, do.mess, act.lot, behave.lot, do.fortune,(7)It not only takes money but also causes a lot of important is that it can cause the market disturbed. 换为高分词汇crucial或essential。 report should be on timedeseases, such as, Losing sight, heart desease, What the高分词汇 important是普通词汇

21、,可以在某些语境中替crucial: extremely important/critical: It is crucial that the essential: (something) very important/indispensable: It is essential for the applicant to wear a dark suit. diseases, decease's 。 disease, deceased 。It is essential that you should take out a proper insurance.拼写错误 deseases拼写

22、错误,可替换选项为:deceases, 拼写错误desease拼写错误,可替换选项为:decease, 搭配统计 动名搭配cause.lot在语料库中出现过628次,lot前面的动词分布,cause后面的名词分have.lot,www网不能考察文章内部的逻辑性和关联性。3 提高英语作文评估的信度和效度 评价方式结合起来。馈相结合,弥补单一反馈模式的不足。批改网提供的反馈较少,其反馈又多为提示性的,较宽泛,不具体。批改网对学生作文的评价主要集中在词汇和常见语法错误的分析上,如单词拼写、词汇搭配等。因此,批改网像其他的自动写作评改系统一样,只是对作文中语言使用的一个大概的评估,无法准确地评估作文的

23、内在质量18。批改网不能评估学生作文的流畅性、句子结构的复杂程度、文体修辞及其内部的逻辑性与关联性。笔者试图把文章段落颠倒,如把文章结尾和开头互换,结果得到相同的分数,说明批改如上所述,批改网的评分偏高,评语目前停留在词汇和基本语法层面,尚不能全面评价学生英语作文。教师批改虽然费时,但信度和效度较高。为此,我们要把两者或更多的首先,教育技术人员和语言教学研究者应该协同合作,充分利用人工智能技术,攻克自然语言处理及智能语言辅导方面的难题,努力提高诸如批改网等在线自动评改系统的信度和效度,使之不仅能提供词汇和语法方面的反馈,而且能针对写作内容、 篇章结构、 语体修辞等方面进行评估,提出个性化反馈。

24、第二,在写作教学中构建多元反馈机制。教师反馈、自动评改工具的反馈、利用网络平台进行同伴的反三 结语从信度上看,批改网评分的一致性比教师手工评分高,但前者的评分显著地高于后者,尚不能反映学生英语作文的地真实水平。从效度上看,批改网的即时反馈能有效激发学生的写作兴趣,反复修改自己的习作,体验了过程写作,写作水平也因而得到提高。但由于批改网的技术局限性,在词汇和语法层面给予学生的反馈较多,但在写作内容、 篇章结构、 语体修辞、内容逻辑性及连贯性方面尚不能给学生足够的反馈。因此,一方面要提高系统的智能性;另一方面要和其他反馈手段相结合,弥补其不足。cause.mess, cause.deal, sti

25、mulate.lot, do.lot, make.lot, cause.portion, cause.spate, get.lot, cause.mass, cause.heap, cause.pile, cause.mountain。搭配统计 动名搭配 take.money 在语料库中出现过 5829 次,money 前面的动词分布, take 后面的名词分布66 参考文献1Keh, C. L. Feedback in the writing process: A model and methods for implementation J. ELT Journal, 1990, (44):

26、 294-304.2郭翠红,秦晓晴.国外二语学习者作文书面反馈研究研究的视角及对大学英语作文评改的启示J.解放军外国语学院学报,2006,(5): 59-63.3何万贯.第二写作过程研究J.现代外语,2007,(4): 375-386. 4Alderson, J., Clapham, C., & Wall, D. Language Test 1995.电化教学,2007,(5):18-24.10唐锦兰,吴一安.在线英语写作自动评价系统应用研究述评J.外语教学与研究, 2011,(2): 273-282. 11批改网使用手册.</forum.p

27、hp?mod=viewthread&tid=48156 .> 12石晓玲.在线写作自动评改系统在大学英语写作教学中的应用研究以句酷批改网为例J.现代教育技术,2012,(10):67-71.13高海英.国内外二语写作评估研究现状与思考J.外语界,2011,(2):77-81.14蔡基刚.中国大学生英语写作在线同伴反馈和教师反馈对比研究J.外语界,2011,(2):65-72.15Cronbach, L. & Shavelson, R. My Current Thoughts on Coefficient Alpha and Successor Procedures. Ed

28、ucational and Psychological Measurement J. Educational and Psychological Measurement,2004, (3):391-418. 改革的启示J.外语教学,2003,(6):59-62. 究,2006,(6):51-54.Construction and Evaluation M. Cambridge University Press, 5郭晓英.博客环境下大学英语写作模式的设计与实践J. 现代外语, 2009, (3): 314-322. 教学, 2005, (3):3-10.6张文霞.“易得”论文设计与学术写作专家

29、系统J.外语电化7杨永林.宏大叙事与技术精巧再论“易得”文章利器的妙用J.外语电化教学,2006,(1):3-9.8Dikli, S. Automated Essay Scoring J.Turkish Online Journal of Distance Education, 2006, (1):49-62.9梁茂成,文秋芳.国外作文自动评分系统评述及启示J.外语Abstract: The assessment and feedback plays an important role in English writing teaching, so its reliability and validity should be considered when we use Pigaiwang, an online automated essay scoring system which is popular on coll

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论