_作文内容_的构念效度研究_运用结构方程模型软件AMOS5的._第1页
_作文内容_的构念效度研究_运用结构方程模型软件AMOS5的._第2页
免费预览已结束,剩余14页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2007 年第 3 期总第 103 期外语研究Foreign Lan guages Research 2007,M3SerialM103作文内容”的构念效度研究- 运用结构方程模型软件 AMOS 5 的尝试文秋芳(北京外国语大学中国外语教育研究中心,北京 100089摘 要:本研究运用结构方程模型软件 AMOS 5 检验限时英语议论文 内容”的 构念效度。笔者根据限时议论文作文思维过程的基本环节,确定了代表 内容”构念的四个观测变量:文章切 题性、观点明确性、说理透彻性与篇章连贯性,然后运用结构方程模型软件 AMOS 5 检验这四个观测变量对作文总体质量的预测力。研究结果表明,由这四个观察变量

2、形成的 内容”构念能够解释作文质量 56%的差异。本研究终结目的是为计算机自 动评分的前期人工评分提供较为精确的作文内容”分项指标及其评定标准。关键词作文内容;人工评分;结构方程模型中图分类号:H319文献标识码:A文章编号:1005-7242(2007 03-0066-061.引言1. 1 问题的提出近年来,国外多种作文自动评分系统相继问世。评分的理论建模,。人工评分是研发自(后面简称为机助人工评分,。计算机依靠人工评分的结果提取能够预测,然后依据这一模型对大批量的同一批其它作文评定分数。由此可见,。而效度好、信度高的人工评分很大程度上依赖于可操作的分析性评分指标和标准。逻辑上 说,评分指标

3、越精细,评分标准越明确,人工评分的效度和信度就越高,计算机模拟人3工评分的效果就越好。当然指标越精细,人工评分需要投入的时间与精力就越多,而 实施大规模测试自动评分之前的机助人工评分通常时间比较紧迫,需要在规定的有限时间之内完成。因此指标数量的确定需要同时兼顾评分质量和评分效率两个方 面。笔者认为,现有的几种分析性二语作文评分指标体系存在明显缺点,不能够达到机助人工评分的要求。本研究重点探究作文内容”指标的设定、评定标准及其效度。本研究另一个目的是尝试运用结构方程模型软件AMOS 5 检验 作文内容”的效度。该软件具有三个明显优势:(1 灵活性显著增加,它允许回归方程中自变量含有测 量误差,允

4、许变量之间存在协方差;(2可对原始数据进行直接加工,提供标准化和非 标准化两种估计结果,不像 L ISREL 需要输入各相关变量的相关系数表;(3 采用视 窗界面,易学易用,不需要使用者书写任何命令,一切操作均只需点击鼠标(程开明 2006。1.2 评述现有三种分析性二语作文评分系统Weigle (2002 认为目前比较有影响的分析性二语作文评分体系有三种Jacobs etal (1981 , Weir (1990 , Hamp 2L yons (1990。上述三种体系涵盖的评分指标见表 1。表 1:三种分析性二语评分体系的一级指标J acobs et al (1981 Weir (1990H

5、amp 2L yons (1990 1Co nte nt (30% 1Releva nee &adequacy of content 1Ideas andargume nt 2Orga ni zati on (20% 2Compositi onal orga ni zati on 3Cohesi on2Rhetorical features3Vocabulary (20% 4Adequacy of vocabulary for purpose 4La nguage use (25%5GrammarLan guage con trol 5Mecha nics (5%6Mecha ni c

6、al accuracy I (pun ctuati on 7Mecha ni cal accuracy II (spelli ng66?JUHamp 2L yons 只有 3 个指标,显然过于简单,不太适合分析性二语作文评分。J acobset al 有 5 个评分指标,Weir 有 7 个评分指标,但笔者认为,这些指标均处于同一 平面,没有区分层次,不易分清各自在评分体系中的重要性。尽管J acobs et a 对不同指标分配了不同的权重,但各指标之间的隶属关系不清楚。另一个问题是,这两种 评分体系中涉及内容的指标不够多。J acobs et al 的体系中有两个指标与内容相 关:conte

7、nt ,orga ni zati on,Weir 中看上去有 3 个:Releva nee &adequacy of content , compositionalorganization , cohesion ,实际上只有 2 个,因为 cohesion 是作文结构的 外显标记之一,应该是 组织”的特征,不宜再作为单列指标。众所周知,内容是衡量 作文质量最重要的方面,如果只有两个指标,就意味着只有两个分数,其结果是,作文 内容的评价就可能比较笼统,分析性程度不高。鉴于上述两个问题,笔者认为 J acobs et al 与 Weir 的两种分析性评分体系作为机助人工评分体系还需要修订与

8、完 善。1.3 对现有分析性二语作文评分体系的修正与完善表 2 列出了笔者重新构建的分析性二语作文评分体系,这里暂且称之为层级指 标体系。表 2:分析性二语作文评分层级指标体系一级指标语言形式(50%作文内容(50%二级指标词汇内容指标 1 句型内容指标 2 语法内容指标 3 操作细节内容指标 4所谓层级,就是将指标分为一级和二级两个层次,。两个一级指标分别为语言形 式与作文内容。,。两个一级指标所含的二级指标数量各有 4 个等,。以前的分析性 评分系统由于没有一级与二级指标之分,,使得语言形式的评定比内容更为精细、语 法、操作细节 4 个二级指标。词汇指作文所用单词的词频高低、单词的搭配以及

9、恰 当性;句型指作文所用句型的复杂度和多样性;语法指作文所用语言是否符合语法 规则;操作细节指拼写、大小写、标点等使用情况。作文内容涵盖的二级指标也有 4 个。表 2 没有列出二级指标具体名称,因为作 文的文体很多,有记叙文、说明文、议论文等,不同文体对作文内容的评判标准迥然 不同,因此需要确立不同指标。例如记叙文的要求是通过用一个生动具体的事件来 点明一个主题,而说明文和议论文就不需要记叙典型、生动的事件。本研究只选择 命题议论文文体的作文内容指标作为研究对象,其主要原因是,议论文是我国目前大 规模英语考试中限时定题作文最为常见的文体形式。根据研究者本人的经验,8 个二级指标的数量比较适中,

10、如果数量再多,实施机助 人工评分的时间不许可。如果少于 4 个,不能照顾形式与内容的主要方面。1.4 设定英语议论文内容指标的理论依据本研究以写作议论文的思维特征为理论框架,设定四个作文内容指标(见图 1。 限时写作的基本环节有审题、立意、布局和表述(卫灿金 1997。根据文秋芳、刘润清(2006:51-52 的写作研究,与审题相对应的内容指标是文章切题性,指作文内容是 否符合所给的作文要求;与立意相对应的是论点明确性,指作文中的中心论点和分 论点是否清楚、明确;与布局相对应的是篇章连贯性,指文章中心论点与分论点之 间是否有机地联系在一起,形成一个整体;与表述相应的是说理透彻性,指各论点的 论

11、述是否有理有据。图 1:写作思维环节与作文内容分项指标(即文秋芳、刘润清 2006 中的图 2 写作 思维过程作文内容参数 审题文章切题性立意论点明确性 布局篇章连贯性表述 说理透彻性以上新设立的 4 个二级内容指标,在现有的分析性二语作文评分体系中有一定 程度的体现,不同的76?是这些体系中给出的只是内容”与 组织”的特征,而不是单列指标,不能单独给分。另一个问题是,这些特征的列举缺乏理论框架,随意性比较强(见表 3。J acobs et al从 4 个方面衡量 内容”的质量:对所涉及的领域了解程度,知识面,论点阐述的 深度,切题程度;Weir 从切题性与恰当性两个方面来衡量。与J acob

12、s et a 和 Weir的不相同,Hamp 2L yons 涵盖三个方面:(1 主题突出,阐述充分;(2 观点清楚,论述有 力充分;(3 考虑问题的复杂程度较高,引述别人的观点妥当。同样,所谓组织”在现 有的三种评分体系中,表述的特征也各不相同。J acobs et al 列出的特征包括:表达流畅度、观点清晰度、充分性、简洁性、逻辑性、关联性;Weir 的特征有:整体结构清晰性、篇章组织技能熟练性、关联词使用的有效性。Hamp 2L yons 列举的特征包括:(1 修辞技能熟练程度;(2论点的平衡性与充分性,文章整体结构的恰当性;(3 关联性与简洁性。可以想象,评分人员很难把握 内容”与 组

13、织”质量的不同方面,给出恰当的分数,同时不同评分体系所给的分项分数也难以比较。而新构建的平衡层 级指标体系基于明确的理论框架,指标层级清楚,数量均衡,将分析性评分体系中的 特征提升为二级指标,这样可以按不同指标的标准分别给分,以提高评分的效度和信 度。表 3:现有三种分析性二语作文评分体系对内容”与 组织”质量的最高级描述J acobs et al. (1981内容(Co ntent组织(Orga ni zati on最高等级(按 4 个等级给分Knowledgeable ? substantive?thorough developme nt of thesis? releva nt to a

14、ssig ned topicFlue nt expressi on , ideas clearly stated supported? succi net , well 2orga ni zed?logical sequencing? Weir (1990内容切题性与恰当性(Releva nee and adequacy of content关联性(Cohesion最高等级(按 4 个等级给分Releva nt and adequate an swer task setand in ternal clear , orga ni zati onal skills adequately con t

15、rolledSatisfactory use of cohesi on result ing in effectivecom muni cati onHamp 2L yons (1990(argume nt修辞特点(Rhetorical features最高等级(按 6 个等级给分essay deals with the issues centrally and f ully. The position is clear , and strongly andsubsta ntially argued. The complexity of the issues is treated seriou

16、sly and the viewpo intsof other people are take n into acco unt very well.The essay has rhetorical control at the highest level , showing unity and subtle manageme nt. Ideas are bala need with support and the whole essay shows strong control oforga ni zati on appropriate to the content. Textual elem

17、e nts are well conn ected throughlogical or linguistic transitions and there is no repetition or redundancy.2.研究设计 2. 1 研究问题本研究所要回答的主要问题如下:(1 4 个作文内容指标的评定标准是什么?(2 文章切题性、论点明确性、说理透 彻性和篇章连贯性在多大程度上能够反映潜在变量作文内容”?位评分员所给的3 个成绩在多大程度上能够反映潜在变量作文总体质量”?作文内容”在多大程度 上能够预测作文总体质量”?2. 2 数据来源与收集本次研究涉及的数据为我国某重点大学英语专业 4

18、 个年级的英语议论文限时作 文。学生在英语写作教师的监督下,在课内(50 分钟根据以下要求完成 300 字左右 的作文:Some people see educatio n simply as going to schools or colleges , or as a means tosecure good jobs ; mo st people view educatio n as a life long process. In your opinion,howimportant is education to a modern adult person ? Write a compo s

19、ition of about 300wordson t he followi ng topic :Educatio n as a Life long Process.最终进入数据分析的是由 120 篇作文组成的随机样本,每个年级 30 篇。2. 3 数据分析语料分析分为四个阶段。?86?All ri刖刖reserved.Journal Electronic Publishing HauhttpIW4-20WChins AcademkiI第一阶段,将随机抽取的 120篇作文混编以后,由受过培训的 3 名有经验的教师用传统方法独立评分。评分标准根据梁茂成 (2005 参照 J acobs et a

20、 的评分体系修改而成,满分为 300 分,5 项评分指标分别为:作 文内容(100分、文章结构(50 分、词汇(50 分、句型(50 分、语法(50 分。3 位评 分员独立判分的相关系数为.70。第二阶段,笔者在研读 120 篇作文后,提出作文内容的 4 个指标和评分标准的假 设,经过检验、修订、再检验、再修订,多次循环后,确定每个指标的 5 个等级标 准,5 分为优秀,1 分为最差。第三阶段,笔者根据确定的内容指标和评分标准,对 120 篇作文进行逐篇逐个指 标测量。每一轮只评定一个指标的成绩。为了确保测量的信度,3 个月之后,笔者用同样的方法对 120 篇作文重新逐篇逐个指标评分。两次评分

21、结果平均相关系数为.69(见文秋芳、刘润清 2006:表 2。由笔者前后两次评分的均分得到文章切题性、论 点明确性、说理透彻性和篇章连贯性 4 个指标分。第四阶段,运用 AMOS 5 软件构建结构方程模型。本研究的潜在变量有作文内容”与 作文质量”作文内容的观测变量有文章切题性、论点明确性、说理充分性 与篇章连贯性,作文质量的观测变量是 3 个评分员所给的 3 个成绩。本研究的核心是检验文章切题性、论点明确性、说理透彻性、篇章连贯性这4个指标形成 作文内容”构念的效度。笔者的假设是:如果这 4 个观测变量能够反映 潜在变量 作文内容”同时作为潜在变量 作文内容”能够解释作文总体质量,就可以 推

22、断作文内容”具有构念效度。图 2 是本研究构建的初始结构方程模型,有待进一 步验证。图 2:初始结构方程模型矩形表示观测变量,椭圆形表示潜在变量,圆形表示测量误差。潜在变量与观测 变量之间的关系用单向箭头表示,意味着潜在变量能够被观测变量所反映。潜在变 量之间的关系用单向箭头表示,箭头起点的变量为自变量,箭头所指的变量为因变 量。图 2 假设自变量 作文内容”可以预测因变量 作文总体质量”;作文内容”能够 被文章切题性、论点明确性、说理透彻性和篇章连贯性 4 个观测变量所反映;作文总体质量”能够被作文成绩 1,作文成绩 2 和作文成绩 3 所反映;除作文内容”外,其 它各个变量均有测量误差。3

23、.研究结果与讨论3. 1 作文内容 4 个指标的评定标准文章切题性、论点明确性、说理透彻性和篇章连贯性这 4 个内容指标作为图 2 中的观测变量,每个观96测变量分为 5 个等级:文章切题性需要根据不同题目确定不同标准。就本次作文题目而言,核心概念包括终身教育”与现代人”切题性 5 分表明作者能够阐述终身教育对现代人的重 要性;切题性 4 分表示作者阐述了终身教育对每人的重要性,忽视了现代人这个概念 切题性 3 分意味着作者只解释了什么是终身教育,而没有通过说理来论述终身教育 对现代人的重要性;切题性 2 分说明作者只是泛泛说明教育的重要性,未能正确理解 终身教育和现代人两个概念;切题性 1

24、分表明作者所写内容只和题目稍有沾边;论点明确性的评定等级取决于作文中中心论点与分论点的清晰度和恰当性;说理透彻性的等级标准主要测量各分论点阐述的逻辑性和充分性;篇章连贯性的质量等级侧重考察各分论点之间关系的逻辑性和清晰度。(具体数据可参见文秋芳、刘润清 2006:表 1表 4 列出了 4 个年级分别在 4 个作文内容指标上的得分情况。4 个年级文章切 题性与论点明确性的得分形成一个递增趋势,即随着年级的提高,这两个指标的平均 分在增加。与前两个指标稍有不同,说理透彻性与篇章连贯性的总体发展趋势虽然 呈逐年上升,但 3 年级的平均分没有 2 年级高。就这一组描述性数据总体情况来看, 本研究设立的

25、 4 个内容指标具有一定的区分度,下面将用 AMOS 5 结构方程模型进 一步检验。表 4:4 个年级在 4 个内容指标上的得分年级文章切题性论点明确性说理透彻性平均数/标准差平均数/标准差/1 年级 2. 72/1.092. 35/1.080. 862 年级 3. 08/1. 143. 25/1.3. 43/1.283 年级 3.62/1.0575/1.263. 32/1.474 年级4. 15/4. 4. 03/0. 914. 50/0. 80 平均分3. 39/1.3. 31/1.203. 02/1.253. 43/1.343. 2 作文内容对作文总体质量的预测力表 5 列出了初始模型(

26、图 2 与修正模型(图 3 的拟合效果指标。根据 AMOS 软件对结构方程模型的要求,当卡方值与自由度之比. 05; GFI , A GFI , CFI. 90;RMSEAW. 08 时,该模型才能被接受。表 7 中初始模型的 p =. 02; A GFI , CFI . 90;RMSEA =. 09 说明数据和模型拟合效果不是非常理想,模型还需要进一步修正。根 据 AMOS 对模型修正的建议,笔者在初始模型上增加了两条双箭头路径,一条将错 误 3 和错误 8 连在一起,另一条将错误 4 与错误 7 连在一起(见图 3 ,表示这两对变 量之间存在协方差。修正后的模型拟合效果指标达到了统计要求:

27、卡方值(Chi2square 为 19. 13,自由度(DF 为 14,p 值=.160,拟合优度指数(GFI =. 95;修正拟合指数(A GFI =. 91;比较拟合指数(CFI =. 95;平方根残差值(RMSEA =. 06。表 5:初始模型与修正模型的拟合效果指标Chi 2SquareDF P GFI AGFI CFI RMSEA 初始模型 30. 2416. 02. 93. 87. 82. 09 修正模型19. 131.94.06根据图 3,文章切题性、论点明确性、说理透彻性与篇章连贯性的路径系数分 别为.79, . 85, . 84, . 87它们之间的差异说

28、明这 4 个观测变量对潜在变量作文内容”的贡献不等,但均为有效参数,在不同程度上反映了作文内容的优劣。其中,文章 切题性与作文内容之间的路径系数(.79 最小,因此贡献也最小;篇章连贯性与作文 内容之间的路径系数(.87 最大,因此贡献也最大。根据图 3,3 个评分人员所给出的作文成绩 1,作文成绩 2,作文成绩 3 的路径系 数分别为.82, . 86, . 79,这意味着 3 个评分员所给的成绩对潜在变量作文总体质量”的贡献不完全相同。其中最小的路径系数是.79,这表明作文成绩 3 对作文总体质 量”的作用最小;最大的路径系数是.86,这表明作文成绩 2 的作用最大。尽管各观测 变量对潜在

29、变量的贡献不尽相同,但它们都能较好地反映潜在变量。?07?1994-2009tittpJVklnetJournal Electronic Publidiing HauAH rights reserved.China Academk图 3 :作文内容预测作文总体质量的结构模型也就是说,以上这两个潜在变量 能够参与进一步数据分析。作文内容与作文总体质量之间的路径系数为 75,这说明作文内容能够解释作文总体质量 56 %的差异。这一结果应该相当令人满意。在 作文内容评估只分为 5个等级,且作文内容仅为作文总体质量的一个方面的情况下 就能够得到如此的解释力,很能说明问题。由此可以推断,本研究所提出的作

30、文内 容的构念效度比较好,可以依据这 4 个观测变量 进行机助人工评分,用这种评分方 法会得到较常规人工评分更为精准的评分效果。需要指出的是,该作文内容测量 指标仅用于预测一篇作文的总体质量,未来研究有必要用更多的英语议论文命题作 文对 4 个观测变量的评定标准进行检验,进而不断完善。同时未来研究还需要根据 其它文体的特点,构建相应的内容指标与评定标准。4.结语以上研究仅仅涉及了 内容指标。为了建立一个完整的分析性二语作文评分体系,语言形式的二级指标还需要进一步研究,特别是每个二级指标的分级标准。此外,本研究的实践还表 明,AMOS 5 易于学习、易于操作,可以广泛应用于外语教学研究。注释:本

31、文 与文秋芳、刘润清(2006 使用的是同一批数据。参考文献:1 Ham2L yons 丄. 1990. Second Ian guage writi ng : assessme nt issues C0B. Kroll. S econd L an g ua ge W riti n g : Resea rch I nsi g hts f or Cl ass room . New York : Cambridge U ni versity Press. 2 J aco bs , H. , S. Zinkgraf , D. Wormut h , V. Hartfiel & J . Hugh

32、ey. 1981. Testi n g ES L Com position :A Practical A p p roach M . Rowley , MA : Newbury House. 3 Weigle ,S. C. 2002. A ssessi n g W riti ng M . Cambridge :CU P. 4 Weir , C. J . 1990. Com m uni cati ve L an g ua ge Testi n g M . NJ : Prentice Hall Rege nt s. 5 程开明.2006.结构方程模型用于顾客满意度测评之实际应用J .市场研究(5

33、. 6 梁茂成.2005.中国学生英语作文自动评分模型的构建D .南京大学博士论文.7 卫灿金.1997.语文思维培育学M .北京:语文出版社.8 文 秋芳,刘润清.2006.从英语议论文分析大学生抽象思维特点J .外国语(2 .收稿 日期:2007 - 03 - 08 作者简介:文秋芳(1950 -北京外国语大学中国外语教育研究 中心主任、教授。研究方向:应用语言学。(责任编辑:杨晓荣?71 ?Abstracts of Major Pa pers in This Issue The paper suggest s a formal app roach to co nver satio nal

34、implicat ure wit hin t he exte nded DR T. The meaning of a disco urse is co mpo sed of t wo co mpo nents , p ropo sitio nal meaning and co nv ersatio nal informatio n. Propo sitio nal meaning is static while conver satio nal info rmatio n is co n text2depe ndent and dyn amic. So un der sta nding a d

35、isco ur se is noto nly t he descriptio n of it s t rut h co nditio ns but t he derivatio n of t he informatio n it co nveys wit hrespect to t he co n text . This is t rue of p ragmatic reaso ning. In disco ur se un dersta nding , t hetake2for2gra nted p rin ciple ( TF GP o bliges t he age nt to just

36、if y t he belief he takes for gran ted. Basedo n t his hypot hesis , t he DR T Ian guage is exte nded. Pragmatic reaso ning start s f ro m t rut h co ndition descriptio n wit h respect to t he extended model , and t hen an assignment f unctio n map s it into acognitive state relative to t he co n te

37、xt . In formally speak ing , t he cog nitio n age nt has to reso rt to t heco ntext to justif y his belief . Key words : Disco ur se Rep resentatio n Theory ( DR T ; co nver satio nalimplicat ure ; p ragmatic reaso ning ; stereot ypical relatio ns Fro m t he per spective of systemic f un ction al li

38、 nguistics , t his paper discusses t he differe nces in disco ur se under different cult ural co ntext s asexemplified in a Chinese text and an English text of similar co ntent . It al so loo ks into t he differences between t he Chinese text and it s English t ranslatio n resulting f ro m t he chan

39、ge of tenor which in t urn changes t he mode of t he disco ur se. Key words : co n text of cult ure ; systemic f un ctio n al li nguistics ; t ranslatio n ; disco ur se This paper co mpares t he discrim in ative informatio n of syno nyms in severalChinese2English dictio naries for no n2Chinese speak

40、er lear ners , pointing o ut t hat such in formatio nsho uld be p rese nted by formalized means f ro m sema ntic , syn tactic and p ragmatic dime nsio ns. From t he per spective of vale ncy t heory , it also discusses t he differe ntiatio n of syno nyms in t heirrespective valency st ruct ures in t

41、he co ur se of definitio n and illust ratio n. Key words : no n 2Ch inese2speaker2orie nted C2E dictio nary ; syno nyms ; discrimi native in formatio n ; explicatio n ; sema nticdime nsio n ; vale ncy st ruct ure The st udy was in ten ded to measure t he validit y of t he co nst ruct content of a ti

42、med argumentative essay in English by using St ruct ure Equatio n Modeling. The co ntent is indicated by fo ur o bservable variables : releva nee , explicit n ess , co here nee and sufficie ncy t hatwere propo sed in accorda nee wit h t he correspo nding t hinking stages in co mpo sing. St ruct ure Equatio nModeli ng was t hen used to check to what exte nt t hese fo ur o bservable variables co uld p redict writ ingqualit y. It was fo und t hat t he co nst ruct co ntent indicated by t he above2mentio ned fo ur o bservablevariables can p redict 56 % variance of writing qual

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论