语料库与基础英语教育_第1页
语料库与基础英语教育_第2页
语料库与基础英语教育_第3页
语料库与基础英语教育_第4页
语料库与基础英语教育_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、语料库与基础英语教育摘要:本文简要介绍了语料库的概念,强调了标注语料库在语言 教学中的用途,并用大量的语言证据从词语搭配、词类搭配等方面说 明语料库对基础教育的意义。同时,文章提出了应加强基础教育领域 的语料库研究,使语料库能在该领域内发挥更大作用,促进我国英语 基础教育进一步发展。关键词:语料库;英语基础教育;语料库应用一、语料库的概念语料库的使用早在几百年前就开始了 (kennedy 2000: 13-15)。 但是,过去的“语料库”是非计算机操作,人们把需要的句子抄在卡 片或纸条上,然后对其检索。所以,这种现象我们只能称之为语料库 方法,而非现代意义上的语料库。有人把语料库定义为语言材料

2、的仓库,该定义远远不能说明语料 库的特征。语料库以计算机检索为手段。计算机有一个强大的检索功能,这是人所不及的。语料库中聚集了大量文本,而计算机对任意大的语料 库进行检索易如反掌。所以,有人认为术语“语料库语言学”应为“计算机语料库语言学” (leech 1997: 1)。语料库文本的收集是按照某些原则进行的。英国国家语料库 (british national corpus,以下简称bnc)的书面语占总库的 90%, 口语占10%,整个库的结构如表1所示。brown语料库不包 括口语,书面语的收集方法和bnc有很大不同,其结构见何安平(2004: 141-143)o bnc的文本长度参差不齐,

3、长的达436 048定在2个单词,短文本只有25个单词;而brown把文本的长度000词左右,超出则删除。lob (与sown结构相同)语料库的文 件长度平均为2 013单词左右。表1bnc文本结构信息语域总码数文档总数形符数applied science7 104 6363707 424 216arts6 600 7412636 939 259belief and thought3 087 156commerce7 257 5292957 565 415imaginative16 386 48647717 548 572leisure12 139 853437natural sciences

4、3 784 2731463 934 819social science14 482 806spoken10 341 72991010 425 409world affairs17 116 37748317 870 882world news15 62716 367total97 626 0934054101 957 142语料库分为生语料库(raw corpus)和标注语料库语料库语言学 中“标注”、“赋码”、“附码”、“标识”、“标记”等均指对语 料库内容标以识别信息,以便专用程序对其进行统计查询等。相应的 英语术语(动词)有 annotate, tag, parse, encode, ma

5、rkup, bracket等。本文统一使用“标注”这一说法。(annotated corpus),前者只是电子库(electronic archive),而利用标注语料 库,不仅可以研究词语搭配,还可以研究词类搭配。标注就是文本标 记词性码、语法码、语义码等,是语料库建设的重要阶段,是对文本 增加语言信息的过程(hunston 2002: 79-80 ) o例如bncdck.104即文档dck中的104行。中的一个句子:<s n= "65” ><wav0>possibly<wavo>so&lt

6、;c pun>,<w itj>yeah<c pun>尖括号中的部分就是被标注的内容,这里有句子开始标记和句子 序列信息、词性码、标点符号码。利用生语料库,可能的查询为 possibly so这样的搭配情况。但so前面还能使用其他什么副词, 利用生库无法知道。利用标注语料库可以很容易找到和so搭配的其 他副词:right / just / quite / much / more / rightly / a bit / actually / alright等。这些语言信息就是在有词性码的情况下得到 的。所以,从语料库中提取语言信

7、息时,码的作用不可比拟。语料库使用的语言材料应该是真实的。学习者语料库就应该体现 出学生使用英语的原始情况,包括错误句子、拼写等。李文中多次批 评“大学英语教材语料库由薛学彦建立的教材语料库。目前该库收集 930个文本,近80万词容的语料,该库建设的第一阶段于2004年 4月完成,包括结构标注和词性标注。”的真实性。他认为教材中的 文本和原始文本相去很远,是经过编写人员改编的,从真实性的角度 来讲已不能代表其原始文本个人交流。总之,语料库的概念不是一 个简单的语言材料的仓库,不是简单的文本量的增加。它涉及到取样、 文本量、标注、甚至相关软件开发等问题。二、语料库应用与基础英语教育20世纪90年

8、代以后,语料库和语料库语言学发展很快,原因是 计算机硬件的普及和发展。世界上第一个计算机语料库brown用了 10年的时间尚未完工,而现在建立一个同样大小的语料库就易如反 掌。目前,语料库的应用主要在辞书和其他工具书的编写,而且,欧洲国家远远领先我国的研究。朗文等几个大的岀版社已出版几种有影 响的、基于语料库的字典和工具书,我国的岀版社在这方面的工作还 很薄弱。从应用层面来讲,语料库应用更应该在教学方面,尤其在基础教育 领域。从语料库语言学著作和其他研究成果中得知,常用词汇应该是语言 学习的重心,而这些常用词语教学恰恰是在基础教育阶段。有研究表明,英语中出现频率最高的1 000个单词,覆盖全部

9、语 料的 80%左右(见桂诗春 198& 19-20; kennedy 2000: 96)o 表 2是根据一个近5千万词的语料库统计出来的结果。大学英语教材语 料库中出现频率为1次到2次的单词,占全部类符的50%; bnc的 数据表明,出现频率为1次到2次的单词,占全部类符的60.2%o表2单词(类符)在语料中的使用比率频率最高的类符占总形符的百分比*频率最高的类符占总形符的百分比52.77420088.12100076.065500180081.19650091.23200082.11000093.84300085.49total: 1926561004000*说明:出现频率最高的前

10、100个类符占总形符(即全部语料)的 52.77%,等。sinclair 和 renouf (1988,见卫乃兴 2002: 26)认为,词语 应当在教学大纲中占据中心地位。alexander (1984, ibid.)也认 为应以一种系统的方法对待词汇教学,其中,词组的学习,包括成语 和种种固定表达方式,应是教学的起点。他建议教学过程中应重视 “搭配”这一语言现象。但是在我国,中小学阶段的教学很大程度上还停留在语法 教学阶段,即使使用一套好的教材,有些教师还是不会放弃久已熟悉 的教学方法,这样导致学生的语法知识比较扎实,但是他们的语用能 力不是很好。图1和图2说明5,中国学生在单词a (an

11、), the, no,every的使用方面还有很大的问题。图1colsec中的冠词使用情况图2colsec中名词使用情况通过语料库进一步查询得知中国学生在复数名词前面使用冠词(主要是the)的现象非常普遍。使用(at| ati)+nnsat、atl nn1和nn2四个码分别表示a/an, every; the, no;单数名词和不可数名词;复数名词。表达式的意思为“at或ati与复数名词”的搭 配。进行统计,在频率为50以上的单词中,bnc有7个单词,而colseccolsec为“中国学习者英语口语语料库”。这里的引用bnc的数据是重新标注了的,并和colsec的语料量相同。中有9个,而且总频

12、率远远超出bnc:bnc: people (168) / police (122) / things (101) / women(88) / children (76) / men (72) / flats (61)colsec: people (324) / students (275) / children (157) / pictures (114) / parents (101) / examinations (84) / advantages (71) / things (66) / benefits (63)at和nns的搭配有111组,这显然是错误的。属于这一类的单 词有:chi

13、ldren / students / people / coins / friends / kinds / lots / savings / sports / women / computers / girls/ parents / pictures/ scientists / advantages / applicants / bikes / bookworms / boys / cards / cars 等,其中和 a 的搭配占 74 次, 和an搭配占1次,和every的搭配占36次。例如:(*) he can t take care of every children in the f

14、amily.(*) i think every people should live a happy life.这种错误在clecclec为“中国学习者英语语料库”。中岀现 频率较低,但是也有89次。这种错误是第二语言习得过程中的问题,说明学生的表达能力有 待提高。这个提高就是要通过教材、教学活动、教学课件等途径,并编写适当的练习对学生经常犯的错误进行纠正。clec语料库中还有这样的句子:the government no longer allocate jobs for students仅从词语搭配方面,这个句子的正确性就值得怀疑。在基于enc 的当代朗文英语词典的电子版中没有此搭配,整个e

15、nc语料库 中也找不到这样的搭配。以上种种例子表明,学生对基础词汇的掌握还不够,需要进一步 加强,而这正是基础教育阶段的内容。早在20世纪初,西方就有人提出“搭配”的概念,后来又有许 多人发展和完善这个概念的内容。但是,在机读语料库时期之前,人 们对单词搭配能力的观察只能停留在“直觉”这个阶段,通过个人的 行为观察文本,然后得岀结论,对搭配词的使用统计没有一个科学依 据,如频率等。搭配在语言教学中的应用很受限制。有了机读语料库以后,这些变得很容易。例如,单词fairly、rather 和hot> good、poor、fluently的搭配情况如何呢?从bnc中提取 所有搭配并计算其频率,

16、结果如下:1 fairlyfluently85 fairlygood7 fairlyhot9 fairlypoor101 rathergood5 ratherhot47 ratherpoor从结果中观察,有意义的区别在fairly poor和rather poor两个搭配上,其他的数据差别不大。而fluently前面经常会有什么副词修饰呢?对bnc的查询结果为:1 aloud fluently6 as fluently1 fairly fluently5 more fluently2 most fluently2 quite fluently10 so fluently1 very fluen

17、tly利用语料库统计ve+nn+to结构中动词位置上的单词频率,较高 的有 give / take / get / draw / send / say 等,而在vb+nn+on结构中,出现频率较高动词则是:put / get / take / make / give等。相关的例句有:j9v.1049 and i think we did draw attention tothe fact that hyg.69 we do obviously make grants to youth clubs and organizations hm2 108 erm doorway there, alwa

18、ys a doorways always add interest to a picturehem.532 when you came in the winter, to gain access to the stack,.hdx.13 before you can make changes to the system, you have to understand it, and that takes an awful long time.g3u.1618 how does one put pressure on civil servants?fl7.61 erm you get comments on the street!gy4.791 .that you re the only one that s doing thatsomeone will take retribution on you.以上例句表明,利用语料库,我们不仅可以观察单词的搭配情况, 还可以研究词类的搭配情况。语料库语言学中搭配的概念不只是固定 词组,涉及的搭配词是一组开放的词汇总和,而这些词汇总和也不是 任意的,是受语义制约的,它们之间是“相互期待”的(卫乃兴2002: 2)o三、小结语言学至今尚未找到理想的研究方法。而20世纪

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论