新建 Microsoft PowerPoint 幻灯片_第1页
新建 Microsoft PowerPoint 幻灯片_第2页
新建 Microsoft PowerPoint 幻灯片_第3页
新建 Microsoft PowerPoint 幻灯片_第4页
新建 Microsoft PowerPoint 幻灯片_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1what benifits can AntConc bring to us?利用AntConc3.2.1对比分析BROWN语料库和CLEC语料库2基本内容1. 概述BROWN语料库和中国学习者语料库(CLEC)2. 利用AntConc3.2.1对比分析CLEC和 BROWN语料库3. 选择语料的基本原则 自建小说系列文本语料暮光之城3BROWN语料库 BROWN语料库是纳尔逊和库切拉在20世纪60年代建立的美国英语语料库。它是最早的计算机语料库,为现代计算机语料库建设首开先河。 BROWN语料库是一个小型语料库,总容量100万英语词。它收集了1961年全年的美国英语资料,所代表的文类十分广泛

2、,主要构成包括信息性材料和虚构性材料。其500篇语言材料包含了新闻报道,社论,备忘录,宗教材料,科幻小说,侦探小说以及一系列小说故事。 BROWN语料库属于静态语料库,主要用于语法分析。该语料库的建立对后来的语料库产生了深远的影响。4中国学习者语料库 广东外语外贸大学桂诗春教授和上海交通大学杨慧中教授于1997年4月牵头开发中国学习者语料库(CLEC)并于1999年建成,容词量100万词。在创建初期,首先确定该语料库在性质上属于专用语料库。 CLEC语料库由专业英语,大学英语和中学英语三个子语料库构成。主要包括专业英语学习者作文,大学英语学习者作文,中学英语学习者作文以及其他英语学习者作文。

3、目的:1)通过分析中国英语学习者写作中典型错误及其与学习者中间语发展的内在关系,为中国外语教学,尤其是英语写作教学,提供积极反馈;2)对学习者语料库与英语本族语语料库进行对比分析。5词表与语篇统计:形符类符比 在语料库统计中,每一个在语料库中首次单独出现的词形称为类符(type),而同一个词在语料库中出现的次数称为该词的频数,又称为该词的形符(token)。通常所说的语料库的容词量实际上是指语料库的形符总数。而每个语料库又有各自的词汇量,即类符总数。单纯的形符数和类符数不能反映文本的本质特征,但两者的比率却在一定程度上反映了文本的某种本质特征,即用词的变化性。6词表与语篇统计:形符类符比78词

4、表与语篇统计:形符类符比 根据AntConc的计算,BROWN语料库的形符数是1114386,而类符数是58771,形符类符比为18.96%。但是该软件对CLEC语料库的统计表明,该语料库的形符数为1190501,类符数为26134,形符类符比为45.55%。由于形符类符比和文章难度及用词变化性成反比,所以从这两个语料库的形符类符比来看,本族语者的词汇量即用词变化性明显比中国学习者要高。9两个语料库中频率最高的前十个类符BROWN语料库语料库CLEC语料库语料库the, of, and, to, a, in, that, is, was, forthe, to, and, of, a, in,

5、 is, i, we, it1011 在语料库中,占总类符量很小的常用类符的形符分布占语料库总体的比例很大,占类符量很大的不常用类符的形符分布在语料库中出现的频数却很小。大约有一半的词汇只出现一次。 例如,在BROWN语料库中,常用词汇占总类符量的1.9%,却占总形符量的56.32%。只出现一次的词汇占总类符量的44%,只占总形符量的2%。 这表明语料库中词汇分布极不均匀。如果要研究不太常用的词汇,就需要非常大的语料库。12词语搭配 基于语料库证据的词语搭配研究所采取的基本方法是先输入节点词(搜索词)再从语料库中将与某个词共现的所有词语提取出来,然后计算各个共现关系是否显著,以确定其在多大程度

6、上反映了词语间的相互关系,也就是说在多大程度上构成了搭配。131415动词obtain和名词的搭配 限于篇幅,下表仅列出与该词最常搭配的名词(按频率列出前10个词,在左右+ 4个词之间的非连续性搭配):CLEC语料库语料库BROWN语料库语料库knowledge, water, jobs, money, success, information, something, skill(s), experience, timeitem, result(s), information, time, spectra, resolution, impression, allotment, signatur

7、es, services16 可以看出,学习者语料库中obtain一词所吸引的名词与本族语者语料库中该词所吸引的名词差异很大。学生对该动词的语法规则的掌握比较接近英语本族人的语言运用,但对该动词的语义选择限制却呈现出很大的差异。 原因: 首先,虽然两库的大小相差不大,但CLEC语料库主要成分为命题作文,词语的使用受到题材的限制。其次,由于对搭配词的索引查询是以某中心词左右四个词为幅度进行的,我们虽然能得到搭配词的搭配频率,却很难了解这些搭配词与中心词的确切关系。最后,由于学习者对目的语的运用水平有限,必然会导致搭配用词上的差异。17词丛统计(word cluster) 词丛统计对预定长度的词语

8、组合在语料库中全程查找,并计算其复现频数。其统计结果是各种长度的词丛表。 词丛统计可以验证词组、短语以及搭配在某一语料库中的分布和典型特征。 下面运用索引软件AntConc3.2.1观察并分析名词success在CLEC语料库和BROWN语料库中的词丛现象。181920 文本中在规定范围内与被研究的词共现的词一般有很多,有的词只出现一至二次,有的却出现多次。出现次数少的词之所以和被研究词出现可能并不是因为它们与被研究的词有密切的关系,而可能是由偶然或随机因素造成的,它们之间的搭配没有多少意义;出现次数多的词之所以和被研究词共现可能不是由于偶然或随机因素造成的,而可能是由它们与被研究词的密切关系

9、所决定的,那么它们和被研究词之间的搭配是有意义的。 从词频统计中我们可以看出,一些高频的词丛对研究比词更大的单位,如搭配,是很有价值的。不同语料库(特别是学习者语料库和本族语语料库)的词丛对比,对英语学习者的词语搭配学习大有裨益。21COLLOCATIONBROWN语料库语料库CLEC语料库语料库N+prepsuccess of, success insuccess of, success inadj+Ngreat, popular, precarious, consecutive, apparent, artistic, astonishing, unusual, dazzling, fin

10、ancial, further, easy, poor, substaintial, unhappy,unqualifiedgreat, final, coming, social, Chinese, ecnomic, equal, giant, good, half, sweet, smallV+NV+prep+Nmake, achieve, assure, attain, be, continue, doubt, have, influence, expect, yieldget, gain, achieve, make, be, lead to,want, obtain, have, w

11、ant to, accelerate, witness, attain, buy, enjoy, catch, complete, contribute to, dream, dream of, ensure, expect,reach 222324 通过统计分析名词success在CLEC语料库和BROWN语料库中的词丛现象,我们可以发现CLEC语料库中出现了很多和success异常的搭配,如:sweet success, small success, buy success等等。也有很多单词的误用现象,例如:把名词success误用成动词,出现了want to success, will

12、success等形式。甚至有相当一部分学习者出现拼写错误。这都是我们中国英语学习者在以后的英语学习中应当避免的。25小结 本族语(目的语)语料库为外语教学提供更为真实可靠的语言材料,在教学大纲制订,教材开发,词典编纂等方面将发挥愈来愈重要的作用。但在实际英语学习中仅依赖英语本族语语料库是不够的,因为英语本族语语料库只能为我们提供英语语言典型结构和用法的可靠信息,却难以说明这些结构和用法对于学习者的难度。所以,外语教学的改进,不仅有赖于真实的目的语材料,还有赖于真实可靠的学习者的信息。前者能提供典型的英语运用信息,而后者能够告诉我们在英语学习中,哪些困难是普遍性的,哪些困难只存在于某一学习群体。 外语本族语语料库与外语学习者语料库结合在起,在外语教学中具有广泛的应用前景。学习者在对语料的自我对比和探索中能真正掌握目的语在词语、语法以及搭配语境诸方面的系统知识,并在实际运用中获得交际能力。26选择语料的基本原则 语料信道(如书面语还是口语,或二者混合) 语料的格式(即语料是公开发行的还是未出版的,是否需要获得作者或出版者的许可) 潜在用户(即语料库建成后,谁可能使用该语料库) 语料获得渠道和方式(如是否需要手工输入或扫描;电子文本是否需要格式转换等) 语料性质(即语

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论