词汇与语料库_第1页
词汇与语料库_第2页
词汇与语料库_第3页
词汇与语料库_第4页
词汇与语料库_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Chapter 12 Chapter 12 语料库语言学与英语词汇研究语料库语言学与英语词汇研究高敏高敏20161208201114220161208201114212.2 12.2 语料库与词频统计语料库与词频统计 计算机生成语料库可输出的资料中重要的一项就是词汇词汇频率表频率表(word frequency list)。 词频表是指对语料库中的词汇使用频率进行列表,以确定语料库中哪些词汇和词块是常用的,而另外哪些词汇和词块是相对比较少用的。 Wordsmith Tools和AntConc都具有生成单词词表和词块词表的功能。 例如,Cambridge International Corpus

2、 (CIC)剑桥国际语料库是一个收词量超过10亿的大型数据库,收集了多种权威口语和书面语口语和书面语语料资源。以33万个单词为基础生成的最常用50个词汇。 词频统计的作用词频统计的作用 通过以上词频统计发现:书面语词频表主要由功能词(function words)组成,如代词、限定词、介词、助动词、情态动词、连词等,而口语词频表里面包含不少的实义词,如know、well、got、think、right等。正如普通预想那样,功能词在两个词频表中都占据多数。 词频表除了可以排列高频词的次序,还可以统计词汇出现的次数、所占百分比、具体位置等。 例如,以历任美国总统就职演说为语料(总词数133399)

3、所做词频表。 Wordsmith Tools所做为单词词表,AntConc所做为词块词表。应用应用:词语出现的频率信息已经开始出现在词典中。例如,Longman Dictionary of Contemporary English(1995)标注了一个词是否属于最常用的1000、2000或3000口语词和书面语词。频率信息不光限于词的形式,对于一个词的不同意义的频率也可以进行统计分析,语料库为词典编撰提供意义频度也只是一个时间问题了。12.3 12.3 语料库与词汇语义研究语料库与词汇语义研究 语料库索引可以提供词汇用法和意义的真实信息,通过索引,学习者可以体验词汇或短语在不同语境语境中的确切

4、使用,以增加感性认识。语料库索引可给同义词群提供丰富的用法和语境,使学习者能够比较和掌握同义词之间细微的语义、语用差异。 词语检索是对一个搜索项进行检索获得的列表,把搜索词或词组按字母或频率顺序排列与其所在语境一同展示。词语索引最常见的形式称作KWIC(key words in context),即“语境中的关键词”。以关键词为中心,左右显示的词数构成了该词的跨距(word span)。跨距中的词构成了关键词的微型语境微型语境。 下表显示的是从British National Corpus (BNC)截取的带有horde和people的词汇索引:近义词近义词between vs. throug

5、h Kennedy(1991:95-110)运用OCP检索软件在100万词的LOB语料库上对英语学习者常不易分辨的两个介词between vs. through进行了检索和分析。between左邻搭配词中的名词比例大大超过through,而through左邻搭配词中的动词频率却大大超过between。between之后的名词多为复数形式或者是由and组成的名词短语,如person and person, place and place, date and date等,而through后面的名词多为单数,如the window, her mind, the door, the house等。短语

6、的不同语义功能:1) between+noun/nouns的短语通常表示“地点、移动、时间、分割、共享等意义”; 2) through+noun/nouns的短语通常表示“自由移动、穿越障碍、对障碍的感知、时间、实施媒介工具关系、因果关系”。最常用的搭配词:between的location功能中比较常见的名词有channel,gap,space等,在through的unimpeded motion功能中较常见的动词有go,pass,move等。 词频:词频:丁俊(2008)。基于语料库的美国总统就职演说研究。天津外国语学报,15,25-31。 以1933年至2005年19篇美国总统就职演说为语

7、料,统计高频人称代词:we使用频率为889次, 占总单词的2.61%;I的使用频率为202次, 占0.59%。第二人称代词的使用频率为88次, 占0.26%;第三人称代词的使用频率为216 次, 占0.64%。第一人称代词的使用占绝对多数, 为3.2%, 其次是第三人称代词, 第二人称代词则使用较少。 分析为什么第一人称代词,尤其we使用最多,而第三人称、第二人称代词使用较少。探讨了公众演讲人称代词使用技巧。 词块、语境词块、语境:罗建平(2011)。国总统就职演讲主题词的语料库分析。浙江外国语学院学报,5,46-50。 早期演讲使用station、methods 等词较多,后来的意义和用法发

8、生了变化。现代英语station 是车站的意思,而早期演讲指的是职务、职位等意思,如: for the station in which I am placed( 第1 任华盛顿) ,to be elected to a station( 第2 任亚当斯) , to retire from this station( 第3 任杰弗逊) , for official station( 第14 任皮尔斯) 。到艾森豪威尔以后station 不再出现,被position 取代。 至于methods( 和method) ,南北战争后频繁使用,如: the only sure method of returning( 第18 任格兰特) ,to seek public office by proper methods( 第2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论