《语料库辅助EFL自主学习的多维探索》课件-第2章_第1页
《语料库辅助EFL自主学习的多维探索》课件-第2章_第2页
《语料库辅助EFL自主学习的多维探索》课件-第2章_第3页
《语料库辅助EFL自主学习的多维探索》课件-第2章_第4页
《语料库辅助EFL自主学习的多维探索》课件-第2章_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章语料库基本技术提纲2.1文本整理与加工

2.1.1文本与标注

2.1.2词目与词形还原2.2语料检索

2.2.1索引与索引行

2.2.2正则表达式2.3检索结果解读

2.3.1形符与类符

2.3.2频数与频率

2.3.3词汇搭配与语法搭配

2.3.4词表、词簇表、主题词表2.1文本整理与加工2.1.1文本与标注2.1.2词目与词形还原BACK2.1.1文本与标注语料库是由大量文本(Text)构成的,那什么是文本呢?在语料库语言学中,文本可理解为代表真实的连续话语并可由计算机读取的电子文档,以ASCII或Unicode呈现。文本可以保存生语料,即未经任何标注的语料,称为生文本(RawText)。BACK文本可以保存生语料,即未经任何标注的语料,称为生文本(RawText)。文本也可保存经过人工或自动标注的语料,这时称为标注文本(AnnotatedText)。BACK标注(Annotation)指利用各种标签(Tag)对文本的各种属性加以标记。最常见的标注:词性赋码(Part-of-speechTagging)句法标注(SyntacticParsing)语义标注(SemanticAnnotation/SenseDisambiguation)语音标注语误标注BACK2.1.2词目与词形还原在英语语料库文本中,一些实词有大量的屈折变化形式(Inflection),如go这一动词就有go、goes、went、going和gone共5种不同的屈折变化形式。该词原形go被称为词目(Lemma,复数形式Lemmata)。BACK在分析语言(如统计频率)时,如果把这5种形式作为5个词来看,就可能显得不妥,因此需要将它们全部归并到go名下。这个过程叫做“词目归并”或“词形还原”(Lemmatization)。BACK下框中第一行句子词形还原后变成第二行的形式:BACK2.2语料检索2.2.1索引与索引行2.2.2正则表达式BACK2.2.1索引与索引行

索引(Concordance),又称检索、语境共现或“语境中的关键词”(KeyWordinContext,KWIC),指的是运用索引软件在语料库中查询某语言单位的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。该清单中的各行就叫索引行或语境共现行。被查询的词被称为节点词(NodeWord),位于界面正中间,一般用不同颜色显示。BACK常用的综合性检索工具有很多,例如商业软件WordSmithTools和免费软件AntConc等。BACK2.2.2正则表达式正则表达式(RegularExpression,简称Regex),是计算机汇编语言的一种技术,用于匹配文本中的字符串。BACK序号符号含义举例或说明1\b词的边界\band\b匹配and,不匹配a、an、Andy或land2\w任何字母或数字\w匹配字母a-z,A-Z,数字0-9及下划线3.任何字符或非字符4.1匹配401、411、4t1、41、4.1或4-14+重复1次或多次B+匹配B,BB,BBB等5*重复0次或更多BA*匹配B,BA,BAA,BAAA等6?有或者无BA?匹配B和BA7()组合,使得括号中的部分可以当作一个符号处理discover(ing)可以匹配discover和discovering8[]方括号中的任意字符[abc]匹配a、b或c[abc]+匹配9\s空格\w+\s+\w匹配任何二元序列10|或者(|号在回车键上面)(analyze|analyse)匹配analyze或analyseBACK2.3检索结果解读2.3检索结果解读

2.3.1形符与类符

2.3.2频数与频率

2.3.3词汇搭配与语法搭配

2.3.4词表、词簇表、主题词表BACK2.3.1形符与类符

词(word):实义词(ContentWords)和功能词(FunctionWords)实义词:名词、动词、形容词及副词等词类(如flower、search、tall和quickly)功能词:限定词、介词、连词及代词等词类(如the、of、because和it)BACK在语料库语言学中,我们日常说的“词”通常被称作形符(Token)。下面句子分别有多少个形符?Totheworldyoumaybeoneperson,buttoonepersonyoumaybetheworld.类符(Type)指不重复计算的形符数。下面句子形符数和类符数各多少?Lovemelittle,lovemelong.BACK我们可以计算这个句子的类符/形符比(type-tokenratio,TTR,又称形次比),即TTR=(4/6)*100≈66.7TTR是衡量文本中词汇密度的常用方法。可辅助说明文本的词汇难度。BACKTTR衡量词汇密度是否合理?文本中有大量功能词反复出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。为解决这一问题,引入标准化类符/形符比(STTR,StandardizedType/TokenRatio)。例如,计算每个文本每1000词的TTR,均值处理,得出STTR。BACK2.3.2频数与频率

频数(Frequencies/Occurrences)通常指某语言单位在文本中出现的次数。单位形符量中,某语言单位出现的频数称为频率(Frequency)。Man和woman哪个更常用?在BNC中,man一词的频率是每百万词602.91次,而woman的频率是每百万词225.43次(梁茂成等,2010)BACK2.3.3词汇搭配与语法搭配

如果我们观察多个文本,会发现许多词都有较为固定的伴侣,这种伴侣被称为搭配词(Collocate)。搭配(collocation):词语间的横向聚合关系。例如commit这个动词经常与名词suicide和crime搭配。词汇搭配是最常见的搭配。BACK

语法搭配,又称为类联接(Colligation)。它是一种句法结构,指的是文本中语法范畴问的结合,是从文本中“概括或抽象出来的用句法范畴表述的搭配类(卫乃兴,2002)。例如“hesays”,“thingssuggest”就是N+V的搭配实例,这里N+V就是一个类联接,代表一类搭配。BACK2.3.4词表、词簇表、主题词表词表(WordList)就是指词频表(FrequencyList),而不是简单的单词列表。BACKBACK词簇(Cluster):在语料文本中反复出现的两词或两词以上的结构。这样的结构未必是语法和语义上完整的结构。BACK词簇常常又称:词丛语块(chunk)N元组(N-gram)短语结构(phraseology)多词序列(multi-wordexpression/multi-wordunit)BACK如果拿某个或多个文本跟别的文本相比,往往会发现其中有一些词出现的频率特别高,那些词叫做主题词或关键词(Keyword)。通过观察主题词,可以发现某一给定文类或主题文本的词语特征。在旅游英语语篇中,ticketbooking、luggage、tourguide、routes、flight和coach等词出现的频率特别高,被视为主题词。BACKBACK链接免费词形还原网站http://www.cst.dk/online/lemmatiser/uk/index.html免费词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论