语料库基本知识-课件_第1页
语料库基本知识-课件_第2页
语料库基本知识-课件_第3页
语料库基本知识-课件_第4页
语料库基本知识-课件_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语言分析工具语言分析工具语料库(corpus,复数为corpora)一词来源于拉丁语,本意为body。一般情况下,语料库往往指的是一个“电子文本集”(acollectionoftextsstoredinanelectronicdatabase)。真正意义上,语料库是一个按照一定的采样标准采集而来的、能够代表一种语言或者某语言的一种变体或文类的电子文本集。以一个语料库为数据源(datasource)进行的研究可以看作是对该语料库所代表语肓、语言变体或文类的研究,研究所得到的结论可以推广到整个语言、语言变体或文类。语料库语料库(corpus,复数为corpora)一词来源于拉丁语语料库(corpus)是语言材料的仓库,是计算机进行语言检索、比较、分析等处理的重要基础。(张普1999)语言学名词审定委员会2011年推出的《语言学名词》中,对语料库的定义、作用及应用领域的阐述为:

(语料库是)为语言研究和应用而收集的,在计算机中存储的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注,具有适当规模的语科库能够反映和记录语言的实际使用恃况。通过语科库能够观察和把握语言事实,分析和研究语言系统的规律。语料库可以应用于语言学理论研究、语言应用和语言工程。由此可见,语料库并不是语言材料的简单堆砌或随意集合。而是有着严格要求的有序的语料集合。语料库语言学语料库(corpus)是语言材料的仓库,是计算机进行语言检索对语料库语言学(corpuslinguistics)的两种看法:语料库语言学是一个独立的学科,它有自己独到的理论体系和操作方法。语科库语言学并非语言学的又一个分支学科,而是一种研究方法,这种方法基于大量的真实语言,可以用来回答通过其他途径很难回答的问题,从而极大地丰富已有的研究方法。语料库语言学以大量精心采集而来的真实文本(authentictexts)为研究素材,主要通过概率统计的方法得出结论,因此语料库语言学从本质上讲是实证性的(empirical)。语料库语言学对语料库语言学(corpuslinguistics)的两种统计语言学使用概率论、数理统计等统计学的方法来对语言进行研究。(冯志伟2012)统计语言学统计语言学统计语言学计量语言学计量语言学(quantitativelinguistics)以真实的语言交际活动中呈现的各种语言现象、语言结构、结构属性以及它们之间的相互关系作为研究对象,通过概率论、随机过程、微分与微分方程、函数论等数学的定量方法(与代数等数学的定性方法相对)对其进行精确的测量、观察、模拟、建模和解释,寻找语言现象背后的数理规律,揭示各种语言现象形成的内在原因,探索语言系统的自适应机制和语言演化的动因。(刘海涛2012)计量语言学计量语言学计量语言学计算语言学“计算语言学是研究用机器来处理自然语言的学科。它是由信息技术和语言学交叉而成的”(CuS:1)。SLP没有直接提出计算语言学的确切定义。SLP的作者在开篇借用了StanleyKubrick科幻片中的人物HAL,HAL是一个通晓英语的机器人。作者引入HAL的目的在于说明,为了构建这样一个可与人通过自然语言进行交流的机器人,需要哪些知识和技术:语言理解方面有语音识别和自然语言理解(包括唇读技术),表达方面需要自然语言生成和语音合成,另外HAL也需要信息检索、信息提取和推理方面的技能。而解决这些问题一般涉及以下学科:自然语言处理,计算语言学,语音识别和合成。SLP的作者将这三者合起来称为语音及语言处理,除了以上HAL所用的这些技能外,SLP也囊括了其他重要的语言处理领域,如:拼写校正、语法检查和机器翻译。计算语言学计算语言学计算语言学联系:都是涉及语言学、数学、统计学以及计算机科学等多个学科和领域,是典型的文理工交叉学科,具有鲜明的跨学科研究性质。研究对象都是自然语言组成的大规模语料库。研究工具都是利用计算机的软硬件。研究的理论基础是数学的概率统计知识和语言学的语音、词汇、句法、语义、语篇和语用知识。都可以对语言学的语音、词汇、句法和语义等层面进行统计和研究。四种语言学的联系与区别联系:四种语言学的联系与区别联系:统计语言学和计量语言学都是利用统计方法来实现对语言成分的统计,计量语言学以发现语言成分或语言成分间的数学规律为目标。而统计语言学以所统计的语言特征在统计学上显著和不显著为目标。语料库语言学对大规模语料库进行词汇、句法和语义等统计,依据统计数据和实例上下文对所研究的对象进行语言学层面定性的分析,是定量分析和定性分析的结合,以研究语言的结构和运用为目标。计算语言学以语言结构的理解与生成为研究目标,以统计和规则为基本研究方法。计算语言学的统计模型——隐马尔科夫模型、最大熵模型、条件随机场模型等和实现算法更复杂。四种语言学的联系与区别联系:四种语言学的联系与区别对“词”的定义,语言学界一直很难达成共识。我们暂且撇开语义问题,考虑一下当一个句子里出现两个it,它们应该被视作一个词还是两个词呢?形符(token)类似于我们日常说的“词”(如一篇300词的作文)。句子AcomputeralmostnecessarilyhasaKeyboardandamonitor中共有10个形符(即A,computer,almost,necessarily,has,a,Keyboard,and,a,monitor)。这看起来似乎没有什么歧义,但是我们仍然需要考虑it’s是一个形符还是两个形符。语料库语言学中一般的处理方法是,对it’s,can’t等缩略词进行切分,使其成为it和’s两个成分(can’t切分为ca和n’t两个成分),这一过程被称作为分词(tokenization)。换言之,语料库语言学中一般将it’s视作为两个形符。总形符数是语料库容量的最常用的测量单位。如英国英国国家语料库约有1亿词,说的就是该语料库中包含有约1亿个形符。分词—词、形符、类符、类符/形符比对“词”的定义,语言学界一直很难达成共识。我们暂且撇开语义问形符:在处理英语时,较为通用的做法是,把所有的单词视为“形符”。这里说的形符,大概有这样几种类型:1、全部由英语字母构成(如computer由8个英文字母构成)2、由数字或数字和字母构成(如3、1985、21th、3D等)3、除了数字和/或字母之外,还带有连字符(-)4、带有英语26个字母之外的外来字母(如德语中的音变)5、部分符号(如&、$等)。统计形符时,我们通常不把标点符号(如逗号、句号等)包括在内,但这一点有例外,如数字3.1415925和整数的千分位分隔符(如100,000)中的逗号等。为了便于统计,对英语进行分词时通常在以上我们所说的“形符”后加空格,使得他们与文本中的其他形符或符号分离开来。分词—词、形符、类符、类符/形符比形符:在处理英语时,较为通用的做法是,把所有的单词视为“形类符(type)作为一个统计量,指语料库文本中任何一个独特的词形(wordform)。换言之,在一个文本中,重复出现的形符只能记作一个类符。以美国作家GertrudeStein的作品SacredEmily中的诗句Roseisaroseisaroseisarose.为例,这句中:共有10个形符,而类符只有3个(即rose,is,a)。据此,我们可以计算这个句子的类符/形符比(type-tokenratio,TTR,又称为形次比或类形比),即 TTR=(3/10)*100%=30%类符/形符比是衡量文本中词汇密度(lexicaldensity)的常用方法。然而由于文本中有大量的功能词(如the、a、of等)反复出现,文本越大,形符量越大,但类符量却不会等量增加。文本越长,功能词重复的次数也就越多,类符/形符比也就会越低。因此,如果采用类符/形符比来计算长度不等的文本的词汇密度就显得很不合理。常用的补救方法是用标准化类符/形符比(standardizedtype-tokenratio)来计算词汇密度。计算方法是:计算每个文本每1000词的类符/形符比。分词—词、形符、类符、类符/形符比类符(type)作为一个统计量,指语料库文本中任何一个独特的所谓分词(tokenization),指将一连串的字符转换成相互分离、容易识别的形符(tokens)的过程。在文本采集的过程中,由于文本来源不一,格式各异,文本内部存在很大的不一致性,如果不进行分词处理,一来容易导致检索困难,二来可能会使得语料库的频率统计出现误差,还可能会影响语料库的标注和后期加工。分词—词、形符、类符、类符/形符比所谓分词(tokenization),指将一连串的字符转换汉语的分词比英语要复杂的多。词与词之间连写,没有空格。对汉语“词”的理解众说纷纭。分词汉语的分词比英语要复杂的多。分词软件filelist.ini,修改分词文件目录路径批处理分词软件分词软件分词软件分词语料库属性语料库属性语料库属性语料库属性语料库属性语料库属性语料库属性语料库属性语料库分析索引,又称为“语境中的关键词”语料库分析索引,又称为“语境中的关键词”语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析语料库分析ConcordanceConcordancePlotFileViewWordClusterN-GramsCollocatesWordListKeywordListAntConc-语料库分析软件ConcordanceAntConc-语料库分析软件AntConc-Concordance索引,又称为语境中的关键词AntConc-Concordance索引,又称为语境中的关AntConc-ConcordancePlot索引定位AntConc-ConcordancePlot索引定位AntConc-FileViewAntConc-FileViewAntConc-WordCluster词簇表,又称词块,词汇短语,短语结构等等。可设定长度。AntConc-WordCluster词簇表,又称词块,词AntConc-N-GramsAntConc-N-GramsAntConc-Collocates搭配。AntConc-Collocates搭配。AntConc-WordList词表。词频表。AntConc-WordList词表。词频表。AntConc-Wo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论