第七讲中文语料库_第1页
第七讲中文语料库_第2页
第七讲中文语料库_第3页
第七讲中文语料库_第4页
第七讲中文语料库_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第1页,共17页,2023年,2月20日,星期一一、什么是语料库?语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。2第2页,共17页,2023年,2月20日,星期一二、语料库产生的原因:(1)传统语言学研究方法的落后性是语料库语言学产生的内在动力。任何一项科学研究都是建立在大量资料之上的。资料占有的完备性、取样的准确性和使用的有效性是科学研究的一个基本条件和前提条件。语言学研究也必须建立在大量的语料基础之上。而传统语言学研究方法在搜集、处理语料方面有很大的局限性,表现在以下几个方面:

3第3页,共17页,2023年,2月20日,星期一一是语料的主观性强。传统语言学的研究方法是“内省”、“举例”方法,这种方法在很大程度上依赖于语言学家的主观经验。用带有浓厚主观色彩的语言事实作为立论的根据,往往是靠不住的。最原始、最可靠的语言证据只能来自使用中的客观语言材料。二是语料占有量小,覆盖面窄,代表性差。通过手工获得的语料从数量上不能得到充分的保证,致使其覆盖面不够大,自然代表性就差,由此得出的结论的科学性令人怀疑。

4第4页,共17页,2023年,2月20日,星期一三是语料整理工作量大,共享性不够,效率低。比如编一本《牛津英语词典》需要准备近500万张卡片,编《现代汉语词典》这样一部中型词典,资料卡片超过100万张。工作量之大可想而知。而且每一张卡片都是就某一项特定的要求制作的,不能移作他用,使用效率很低。而现代语料库存储的语料量大,具有充分代表性,而且存贮在磁盘上,并附有多功能检索系统,可根据多种不同的需要,从不同的角度,对语料进行重组,提高了语料的共享性。

5第5页,共17页,2023年,2月20日,星期一四是知识问题。一般语法著作和词典提供了语言知识。但是就汉语词典来看,没有哪一本大型汉语词典是带有词性标注的用法解释的。像英语的朗文词典和牛津词典那样的专门为外国人学习语言而编纂的详解词典,在国内还没有见到。这就给计算机进行汉语信息处理带来不便,迫切需要带有词性标记的语料库作基础,并进一步形成一个供计算机使用的语言知识库。6第6页,共17页,2023年,2月20日,星期一(2)计算机的运算速度和存贮容量的大幅度增长是语料库得以发展的物质基础。计算机的运算速度快使得计算机语料库具有建库快、使用方便的优点。计算机语料库容量大使得计算机语料库具有占用空间小、成本低的优点。如果一个卡片盒装2000张卡片,编《现代汉语词典》的100万卡片需要500个卡片盒才能装下,而用30张5·25英寸盘则可全部装下,仅占1/3抽屉的面积。而且成本低,如果一张卡片1分钱,100万张卡片需要1万元,如果用磁盘存贮,每张磁盘7元钱,30张磁盘只需要210元。用其他介质则更优势明显。7第7页,共17页,2023年,2月20日,星期一(3)语言信息处理的进一步发展,是语料库语言学产生的学科需要。从自然语言系统所需装备的语言知识来看,其数量之浩大和颗粒度之精细都是以往的系统所远远不及的。而且,随着系统拥有的知识在数量和精细程度上发生的巨大变化,系统在如何获取、表示和管理知识等依靠传统的研究是不能解决问题的,需要大规模真实文本语料库的支持。8第8页,共17页,2023年,2月20日,星期一三、语料库的类型语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的:没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的:只收集同一类内容的语料;(3)系统的:根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的:只收集用于某一特定用途的语料。

9第9页,共17页,2023年,2月20日,星期一除此之外,按照语料的语种,语料库也可以分成单语的、双语的和多语的。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。

10第10页,共17页,2023年,2月20日,星期一四、中文语料库的应用简介我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。11第11页,共17页,2023年,2月20日,星期一语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。12第12页,共17页,2023年,2月20日,星期一另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。13第13页,共17页,2023年,2月20日,星期一五、语料库在语言研究上的主要功能1、统计描写功能;2、原因解释功能;3、结论验证功能;4、探索发现功能;5、知识挖掘功能。14第14页,共17页,2023年,2月20日,星期一六、语料库的建设:1、根据系统功能目标确定建库方法;2、根据建库需要确定选材原则;3、语料输入和转写;4、语料的加工(分词和属性标注);5、管理和检索。15第15页,共17页,2023年,2月20日,星期一七、分词与词性标注(参看word文档)16第16页,共17页,2023年,2月20日,星期一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论