语料库建设(下)_第1页
语料库建设(下)_第2页
语料库建设(下)_第3页
语料库建设(下)_第4页
语料库建设(下)_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语料库建设(下)授课时间:2006年12月13日授课人:徐艳华教学目标语料库的应用国内语料库的建设情况语料库的建库原则语料库的建库流程语料库的基本功能一、语料库的应用语料库语言学的发展使语料库在语言教学、语言研究和语言工程各个领域得到了广泛的应用,具体说来包括以下几个方面:语言频率统计语料库最早的应用领域之一是语言频率统计。语言频率统计属于基础研究,如汉语中的字频统计、英语中的词汇频率统计、各种词类的出现频率统计等等。词典编纂词典是使用中的语言的记录,从词条的选择、义项的确定、词义的解释、例句的选用,无不反映编纂者的语言观,辛克莱教授在20世纪70年代带头建立了COBUILD语料库,采用词语索引技术对海量语料进行大规模调查,从此开创了现代词典编纂的先河。词汇搭配研究词的搭配是语言的固有特征之一,词的搭配往往是不能跨语言的,在一种语言中可接受的搭配,在另一种语言中不一定可接受。词的搭配往往受到词义、用法、文化、习惯等多种因素的影响。搭配研究本来主要靠语言学家的语感,大容量语料库的问世为搭配研究提供了客观的量化分析的依据,使词汇搭配研究更科学、更全面。语言教学由于语料库是语言事实的采样,这就为语言教学提供了真实的语言材料。学生可以自己到语料库中查询词的用法、词的搭配、词义的细微差别等等。这就是所谓的数据驱动学习。数据驱动学习不但为学生提供真实的语境,而且为学生提供了一种探索语言的手段,学生可以像语言学家研究语言一样对语言进行主动的探索,这在写作教学中可以收到很好的效果。自然语言处理语料库语言学为自然语言处理提供了概率方法,为自然语言处理研究开辟了新的途径,由于概率是语言运用的固有特征,因此基于概率分析的自然语言处理系统对不受限制的极其复杂的真实语料的处理,成功率要高得多,而且系统健壮,在遇到自然语言中大量存在的不规范句或部分规范句时系统不会中断。语料库语言学方法在语音识别系统中早就得到了广泛的应用,在机器翻译和其他自然语言处理系统中也愈来愈得到研究者的重视。二、国内语料库的建设情况北航语料库目的是进行现代汉语词频统计。历时语料库,将1919——1981年间分为四个时期,按时期从社会科学和自然科学中采用随机和等距、分层相结合的采样方法抽取语料,规模为20,236,784个汉字。1986年6月通过鉴定。

北京语言学院语料库:目的是进行现代汉语词频统计,历时语料库,选取“五四”以来的报刊政论、科普、生活口语和文学作品,共计179篇,规模为180万汉字。1985年7月建成。

北师大语料库:目的对中小学语文课本进行词频统计研究,历时语料

库,选取1983年——1984年度国内

中小学语文课本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论