Python自然语言处理 课件 03-1-语料库基础_第1页
Python自然语言处理 课件 03-1-语料库基础_第2页
Python自然语言处理 课件 03-1-语料库基础_第3页
Python自然语言处理 课件 03-1-语料库基础_第4页
Python自然语言处理 课件 03-1-语料库基础_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语料库基础Python自然语言处理第三章CONTENT目录

01语料库基础03获取语料库02自然语言处理工具包NLTK04综合案例:走进红楼梦课前回顾Python开发环境的搭建正则表达式在自然语言处理中的应用Numpy的详细使用方法语料库基础01自然语言通常是指一种自然地随文化演化的语言(如汉语、英语、日语)。自然语言是人类交流和思维的主要工具,亦是人类智慧的结晶。自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。自然语言语料,即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。语料

语料库语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。其具备三个特点:语料库中存放的是在语言的实际使用中真实出现过的语言材料语料库是以电子计算机为载体承载语言知识的基础资源语料通常需要经过分析和处理后,才能成为有用的资源建立语料库的意义语料库是为一个或者多个应用目标而专门收集的,有一定结构和有代表性且可被计算机程序检索的具有一定规模的语料集合。本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用的总体。语料库构建原则在构建语料库时,构建的语料库应该具备代表性、结构性、平衡性、规模需求并制定语料的元数据规范,各个原则如下:1、代表性2、结构性3、平衡性4、规模性语料库划分与种类语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够在语料采集的原则和方式上有所体现。语料库大致可分成四种类型:1、异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料。2、同质的(Homogeneous):只收集同一类内容的语料。3、系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实。4、专用的(Specialized):只收集用于某一特定用途的语料。小结

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论