预处理的流程_第1页
预处理的流程_第2页
预处理的流程_第3页
预处理的流程_第4页
预处理的流程_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

预处理的流程教师:亢华爱北京信息职业技术学院目录Contents文本分词概述词形归一化删除停用词1PART概述概述导入文本数据后,并不能直接被用来分析,而是要进行一系列的预处理操作,主要包括分词、词形统一化、删除停用词等,这些都是文本预处理要完成的步骤。文本预处理一般包括分词、词形归一化、删除停用词,具体流程如图8-3所示。图8-3文本预处理的流程概述图8-3文本预处理的流程图8-3中列出了文本预处理的每个步骤,其中左侧为示例,右侧为预处理流程最开始的时候文本为”lamlookingatthescenery”,它经过第一步分词处理之后,按空格将整个句子划分成多个单词,这里面有个别单词用的是将来进行时的形式,比如”looking”这时可以执行下一步骤到词形归一化,把不影响词性的后缀(如ing)去掉,提取词干”look”然后继续下一步骤到删除停用词,比如am、the等都属于停用词去除完以后将剩余的单词组合成一个列表进行返回2PART文本分词文本分词词典的构造比较流行的是双数组的trie树01构造词典分词算法常见的主要有正向最大匹配、反向最大匹配、双向最大匹配、语言模型方法、最短路径算法等02分词算法的操作预处理过程中必不可少的一个操作,它可以分为两步目前文本分词已经有很多比较成熟的算法和工具,在网上可以搜索到很多,本书使用的是NLTK库和jieba库,分别用作英文和中文的分词操作文本分词3PART词形归一化词形归一化基于英文语法的要求live、lives(第三人称单数)living(现在分词)文档中经常会使用单词的不同形态存在大量意义相近的同源词able、unable、disability如果希望只输入一个词,就能够返回它所有的同源词文档,那么这样的搜索是非常有用的词形归一化am,are,is——becars,car's,cars'——car词形归一化包括词干提取和词形还原,它们的目的都是为了减少曲折变化的形式,将派生词转化为基本形式。词干提取和词形还原所代表的意义不同前者通常是一个很粗略的去除单词两端词缀的过程,后者是指利用词汇表和词形分析去除曲折的词缀,以返回词典中包含的词的过程4PART删除停用词删除停用词删除停用词也是比较重要的,主要是因为并不是文本中的每个单词或字符都能够表明文本的特征,比如说“the”“的”“你”“I”“他”等,这些词应该从文本中清除掉。可以在网上下载一份中文或英文的停用词表来作为去停用词的参考参考文献[1]黑马程序员.Pyth

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论