《数据挖掘与机器学习》 课件7.1.1 文件读取和jieba分词_第1页
《数据挖掘与机器学习》 课件7.1.1 文件读取和jieba分词_第2页
《数据挖掘与机器学习》 课件7.1.1 文件读取和jieba分词_第3页
《数据挖掘与机器学习》 课件7.1.1 文件读取和jieba分词_第4页
《数据挖掘与机器学习》 课件7.1.1 文件读取和jieba分词_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

处理新闻文本数据新闻文本聚类——聚类分析任务描述文本数据清洗是指对文本数据进行处理,以去除其中的噪声、错误和无用信息,使得数据更加准确、可靠和适合分析,在文本分析和挖掘领域中具有非常重要的意义。经过清洗的数据有着更好的数据质量,能够使得后续的数据挖掘更加精准有效,贯彻高质量发展精神。本任务将对新闻文本数据进行清洗,包括文本读取、分词、去停用词和特征提取。任务要求使用withopen函数读取文本文件。使用jieba库进行文本分词。使用stoptxt停用词表去停用词。使用TfidfTransformer进行文本特征提取。读取文件jieba分词去停用词特征提取读取文件怎么读取文本文件呢?read_csv函数可用于读取使用分割符分割的文本文件,这在实际应用中存在很多限制。因此想要自由的处理文本文件,还需要其他的办法。open是Python内置的一个关键字,用于打开文件,并创建一个上下文环境。open关键字的基本使用格式如下。

读取文件open(file,mode='r',buffering=-1,encoding=None,errors=None,newline=None,closefd=True,opener=None)Open关键字常用参数及其说明

读取文件参数名称说明file接收str,表示要打开的文件的路径和名称,无默认值mode接收str,表示文件的读写模式,默认为“r”buffering接收int,表示文件的缓冲区大小,默认为-1encoding接收str,表示文件的编码格式,默认为None读取文件参数名称说明errors接收str,便是编码错误的处理方式,默认为Nonenewline接收str,表示文本模式下的换行符,默认为Noneclosefd接收bool,表示是否关闭文件描述符,默认为Trueopener接收函数,表示自定义的文件打开器,默认为NoneOpen关键字常用参数及其说明

withopen可以说是open的优化用法或高级用法,相比open更加简洁、安全。open必须搭配close方法使用,先用open打开文件,然后进行读写操作,最后用close释放文件。withopen则无需close语句,比较简洁。json是一种轻量级、基于文本的、可读的文件格式。文件中的部分关键词及其出现频率,储存在词频.json中。读取文件读取文件对文本文件进行文件读取主要通过以下4个步骤实现。使用withopen或open打开文件使用json.load读取文件输出读取文件的值若使用open函数打开,还需要使用close函数关闭jieba分词jieba是一个常用的中文分词库,它能够将一段中文文本按照词语进行划分,并且去除停用词等无意义的符号,输出分好的词语列表。jieba库在Python中广泛应用于自然语言处理领域,如文本挖掘、搜索引擎、信息检索等。什么是jieba分词?汉字是文化自信的基石,学习汉字,推进文化自信自强。汉语是以汉字为基本书写单位,词语之间没有明显的区分标记,完整的句子很难进行信息提取,因此在中文自然语言处理中通常是将汉语文本中的字符串切分成合理的词语序列。jieba分词jieba库的主要作用有什么呢?一段中文文本进行分词,得到分好的词语列表,方便后续的处理和分析。中文分词jieba库支持基于TF-IDF算法和TextRank算法的关键词提取,可以提取出一段中文文本中的关键词,用于文本摘要、信息检索等。关键词提取jieba库支持中文词性标注,可以标注出每个词语的词性,如名词、动词、形容词等,方便进一步的文本分析和处理。词性标注jieba库内置了一些常用的停

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论