文本数据分析 功能实现_第1页
文本数据分析 功能实现_第2页
文本数据分析 功能实现_第3页
文本数据分析 功能实现_第4页
文本数据分析 功能实现_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Python数据分析商务数据分析与应用专业教学资源库功能实现Python数据分析商务数据分析与应用专业教学资源库PAGE2/4功能实现功能实现亢华爱(北京信息职业技术学院)摘要:词云就是对网络文本中出现频率比较高的“关键词”予以视觉上的突岀,形成关键词渲染,从而过滤掉大量的文本信息,使得浏览网页的人一眼扫过文本就可以领略文本的主旨。关键词:功能实现;lcnt()函数功能实现使用Pandas中read_csv()函数读取“商品评价信息.csv”文件,并转换成DataFrame对象进行展示,具体代码如下:从输岀结果中可以看到,多条评价信息是没用的且重复的,所以,这里可以使用pandas中的drop_duplicates()方法删除重复的数据,具体代码如下:通过比较两次输出的行数可以看到,后面输岀的数据明显减少了100多行。删除完重复的数据后,计算机仍然不能分析出这件商品的好坏,这主要是因为文本的信息量是比较庞大的,我们需要对这些文本进行分词等预处理操作,以便统计词频。前期采集的评价文本大多是中文的,使用NLTK库处理中文又比较麻烦,因此,这里换成用jieba分词工具对评价文本进行前期处理,不过需要保证数据是字符串类型的。在这里,我们可以通过lcnt()函数进行分词,该函数需要接收两个参数,第一个参数表示需要分词的字符串,cut_all参数用来控制是否采用全模式分词,这里采用精确模式即可,具体代码如下从输岀的列表中可以看出,分词的结果中有很多诸如“了”“一个”“是”等字或词,它们对于分析用户的评价是没有意义的,需要参考中文停用词表,将这些没有无意义的词进行删除。注意:由于中文的复杂性,大多数停用词表中的停用词并不是十分的齐全,所以,这里我们针对本案例中的文本稍微进行了一些调整,并整合到了“停用词表.txt”文件中。这里,可以使用准备好的停用词表进行过滤,具体的做法就是遍历分词后的结果,如果某个词或字在停用词表中出现,就直接删除,否则就保留下来,具体代码如下:在删除停用词之后,从输出的结果中可以大致看出评价的特征信息,不过后期还是需要统计这些词语出现的次数,才能进一步知晓用户对商品的喜恶。如果希望获得每个词语出现的次数,则可以使用NLTK库中的FreqDist类进行词频统计,具体代码如下:从返回的统计词频中,可以很直接地找到具有代表性的词语,比如“衣服”“喜欢”“挺舒服”等。根据上述用户评价的特征信息,可以使用wordcloud模块进行词云展示,wordcloud模块会将出现频率高的词语进行放大显示,而出现频率较低的词语进行缩小显示。要想使用wordcloud模块,则需要在终端中使用pip命令进行安装,具体命令如下:wordcloud模块安装完成之后,将分词后的结果new_data使用wordcloud进行展示,具体代码如下:运行结果如图8-9所示。图8-9运行结果从图8-9中可以看出,“衣服”“比较”“喜欢”“挺舒服”这几个词是最为突出的,这表明用户对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论