




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第11章词语库--wordcloud库参考学时3课时教学目标区掌握生成词云的基本操作:创建词云对象、加载词云文本、输出词云图了解设置词云图大小的参数了解设置词云图字体大小参数掌握font_path、mask、background_color和stopwords参数的设置掌握读取图片文件的方法掌握csv文件的读取操作掌握表格数据的词云图的生成方法等教学重难点教学重点:1.掌握font_path、mask、background_color和stopwords参数的设置;2.掌握读取图片文件的方法;3.掌握csv文件的读取操作教学难点:掌握读取图片文件的方法;掌握csv文件的读取操作;了解表格数据的词云图的生成方法等教学主要内容本章知识框架如下:教学的过程及方法线上:生成词云的基本操作:创建词云对象、加载词云文本、输出词云图等由学生通过线上资源自主学习完成。线下:教师主要讲授词云参数的设置,重点讲授艺术词云图的制作以及如何利用词云图来提升数据展示的能力。词云图:也叫”文字云”,是统计和设计的结合,是艺术和大数据的结合wordcloud库:wordcloud库是优秀的词云展示的第三方库wordcloud库安装wordcloud库:>\pipinstallwordcloud使用wordcloud库创建词云图词云生成三部曲:创建词云对象w=wordcloud.WordCloud():代表一个文本对应的词云对象,根据文本中词语出现的频率等参数来绘制词云加载词云文本w.generate(“文本内容”):1.文本必须以空格进行分隔;2.文本以字符串形式传入generate()方法中输出词云文件w.to_file(“图像文件名”):包含图片存储位置和图片名称,例如:“D:\\图片名称.png”词云参数设置文本变成词云:#导入wordcloud库1.生成一个词云对象;2.将一段文本加载到词云当中;3.将词云效果输出到一个图片文件词云对象常用参数(1)mask参数-设置词云图形状默认词云图形状是长方形的,通过设置词云对象的宽(width)和高(height)可以改变默认的矩形大小,但如果要改变词云图形状,使得呈现的词云效果图更加具有艺术性,体现数据与艺术的结合,就要设置mask参数。设置参数"mask=picfilename"时,需要事先将用于绘制词云的图片文件“picfilename”读取进来,并且“picfilename”是一个包含图像文件名和存储位置的字符串。Python读取图片文件的第三方库很多,如opencv、PIL(pillow)、matplotlib.image子库、scipy.misc子库等等,都可以完成图片文件的读取操作。(2)background_color参数-设置词云图背景颜色词云图背景颜色默认是黑色,可以通过参数"background_color=color"改变词语图背景颜色,其中的color可以用颜色字符串或RGB元组来表示。(3)font_path参数-设置显示字体通过设置参数"font_path=path"可以改变词云图中出现字符的字体,path是一个包含字体文件名和存储位置的字符串,它的默认值为None,系统会选择默认的字体来显示词云。但如果要显示中文词云,则必须设置此参数,否则显示乱码。对于中文词云,还有一点要注意,因为generate方法只接收以空格分隔的字符串,因此,还需要利用jieba库对中文文本进行分词处理。请看示例:(4)stopwords参数-排除不显示的单词在词云效果图的显示当中,有时可能希望屏蔽掉某些敏感单词的显示。此时可以通过设置参数stopwords来达成目的。可以事先将要排除的单词保存在一个集合类型里,然后将该集合赋给参数stopwords。csv文件的读取操作使用python内置的csv模块读取csv文件注意:1.再次读取csv文件得不到所希望的结果;2.读取的每一列数据都是字符型数据实际操作时请根据需要进行类型的转换使用pandas库读取CSV文件pandas是python中最好的处理数据和分析数据的第三方库,它提供了大量能使我们快速便捷地处理数据的函数和方法。简单地说,pandas提供了:①便于操作数据的数据类型(Series类型、DataFrame类型)②提供了很多的分析函数和分析工具,使得数据分析变得非常容易操作使用pandas的read_csv函数读取csv文件通过DataFrame对象的属性访问DataFrame类型数据csv_data的值是一个带表头(列索引)的二维数据表,有行索引,行索引编号从0开始,它的类型是DataFrame类型。DataFrame是一个表格型的数据类型,它既有行索引,也有列索引。通过访问DataFrame对象的相关属性可以很方便地获得每一列的数据,其访问格式为:<对象名>.属性名这里的“属性名”就是DataFrame类型数据的字段名,即列索引使用pandas的read_csv函数读取csv文件通过DataFrame对象的列索引访问DataFrame类型数据表格数据的词云图通过help命令可以了解generate_from_frequencies方法的语法格式。>>>help(wordcloud.WordCloud.generate_from_frequencies)统计《三国演义》前20名人物出场次数:(1)读取.csv文件中的数据(2)将读取的每一列数据分别存储在列表ls_names和ls_counts中(3)使用zip函数,得到元素形如“(人物,出场次数)”的zip对象,再转换为列表ls_names_counts,注意“出场次数”要为数值类型数据(4)通过dict函数将“键值对”信息构成的列表ls_names_counts转换为字典dt_names_counts(5)把字典dt_names_counts作为参数传递给WordCloud对象的方法generate_from_frequencies生成词云图实例【例11-19】使用自定义的图形作为词云形状图绘制西游记(第一回)词云图。分析:由于要求使用自定义图形作为词云形状图来绘制词云图,因此,该实例绘制的是艺术词云图,故需设置mask参数,同时要求提供背景颜色是白色的的自定义图形,其次,由于绘制的是中文词云图,所以,还需要设置字体参数font_path来设置显示字体。求解该问题的算法思路如下:(1)素材收集和准备。准备好“西游记第一回.txt”文本文件和用于绘制艺术词云图的自定义图形文件“picture.jpg”。(2)利用open函数读入文本文件“西游记第一回.txt”到字符串变量txt。(3)将中文字符串txt变成以空格分隔每个词构成的长字符串。由于generate方法只接收以空格分隔的字符串,因此,还需要利用jieba库首先对文本字符串txt进行分词处理,然后再将分词的结果拼接成一个以空格分隔的长字符串。(4)读取用于绘制词云的形状图片文件。读取图片文件的第三方库很多,这里使用imageio库的imread方法来读取图片文件。(5)创建词云对象并设置相关参数。调用wordcloud库的WordCloud类来创建词云对象,并设置mask参数、background_color参数和font_path参数。(6)向词云对象加载文本。生成词云对象后,调用generate方法向词云对象加载文本,但要求加载的文本必须是以空格分隔的字符
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国桉叶油产业发展趋势及投资战略研究报告
- 2025-2030年中国松茸行业市场发展现状规划研究报告
- 2025-2030年中国指接板行业竞争状况及发展趋势分析报告
- 2025-2030年中国废塑料行业市场十三五规划与发展趋势分析报告
- 2025-2030年中国布坯产品行业竞争格局及投资战略研究报告
- 2025-2030年中国密胺粉市场运行态势及发展规划分析报告
- 2025-2030年中国家用发酵箱项目投资风险分析报告
- 2025-2030年中国女士文胸行业发展趋势及投资战略研究报告
- 用数据分析推动的社交媒体品牌形象构建
- 2025-2030年中国古典家具产业发展现状及投资潜力分析报告
- 浅谈班级的文化建设课题论文开题结题中期研究报告(经验交流)
- PMC年终个人总结精编ppt
- DBJ∕T 15-129-2017 集中空调制冷机房系统能效监测及评价标准
- U8-EAI二次开发说明
- Q∕GDW 11612.41-2018 低压电力线高速载波通信互联互通技术规范 第4-1部分:物理层通信协议
- 2006 年全国高校俄语专业四级水平测试试卷
- 新人教版数学四年级下册全册表格式教案
- 疫情期间离市外出审批表
- (完整版)全身体格检查评分标准(表)
- 装饰装修工程施工合理化建议和降低成本措施提要:完整
- (改)提高地下室侧墙刚性防水施工合格率_图文
评论
0/150
提交评论