《数据可视化技术》 课件 02 分析电影评论点赞数_第1页
《数据可视化技术》 课件 02 分析电影评论点赞数_第2页
《数据可视化技术》 课件 02 分析电影评论点赞数_第3页
《数据可视化技术》 课件 02 分析电影评论点赞数_第4页
《数据可视化技术》 课件 02 分析电影评论点赞数_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单元2分析电影评论点赞数项目介绍项目一:影评数据分析与可视化本项目从某电影网站采集了电影《流浪地球》的部分评论数据,包括城市、影评内容、评分、评论时间、评论点赞数等,根据采集的数据对电影评论的数量、点赞数和评分三个方面进行分析,完成数据分析可视化,给对科幻电影感兴趣的观影者、电影投资者提供一些参考。01准备活动点名、复习本次课学习内容、学习目标介绍学习内容任务一分析电影评论点赞数本任务从评论点赞数分布、评论点赞数对应星级、点赞数日期三个方面来分析电影评论点赞数。通过绘制直方图、箱形图、散点图和折线图对电影评论点赞数情况进行分布分析、对比分析,以便全面了解该电影的口碑、观影热度、观众对电影的理解等信息,为观众提供观影参考。子任务1根据评论点赞数字段votes绘制直方图,显示评论点赞数分布情况任务分解:子任务2根据评论点赞数字段votes和评分字段scores绘制箱形图,显示评论点赞数星级分布情况。子任务3根据评论日期字段times和点赞数字段votes绘制散点图和折线图,显示评论点赞数、评论数量随日期变化情况学习目标1、知识(1)复习pandas库的基本操作、数据处理基本的选取、统计等函数(3)掌握matplotlib库绘制图形的基本方法,以及直方图、箱型图、散点图绘制方法2、技能(1)能使用pandas库读取文本数据,按照任务要求处理数据(2)能使用matplotlib子库plotlib根据数据绘制直方图、箱型图、散点图3、素养(1)分析问题的能力;(2)团队沟通能力;(3)培养团队合作意识。02发展活动任务分析、任务资讯、任务实施子任务1评论点赞数分布情况分析(直方图)任务分析:本任务需要使用Pandas从CommentInfo.csv文件中读取数据,根据评论点赞数字段votes,使用Matplotlib绘制两个直方图,显示评论点赞数分析情况。第一个直方图要求横轴为点赞数区间,其范围为评论点赞数最小值至最大值之间;纵轴为评论点赞数。第二个直方图要求横轴为点赞数区间,范围为0~5000,纵轴为评论点赞数。1.子图任务资讯一个画布上默认有一个子图,Matplotlib图像组成如图1-2-1所示。可以将Figure对象理解为画布;Axes对象表示坐标轴区域,可以认为是子图,也是真正绘图的区域。可以创建多个画布,也可以在一个画布上添加多个子图。Figure对象允许划分多个绘图区域,每个区域都是一个Axes对象,每个Axes对象都拥有自己的坐标系,即子图。Figure对象与Axes对象之间的关系如图1-2-2所示。1.子图任务资讯(1)创建和添加单个子图:subplot()函数和add_subplot()方法示例:规划两个子图,并创建或添加两个子图,按照水平排列。2.直方图任务资讯直方图用一系列高度不等的纵向线段来表示数据分布的情况。直方图的横轴表示数据类型,纵轴表示分布情况。直方图用于概率分布,它显示了一组数值序列在给定数值范围内出现的概率;柱状图则用于展示各个类别的频数。pyplot模块中的hist()函数用以绘制直方图,语法格式如下2.直方图任务资讯示例:显示A类产品不同价格区间的销售数量,通过hist()函数绘制直方图,代码如下以上代码通过hist()函数绘制直方图,直方图显示了8个条柱,颜色为绿色,运行结果如图1-2-11所示任务实施步骤:步骤1:初始工作。导入相关包,Pandas从CommentInfo.csv文件中读取电影评论数据,设置Matplotlib绘图常用参数值。步骤2:获取所有评论点赞数以及最大、最小点赞数。步骤3:绘制直方图。通过子图绘制了两个垂直排列的直方图。子任务2评论点赞数对应星级分析任务分析:在子任务1的基础上分析评论点赞数大于5000的评论的星级情况。本任务需要使用Pandas从CommentInfo.csv文件中读取数据,从评论点赞数字段votes获取大于等于5000的评论点赞数和评分数据,根据评论点赞数和评分数据,使用Matplotlib绘制箱形图,显示评论点赞数对应星级分布情况。1.箱型

图任务资讯箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用于显示一组数据分散情况的统计图,因形状如箱子而得名。它能显示出一组数据的最大值、最小值、中位数以及上下四分位数,主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。在箱形图中,从上四分位数到下四分位数绘制一个盒子,然后用一条垂直触须(形象地称为“盒须”)穿过盒子的中间。上垂线延伸至上边缘(最大值),下垂线延伸至下边缘(最小值)。箱形图结构如图1-2-12所示。图1-2-12中标示了每条线所表示的含义,主要包含6个数据节点。一组数据按从大到小排列,分别计算出上边缘、上四分位数(Q3)、中位数、下四分位数(Q1)、下边缘,以及异常值1.箱型

图任务资讯pyplot模块中的boxplot()函数用以绘制箱形图,语法格式如下:示例:A产品2022年和2021年销售价格情况分析,通过boxplot()函数绘制箱形图,代码如下以上代码绘制了箱形图,分别表示A产品2022年和2021年产品销售价格分布情况,运行结果如图1-2-13所示。任务实施步骤:步骤1:初始工作。导入相关包,Pandas从CommentInfo.csv文件中读取电影评论数据,设置Matplotlib绘图常用参数值步骤2:获取评论点赞数大于等于5000的评论评分和点赞数。步骤3:绘制箱形图。按星级分别绘制五个箱形图,显示评论点赞数对应星级的分布情况。子任务3评论点赞数、评论数量随日期变化的情况分析任务分析:本任务需要使用Pandas从CommentInfo.csv文件中读取数据,处理times字段提取日期信息,并按日期排序,对处理后的数据使用Matplotlib绘制散点图,再按日期统计发布的评论数量并绘制折线图。散点图和折线图要求共横轴,横轴为日期,左边纵轴为电影评论点赞数,右边纵轴为评论数量,从而显示评论点赞数、评论数量随日期变化的情况。1.散点图任务资讯散点图用于在水平轴和垂直轴上绘制数据点,用点表示变量之间的关系。它可以展现因变量随自变量变化的趋势,用于观察变量之间的关系。pyplot模块中的scatter()函数用于绘制散点图。语法格式如下常用参数含义如下:x,y:长度相同的数组,也就是我们即将绘制散点图的输入数据。这两个参数是必选的。s:点的大小,默认为20,也可以是个数组,数组中的每个数据为对应点的大小。c:点的颜色,默认为蓝色(b),也就是blue。marker:标记样式,默认小圆圈(o)。alpha:透明度设置,取值于0~1,默认为None,即不透明。linewidths:标记边界的宽度。edgecolors:标记的边框颜色或颜色序列,默认为face,可选值有face、None1.散点图任务资讯示例1:显示A类产品2022年季度销售情况,通过scatter()函数绘制散点图,代码如下以上代码绘制了散点图,图有四个点,表示四个季度的销售数量,运行结果如图1-2-14所示示例2:显示A类和B类产品2022年季度销售情况,代码如下以上代码绘制了两个散点图,设置了点的样式、大小和颜色,运行结果如图1-2-15所示。任务实施步骤:步骤1:初始工作。导入相关包,Pandas从CommentInfo.csv文件中读取电影评论数据,设置Matplotlib绘图常用参数值。步骤2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论