《大数据技术应用基础》课件 项目六模块二 基础图形绘制_第1页
《大数据技术应用基础》课件 项目六模块二 基础图形绘制_第2页
《大数据技术应用基础》课件 项目六模块二 基础图形绘制_第3页
《大数据技术应用基础》课件 项目六模块二 基础图形绘制_第4页
《大数据技术应用基础》课件 项目六模块二 基础图形绘制_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目六数据可视化分析《大数据技术应用基础》模块二

基础图形绘制核心目标职业能力1.了解数据可视化概念、作用,为图表绘制的选择奠定基础;2.能通过数据可视化洞悉蕴含在数据中的现象和规律;3.能根据不同数据绘制并美化不同的图表。职业素养1.养成用数据可视化辅助数据分析的习惯;2.养成用图表直观揭示客观规律职业思维。知识图谱项目背景数据的可视化和分析是许多项目的关键组成部分,涵盖了商业、科学和社会科学等各个领域。这个项目涉及到使用可视化和统计技术来理解数据的模式和趋势。其主要目的是探索和确定在原始数据中难以识别的见解和趋势。该项目使用Python中的matplotlib与pyecharts库来可视化数据,以便能够轻松地解释和交流研究结果。小张觉得数据的可视化和分析可以帮助我们根据数据中发现的趋势和模式做出恰当的决定。因此,小张想通过数据可视化的方式更好的理解消费者行为,最终完成数据分析报告。0102折线图、散点图、条形图、柱状图的绘制方法图形内容的分析问题引入小张准备从采集到的电商平台茶叶销售数据表入手,开始学习并绘制图形。小张想到在此之前了解了Python中的matplotlib库可以实现数据可视化,但还不清楚应该怎样使用,所以好学的小张来到实验室请教老师。认知实践函数用途plt.plot()绘制折线图plt.scatter()绘制散点图plt.barh()绘制条形图plt.bar()绘制柱状图plt.xlabel()添加x轴标签plt.ylabel()添加y轴标签plt.title()添加图形标题plt.legend()添加图形中的图例plt.show()显示绘制图形Python中的matplotlib是Python的第三方模块,能够绘制各式各样的2D图形。在绘制图表前需要引入matplotlib库,相应的代码通常写成:importmatplotlib.pyplotaspltmatplotlib中pyplot子模块是它的核心模块之一,pyplot模块提供一批预定义的绘图函数,大多数函数可以从函数名辨别它的功能。pyplot子模块中的常用函数如下表6-1所示:表6-1pyplot子模块中的常用函数折线图、散点图、条形图、柱状图的绘制方法01一、折线图、散点图、条形图、柱状图的绘制方法(一)折线图的绘制方法价格区间销量0⁓50378550050⁓10016217551100⁓2508959500250⁓4003843000400以上797000表6-2价格区间销量表小张对采集到的茶叶数据进行预处理,首先对价格进行分组,共设置了5个分组,依次为0⁓50、50⁓100、100⁓250、250⁓400、400以上。并以“全部评价”中的数据代替销量数据,处理后得到的数据表如表6-2所示。一、折线图、散点图、条形图、柱状图的绘制方法(一)折线图的绘制方法例6-1代码#导入pandas、matplotlib库importpandasaspdimportmatplotlib.pyplotasplt#用来正常显示中文标签(使用时可以直接照搬)#'font.sans-serif'是matplotlib库中用于设置默认字体的属性,'SimHei'为黑体plt.rcParams['font.sans-serif']=['SimHei']#设置x轴与y轴的数据x=['0~50','50~100','100~250','250~400','400以上']y=[3785500,16217551,8959500,3843000,797000]#创建画布fig=plt.figure()#绘制折线图plt.plot(x,y)#设置x轴与y轴标签plt.xlabel('价格区间')plt.ylabel('销量')#设置图形的标题plt.title('价格区间销量折线图')#展示图形plt.show()一、折线图、散点图、条形图、柱状图的绘制方法(一)折线图的绘制方法输出结果如例6-1所示,如果绘制折线图所用数据来自本地文件,可先引入pandas库读取文件,然后引入matplotlib库用于绘图。如果数据量较小,可以直接在代码中写入,则不需引入pandas,设定对应x轴或y轴内容即可,如下所示。x=['福建','广东','贵州','广西','四川']y=[1,2,3,4,5]图6-1价格区间销量折线图一、折线图、散点图、条形图、柱状图的绘制方法(一)折线图的绘制方法输出结果图6-1价格区间销量折线图从图6-1可以看出茶叶价格在50⁓100区间的最受消费者喜爱,并且随着价格的攀升,消费者的购买情况出现大幅度减少。一、折线图、散点图、条形图、柱状图的绘制方法(二)散点图的绘制方法同样针对销量进行分析,此处选取采摘地作为x轴指标用于绘图,意图分析各个茶叶产地的销量情况。销量情况如表6-3所示。采摘地销量安徽2228000北京12000波兰100000福建11295550广东2712000广西370000贵州219000河南247500湖南50000江苏243000山东46000四川5637000台湾1000云南1084001浙江2131500表6-3各采摘地的茶叶销量一、折线图、散点图、条形图、柱状图的绘制方法(二)散点图的绘制方法例6-2代码#导入pandas、matplotlib库importpandasaspdimportmatplotlib.pyplotasplt#用来正常显示中文标签plt.rcParams['font.sans-serif']=['SimHei']#设置横纵轴数据x=['安徽','北京','波兰','福建','广东','广西','贵州','河南','湖南','江苏','山东','四川','台湾','云南','浙江']y=[2228000,12000,100000,11295550,2712000,370000,219000,247500,50000,243000,46000,5637000,1000,1084001,2131500]#创建画布fig=plt.figure()#绘制散点图plt.scatter(x,y)#设置横纵轴标题plt.xlabel('采摘地')plt.ylabel('销量')#设置图形标题plt.title('采摘地销量散点图')#展示图形plt.show()一、折线图、散点图、条形图、柱状图的绘制方法(二)散点图的绘制方法输出结果图6-2采摘地销量散点图从图6-2可以看到福建地区的茶叶销量最高,超过1千万,四川地区的茶叶销量次之,为近6百万。广东、安徽、浙江等地的茶叶销量接近,为2百万左右。一、折线图、散点图、条形图、柱状图的绘制方法(三)条形图的绘制方法例如,当该商品被用于亲朋好友间的礼物赠送,那么商品的外包装则会更加精美一些。小张采集到的电商茶叶数据表中就有“包装形式”这一指标,将茶叶分为纸包装、桶装、礼盒装、盒装、罐装、袋装6种类别。以“全部评价”数代替销量绘制条形图,具体数据如下表6-4所示。包装形式销量袋装1617500罐装15002500盒装6081500礼盒装9746000桶装255000纸包装850000表6-4各包装形式销量表消费者在购买商品时,对商品的外部包装也有一定需求。因此商家也会根据使用场景不同而对包装作出区分。一、折线图、散点图、条形图、柱状图的绘制方法(三)条形图的绘制方法例6-3代码#导入pandas、matplotlib库importpandasaspdimportmatplotlib.pyplotasplt#用来正常显示中文标签plt.rcParams['font.sans-serif']=['SimHei']#设置横纵轴数据x=['袋装','罐装','盒装','礼盒装','桶装','纸包装']y=[1617500,15002500,6081500,9746000,255000,850000]#创建画布fig=plt.figure()#绘制条形图plt.barh(x,y)#设置横纵轴标题plt.xlabel('包装形式')plt.ylabel('销量')#设置条形图标题plt.title('包装形式条形图')#展示图形plt.show()一、折线图、散点图、条形图、柱状图的绘制方法(三)条形图的绘制方法输出结果图6-3包装形式条形统计图从图6-3可以看出消费者在选购时会优先选购罐装与礼盒装的茶叶,购买人次均在1千万以上,只有很少的消费者会选购桶装茶叶。一、折线图、散点图、条形图、柱状图的绘制方法(四)柱状图的绘制方法许多茶叶品牌都是从生产某些类型茶叶的特定地区采购茶叶的。龙井是一种来自浙江杭州的著名绿茶。由于龙井茶的高品质和独特的风味,许多茶叶品牌都从这一地区采购龙井茶。生产经营铁观音地茶商通常会选择在福建安溪这一茶叶原产地进行采购,以确保茶叶质量和味道。此外,中国的一些茶叶品牌还专门生产来自特定茶园或庄园的茶叶。一、折线图、散点图、条形图、柱状图的绘制方法(四)柱状图的绘制方法小张选择先从茶叶采摘地入手,以柱状图的形式呈现茶叶品牌对茶叶采摘地的选择与偏好。根据采集到的电商茶叶数据表进行汇总求和后的数据如下表6-5所示:采摘地数量安徽17北京3波兰1福建151广东18广西8贵州7河南11湖南1江苏5山东5四川28台湾1云南19浙江46表6-5采摘地数量表一、折线图、散点图、条形图、柱状图的绘制方法(四)柱状图的绘制方法例6-4代码#导入pandas、matplotlib库importpandasaspdimportmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']#用来正常显示中文标签#设置横纵轴数据x=['安徽','北京','波兰','福建','广东','广西','贵州','河南','湖南','江苏','山东','四川','台湾','云南','浙江']y=[17,3,1,151,18,8,7,11,1,5,5,28,1,19,46]#创建画布fig=plt.figure()#绘制柱形图plt.bar(x,y)#设置横纵轴标题plt.xlabel('采摘地')plt.ylabel('数量')#设置图形标题plt.title('采摘地柱状图')#展示图形plt.show()一、折线图、散点图、条形图、柱状图的绘制方法(四)柱状图的绘制方法输出结果图6-4采摘地品牌数量统计柱状图从图6-4可以看到,茶叶品牌商们大多会选择福建、浙江、四川等地的茶叶,这些地区是铁观音、岩茶、红茶、龙井、峨眉山茶等茶叶的主要产地。以四川为例,川茶主产区处在雪山和盆地交汇处,昼夜温差大,使川茶具备独特的甘烈香型。同时,川茶采摘比江浙产区提早30天,具备一定市场优势。图形内容的分析02二、图形内容的分析

在进行数据分析时,一方面要学会将数据制作成图形,以方便别人解读,另一方面,要学会解读他人的图形或自己曾经制作的图形。二、图形内容的分析(一)理解数据在解释可视化图表之前,对所呈现的数据有一个清晰的理解是很重要的。这包括了解数据的来源、所涵盖的时间段以及研究对象所处的环境等背景信息。二、图形内容的分析(二)确定图表信息识别并确定数据可视化中的信息包括理解数据所测量的内容以及它是如何呈现的。可视化图表的标题和标签通常会提供关于所呈现图像的线索。寻找描述被测量数据的关键词,如时间、数量或类别。可视化图像的坐标轴通常被标记为被测量的变量,注意坐标轴使用的单位以及显示的数值范围。二、图形内容的分析(二)确定图表信息图6-1价格区间销量折线图可以确定该折线图是用来反应不同价格区间的销量,每增加一个单位的销量则意味着对应价格区间的销量值增加了200万。二、图形内容的分析(二)确定图表信息如果可视化包括图例,它可能提供关于被测量变量的附加信息。寻找有关可视化中使用的不同颜色、形状或图案所代表的含义的信息。二、图形内容的分析(三)寻找模式和趋势在分析图表时,寻找数据中的模式和趋势是很重要的。可能涉及比较不同时间或不同变量之间的数据还应该注意数据中的任何差异或变化,并试图了解其背后的原因可能涉及识别趋势的方向(上升、下降或持平)、趋势的斜率和数据的整体模式还可以寻找季节性、周期性模式和其他可能帮助他们预测未来结果的重复趋势二、图形内容的分析(三)寻找模式和趋势

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论