贾俊平《数据分析基础-Python实现》(03)第3章 数据可视化分析(Python-1)_第1页
贾俊平《数据分析基础-Python实现》(03)第3章 数据可视化分析(Python-1)_第2页
贾俊平《数据分析基础-Python实现》(03)第3章 数据可视化分析(Python-1)_第3页
贾俊平《数据分析基础-Python实现》(03)第3章 数据可视化分析(Python-1)_第4页
贾俊平《数据分析基础-Python实现》(03)第3章 数据可视化分析(Python-1)_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章数据可视化分析课程结构第1章数据分析与Python语言第2章Python数据处理第3章数据可视化分析第4章数据的描述分析第5章推断分析基本方法第6章相关与回归分析第7章时间序列分析数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析贾俊平2023-03-15Python绘图基础类别数据可视化数值数据可视化时间序列可视化合理使用图表第

3

数据可视化分析数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析学习目标掌握Python语言绘图的基本知识掌握各可视化图形的应用场合使用Python绘制各种图形利用图形分析数据并能对结果进行合理解释思政目标

数据可视化是利用图形展示数据的有效方法。在可视化分析中,要能够结合各类统计图表展示我国宏观经济数据,展示科学研究成果和人民生活的变化,展示中国特色社会主义建设的成就

利用数据分布、变量间关系和样本相似性的图形,反映我国社会经济发展的公平性特征,反映社会和经济变量之间的协调性特征,反映我国各地经济和社会发展均衡性特征图形的使用要科学合理,避免图形的不合理使用歪曲数据学习目标和思政目标数据分析基础—Python实现(贾俊平)3

-2023-03-15学习目标和思政目标第3章数据可视化分析Python的主要绘图模块Python具有强大的可视化功能,可绘制式样繁多的图形最典型的可视化工具主要有两个:matplotlib和seaborn此外,作为数据分析模块的pandas也提供了针对DataFrame对象的绘图函数gglot模块提供了类似于R中ggplot2的绘图方法Python的主要绘图模块3.1数据分析基础—Python实现(贾俊平)3

-2023-03-15Python绘图基础第3章数据可视化分析matplotlib模块matplotlib是Python最常用的一种2D绘图库,它是Python中的基础绘图模块,包含了大量的绘图工具,可以绘图灵活多样的图形,其中的pyplot子模块类似于Matlab的操作思想,上手简单matplotlib可以对图形进行精确的设置,也可以与其他绘图模块结合使用matplotlib属于比较底层的绘图工具,要绘制漂亮或专业的图形,显得有些繁琐,需要编写大量的代码,因此,实际中通常是将其与其他绘图模块结合使用在官方网站(/tutorials/index.html)可以查看matplotlib的使用方法Python的主要绘图模块3.1Python绘图基础seaborn模块数据分析基础—Python实现(贾俊平)3

-2023-03-15matplotlib是Python最常用的一种2D绘图库,它是Python中的基础绘图模块,包含了大量的绘图工具,可以绘图灵活多样的图形,其中的pyplot子模块类

似于Matlab的操作思想,上手简单seaborn可视为matplotlib的扩展模块,也可视为对matplotlib绘图的补充。它是在matplotlib的基础上进行了高级API(Application

ProgrammingInterface,应用程序编程接口)封装,使用较少的代码就可以绘制出漂亮的图形,可用于绘制分面图、交互图、3D图等。seaborn主要用于绘制较专业的

统计分析图形,基本上能满足大部分统计绘图的需求,尤其适合绘制按因子分组的图形以及概率分布图等第3章数据可视化分析Pandas中的绘图函数pandas的数据结构主要是数据框,由于数据框中有行标签和列标签,使用pandas提供的针对DataFrame对象的绘图函数,绘图所需的代码要比matplotlib少pandas中也提供了数据框绘图的高级方法,可以实现快速绘图与matplotlib的精细化设置结合起来,同样可以快速完成更有吸引力的图形Python的主要绘图模块3.1Python绘图基础ggplot和plotnine绘图系统数据分析基础—Python实现(贾俊平)3

-2023-03-15ggplot和plotnine是用于绘图的Python扩展模块,这两个模块基本上移植了R中ggplot2的绘图语法使用过R的ggplot2的读者使用这两个模块绘图十分容易,输出的图形风格也与R的ggplot2十分类似第3章数据可视化分析matplotlibmatplotlib是Python的一个2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。使用matplotlib仅需要很少的代码就可以生成绘图,如直方图,条形图,散点图等使用matplotlib绘图首先要明确两个对象,即画布(figure)和画像(axes)。画布即绘图的区域,画像即绘制的一幅图,如折线图、条形图、散点图等。所有绘图操作的第1步都是创建画布和画像,让Python明确你开始进行绘图操作,一个画布上可以放置多个画像基本绘图函数——matplotlib3.1

Python绘图基础数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析matplotlibmatplotlib使用不同的函数控制图像的各个组件,如legend函数控制图例的名称、大小、颜色及位置等属性,title函数控制标题,xlabel函数控制x轴(横坐标)标题,相应的ylabel函数控制y轴(纵坐标)标题,xticks以及yticks函数分别控制x轴和y轴刻度等根据需要选择不同的函数绘制图像的内容,如

plot函数绘制折线图,hist函数绘制直方图,barh函数绘制水平条形图,scatter函数绘制散点图等基本绘图函数——matplotlib3.1

Python绘图基础数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析图形布局一个绘图函数通常生成一幅独立的图形。有时需要在一个绘图区域(图形页面)内同时绘制多幅不同的图使用matplotlib可以在一个画布上进行不同的布局,比如,用子图函数subplots等分画布,

使用add_gridspec函数、GridSpec函数、

subplot2grid函数、add_gridspec函数等自定义分割画布,生成不同页面分割方法和图形组合

方法图形布局3.1Python绘图基础subplots函数的页面布局数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析图形布局3.1Python绘图基础GridSpec函数的不等分布局subplot2grid函数的不等分布局数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析图形颜色Python软件提供了丰富的绘图颜色,使用参数color=""控制图形内容颜色,对于散点图控制点的颜色,对于折线图控制线的颜色,对于直方图控制箱子的颜色,color有时可简写为c。字符串是颜色的名称,Python对部分颜色有各自的命名Python还支持16进制颜色字符串,以"#"开头,如"#3FD462",也可以使用调色板(palette)为图形配色。Python为几种主要颜色设置了简写,如"b"表示蓝色,"r"表示红色,"g"表示绿色,"k"表示黑色等。设置单一颜色时,表示成color="red"(或color="r")。设置多个颜色时,则为一个颜色列表,如

color=["red","green","blue"]。需要填充的颜色多于设置的颜色向量时,颜色会被重复循环使用。比如,要填充10个条的颜色,color=["red","green"]两种颜色被重复使用图形颜色、线型和标记3.1数据分析基础—Python实现(贾俊平)3

-2023-03-15Python绘图基础第3章数据可视化分析线型Python使用参数linestyle=“”控制线型,有时可简写为ls。使用参数linewidth控制线条宽度Python常用的线型有:"-"表示实线,也可使用名称"solid";"--"表示破折线,或使用名称"dashed";

":"表示点虚线,或使用名称

"dotted";"-."点划线,或使用名称"dashdot"。还可设置空字符串

""表示无线条图形颜色、线型和标记3.1Python绘图基础数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析标记绘制散点图和折线图等图形时会用到点标记Python使用marker=""参数控制标记的形状使用markersize控制标记大小图形颜色、线型和标记3.1Python绘图基础数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析条形图(bar

chart)用一定长度和宽度的矩形表示各类别数值多少的图形,主要用于展示类别数据的频数或带有类别标签的其他数值绘制条形图时,各类别可以放在x轴(横轴),也可以放在y轴(纵轴)类别放在x轴的条形图称为垂直条形图(vertical

bar

chart)或柱形图,类别放在y轴的条形图称为水平条形图(horizontal

bar

chart)根据绘制的变量多少,条形图有简单条形图、簇状(并列)条形图和堆积(堆叠)条形图等不同形式条形图3.2数据分析基础—Python实现(贾俊平)3

-2023-03-15数类别数据可视化第3章数据可视化分析条形图——简单条形图——例题分析简单条形图——根据一个类别变量各类别的频数或其他数值绘制的,主要用于描述各类别的频数或其他数据的绝对值大小【例3-1】表3-1是2020年北京、天津、上海和重庆城镇居民人均消费支出数据。绘制条形图分析各项支出消费金额的分布状3.2

数类别数据可视化支出项目北京天津上海重庆食品烟酒8751.49122.211515.18618.8衣着1924.01860.41763.51918.0居住17163.17770.016465.14970.8生活用品及服务2306.71804.12177.51897.3交通通信3925.24045.74677.13290.8教育文化娱乐3020.72530.63962.62648.3医疗保健3755.02811.03188.72445.3其他用品及服务880.0950.71089.9675.1数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析条形图——帕累托图——例题分析帕累托图(Pareto

plot)是将各类别的数值降序排列后绘制的条形图,该图是以意大利经济学家帕累托(V.Pareto)的名字命名的。帕累托

图可以看作简单条形图的变种,利用

该图很容易看出哪类数据出现得最多,哪类数据出现得最少,还可以反映出

各类别数据的累计百分比以例3-1中北京的各项支出为例3.2

数类别数据可视化数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析条形图——簇状条形图和堆积条形图——例题分析根据两个类别变量绘制条形图时,由于绘制方式的不同,有簇状条形图(cluster

barchart)和堆积条形图(stacked

bar

chart),这类图形主要用于比较各类别的绝对值3.2

数类别数据可视化数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析条形图——百分比条形图——例题分析百分比条形图比较各类别构成的百分比堆积条形图的变种百分比条形图中,每个条的高度均为100%,条内矩形的大小取决于各类别数据构成的百分比3.2

数类别数据可视化数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析瀑布图和漏斗图——瀑布图——例题分析瀑布图(waterfall

chart)由麦肯锡顾问公司独创的一种图形,因为形似瀑布流水而得名瀑布图与条形图十分形似,区别是条形图不反映局部与整体的关系,而瀑布图可以显示多个子类对总和的贡献,从而展示局部与整体的关系使用squarify.plot函数可以绘制瀑布图3.2

数类别数据可视化数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析瀑布图和漏斗图——漏斗图——例题分析漏斗图(funnel

plot)因形状类似漏洞而得名,它是将各类别数值降序排列后绘制的水平条形图漏斗图适合于展示数据逐步减少的现象,比如,生产成本逐年减少等3.2

数类别数据可视化数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析饼图和环形图——饼图——例题分析饼图(pie

chart)饼图是用圆形及圆内扇形的角度来表示一个样本(或总体)中各类别的数值占总和比例大小的图形,对于研究结构性问题十分有用3.2

数类别数据可视化2020年北京和上海城镇居民人均消费支出的饼图数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析饼图和环形图——环形图——例题分析环形图(doughnut

chart)环形图与饼图类似,但又有区别。环形图中间有一个“空洞”,每个样本用一个环来表示,样本中每一类别的数值构成用环中的一段表示。因此,环形图可展示多个样本各类别数值占其相应总和的比例,从而有利于构成的比较研究绘制环形图时,先向圆心方向画一条垂线(圆的半径),然后顺时针方向依次画出各类别数值所占的百分比。其中样本的顺序依次从内环到外环3.2

数类别数据可视化2020年北京、天津和上海城镇居民人均消费支出的环形图数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析树状图和旭日图——树状图——例题分析树状图(dendrogram)当有两个或两个以上类别变量时,可以将各类别的层次结构画成树

状的形式,称为或分层树状图。

树状图有不同的表现形式,它主

要用来展示各类别变量之间的层

次结构关系,尤其适合展示两个

及两个个以上类别变量的情形树状图是将多个类别变量的层次结构绘制在一个表示总数值的大的矩形中,每个子类用不同大小的矩形嵌套在这个大的矩形中,嵌套矩形表示各子类别,其大小与相应的子类数值成正比3.2

数类别数据可视化【例3-2】沿用例3-1。绘制树状图分析各地区各项支出金额的分布状况数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析分布特征可视化——直方图3.3数值数据可视化直方图(histogram)用于展示数值数据分布的一种常用图形它是用矩形的宽度和高度来表示频数分布通过直方图可以观察数据分布的大体形状,如分布是否对称绘制直方图时,用x轴表示数据的分组区间,y轴表示各组的频数或频率,区间宽度和相应的频数画出一个矩形,多个矩形并列起来就是直方图。由于数据的分组是连续的,所以各矩形之间是连续排列,不能留有间隔不同直方图所对应的分布形状数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析分布特征可视化——直方图——例题分析3.3

数值数据可视化【例3-3】为分析网上约车的情况,随机抽取150个参与网上约车服务的出租车司机进行调查,得到他们某一天的营业额数据如表3-3所示。绘制直方图分析营业额的分布特征319493346362532283413207444426264510615365355418329315439446354550450346510391516378470453351586345380384476434313202400357419426369461268435416226363237638354487401209433454424361638390392355302569583459421289375408475546299384462349370480436572251431296349240475453377586334528516492331391489366530321494309402660327351360319255350367387365433388391459394297257397432303381433317418393458528360500273240392403447319300501535420314447393443463698327数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析分布特征可视化——箱形图3.3数据分析基础—Python实现(贾俊平)3

-2023-03-15数值数据可视化第3章数据可视化分析分布特征可视化——箱形图3.3数值数据可视化箱形图的一般形式数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析分布特征可视化——箱形图3.3数值数据可视化不同分布形状对应的箱形图数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析分布特征可视化——箱形图——例题分析3.3

数值数据可视化【例3-4】从某大学的5个学院中各随机抽取30名学生,得到英语考试分数的数据如表3-4所示。绘制箱形图分析不同学院学生英语考试分数的分布特征分析:英语分数的整体水平(中位数或平均

数)最高的是商学院,其次是经济学院和统

计学院(二者差异不大),较低的是法学院

和理学院(二者差异不大)。从分布形状看,除统计学院外,其他4个学院的平均数都低

于中位数,表示英语分数的分布呈现一定的

左偏分布,其中,经济学院的箱形图中出现

了2个离群点,商学院出现了1个离群点(通过添加数据标签可观察期结果),统计学院

的分数则大致对称5个学院各30名学生英语考试分数的箱形图数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析变量间关系可视化——散点图——例题分析3.3

数值数据可视化数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析变量间关系可视化——散点图——例题分析3.3

数值数据可视化【例3-5】2020年31个地区的人均地区生产总值(按当年价格计算)、社会消费品零售总额和地方财政一般预算支出。绘散点图并观察它们之间的关系数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析变量间关系可视化——气泡图——例题分析3.3

数值数据可视化气泡图(bubble

chart)展示3个变量之间的关系以看作是散点图的一个变种在气泡图中,第3个变量数值的大小用气泡的大小表示使用plot函数、symbols函数等均可以绘制气泡图数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析样本相似性可视化——雷达图——例题分析3.3

数值数据可视化雷达图(radar

chart)从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样本围成多个区域,就是雷达图利用它也可以研究多个样本之间的相似程度【例3-6】沿用例3-1。绘制雷达图,比较不同地

区的人均各

项消费支出

的特点和相

似性数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析样本相似性可视化——轮廓图3.3

数值数据可视化轮廓图(outline

chart)数据分析基础—Python实现(贾俊平)3

-2023-03-15也称为平行坐标图或多线图,它是用x坐标表示各样本,y轴表示每个样本的多个变量的取值,将不同样本的同一个变量的取值用折线连接,即为轮廓图R软件中有多个函数可以绘制轮廓图,如graphics包中的plot函数和matplot函数、plotrix包中的ladderplot函数、DescTools包中的PlotLinesA函数、ggiraphExtra包中的ggPair函数等第3章数据可视化分析样本相似性可视化——轮廓图——例题分析3.3

数值数据可视化沿用例3-1。绘制轮廓图,比较不同地区的人均各项消费支出的特点和相似性数据分析基础—Python实现(贾俊平)3

-2023-03-15第3章数据可视化分析时间序列可视化——折线图——例题分析3.4

时间序列可视化折线图折线图是描述时间序列最基本的图形,它主要用于观察和分析时间序列随时间变化的形态和模式折线图的x轴是时间,y轴是变量的观测值【例3-7】2000年—2020年我国城镇

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论