《统计学-基于R》(第4版)课件:数据可视化_第1页
《统计学-基于R》(第4版)课件:数据可视化_第2页
《统计学-基于R》(第4版)课件:数据可视化_第3页
《统计学-基于R》(第4版)课件:数据可视化_第4页
《统计学-基于R》(第4版)课件:数据可视化_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贾俊平2024/1/30StatisticswithR统计学R语言贾俊平2024/1/302.1

类别数据可视化2.2数据分布可视化3.3变量间关系可视化2.4样本相似性可视化2.5时间序列可视化2.6可视化的注意事项

数据可视化可视化分类类别数据单变量双变量多变量数值数据展示分布展示关系样本相似时间序列观察趋势可视化思维导图

2.1

类别数据可视化类别数据可视化观察绝对频数单变量简单条形图帕累托图双变量并列条形图堆叠条形图其他脊形图百分比条形图多变量马赛克图树状图观察百分百单变量饼图多变量环形图太阳图可视化类别数据可视化——基本框架

2.1

类别数据可视化条形图及其变种

2.1

类别数据可视化条形图及其变种——简单条形图——例题分析【例2-1】(数据:example2_1.csv)沿用第1章的例1-1。为便于表述,将数据example1_1重新命名为example2_1

2.1

类别数据可视化条形图及其变种——帕累托图——例题分析帕累托图(paretoplot)——以意大利经济学家V.Pareto的名字而命名的,它是按各类别的频数多少排序后绘制的条形图。帕累托图可以看做是简单条形图的一个变种,利用该图很容易看出哪类频数出现得多,哪类频数出现得少

2.1

类别数据可视化条形图及其变种——复试条形图和脊形图——例题分析制两个类别变量的条形图时,可以使用原始数据绘图,也可以先生成二维列联表再绘图根据绘制方式不同有并列条形图(juxtaposedbarplot)和堆叠条形图(stackedbarplot)等在并列条形图中,一个类别变量作为坐标轴,另一个类别变量各类别频数的条形并列摆放在堆叠条形图中,一个类别变量作为坐标轴,另一个类别变量各类别的频数按比例堆叠在同一个条中

2.1

类别数据可视化条形图及其变种——复试条形图和脊形图——例题分析脊形图(spineplot)是根据各类别的比例绘制的一种条形图,它可以看作堆叠条形图的一个变种,也可以看作马赛克图的一个特例绘制脊形图时,将某个类别各条的高度都设定为1或100%,条的宽度与观测频数(样本量)呈正比,条内每一段的高度表示另一个类别变量各类别的频数比例

2.1

类别数据可视化条形图及其变种——马赛克图——例题分析当有两个以上类别变量时可以绘制马赛克图(mosaicplot)马赛克图用矩形表示列联表中对应频数的一种图形,图中嵌套矩形的面积与列联表相应单元格的频数成正比

2.1

类别数据可视化饼图及其变种——饼图——例题分析饼图(piechart)是用圆形及圆内扇形的角度来表示数值大小的图形。它主要用于表示一个样本(或总体)中各类别的频数占全部频数的百分比,对于研究结构性问题十分有用

2.1

类别数据可视化饼图及其变种——扇形图——例题分析扇形图(fanchart)是饼图的一个变种,它是将频数构成中百分比最大的一个绘制成一个扇形区域,其他各类百分比按大小使用不同的半径绘制出扇形,并叠加在这个最大的扇形上

2.1

类别数据可视化饼图及其变种——环形图和饼环图——例题分析环形图(donutchart)是将饼图的中间挖掉后剩下的环形,也称为甜甜圈图环形图可以看做是饼图的变种,它是用环形的各段表示各类别频数的百分比当有两个类别变量是时,可以绘制出一个变量各类别百分比的饼图,而相对应的另一个变量各类别频数的百分比则用环形图表示。这种展示双层结构的图形称为饼环图(pieanddonutplot),它可以展示两个变量的层次结构关系

2.2

数据分布可视化结构分布特征直方图核密度图直方图核密度图箱线图小提琴图箱线图小提琴图点图带状图点图带状图其他海盗图分布概要图连续数值的分布特征分布的形状是否对称分布中是否有离群点是否符合某种特点给的分布,如正态分布分布提供的信息可以为形状描述统计量提供依据可以为数据建模提供依据,如回归建模图形选择取决于数据量的大小取决于并列的多少和分析目的取决于个人偏好数值数据可视化——基本框架

2.2

数据分布可视化直方图与核密度图——直方图——例题分析将数据分组后,在x轴上用矩形的宽度表示每个组的组距,在y轴上用矩形的高度表示每个组的频数或密度,多个矩形并列在一起就是直方图利用直方图的形状可以观察数据分布的特征【例2-2】(数据:example2_2.csv)空气质量指数(AirQualityIndex,AQI)用来描述空气质量状况,指数越大,说明空气污染状况越严重。参与空气质量评价的主要污染物有细颗粒物(PM2.5)、可吸入颗粒物(PM10)、二氧化硫(SO2)、一氧化碳(CO)、二氧化氮(NO2)、臭氧浓度(O3)等6项。根据空气质量指数将空气质量分为6级:优(0~50)、良(51~100)、轻度污染(101~150)、中度污染(151200)、重度污染(201~300)、严重污染(300以上);分别用绿色、黄色、橙色、红色、紫色、褐红色表示。表2-1是2019年1月1日—12月31日几个主要城市的AQI数据。绘制出6个城市AQI的直方图分析其分布的特征

2.2

数据分布可视化直方图与核密度图——核密度图——例题分析核密度图(kerneldensityplot)是用于描述估计核密度估计的一种图形,它使用一定的核函数和带宽为数据的分布提供了一种平滑曲线,从中可以看出数据分布的大致形状核密度图可以替代直方图来观察数据的分布核密度曲线的平滑程度取决于带宽(bandwidth,bw)。bw的值越大,曲线越平滑利用直方图的形状可以观察数据分布的特征

2.2

数据分布可视化直方图与核密度图——核密度图——例题分析6个城市AQI的核密度图

2.2

数据分布可视化箱线图和小提琴图——箱线图——示意图

2.2

数据分布可视化箱线图和小提琴图——箱线图——不同箱线图对应的分布

2.2

数据分布可视化箱线图和小提琴图——箱线图——例题分析6个城市AQI的箱线图

2.2

数据分布可视化箱线图和小提琴图——小提琴图——例题分析小提琴图(violinplot)是箱线图的一变种将分布的核密度估计曲线与箱线图结合在一起,它在箱线图上以镜像方式叠加一条核密度估计曲线,易于观察数据分布的大致形状6个城市AQI的小提琴图

2.2

数据分布可视化茎叶图和点图——茎叶图——例题分析由“茎”和“叶”两部分构成以该组数据的高位数值作树茎,低位数字作树叶树叶上只保留最后一位数字茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据#R例题分析example2_2<-read.csv("C:/example/chap02/example2_2.csv")library(aplpack)stem.leaf(example2_2$北京,unit=1,m=1)#数据的单位为1,茎叶图的行数为1

2.2

数据分布可视化茎叶图和点图——点图——例题分析各数据用点绘制在图中点图有多种形式,其中最常见的是克利夫兰(Cleveland)点图点图是检测数据离群点的有效工具当数据量较少时,也可以替代直方图和箱线图来观察数据的分布变量关系普通散点图散点图散点图矩阵条件散点图按因子分类3D散点图3D散点图气泡图样本相似性轮廓图和雷达图轮廓图雷达图星图和脸谱图星图脸谱图聚类图和热图聚类图热图

2.3

变量间关系和样本相似性可视化结构变量间关系和样本相似性可视化——基本框架

2.3

变量间关系可视化散点图和散点图矩阵——散点图——例题分析

2.3

变量间关系可视化散点图和散点图矩阵——散点图——例题分析【例2-3】(数据:example2_3.csv)为分析上市公司的总股本与各项财务指标间的关系,随机抽取200家上市公司,得到的有关财务数据如表2-2所示。绘制散点图分析总股本与每股收益之间的关系

2.3

变量间关系可视化散点图和散点图矩阵——散点图——边际图——例题分析【例2-3】(数据:example2_3.csv)为分析上市公司的总股本与各项财务指标间的关系,随机抽取200家上市公司,得到的有关财务数据如表2-2所示。绘制散点图分析总股本与每股收益之间的关系

2.3

变量间关系可视化散点图和散点图矩阵——散点图矩阵——例题分析如果要同时分析多个变量两两之间的关系,可以将多幅散点图绘制成矩阵的形式,称为散点图矩阵(matrixscatter)矩阵散点图。散点图矩阵中,对角线上下两部分是对称的图形,也可以将对角线的下方(或上方)绘制出一种形式的散点图(或相关系数),对角线上方(或下方)绘制出另一种形式的散点图(或相关系数)

2.3

变量间关系可视化散点图和散点图矩阵——散点图矩阵——例题分析如果要同时分析多个变量两两之间的关系,可以将多幅散点图绘制成矩阵的形式,称为散点图矩阵(matrixscatter)矩阵散点图。散点图矩阵中,对角线上下两部分是对称的图形,也可以将对角线的下方(或上方)绘制出一种形式的散点图(或相关系数),对角线上方(或下方)绘制出另一种形式的散点图(或相关系数)

2.3

变量间关系可视化散点图和散点图矩阵——3D散点图——例题分析用于展示3个变量之间的关系

2.3

变量间关系可视化散点图和散点图矩阵——气泡图——例题分析气泡图也可以用于展示3个变量之间的关系,用变量x和y画出散点图,第3个变量数值的大小用圆的大小表示

2.4

样本相似性可视化样本相似性可视化——轮廓图——例题分析轮廓图(outlineplot)也称平行坐标图或多线图,它用x轴表示各样本,用y轴表示每个样本的多个变量的数值(x轴和y轴可以互换),将同一样本在不同变量上的观测值用折线连接起来。观察轮廓图中各折线的形状及其排列方式,可以比较各样本在多个变量上取值的相似性及差异

2.4

样本相似性可视化样本相似性可视化——雷达图——例题分析从一个点出发,每个变量用一条射线表示,P个变量形成P条射线(P个坐标轴),每个样本在P个变量上的取值连接成线,即围成一个区域,多个样本围成多个区域,就是雷达图(radarchart),也称为蜘蛛图(spiderchart)。利用雷达图也可以研究多个样本之间的相似程度

2.4

样本相似性可视化样本相似性可视化——星图——例题分析从一个点出发,每个变量用一条射线表示,P个变量形成P条射线(P个坐标轴),每个样本在P个变量上的取值连接成线,即围成一个区域,多个样本围成多个区域,就是雷达图(radarchart),也称为蜘蛛

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论