《大数据导论》课件 第6章 数据可视化_第1页
《大数据导论》课件 第6章 数据可视化_第2页
《大数据导论》课件 第6章 数据可视化_第3页
《大数据导论》课件 第6章 数据可视化_第4页
《大数据导论》课件 第6章 数据可视化_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章

数据可视化演讲人2024/12/24本章学习目标了解数据可视化的基础知识。了解常见的数据可视化工具和软件。了解若干数据可视化工具的使用方法,并能实现简单的编程。培养“用数据说话,让数据发声”的理念,以及多角度看待问题和解决问题的能力。目录6.1引言6.2数据可视化的案例6.3图形元素和视觉通道6.4数据可视化的常用方法6.5数据可视化常用工具简介6.6本章小结6.1引言1.1什么是数据可视化所谓数据可视化,是指运用计算机图形学和图像处理技术,将数据转换为图形或图像显示,并进行交互处理的理论、方法和技术。它可以将枯燥的数据映射为形象生动的图形、符号、颜色和纹理等,提高数据识别效率,高效地传递有用信息。在人类文明的初期,特别是文字被创造并广泛使用之前,人们是用图形或符号来传递信息的。随着文字的发明和使用,人类通过书写来存储和传递信息。当计算机出现后,数据的生成、存储和传递格式得到解放,彻底改变了数据的存储和表示形式。在大数据时代,数据可视化技术的应用,就是“让数据说话”。作为一种新的数据表现形式和信息媒介,数据可视化可以把复杂抽象的数据信息,以合适的视觉元素及视角呈现,方便大家理解、记忆和传递。在大数据时代,数据的复杂性和体量大大增加,可视化和可视化分析可以有效地筛选与精练数据,利用图形清晰有效地传达与沟通信息,帮助人们更好地探索和理解复杂的数据,成为人们理解数据、发现知识和规律不可或缺的手段。6.1引言6.1.2数据可视化的若干案例1.斯诺的标点地图流行病学标点地图是指用标点的方法将发病或死亡病例标记在地图上,以显示疾病的地理分布,是地理流行病学研究中常用的地图之一。1854年,伦敦暴发霍乱,10天内夺去了500多人的生命。根据当时流行的观点,霍乱是经空气传播的。但是约翰斯诺(JohnSnow)医生并不相信这种说法,他认为霍乱是经水传播的。斯诺利用标点地图(见图6-1)研究了当地的水井分布和霍乱患者分布之间的关系,发现在宽街一口水井的供水范围内霍乱的出现率明显较高,最终凭借此线索找到该次霍乱爆发的原因:一个被污染的水泵。洞悉真相的斯诺赶紧通知政府关掉了那个水泵,疫情立马就停了。6.1引言1.斯诺的标点地图图6-11854年斯诺制作的伦敦霍乱标点地图6.1引言2.南丁格尔的玫瑰图兼为护士和统计学家的弗罗伦斯南丁格尔,为了调查战争期间士兵死亡的真正原因。根据1854年4月—1856年3月期间士兵死亡的数据,创建出美丽的统计玫瑰图(见图6-2),形象地展示了士兵死亡的真正原因和战地医疗救护的作用。这种图表形式也被称作“南丁格尔的玫瑰”,是一种圆形的直方图,南丁格尔自己常称这类图为鸡冠花图,并且用以表达军队医院季节性的死亡率,对象是那些不太能理解传统统计报表的公务人员。她的方法打动了当时的高层,包括军方人士和维多利亚女王本人,于是医疗改良的提案得到了支持。6.1引言2.南丁格尔的玫瑰图这张图描述了1854年4月—1856年3月期间士兵的死亡情况,左右两张玫瑰图被时间点“1855年3月”隔开,左右两张玫瑰图都包含了12个月的数据。右边的玫瑰图所示为1854年4月—1855年3月的士兵死亡情况,左边的玫瑰图所示为1855年4月—1856年3月的士兵死亡情况,图6-2统计玫瑰图6.1引言2.南丁格尔的玫瑰图图中用3种颜色表示3种不同的情况,蓝色代表可预防和可缓解的疾病治疗不及时造成的死亡,红色代表战场阵亡,黑色代表其他死亡原因。图表各扇区角度相同,用半径及扇区面积来表示死亡人数,可以清晰地看出每个月因各种原因死亡的人数。显然,1854—1855年,因医疗条件而造成的死亡人数远远大于战死沙场的人数,这种情况直到1856年初才得到缓解。南丁格尔的这张图表及其他图表生动有力地说明了在战地开展医疗救护和促进伤兵医疗工作的必要性,打动了当局者,增加了战地医院,改善了军队医院的条件,为挽救士兵生命做出了巨大的贡献。6.1引言3.数据可视化大屏图6-3所示为数据可视化大屏的示例,图中展示了某个电商平台的“数据可视化大屏”界面,通过这种“数据可视化大屏”,可以实时查看系统的数据变化,观察系统的运行状态,帮助管理人员快速决策。随着大数据的发展,“数据可视化大屏”在各个行业的应用越来越广泛,尤其是在政府、商业、金融、制造等行业的业务场景中。例如,作为传递信息的有效手段,“数据可视化大屏”在城市智能运营中心、应急指挥中心、公安监控中心、电力调度中心、金融交易大厅等部门和机构中发挥着重要作用。它具有日常监测、分析判断、应急指挥、汇报展示等多种功能,在提高科学管理水平方面发挥着重要作用。6.1引言3.数据可视化大屏图6-3数据可视化大屏的示例6.1引言6.1.3数据可视化的作用在大数据时代,随着数据量的快速增长,以及数据复杂性的不断增加,对数据进行观察、分析和挖掘的难度越来越大。数据可视化可以提供多种数据分析的图形方法,直观地传达数据的关键特征,从而实现对复杂数据的深入洞察。数据可视化方法,就是借助图形化手段来表示枯燥的数,从而更清晰有效地传达与沟通信息。一方面,它将枯燥的数据更形象、更生动地进行展示,以使数据的呈现更加直观,方便用户查看;另一方面,它还是一种发现未知信息的处理过程,它让用户可以观察、发现数据中隐藏的规律和价值。数据可视化的作用可以总结为以下几个方面。(1)反映信息的模式、数据的关联或趋势。(2)发现隐含在数据中的规律。(3)实现人与数据之间形象的信息传递。(4)帮助决策者直观地观察和分析数据。6.2数据可视化的案例【COVID-19数据集可视化分析】本案例对机器学习和数据科学竞赛平台Kaggle提供的COVID-19数据集进行可视化分析。本案例的数据集是由Kaggle提供的COVID-19数据集,该数据集(文件名为covid_19_data.csv)包含2020年1月22日—2021年5月30日全世界各个国家新冠肺炎疫情的统计数据,其格式如图6-4所示,数据集包括8个字段:SNo、ObservationDate、Province/State、Country/Region、LastUpdate、Confirmed、Deaths、Recovered。其中Confirmed、Deaths和Recovered分别表示确诊人数、死亡人数和治愈人数(单位:个)。6.2数据可视化的案例6.2.1数据集的简介图6-4COVID-19数据集的格式6.2数据可视化的案例6.2.2发展趋势图为了观察一段时间内数据的发展趋势,首先将数据按日期进行汇总,形成如图6-5所示的格式。其中,mortality%和recovery%分别表示死亡率和治愈率。图6-5按日期汇总后的数据格式6.2数据可视化的案例6.2.2发展趋势图对图6-5所示的数据按日期汇总,使用折线图绘制发展趋势图,如图6-6所示。图中,横轴表示日期,纵轴表示病例数量。从中可以看出,2020年1月—2021年5月,全球确诊人数大幅上升,但与治愈人数相比,死亡人数很低。图6-6发展趋势图6.2数据可视化的案例6.2.2发展趋势图图6-7治愈率与死亡率趋势图接着用折线图绘制2020年1月—2021年5月期间的治愈率和死亡率趋势图,如图6-7所示。图中,横轴表示日期,纵轴表示百分比。从图中可以看出,平均治愈率为51.15%,平均死亡率为3.4%。6.2数据可视化的案例6.2.3人数分布图为了分析各个国家疫情数据的分布情况,对原始数据按国家进行分组汇总,形成如图6-8所示的数据格式。图6-9按国家分组汇总的数据格式6.2数据可视化的案例6.2.3人数分布图图6-10用饼图展示全球确诊人数最多的10个国家的确诊比例接着用饼图展示2020年1月—2021年5月期间全球确诊人数最多的10个国家的确诊比例,如图6-10所示。从中可以看出美国(US)、印度(India)和巴西(Brazil)的确诊比例位列前三名。6.3图形元素和视觉通道数据可视化任务是将数据中的变量对应到图形属性的映射,常见的表现形式是用图表构建从数据到几何标记对象的图形属性映射,图表中还可能包含数据的统计变换,最后将其绘制在某个特定的坐标系中。图形语法是数据可视化所使用的语法,是一种抽象级别较高的对图表的描述方法。其基本思路是把图表的主体看成数据和几何图形的视觉特征绑定的结果,并将其应用于不同的坐标系,通过这样的方式将其组成不同的图形类别。图形语法由图形元素、图形属性和映射三个要素组成。6.3图形元素和视觉通道1.图形元素图6-10图形元素图形元素是在可视化过程中使用的几何图形,基本的图形元素有点、线、面,这几个基本的图形元素,可以组成更多的图形元素,如点线的连接、多边形等,如图6-10所示。6.3图形元素和视觉通道2.图形属性图形属性也被称为“视觉通道”,用于控制图形元素的视觉特征。常用的视觉通道有:位置、大小、颜色、长度、形状、角度等,如图6-11所示。图6-11

常用的视觉通道6.3图形元素和视觉通道3.映射数据到图形属性的映射,简单来说就是选择什么图形元素和视觉通道来表现某种类型的数据。最基本的数据类型可分为离散型和连续型两类。(1)离散型数据可以用位置、颜色、形状和图案等来表现。(2)连续型数据可以用坐标轴位置、长度、角度和面积等来表现。

图6-12所示为视觉通道表现力排序的示意图,从上到下分别按照表现力从高到低递减。图6-12视觉通道表现力排序的示意图6.3图形元素和视觉通道【案例6-1】商品销售数据可视化图表的表现形式接下来,我们用一个商品销售数据的可视化图表案例,更具体形象地展现图形元素和视觉通道的表现方法。【案例6-1】商品销售数据可视化图表的表现形式。现有如表6-1所示的某家超市商品销售的示例数据,该数据包括商品类别、年份和销售额三个属性。其中,商品类别和年份是表示类别的离散型数据(维度),销售额是表示数值的连续型数据(指标)。6.3图形元素和视觉通道【案例6-1】商品销售数据可视化图表的表现形式表6-1商品销售的示例数据商品类别年份/年销售额/万元日用品201930日用品202050日用品202160日用品202290零食201980零食202090零食2021130零食2022140生鲜201930生鲜202040生鲜202150生鲜2022506.3图形元素和视觉通道【案例6-1】商品销售数据可视化图表的表现形式接下来我们要用多种图表形式,将本案例的数据映射到图形元素和图形属性。(1)比较三种商品类别销售额的可视化图表,如图6-13所示。图6-13比较三种商品类别销售额的可视化图表

6.3图形元素和视觉通道【案例6-1】商品销售数据可视化图表的表现形式图6-13(a)使用象形的图形元素代表不同的“商品类别”,视觉通道选用不同的颜色代表各个类别的“销售额”。图6-13(b)使用圆形作为统一的图形元素,视觉通道选用不同的颜色代表不同的“商品类别”,并以面积大小代表各个类别的“销售额”。图6-13(c)使用条形作为统一的图形元素结合标签代表不同的“商品类别”,视觉通道选用长度代表各个类别的“销售额”。图6-13(d)使用扇形作为统一的图形元素,视觉通道选用不同的颜色代表不同的“商品类别”,角度代表“销售额”。6.3图形元素和视觉通道【案例6-1】商品销售数据可视化图表的表现形式(2)

比较不同年份的销售额的可视化图表如图6-14所示。图6-14(a)使用柱状图,结合标签和颜色代表不同的“年份”,长度代表“销售额”。图6-15(b)使用折线图表现各年的销售额,以及销售额的动态变化趋势图6-14比较不同年份的销售额的可视化图表6.3图形元素和视觉通道【案例6-1】商品销售数据可视化图表的表现形式(3)综合商品类别、年份和销售额的可视化图表,如图6-15所示。图6-15综合商品类别、年份和销售额的可视化图表6.3图形元素和视觉通道【案例6-1】商品销售数据可视化图表的表现形式图6-15(a)使用折线图,同时以不同颜色的线代表不同的“商品类别”。从效果上看,该图表便于查看各个“商品类别”的销售趋势,以及对比各个“年份”的销售表现。图6-15(b)使用堆垒柱状图,按颜色分割成三个“商品类别”,柱形的高度表示“销售额”。从效果上看,这幅图便于进行各个“年份”的“销售额”合计对比,以及参看各个“年份”的“销售额”是如何由“商品类别”构成的。6.4数据可视化的常用方法6.4数据可视化的常用方法可视化的数据根据属性或变量的类型可以分为数值型数据和类属型数据,根据数据集的类型,可以分为结构化数据和非结构化数据,如图6-16所示。图6-16可视化的数据类型针对不同类型的数据,有多种多样的展现形式,可以将其归纳为趋势型数据可视化方法、对比型数据可视化方法、比例型数据可视化方法和关系型数据可视化方法等。6.4.1趋势型数据可视化方法趋势型数据可以使用散点图、折线图、阶梯图和时间序列图等进行可视化呈现。1.散点图散点图使用数据值作为x轴和y轴坐标来绘制点,即散点图数据点(x,y)在直角坐标系平面上的分布图。在回归分析中,可以选择合适的函数对数据点进行拟合,从而判断两个变量之间是否存在某种关联或总结坐标点的分布模式。散点图将序列显示为一组点,其值由点在图表中的位置表示,散点图的样例如图6-17所示。6.4.1趋势型数据可视化方法1.散点图图6-18

散点图的样例6.4.1趋势型数据可视化方法2.折线图折线图用线段顺序连接空间中的各个数据点,折线图与散点图对比,其更突出表现数据点的变化趋势,而散点图突出表现数据点的分布情况,前者不能做回归分析,而后者可以。折线图的样例如图6-18所示。图6-19折线图的样例6.4.1趋势型数据可视化方法3.阶梯图阶梯图又称瀑布图,它用一种无规律、间歇型阶跃的方式表达数值的变化,可以用于数据的变化和构成情况的分析(如保险产品、电价、水价等)中。阶梯图的样例如图6-19所示。图6-19阶梯图样例6.4.1趋势型数据可视化方法4.时间序列图时间序列图用于显示给定度量随时间变化的趋势,它是以时间为横轴,以观察变量为纵轴,用以反映时间与数量之间的关系,反映观察变量变化发展的趋势及偏差的统计图。时间序列图的样例如图6-20所示。

图6-20时间序列图的样例6.4.2对比型数据可视化方法对比型数据可以使用柱状图、面积图、雷达图、气泡图等进行可视化呈现。1.柱状图柱状图是一种以长方形的长度为变量的统计图表,它使用垂直或水平的柱子显示类别之间的数值关系,用于描述分类数据,并统计每一个分类中的数据,柱状图的样例如图6-21所示。图6-21柱状图的样例6.4.2对比型数据可视化方法2.面积图面积图是在折线图的基础上形成的,它将折线图中折线与坐标轴之间的区域用颜色进行填充,这个填充即我们所说的面积,颜色的填充可以更好地突出趋势信息,面积图的样例如图6-22所示。图6-22面积图的样例6.4.2对比型数据可视化方法3.雷达图雷达图,又称网状图或星状图,它形似雷达界面,雷达图用于同时对多个数据进行对比分析和对同一数据在不同时期的变化进行分析,可以有效地表示数据的聚合值,也就是数据在各个方向上达到的峰值,雷达图的样例如图6-23所示。图6-23雷达图的样例6.4.2对比型数据可视化方法4.气泡图气泡图通常用于比较和展示不同类别之间的关系(如分析数据之间的相关性),通过气泡的位置及面积大小进行比较,气泡图的样例如图6-24所示。图6-24气泡图的样例6.4.3比例型数据可视化方法比例型数据可以使用饼图、堆垒柱状图和堆垒面积图等进行可视化呈现。1.饼图饼图用于表示不同分类的占比情况,通过弧度大小来对比各种分类。饼图为将一个圆饼按照分类的占比划分成多个区块,整个圆饼代表数据的总量,每个区块代表该分类占总体的比例大小,所有区块的和等于100%。饼图的样例如图6-25所示。图6-25饼图的样例6.4.3比例型数据可视化方法2.堆垒柱状图堆垒柱状图显示单个项目与整体之间的关系,它表现各个类别的每个数值所占总数值的大小。堆垒柱状图以二维垂直堆积矩形显示数值。当有多个数据系列并且希望强调总数值时,可以使用堆垒柱状图。堆垒柱状图的样例如图6-26所示。图6-26堆垒柱状图的样例6.4.3比例型数据可视化方法3.堆垒面积图堆叠面积图将多个数据系列按顺序叠加显示,对每个区域以不同的颜色填充,适用于展示多个类别或者多个变量的累积量或者占比情况。堆垒面积图的样例如图6-27所示。图6-27堆垒面积图的样例6.4.4分布型数据可视化方法分布型数据可以使用直方图、箱型图、概率密度图等进行可视化呈现。4.4分布型数据可视化方法1.直方图直方图又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况,一般用横轴表示数据类型,纵轴表示分布情况。直方图是数值数据分布的精确图形表示,为了构建直方图,需要将值的范围均匀分段(分成多个箱),然后计算每个箱中有多少值,最后在坐标轴上绘制每个箱中分布的值的数量。直方图的样例如图6-28所示。图6-29直方图的样例6.4.4分布型数据可视化方法2.箱形图箱形图又称盒状图或箱线图,是一种用来显示一组数据分散情况的统计图,因形状如箱子而得名,在各种领域经常被使用。箱形图于1977年由美国著名统计学家约翰·图基(JohnTukey)发明,它能显示一组数据的最大值、最小值、中位数及第一、第三四分位数。箱形图的样例如图6-29所示。图6-29箱型图的样例6.4.4分布型数据可视化方法3.概率密度图前面提到的直方图、箱形图都是离散型数据的分布图,而概率密度图则是连续型数据的分布图,它指随机变量落在其区间内的概率,用色块填充成阴影部分。概率密度图是用概率密度曲线画的,横轴是连续型随机变量x,纵轴是概率密度函数f(x)。图6-30

概率密度图的样例6.4.5文本数据可视化方法logo对于文本数据可视化,最著名的是由美国西北大学新闻学副教授、新媒体专业主任里奇戈登(RichGordon)于2006年最先使用的“词云”(也称为标签云),它是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”在视觉上的突出。图6-31词云的示意图6.4.5文本数据可视化方法图6-31所示为以马丁路德金的“IHaveaDream”一文为例生成的词云,可以看出该文中有freedom、dream和negro等高频率词。目前,有许多流行的词云生成工具,如Wordle、WordItOut、Tagxedo、WordArt、ToCloud和图悦等。6.4.5文本数据可视化方法时序文本是指具有时间特性或顺序特性的文本,例如一篇小说故事情节的变化,或一个新闻事件随时间的演化。主题河流图可以将时序文本数据进行可视化呈现,它将主题的演变嵌入时间长河中,如图6-32所示。其横轴表示时间,每一条不同颜色的线条可视作一条河流,每条河流表示一个主题,河流的宽度表示其在当前时间点上的一个度量(如主题的强度)。这样既可以在宏观上看出多个主题的发展变化,又能看出在特定时间点上主题的分布。图6-32

主题河流图的样例6.4.6关系网络数据可视化方法关系网络数据可视化的重要用途是揭示对象之间的复杂关系,具有广泛的应用场景,例如:疾病传播分析、社交网络分析(如社区发现)、科研人员的研究协作分析、路由器网络的设计、演员的协作关系分析等。6.4.6关系网络数据可视化方法1.力导向图力导向图是一种常用的关系网络数据可视化工具,它能表示节点之间多对多的关系,可以根据实时状态自动完成很好的聚类,方便用户看出节点之间的亲疏关系,并且用节点的大小表示重要性。力导向图的样例如图6-33所示。图6-33力导向图样例6.4.6关系网络数据可视化方法1.力导向图图6-34所示为一张关于新冠肺炎疫情分析的力导向图,其作用是溯源分析及理解疾病是怎样传播的。从图中可以很明显地看到1号、6号、35号、127号及130号病人作为超级传播者,传染了很多人。图6-34关于疫情分析的关系网络图示例6.4.6关系网络数据可视化方法2.桑基图桑基图也称为桑基能量分流图或桑基能量平衡图,它是一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小,因1898年马修亨利菲尼亚斯里尔桑基(MatthewHenryPhineasRiallSankey)绘制的蒸汽机的能源效率图而闻名,此后便以他的名字将其命名为桑基图。桑基图主要由支点、边和流量组成,其中节点代表不同的对象,边代表流动的数据,流量代表流动数据的具体数值。边的宽度与流量成比例地显示,边越宽,数值越大。桑基图的样例如图6-35所示。6.4.6关系网络数据可视化方法2.桑基图图6-35桑基图的样例6.4.7时空数据可视化方法时空数据是指具有时间元素并随时间变化而变化的空间数据,是描述地球环境中地理要素信息的一种表达方式。时空数据的静态可视化,通常是在二维地图上叠加可以描述时间变化的要素,以此来描述时空数据与空间范围内的变化特征;时空数据的动态可视化可采用动态地图、三维GIS等多种手段展现时空数据,将时空数据在动态变化的地图或三维场景中呈现出来,可以直观生动地表示各种空间信息的变化过程。例如,可以以北京外卖配送的移动轨迹与物流的起始点数据为基础,探索一天中不同时段的外卖订单量的地理分布。案例的数据提取自某个即时物流平台,以订单起始点在地理空间上形成的显著聚合的27个地块作为城市商业地块,通过其不同时段的订单活跃情况,解读不同商业地块的特点,观察不同时段的订单起始点在城市空间分布上的差异,并分辨出订单起始点产生集聚的几个典型地块。6.4.8层次结构数据可视化方法层次结构数据表示对象之间的层次关系,可以被抽象为树结构,如社会关系中的从属关系、事物的包含关系、组织结构信息和逻辑承接关系等。层次数据可视化的要点是对数据中的层次关系进行有效刻画,其主要有两种表现方法:节点链接法和空间填充法。6.4.8层次结构数据可视化方法1.节点链接法节点链接法将单个个体绘制成一个节点,节点之间的连线表示个体之间的层次关系,代表图形有空间树、圆锥树、径向树、双曲树。图6-36所示为节点链接法的样例图,左边的子图是径向树,这是一种环状的树图,特点是根节点位于圆心,不同层次的节点被放置在半径不同的同心圆上。右边的子图是圆锥树,其是一种在三维空间中可视化层次数据的技术,结合了正交布局和径向布局两种思想。6.4.8层次结构数据可视化方法1.节点链接法(a)径向树

(b)圆锥树图6-37节点链接法的样例图4.8层次结构数据可视化方法2.空间填充法空间填充法用空间中的区域来表示数据中的个体,并用外侧区域对内层区域的包围来表示层次关系。图6-37所示为空间填充法的样例图,左边的子图是矩形树图,用矩形表示层次结构里的节点,父子节点之间的层次关系用矩形之间的相互嵌套隐喻表示。右边的子图是旭日图,中心的圆表示根节点,各个层次用同心圆表示。6.4.8层次结构数据可视化方法2.空间填充法(a)矩形树图

(b)旭日图图6-37空间填充法的样例图6.4.9高维数据可视化方法大数据的一个特性是维度高,如一个电商平台中商品的信息就高达上百个维度。人类最直观的是理解二维空间中的数据,因此高维数据可视化通常需要运用降维方法,以二维或三维的形式进行呈现。常用的高维数据可视化方法包括:Andrews曲线、平行坐标图、Radviz图等,还需要使用降维算法,如主成分分析(PrincipleComponentAnalysis,PCA)、线性判别式分析(LinearDifferentialAnalysis,LDA)和多维缩放(Multi-DimensionalScaling,MDS)等。6.4.9高维数据可视化方法1.Andrew曲线调和曲线图由Andrews于1972年提出,因此又叫作Andrews统计图或Andrews曲线,其是将高维数据以二维曲线展现的一种统计图,常用于表示多元数据的结构。图6-38所示为Andrew曲线的样例,该图将Iris数据集(鸢尾花数据集)中每个样本的属性值转化为傅里叶序列的系数来创建二维曲线。图6-38Andrew曲线的样例6.4.9高维数据可视化方法2.平行坐标图平行坐标图将高维数据的各个变量用一系列相互平行的坐标轴表示,并将不同变量的各个点连接成折线,以反映其变化趋势和各个变量间的相互关系。平行坐标图的样例如图6-39所示。图6-39平行坐标图的样例6.5数据可视化常用工具简介6.5数据可视化常用工具简介在数据的可视化方面,如今有大量的工具可供选择,根据它们的功能和用途,可以将其分为可视化编程工具、可视化报表工具、商业智能分析工具和大数据可视化大屏工具等。6.5.1FineBI数据可视化工具简介FineBI是帆软软件有限公司推出的一款商业智能产品,它是一款定位于自助大数据分析的BI工具,能够帮助企业的业务人员和数据分析师,开展以问题为导向的探索式分析。FineBI提供面向教育的免费版本(功能有所限制),可以用学生或教师的身份下载和注册软件,并获得永久使用的注册码。6.5.1FineBI数据可视化工具简介1.FinBI的功能与特点FinBI的结构图由数据层、应用层和展示层组成,如图6-40所示。其中数据层用于创建数据源;应用层用于设计仪表板;展示层让普通用户在前端通过可视化展示和可视化分享来编辑和查看仪表板。FineBI拥有四大核心功能,分别为数据准备、数据处理、数据分析、数据共享,如图6-41所示。6.5.1FineBI数据可视化工具简介1.FinBI的功能与特点图6-40

FineBI的结构图图6-41

FineBI的四大核心功能6.5.1FineBI数据可视化工具简介2.简单的FineBI使用案例本节我们将一家超市销售数据的可视化分析作为示例,介绍FineBI的基本功能与使用方法。1)案例背景和数据介绍该案例使用的数据是以Excel表格形式存储的销售数据,,该表的格式如图6-42所示。图6-42超市销售数据的格式6.5.1FineBI数据可视化工具简介1)案例背景和数据介绍本案例关于一家超市的销售数据分析和预测,通过销售数据表的可视化分析,可以达到以下目的。(1)使用柱状图,比较超市中不同商品类别的销售额。(2)使用折线图,观察不同月份各类商品销售额的变化趋势。该超市销售数据表的字段有13个:日期、城市、单据编码、门店编码、门店名称、商品编码、商品类别、商品名称、省份、成本额、毛利额、数量和销售额。6.5.1FineBI数据可视化工具简介2)连接到数据源数据都存在业务包中,所以需要先新增业务包。首先,在FineBI的主界面中单击“数据准备”按钮,然后单击“新建分析主题”,添加一个名为“超市业务数据”的分析主题。添加完分析主题后,编辑该分析主题,然后进行添加本地Excel文件操作,选择“FineBI超市销售数据表”文件,单击“快速上传”按钮,最后单击“确定”按钮完成。超市销售数据的准备界面示意图如图6-43所示。图6-43超市销售数据的准备界面示意图6.5.1FineBI数据可视化工具简介3)创建组件和可视化数据FineBI提供了丰富的图表,按照自己的需求选择对应的图表进行制作,图表分成几个大类,分别为比较类、占比类、趋势类、关联类、分布类,用户可根据自己的目的选择适合的图表。FineBI的图表类型如表6-3所示。

表6-3FineBI的图表类型使用图表的目的适合的图表类型进行数据对比柱状图、对比柱状图、分组柱状图、堆积柱状图、分区折线图、雷达图、词云、聚合气泡图、玫瑰图显示数据比例饼图、矩形块图、百分比堆积柱状图、多层饼图、仪表盘观察数据趋势折线图、范围面积图、面积图、散点图、瀑布图查看数据分布散点图、地图、热力区域图、漏斗图6.5.1FineBI数据可视化工具简介3)创建组件和可视化数据图6-44各类商品的销售额柱状图在“超市数据”分析主题中新建一个数据可视化组件,在组件仪表板界面中(见图6-44),标称(名词)型字段会自动被归于“维度”类别(字段名前有T标志),数值型字段会被自动归于“指标”类别(字段名前有#标志)。分别将“商品类别”字段拖入“横轴”文本框,将“销售额”字段拖入“纵轴”文本框,将“商品类别”字段拖入“颜色”文本框,将“销售额”字段拖入“标签”文本框,则会显示如图6-44所示的各类商品的销售额柱状图,通过数据可视化,我们可以对比各类商品的销售额。6.5.1FineBI数据可视化工具简介3)创建组件和可视化数据我们还可以用饼图来对比各类商品的销售额占比,如图6-45所示。图6-45各类商品的销售额占比饼图6.5.1FineBI数据可视化工具简介3)创建组件和可视化数据图6-46不同月份各类商品销售额的变化趋势折线图接下来,创建折线图分析组件来观察不同月份各类商品销售额的变化趋势。首先设置图表类型为折线图;然后将“日期”字段拖入“横轴”文本框并将值设置为“年月”,将“销售额”字段拖入“纵轴”文本框;最后将“日期”字段拖入“颜色”文本框,将“商品类别”和“销售额”字段拖入“标签”文本框。不同月份各类商品销售额的变化趋势折线图如图6-46所示,从中可以观察不同月份各类商品销售额的变化趋势。6.5.2Tableau数据可视化工具简介Tableau是一款商业智能分析和数据可视化工具,致力于帮助人们查看并理解自己的数据。它来源于2003年斯坦福大学的一个计算机科学项

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论