大数据管理与应用 课件 第十三章 数据可视化_第1页
大数据管理与应用 课件 第十三章 数据可视化_第2页
大数据管理与应用 课件 第十三章 数据可视化_第3页
大数据管理与应用 课件 第十三章 数据可视化_第4页
大数据管理与应用 课件 第十三章 数据可视化_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十三章数据可视化大数据管理与应用——主编:王刚副主编:刘婧、邵臻01可视化概述02可视化主要类型03可视化主要方法04可视化评测图形是直观呈现数据的形式,然而,将大量数据在同一个图表中画出来并不容易。数据可视化就是研究利用图形展现数据中隐含的信息并发掘其中规律的学科。它是一门横跨计算机、统计、心理学的综合学科,并随着数据挖掘和大数据的兴起而进一步繁荣。1可视化概述可视化的历史悠久,从最早用墙上的原始绘图和图像、表中的数字以及黏土上的图像来呈现信息,到数据驱动时代的大数据可视化,大致可分为如图13-1所示的8个阶段:1.1可视化发展图13-1可视化发展时间轴在计算机学科的分类中,利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,称为可视化。从宏观的角度看,可视化包括以下三个功能:信息记录:可视化可以将大规模的数据记录下来,最有效的方式就是将信息成像或采用草图记载。信息推理与分析:将信息以可视的方式呈现给用户,引导用户从可视化结果分析和推理出有效信息。信息传播与协同:将复杂信息传播与发布给公众的最有效途径就是将数据进行可视化,以达到信息共享、信息协作、信息修正和信息过滤等目的。1.2可视化功能数据可视化大致可分为信息可视化、科学可视化和可视化分析三大类。由于可视化类型不同,可视化分析的流程模型略有不同,本质上还是离不开四步:分析、处理、生成、交互,如图13-5所示。1.3可视化流程图13-5可视化分析的流程分析:进行一个可视化任务时,首先要进行一系列分析工作,从总体上看,分析阶段包括三项任务:任务分析、数据分析、领域分析。处理:分析工作完成之后,接下来进行对数据的处理和对视觉编码的处理两部分工作。数据的处理包括数据清洗、数据规范和数据分析。视觉编码处理即如何使用位置、尺寸、灰度值、纹理、色彩、方向、形状等视觉通道,来映射要展示的每个数据维度。生成:生成可视化结果,即将视觉编码设计运用到实践中。从巨大的呈现多样性的空间中选择最合适的编码形式,这也正是数据可视化的核心内容。交互:对数据进行可视化和分析的目的是解决目标任务。通用的目标任务可分成三类:生成假设、验证假设和视觉呈现。交互是通过可视的手段辅助分析决策的直接推动力。1.3可视化流程数据可视化的处理对象是数据。自然地,数据可视化包含处理科学数据的科学可视化与处理抽象的、非结构化信息的信息可视化两个分支。科学可视化重点探索如何有效地呈现数据中几何、拓扑和形状特征,实现科学数据的交互式视觉呈现以加强认知。信息可视化的处理对象是非结构化、非几何的抽象数据,针对大尺度高维数据减少视觉混淆对有用信息的干扰。除此之外,将可视化与分析结合,形成一个新的学科:可视分析学。2可视化主要类型图13-6数据可视化分支科学可视化是可视化领域之中最早、最成熟的一个跨学科研究与应用领域。其主要关注三维现象的可视化,侧重于利用计算机图形学来创建客观的视觉图像,将这些学科中的数学方程等文字信息大量压缩呈现在一张图纸上,如图13-7所示:2.1科学可视化图13-7科学可视化视觉图像科学可视化设计有可视化流程的参考体系模型,并运用在数据可视化的系统中。图13-8是科学可视化的早期可视化流水线。这条流水线其实是数据处理与图形绘制的嵌套组合。2.1科学可视化图13-8科学可视化的早期可视化流水线鉴于数据的类别可分为标量(密度、温度)、向量(风向、力场)、张量(压力、弥散)三类,科学可视化也可粗略地分为三类。标量指单个数值,即在每个记录的数据点上有一个单一的值,标量场指二维、三维或四维空间中每个采样处都有一个标量值的数据场。可视化数据场的标准做法有如下表13-1所示的三种。2.1.1标量场可视化表13-1标量场可视化方法向量场在每个采样点处都是一个向量(一维数据组)。向量场可视化主要关注点是其中蕴含的流体模式和关键特征区域。除了通过拓扑或几何方法计算向量场的特征点、特征线或特征区域外,对向量场直接进行可视化的方法包括三类,如表13-2所示。2.1.2向量场可视化表13-2向量场可视化方法张量概念是矢量概念的推广,标量可看作0阶张量,矢量可看作1阶张量。张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。张量场可视化方法分为基于纹理、几何和拓扑三类,如表13-3所示。2.1.3张量场可视化表13-3张量场可视化方法信息可视化是研究抽象数据的交互式视觉表示以加强人类认知。信息可视化的核心问题主要包含高维数据的可视化、数据间各种抽象关系的可视化、用户的敏捷交互和可视化有效性的评断等。图13-10是由Card等提出的经典信息可视化参考模型(ReferenceModel)。目前几乎所有著名的信息可视化系统和工具包都支持这个模型,且绝大多数系统在基础层兼容。2.2信息可视化图13-10信息可视化参考模型信息可视化与科学可视化有所不同,科学可视化处理的数据具有天然几何结构,如磁感线、流体分布,信息可视化处理的数据具有抽象数据结构。两者的区别如表13-4所示。2.2信息可视化表13-4信息可视化与科学可视化的区别可视分析学是一门以可视交互界面为基础的分析推理科学。它是随着科学可视化和信息可视化发展而形成的新领域,重点是通过交互式视觉界面进行分析推理。可视分析学可以被看成为将可视化、交互和数据分析集成在内的一种新思路,如图13-11所示。2.3可视分析学图13-11可视分析学的学科集成从可视分析学标准流程上看,从数据到知识有两个途径:交互的可视化方法和自动的数据挖掘方法。这两个途径的中间结果分别是对数据进行交互可视化得到的结果和从数据中提炼的数据模型。如图13-12所示,在可视分析学流程中的核心要素包括以下几个方面:数据表示与转换。数据的可视化呈现。用户交互。分析推理。2.3可视分析学图13-12可视化分析学标准流程视觉编码(VisualEncoding)是数据与可视化结果的映射关系。这种映射关系可促使阅读者迅速获取信息,因此可以把可视化看成一组图形符号的组合。人类解码信息靠的是眼睛和视觉系统,如果说图形符号是编码信息的工具或通道,那么视觉就是解码信息的通道。因此,通常把这种图形符号-信息-视觉系统的对应称作视觉通道。3.1视觉编码图13-13未使用颜色饱和度的效果图图13-14使用颜色饱和度的效果图1967年,JacquesBertin出版的《SemiologyofGraphics》一书提出了视觉编码与信息的对应关系,奠定了可视化编码的理论基础。书中把图形符号分为位置变量和视网膜变量。位置变量一般指二维坐标视网膜变量则包括尺寸、数值、纹理、颜色、方向和形状一份具有高度可读性的可视化图表需要慎重选择视觉通道的类型和数量,因为包含的视觉通道太多,会造成视觉系统的混乱。表13-5总结出上述七种视觉编码及应用场景。通过以上总结可以看到不同视觉编码擅于处理的数据是不同的。结合不同的数据类型总结出视觉通道的三个性质。定性性质或分类性质定量性质或定序性质分组性质3.1视觉编码3.1视觉编码表13-5视觉编码及应用场景统计图表是最早的数据可视化形式之一,作为基本的可视化元素仍然被非常广泛地使用。对于很多复杂的大型可视化系统来说,其作为基本的组成元素而不可缺少。按照所呈现的信息和视觉复杂程度可将其分为三类:原始数据绘图、简单统计值标绘、多视图协调关联。原始数据绘图是指利用可视化原始数据的属性值,直接呈现数据特征。常见的图表有柱状图、走势图、饼图、散点图和散点图矩阵、热力图等。简单统计值标绘是指利用简单统计值标绘的最经典的图形便是盒须图。走势图通常以折线图为基础,使用高密度集的折线图表达方式展示数据随某一变量的变化趋势。多视图协调关联是将不同种类的绘图组合起来,每个绘图单元可以展现数据某个方面的属性,并且通常允许用户进行交互分析,提升用户对数据的模式识别能力。3.2统计图表可视化方法图可视化是指将图数据通过计算机图形学和图像处理技术,转化成图形或图像,完成信息展示、交互等功能。图可视化作为信息可视化的子领域,它通过展示元素、关系,帮助用户获取数据的洞悉能力。已被广泛地应用在流程图、社交网络、英特网、蛋白质网络等关系数据的呈现。最常用的布局方法主要包括节点链接法(NodeLink)、邻接矩阵法(AdjacencyMatrix)、混合布局法(HybridLayout)三类。三者之间没有绝对的优劣,在实际应用中针对不同的数据特征以及可视化需求选择不同的可视化表达方式。3.3图可视化方法节点链接法具体表现为顶点表示信息实体,边表示信息实体间的关联关系。这样的表达清晰直接,具有较高的可读性,方便用户理解,是最直接的一种可视化方法。节点链接法因其能够对网络结构、用户交互关系进行明朗的表达,因此,在网络数据可视化领域得到了主要应用。3.3.1节点链接法图13-26弧长链接图绘制人物图谱图13-25力引导布局绘制的人物图谱邻接矩阵法的主要思想是用一个N×N的矩阵来表示网络中的各顶点及顶点关系。矩阵中的一行一列对应一个信息实体,矩阵的位置(i,j)描述了第i个信息实体和第j个信息实体之间的关系。相邻矩阵法能很好地表达一个两两关联的网络数据(即完全图)。邻接矩阵法的另一个优点就是能够利用矩阵形式,清楚的表达网络关系的方向性。邻接矩阵的自身性质决定了其可视化效果往往具有稀疏性,空间利用率不高。通常采用高维嵌入方法和最近邻旅行商问题估计方法对稀疏的邻接矩阵进行排序。总的来说,邻接矩阵法解决了布局不均匀,边与边可能交叉的问题,适用于深层次的挖掘。但在对网络结构、网络关系的表达上不够清晰明朗。而且,一旦网络结构中的顶点数目规模较大时,邻接矩阵就不能保证在有限的屏幕空间将所有的顶点清晰的表达。3.3.2邻接矩阵法混合布局法综合了节点链接法以及邻接矩阵法两种方法,因此混合布局法又被成为点阵法。如图13-28所示,使用混合布局法对信息可视化学术圈学者合作关系进行可视化。3.3.3混合布局法图13-28利用混合布局法对信息可视化学术圈学者合作关系可视化随着可视化技术的不断丰富和成熟,对可视化方法的评估变得越来越重要。一方面,有必要对新方法进行评估,从而确认其优越性及适用范围。另一方面,可视化的推广和应用需要用户的信心,对可视化的有效评估有助于用户认识到可视化的作用,进而在专业领域里接受和使用可视化。但是现阶段,由于严格的评测费时费力,研究者更专注于研发新的可视化技术,因此测评在可视化研究

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论