大数据可视化技术-复杂数据可视化拓展_第1页
大数据可视化技术-复杂数据可视化拓展_第2页
大数据可视化技术-复杂数据可视化拓展_第3页
大数据可视化技术-复杂数据可视化拓展_第4页
大数据可视化技术-复杂数据可视化拓展_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

复杂数据可视化主要内容:什么是数据可视化数据可视化流程数据的可视化呈现用户交互什么是数据可视化“可视化”或它的全称“科学计算可视化”(VisualizationinScientificComputing,ViSC)一词是在1987年根据美国国家科学基金会召开的“科学计算可视化研讨会”内容撰写的一份报告中正式提出的。在短短20余年历史中,科学计算可视化发展成为一个十分活跃的研究领域,新的研究分支不断涌现,如出现了用于表示海量数据不同类型及其逻辑关系的信息可视化技术,以及将可视化与分析相结合的可视分析学研究方向。现在又有了把“科学计算可视化”、“信息可视化”和“可视分析学”这三个分支整合在一起的新学科“数据可视化”。——石教英浙江大学计算机辅助设计与图形学国家重点实验室在计算机学科的分类中,利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,称为可视化。它将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色、纹理等,增强数据识别效率,传递有效信息。——唐泽圣、陈为.可视化条目.中国计算机大百科全书,2011年修订版可视化通常被理解为一个生成图形图像的过程。更深刻的认识是,可视化是认知的过程,即形成某个物体的感知图像,强化认知理解。因此,可视化的终极目的是对事物规律的洞悉,而非所绘制的可视化结果本身。这包含多重含义:发现、决策、解释、分析、探索和学习。因此,可视化可简明地定义为“通过可视表达增强人们完成某些任务的效率”。——MatthewWard,GeorgesGrinstein,DanielKeim.InteractiveDataVisualization:Foundations,Techniques,andApplications.May,2010什么是数据可视化科学可视化、信息可视化和可视分析三者之间没有清晰边界。科学可视化的研究重点是带有空间坐标和几何信息的医学影像数据、三维空间信息测量数据、流体计算模拟数据等。信息可视化的核心问题主要有高维数据的可视化、数据间各种抽象关系的可视化、用户的敏捷交互和可视化有效性的评断等。可视分析偏重于从各类数据综合、意会和推理出知识,其实质是可视地完成机器智能和人脑智能的双向转换,整个探索过程是迭代的、螺旋式上升的过程。左图:诠释了可视分析学包含的研究内容右图:综合了图形学、数据挖掘和人机交互等技术图3欧洲学者DanielKeim等人提出的可视分析学标准流程数据可视化流程数据可视化不仅是一门包含各种算法的技术,还是一个具有方法论的学科。因此,在实际应用中需要采用系统化的思维设计数据可视化方法与工具。图1科学可视化的早期可视化流水线图2由Card,Mackinlay和Shneiderman等人提出的信息可视化参考流程数据可视化流程数据可视化流程中的核心要素包括三个方面。数据表示与变换

数据可视化的基础是数据表示和变换。为了允许有效的可视化、分析和记录,输入数据必须从原始状态变换到一种便于计算机处理的结构化数据表示形式。数据的可视化呈现

数据可视化向用户传播了信息,而同一个数据集可能对应多种视觉呈现形式,即视觉编码。数据可视化的核心内容是从巨大的呈现多样性空间中选择最合适的编码形式。

大量的数据采集通常是以流的形式实时获取的,针对静态数据发展起来的可视化显示方法不能直接拓展到动态数据。这不仅要求可视化结果有一定的时间连贯性,还要求可视化方法达到高效以便给出实时反馈。因此不仅需要研究新的软件算法,还需要更强大的计算平台(如分布式计算或云计算)、显示平台(如一亿像素显示器或大屏幕拼接)和交互模式(如体感交互、可穿戴式交互)。用户交互

交互是通过可视的手段辅助分析决策的直接推动力。有关人机交互的探索已经持续很长时间,但智能、适用于海量数据可视化的交互技术,如任务导向的、基于假设的方法还是一个未解难题,其核心挑战是新型的可支持用户分析决策的交互方法。这些交互方法涵盖底层的交互方式与硬件、复杂的交互理念与流程,更需要克服不同类型的显示环境和不同任务带来的可扩充性难点。数据可视化设计数据可视化的设计简化为四个级联的层次(见图1)。简而言之,最外层(第一层)是刻画真实用户的问题,称为问题刻画层。第二层是抽象层,将特定领域的任务和数据映射到抽象且通用的任务及数据类型。第三层是编码层,设计与数据类型相关的视觉编码及交互方法。最内层(第四层)的任务是创建正确完成系统设计的算法。

图1可视化设计的层次嵌套模型数据的可视化呈现(基本图表)统计图表是最早的数据可视化形式之一,作为基本的可视化元素仍然被非常广泛地使用。对于很多复杂的大型可视化系统来说,这类图表更是作为基本的组成元素而不可缺少。图1单变量数据轨迹。股票K线图,时间是自变量,股指是因变量图2左:标准的柱状图(BarChart);右:增强版柱状图(也称堆叠图),编码对比了几个国家不同年龄段人口数量。图3不同的直方图(Histogram)分布形态。直方图的各个部分之和等于单位整体,而柱状图的各个部分之和没有限制,这是两者的主要区别。图4饼图(PieChart)实例,展示了某产品在各省的销售比例情况数据的可视化呈现(基本图表)散点图(ScatterPlot)和散点图矩阵(ScatterPlotMatrix)散点图是表示二维数据的标准方法。在散点图中,所有数据以点的形式出现在笛卡尔坐标系中,每个点所对应的横纵坐标即代表该数据在坐标轴所表示维度上的属性值大小。散点图矩阵是散点图的高维扩展,用来展现高维(大于二维)数据属性分布。可以通过采用尺寸、形状和颜色等来编码数据点的其他信息。对不同属性进行两两组合,生成一组散点图,来紧凑地表达属性对之间的关系,如图1所示。图1四维数据的散点图矩阵表示。左图为单个散点图区域的放大效果。热力图(HeatMap)热力图使用颜色来表达位置相关的二维数值数据大小。这些数据常以矩阵或方格形式整齐排列,或在地图上按一定的位置关系排列,每个数据点的颜色编码数值大小,如图2所示。图2使用热力图展示出租车的繁忙程度数据的可视化呈现(基本图表)多视图协调关联(MultipleCoordinatedViews)将不同种类的绘图组合起来,每个绘图单元可以展现数据某个方面的属性,并且通常允许用户进行交互分析,提升用户对数据的模式识别能力。图2用于比较多尺度线粒体的基因数据的可视化系统MizBee的界面盒须图它的基本形式是用一个长方形盒子表示数据的大致范围(数据值范围的25%~75%),并在盒子中用横线标明均值的位置。同时,在盒子上部和下部分别用两根横线标注最大值和最小值。图1盒须图的标准表示(左图)及其若干变种数据的可视化呈现(时变数据可视化)线性和周期时间可视化不同类别的时变型数据需采用不同的可视方法来表达。标准的显示方法将时间数据作为二维的线图显示,x轴表示时间,y轴表示其他的变量,如图1。为了体现时变型数据的周期结构,可以采用环状表示某时间段内的时间结构,如图2所示。图2采用环状表示一周(左)和一天(右)中手机用户活动的时间分布图1时序数据的线性表达--标准的单轴序列图数据的可视化呈现(时变数据可视化)时变型数据中的其他属性可以采用不同的可视化通道表达。例如,图中华盛顿邮报发布的可视化作品展现了过去的30年里,电子产品的价格变化趋势。其中,使用圆点的大小和颜色来分别表示电子产品的价格和类别。图部分电子产品在1980—2010年价格和销量的变化趋势。横轴表示年份,纵轴表示销量。圆点的大小表示价格,颜色表示产品类别。数据的可视化呈现(时变数据可视化)日历时间可视化对于日历时间的可视化,在表达维度上一般采用表格映射的方式对时间轴进行处理。图1和图2分别展示了三种日历视图。图2采用d3.js软件可视化2006—2009年美国道琼斯股票指数。可视化结果清晰地展现了2008年10月金融危机爆发前后美国股市的激烈状况。图1不同的日历视图。左:12边形日历,右:螺旋形日历。数据的可视化呈现(时变数据可视化)流数据可视化-文本流数据-FluxFlowFluxFlow是一个分析社交媒体中异常信息扩散的可视分析系统。该系统首先对时序文本进行聚类,然后利用类似于文本流的可视化设计对每个聚类中的帖子进行可视化。如图所示,每个圆点都代表一个帖子以及这个帖子的所有回复,圆点的大小编码了参与这个帖子的用户数量,圆点的颜色则编码了异常分数,颜色越偏紫则帖子的内容越异常。利用这样的可视化设计,人们在社交媒体上的讨论内容随时间的变化便被直观地展现出来。图

FluxFlow系统主要视图,对一个聚类中的所有帖子进行可视化数据的可视化呈现(时变数据可视化)流数据可视化-文本流数据-D-Map利用地图的隐喻来对时序文本进行可视化。如图所示为D-Map系统概览。这个系统主要是为了展示信息扩散模式以及重要社交媒体用户在信息扩散过程中发挥的作用。在信息扩散地图中,用户被抽象为六边形节点,核心用户用黑色框进行高亮显示。颜色用来编码用户所属的社团。用户可以通过选择不同的时刻来对某个时刻的信息扩散进行分析,同时系统还支持对多个不同时刻的地图进行比较。图

D-Map系统概览数据的可视化呈现(层次和网络数据可视化)层次数据层次数据是一种常见的数据类型,着重表达个体之间的层次关系。这种关系主要表现为两类:包含和从属1.节点-链接(Node-link)法:将单个个体绘制成一个节点,节点之间的连线表示个体之间的层次关系。这种方法直观清晰,特别擅长于表示承接的层次关系。但是,当个体数目太多,特别是广度和深度相差较大时,节点-链接方法的可读性较差——大量数据点聚集在屏幕局部范围,难以高效地利用有限的屏幕空间。图1单词树可视化设计数据的可视化呈现(层次和网络数据可视化)2.空间填充(Space-filling)法:用空间中的分块区域表示数据中的个体,并用外层区域对内层区域的包围表示彼此之间的层次关系。其中的代表方法是树图。和节点-链接法相比,这种方法更适合于显示包含和从属的关系,且具有高效的屏幕空间利用率,可呈现更多的数据。此方法的缺点在于数据中的层次信息表达不如节点-链接法清晰。树图由Johnson和Schneiderman在20世纪90年代初发明的树图(Treemap)从空间填充的角度实现层次数据的可视化。树图法采用矩形表示层次结构里的节点,父子节点之间的层次关系用矩形之间的相互嵌套隐喻来表达。此方法可以充分利用所有的屏幕空间。图1基于树图法的新闻分类可视化系统Newsmap数据的可视化呈现(层次和网络数据可视化)网络(Network)数据与树型数据中明显的层次结构不同,网络数据并不具有自底向上或自顶向下的层次结构,表达的关系更加自由和复杂。网络通常用图(Graph)表示。图的绘制包括三个方面:网络布局、网络属性可视化和用户交互,其中布局确定图的结构关系,是最核心要素。最常用的布局方法有节点-链接法和相邻矩阵两类。两者之间没有绝对的优劣,在实际应用中针对不同的数据特征以及可视化需求选择不同的可视化表达方式,或采用混合表达方式。数据的可视化呈现(层次和网络数据可视化)1.节点-链接法力引导布局(Force-directedLayout)节点-链接布局方法主要有力引导布局(Force-directedLayout)。力引导布局可广泛地应用于各类无方向图,很多可视化工具包都实现了这个算法,只要在调用工具包中的布局之前定义好点、边和权重,就能快速地实现一个力引导布局图1力引导布局算法实例。法国作家维克多·雨果的小说《悲惨世界》的人物图谱。节点颜色编码了通过子群划分算法计算的人物分类类别,边的粗细编码了两个节点代表的人物之间共同出现的频率。数据的可视化呈现(层次和网络数据可视化)2.相邻矩阵法与节点-链接法相比,相邻矩阵能很好地表达一个两两关联的网络数据(即完全图),而节点-链接图不可避免地会造成极大的边交叉,造成视觉混乱3.混合布局方法如果单独采用任何一种布局都不能很好地表达数据,可混合两者的布局设计。图1相邻矩阵法的排序实例。法国作家维克多·雨果的小说《悲惨世界》的人物图谱。图例中,采用子群聚类算法获得的人物分类结果对相邻矩阵的行和列进行排序。用户交互(七类基本交互技术)1.选择:标记感兴趣的数据对象、区域或特征。根据交互目的和交互延时的不同,选择方式大致可以分为(1)鼠标悬浮选择(2)鼠标点击选择(3)刷选/框选图1弹出标签示意图。当鼠标悬浮选择代表交易的某一个元素时,该次交易的地点、内容和交易时间将会以弹出标签的方式显示。当鼠标移出该元素时,该标签也会随之消失。图2刷选示意图。(a)用鼠标刷选一条道路;(b)刷选对应车辆的速度统计图;(c)刷选对应路口的车流量统计图;(d)刷选对应道路的通行情况统计图。用户交互(七类基本交互技术)2.导航:展示不同的数据部分或属性导航(Navigation)是可视化系统中最常见的交互手段之一。在可视化领域,缩放、平移和旋转是导航中三个最基本的动作,换言之,是调整视点位置、控制视图内容的三个最基本手段。用户交互(七类基本交互技术)3.重配:展示一个不同的可视化配置重配(Reconfigure)旨在通过改变数据元素在空间中的排列,为用户提供观察数据的不同视角。图1在Smartadp系统中对图标的重排列方法示意图。用户选择了除第一列的所有属性,系统根据选中列的数据的加权和对数据进行了重排列。矩形代表数据的大小。用户交互(七类基本交互技术)4.编码:展示一个不同的视觉表现视觉编码是可视化的核心要素之一,交互式地改变数据元素的可视化编码,如改变颜色编码、更改大小、改变方向、更改字体、改变形状等,或者使用不同的表达方式以改变视觉外观,可以直接影响用户对数据的认知。、

图1

MacEachren总结了11种可视化编码元素,包括位置、大小、颜色、深浅、饱和度、纹理方向、纹理密度、纹理排列方法、形状、边缘模糊程度和透明度用户交互(七类基本交互技术)5.抽象/具象:展示数据概览或更多细节抽象/具象(Abstraction/Elaboration)交互技术可以为用户提供不同细节等级的信息,用户可以通过交互控制显示更多或更少的数据细节。

在可视化系统中,抽象往往能展示更多的数据对象,方便用户对数据整体的理解;而具象往往能展示对象更多的属性和细节,使得用户可以直观地探索数据。在实际应用中,抽象/具象技术往往体现为概览+细节这样的交互模式

如图1所示的Sunburst布局允许用户自行控制显示的层次,以达到浏览各个层次级别细节信息的目的。图1抽象/具象示例之Sunburst布局。左:使用该布局呈现某层级树形结构数据,红色框选节点为当前选中目标;右:在点击红色框选节点之后该节点下的细节被具体展现出来(蓝色部分)。红色框部分为蓝色部分的一个抽象,当数据太多时用户并不需要完全掌握所有的展开细节,通过交互可以灵活控制抽象概览和具象细节的量。用户交互(七类基本交互技术)6.过滤:根据过滤条件展示部分数据过滤(Filtering)指通过设置约束条件实现信息查询。这是日常生活中常见的获取信息方法。图1

HomeFinder展示了华盛顿特区地图并用1100个亮点标识了该地区待售房屋。用户可通过右侧的滑块和按钮设置过滤条件,符合条件的房屋被实时高亮标出。用户交互(七类基本交互技术)7.关联:展示相关数据关联(Connection)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论