数据可视化技术分析_第1页
数据可视化技术分析_第2页
数据可视化技术分析_第3页
数据可视化技术分析_第4页
数据可视化技术分析_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据可视化技术分析学生姓名:王修岩数据可视化技术分析第1页目录ContentsC01研究背景及意义02数据可视化主要方法03数据挖掘可视化04大数据环境下数据可视化05结论问题与挑战数据可视化技术分析第2页课题背景及意义当前,我们世界已经迈入大数据(bigdata)时代。截至

年,全世界天天产生2.5EB数据。然而,不论数据有多大,最终,信息必须流经一个最紧瓶颈,人脑吸收和处理新信息能力所能到达速度。人类视觉系统不足以满足人类以数据本身形式来工作要求,所以迫切需要提供可视化工具。所谓数据可视化,是对大型数据库或数据仓库中数据可视化,它是可视化技术在非空间数据领域应用,使人们不再局限于经过关系数据表来观察和分析数据信息,还能以更直观方法看到数据及其结构关系。数据可视化技术基本思想是将数据库中每一个数据项作为单个图元元素表示,大量数据集组成数据图像,同时将数据各个属性值以多维数据形式表示,能够从不一样维度观察数据,从而对数据进行更深入观察和分析。研究背景及意义数据可视化技术分析第3页返回一幅图胜过千言万语.人类从外界取得信息约有80%以上来自于视觉系统,当大数据以直观可视化图形形式展示在分析者面前时,分析者往往能够一眼洞悉数据背后隐藏信息并转化知识以及智慧.如图所表示是互联网星际图,将196个国家35万个网站数据整合起来,并依据200多万个网站链接将这些星球经过关系链联络起来,每一个星球大小依据其网站流量来决定,而星球之间距离远近则依据链接出现频率、强度和用户跳转时创建链接.我们能够马上看出,Facebook以及Google是流量最大网站。研究背景及意义数据可视化技术分析第4页返回可视化主要方法人类认知系统能够识别空间三维物体,对于抽象无线识别很困难。当前对于组成可视化方法中主要方法,有以下几个方面。空间三维图形:经过图形密度颜色分布,大致能够了解数据分布,数据之间相同性和数据之间关系。颜色图:分为彩色图和灰度图。彩色图每一个颜色,对应着不用属性维,灰度图能够利用颜色深浅来标识数据量属性值大小,颜色越深数值越大。亮度:对于特定区域,用不一样亮度来辅助人眼对视点观察。数学方法:利用数学中统计方法,先对数据关系进行分析,得到数据大致分布信息,然后再结合其它可视化方法来进行细节数据分析。或者利用数学统计方法对数据中关系进行映射,映射成为图形图像关系来帮助分析。数据可视化技术分析第5页返回可视化主要方法当前主要多维数据可视化技术1ScatterplotMatrix

(散点图矩阵)Scatterplot是显示多个数据维中任意两个数据维之间依赖关系矩阵图,分别把多维数据中每一个维数对称地标注在横轴和纵轴上,把它们在数据集中每一对出现频度作为关系依赖评价,这么每两维关系被显示在这个平面网格图中(图3)。在Scatterplot

matrixn维矩阵中,scatterplots会产生n*(n-1)/2对维之间关系。数据可视化技术分析第6页返回可视化主要方法2几何图技术1)星型图:每个星型标识结构方法以下:任选空间某一点作为一个星型标识中心点,由中心点作出n条线段来代表n个数据维,这n个线段把平面平均分成n份。普通地,每一个线段长度代表一个数据维值大小。把一个星型标识线段终点全部用直线连接起来,就组成了一个星型图(图4)。每一个星型图都代表数据库中一条统计,这么一组数据就用一组星型来代表。2)雷达图:类似于星型图结构方法。3)Andrew’sGurves:对于多维数据数据点x=(x1,x2,*,*,*,*,xn),被周期函数Fx(t)=X1/sqrt(2)+X2sin(t)+X3cot+X4Sin(2t)+cos(2t)作用于一个多维数据点或者(一个多维)数据集合,被显示成为一组曲线,曲线分布情况反应了数据性质。4)shapecoding技术:主要思想是每一个数据点位于一个已经分解成n个细胞表格长方形中,而且每一个细胞表格颜色由每一维来控制。5)Grand-tour技术:从不一样视角对待多维数据,投影数据在可能d-planes经过泛化旋转。数据可视化技术分析第7页返回可视化主要方法3平行坐标技术平行坐标技术是最早提出以二维形式表示n维空间数据可视化技术之一。它基本思想是将n维数据空间用n条等距离平行轴映射到二维平面上,每条轴线都对应于一个属性维。坐标轴取值范围,从对应数据维属性最小值到最大值均匀分布(名词性属性依次在数据维上标出即可),这么数据库中每一条数据统计都能够转换成为图形形式,都能够用一条折线表示在n条平行轴上(图6)。数据可视化技术分析第8页返回传统数据挖掘过程如图1所表示,是以机器为中心;而新吸纳了可视化技术数据挖掘过程是以人为中心,如图2所表示。以人为中心数据挖掘过程,将数据挖掘与可视化技术完美结合,提升了数据挖掘过程灵活性、有效性、与用户交互性。数据挖掘可视化在数据挖掘算法所生成大量模式中,最终只有少许信息能够以文字形式解释和评定。因而可视化技术作为服务于计算机与用户之间沟通纽带,为用户提供关于数据和知识直观信息。传统数据挖掘过程不可见、不可观,用户无法干预挖掘过程,对用户来说好像一个黑箱子。使用适当可视化技术,帮助用户更紧密地与整个过程结合,处理挖掘系统中存在一些问题。数据可视化技术分析第9页返回数据挖掘中可视化可分为以下三类:(1)数据可视化。数据库和数据仓库中数据可看作含有不一样粒度或不一样抽象级别。离散点图可能是数据挖掘中用最广泛可视化工具,帮助人们分析数据聚类,观察数据分布,有没有奇异点。对于只有两个或三个属性数据,可采取平面或立体表现形式,多个属性数据集,要用到离散点矩阵,矩阵每一单元为数据基于某两维表示。(2)数据挖掘过程可视化。数据挖掘过程各个步骤用可视化方式表现出来,用户可从中直观看到内容。易于了解并有利于知识利用。(3)数据挖掘模型可视化。有些模型极难被解释,模型可视化可从两个方面考虑:1,让模型输出可视化,模型用一个有意义方式表示。2,交互,允许用户操纵模型,改变模型输入以观察模型输出改变。数据挖掘可视化数据可视化技术分析第10页返回如图3(a)所表示。作为观察”数据山“第一步,应用于数据预处理阶段。以图形方式提供一个数据可视印象,给用户一个大致直观感受,帮助用户确定从何处着手挖掘。如图3(b)所表示。作为直接执行数据挖掘一个方法,应用于数据挖掘实施阶段,允许用户借助人脑探索分析功效寻找发觉模式。当人脑能够对显示图形做出判断时,这种方式较使用计算机自动数据挖掘技术有效多。假如3(c)所表示。作为挖掘结果和预测模型一个方式,应用于数据挖掘最终阶段,使最终用户能够更加好地了解挖掘出结果模式。数据挖掘可视化数据可视化技术分析第11页返回可视化技术在数据挖掘中能够起到以下作用:(1)经过提供对数据和知识可视化,能够利用人类模式识别能力评定和提升挖掘出结果模式有效性。(2)利用可视化技术建立用户与数据挖掘系统交互良好沟通通道,使用户能够使用自己丰富行业知识来规整、约束挖掘过程,改进挖掘结果。(3)提供对挖掘结果可视化显示,使用户对结果模式能够有深刻直观了解,从而打破传统挖掘算法黑盒子模式,使用户对挖掘系统信赖程度大大提升。数据挖掘可视化数据可视化技术分析第12页返回大数据环境下数据可视化大数据可视分析是指大数据自动分析挖掘方法同时,利用支持信息可视化用户界面以及支持分析过程人机交互方式与技术,有效融累计算机计算能力和人认知能力,以取得对于大规模复杂数据集洞察力。数据可视化技术分析第13页返回大数据环境下数据可视化上图是经典信息可视化参考模型大数据分析将掘取信息和洞悉知识作为目标,依据信息特征把信息可视化技术分为一维信息、二维信息、三维信息、多维信息、层次信息、网络信息、时序信息可视化。伴随大数据兴起于发展,互联网、社交网络、地理信息系统、企业商业智能、社会公共服务等主流应用领域逐步催生了几类特征鲜明信息类型,包含文本、网络或图、时空、多维数据等,这些与大数据亲密相关信息类型,将成为大数据可视化主要研究领域。数据可视化技术分析第14页返回大数据环境下数据可视化文本信息是大数据时代非结构化数据类型经典代表。如图所表示,经典文本可视化技术是标签云。将关键词依据词频或其它规则进行排序,按照一定规律进行布局排列,用大小、颜色、字体等图形属性对关键词进行可视化,当前,大多用字体大小代表该关键词主要性,在互联网应用中,多用于快速识别网络媒体主题热度,当关键词规模不停增大时,若不设置阀值,将出现布局密集和重合覆盖等问题,此时需提供交互界面允许用户对关键词进行操作。数据可视化技术分析第15页返回大数据环境下数据可视化文本中通常蕴含着逻辑层次结构和一定叙述模式,为了对结构语义进行可视化,如图前者DAViewer将文本以树形式进行可视化,同时展现了相同度统计,修辞结构以及对应文本内容。如图后者DocuBurst以放射状层次圆环形式展示文本结构。数据可视化技术分析第16页返回大数据环境下数据可视化文本形成和改变过程与时间属性亲密相关。如图前者(Theme)用河流作为隐喻,河流从左至右流淌代表时间序列,文本主题按不一样颜色带表示,频度以色带宽窄表示。基于河流隐喻研究者又提出了后者(TextFlow),深入展示了主题合并和分支关系。数据可视化技术分析第17页返回大数据环境下数据可视化网络关联关系是大数据中最常见关系,比如互联网与社交网络,层次结构也属于网络信息一个特殊情况。基于网络节点和连接拓扑关系,直观地展示网络中潜在模式关系,比如节点或边聚集性,是网络可视化主要内容之一。对于含有海量节点和边大规模网络,怎样在有限屏幕空间中进行可视化,将是大数据时代面临难点和重点.除了对静态网络拓扑关系进行可视化,大数据相关网络往往含有动态演化性,所以,怎样对动态网络特征进行可视化,也是不可或缺研究内容.数据可视化技术分析第18页返回大数据环境下数据可视化研究者提出了大量网络可视化或图可视化技术,Herman等人综述了图可视化基本方法和技术,如图所表示.经典基于节点和边可视化,是图可视化主要形式.图中主要展示了含有层次特征图可视化经典技术,比如H状树H-Tree、圆锥树ConeTree、气球图BalloonView、放射图RadialGraph、三维放射图3DRadial、双曲树HyperbolicTree等.数据可视化技术分析第19页返回大数据环境下数据可视化对于含有层次特征图,空间填充法也是常采取可视化方法,比如树图技术Treemaps及其改进技术,如图所表示是基于矩形填充、Voronoi图填充、嵌套圆填充树可视化技术.Gou等人综合集成了上述各种图可视化技术,提出了TreeNetViz,综合了放射图、基于空间填充法树可视化技术.这些图可视化方法技术特点是直观表示了图节点之间关系,但算法难以支撑大规模(如百万以上)图可视化,而且只有当图规模在界面像素总数规模范围以内时效果才很好(比如百万以内),所以面临大数据中图,需要对这些方法进行改进,比如计算并行化、图聚簇简化可视化、多尺度交互等.数据可视化技术分析第20页返回大数据环境下数据可视化大规模网络中,伴随海量节点和边数目不停增多,比如规模到达百万以上时,可视化界面中会出现节点和边大量聚集、重合和覆盖问题,使得分析者难以辨识可视化效果.图简化(graphsimplification)方法是处理这类大规模图可视化主要伎俩:•一类简化是对边进行聚集处理,比如基于边捆绑(edgebundling)方法,使得复杂网络可视化效果更为清楚,下列图展示了3种基于边捆绑大规模密集图可视化技术.另外,Ersoy等人还提出了基于骨架图可视化技术,主要方法是依据边分布规律计算出骨架,然后再基于骨架对边进行捆绑;数据可视化技术分析第21页返回大数据环境下数据可视化•另一类简化是经过层次聚类与多尺度交互,将大规模图转化为层次化树结构,并经过多尺度交互来对不一样层次图进行可视化.比如,如图所表示ASK-Graphview能够对含有1600万条边图进行分层可视化.这些方法技术将为大数据时代大规模图可视化提供有力支持,同时我们应该看到,交互技术引入,也将是处理大规模图可视化不可或缺伎俩数据可视化技术分析第22页返回大数据环境下数据可视化时空数据是指带有地理位置与时间标签数据.传感器与移动终端快速普及,使得时空数据成为大数据时代经典数据类型.时空数据可视化与地理制图学相结合,重点对时间与空间维度以及与之相关信息对象属性建立可视化表征,对与时间和空间亲密相关模式及规律进行展示.大数据环境下时空数据高维性、实时性等特点,也是时空数据可视化重点.数据可视化技术分析第23页返回大数据环境下数据可视化为了反应信息对象随时间进展与空间位置所发生行为改变,通常经过信息对象属性可视化来展现.流式地图Flowmap是一个经典方法,将时间事件流与地图进行融合,下列图

显示了使用Flowmap分别对1864年法国红酒出口情况以及拿破仑进攻俄罗斯情况可视化例子.数据可视化技术分析第24页返回大数据环境下数据可视化散点图(scatterplot)是最为常用多维可视化方法,二维散点图将多维中两个维度属性值集合映射至两条轴,在二维轴确定平面内经过图形标识不一样视觉元素来反应其他维度属性值,比如,可经过不一样形状、颜色、尺寸等来代表连续或离散属性值。以下列图所示.二维散点图能够展示维度十分有限。研究者将其扩展到三维空间,经过可旋转Scatterplot方块(dice)扩展了可映射维度数目,以下列图中右图所示.散点图适合对有限数目标较为主要维度进行可视化,通常不适于需要对全部维度同时进行展示情况.数据可视化技术分析第25页返回大数据环境下数据可视化投影(projection)是能够同时展示多维可视化方法之一.如左图所表示,VaR将各维度属性列集合经过投影函数映射到一个方块形图形标识中,并依据维度之间关联度对各个小方块进行布局.基于投影多维可视化方法首先反应了维度属性值分布规律,同时也直观展示了多维度之间语义关系.平行坐标(parallelcoordinates)是研究和应用最为广泛一个多维可视化技术,如右图

所表示,将维度与坐标轴建立映射,在多个平行轴之间以直线或曲线映射表示多维信息.近年来,研究者将平行坐标与散点图等其它可视化技术进行集成,提出了平行坐标散点图PCP(parallelcoordinateplots).数据可视化技术分析第26页返回问题与挑战(1)多源、异构、非完整、非一致、非准确数据集成与接口大数据可视化所依赖基础是数据,而大数据时代数据起源众多。且对来自于异构环境,即使取得数据源,得到数据完整性、一致性、准确性都难以确保。数据质量不确定问题将直接影响可视化分析科学性和准确性,大数据可视化前提是建立在集成数据接口,而且与可视化分析系统形成松耦合接口关系,以供各种可视化算法方便调用,使得可视

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论