大数据导论-思维、技术与应用 第15章 大数据可视化_第1页
大数据导论-思维、技术与应用 第15章 大数据可视化_第2页
大数据导论-思维、技术与应用 第15章 大数据可视化_第3页
大数据导论-思维、技术与应用 第15章 大数据可视化_第4页
大数据导论-思维、技术与应用 第15章 大数据可视化_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据导论第十五章CONTENTS目录PART01数据可视化简介PART02数据到视觉通道的映射PART03基本图表PART04大数据可视化简介PART05高维数据可视化PART06作业PART01数据可视化简介数据是非常强大的,但是只有真正理解了它的内容,数据的强大之处才能真正体现出来。通过观察数字和统计数据的转换以获得清晰的结论并不是一件容易的事。必须用一个合乎逻辑的、易于理解的方式来呈现数据。人类的大脑对视觉信息的处理优于对文本的处理,因此使用图表、图形和地图等可以帮助人们更好地理解数据。什么是可视化什么是数据可视化数据可视化是关于数据的视觉表现形式的研究;这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。数据可视化的标准数据可视化的标准可视化技术应用标准应该包含以下5个方面:1)真实性:可视化结果应该正确反映数据的本质;2)直观化:将数据直观、形象的呈现出来,有利于人们认知数据背后所蕴涵的现象和规律;3)关联化:突出的呈现出数据之间的关联性;4)艺术性:使数据的呈现更具有艺术性,更加符合审美规则,使可视化结果的形式与内容和谐统一;5)交互性:实现用户与数据的交互,方便用户控制数据。数据可视化的发展阶段数据可视化的发展阶段1.科学可视化科学可视化主要关注三维空间数据的可视化,强调线、面、体等几何、拓扑结构的真实表达。其主要应用领域是自然科学。根据数据的不同类别,科学可视化可分为三种:标量场可视化矢量场可视化张量场可视化数据可视化的发展阶段数据可视化的发展阶段2.信息可视化二十世纪90年代初期,人们发起了一个称为“信息可视化”的研究领域,旨在为许多应用领域之中对于抽象的异质性数据集的分析工作提供支持。信息可视化是以增强人的认知能力为目的的抽象数据和非结构化数据可视表达的研究。与科学可视化相比,信息可视化主要关注抽象数据,不仅包括数值数据,也包括非数值数据,如文本、图像、层次结构等。数据可视化的发展阶段数据可视化的发展阶段3.数据可视化信息可视化更关注数据,包括那些来自商业、财务、行政管理、数字媒体等方面的大型异质性数据集合。因此,21世纪人们正在逐渐接受这个同时涵盖科学可视化与信息可视化领域的新生术语“数据可视化”。数据可视化指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。数据可视化流程数据可视化流程数据可视化流程中的核心要素包括如下三个方面:数据表示与变换数据可视化的基础是数据表示和变换。输入数据须从原始状态变换到一种便于计算机处理的结构化的数据表示形式。通常这些结构存在于数据本身,需要研究有效的数据提炼或简化方法以最大程度地保持信息、知识的内涵和相应的上下文。数据可视化流程数据的可视化呈现数据可视化向用户传播了信息,而同一个数据集可对应多种视觉呈现形式,即视觉编码。数据可视化的核心内容是从巨大的呈现多样性空间中选择最合适的编码形式。判断某个视觉编码是否合适的因素包括感知与认知系统的特性、数据本身的属性和目标任务。数据可视化流程用户交互对数据进行可视化和分析的目的是解决目标任务。通用的目标任务可分成三类:生成假设验证假设视觉呈现交互是通过可视的手段辅助分析决策的工具。数据可视化流程1990年RobertB.Haber和DavidA.McNabb提出的数据可视化流程,它展示了以数据模态为依据的可视化流程:分析、滤波、可视映射和绘制。数据可视化流程从数据变换的角度看,可视化流程也可理解为四个数据阶段和三种数据转换操作:PART02数据到视觉通道的映射数据可视化为借助于图形观察数据提供了更多技术,可以帮助我们识别“隐藏”在无结构数据集中的关系、趋势和偏差。设计数据到视觉通道的映射是数据可视化的核心基本数据类型数据集由数据对象组成,一个数据对象代表一个实体。数据对象又称样本、实例、数据点或对象。属性是一个数据字段,表示数据对象的一个特征。特征、属性、维变量可以互换地使用。一个属性的类型由该属性可能具有的值的集合决定。属性可以是:类别型的有序型的数值型的基本数据类型类别型数据类别型数据的值是一些符号或事物的名称。假设:头发颜色和婚姻状况是两个描述人的属性。头发颜色的可能值为黑色、棕色、淡黄色、红色、赤褐色、灰色和白色。婚姻状况的取值可以是单身、已婚、离异和丧偶。它们都是类别型数据。基本数据类型有序型数据有序型数据是一种属性,其可能的值之间具有有意义的序,但是相继值之间的差是未知的。学习成绩是一个有序型数据,例如A+、A、A-、B+等。职位也是一个有序型数据,例如对于教师有助教、讲师、副教授和教授等。这些值具有有意义的先后次序,然而,我们不能说教授比讲师大多少。基本数据类型数值型数据数值型数据是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。区间标度数据用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。例如:温度就是区间标度的,我们可以对多个温度进行排序,还可以量化不同温度值之间的差。比率标度数据是具有固有零点的数值属性。如果度量是比率标度的,则我们可以说一个值是另一个的倍数(或比率)。例如:工作年限、重量、高度、速度和货币量。视觉通道简介数据可视化的核心内容是可视化编码,是将数据信息映射成可视化元素的技术。可视化编码由两部分组成:几何标记(图形元素):可视化中标记通常是一些几何图形元素,例如:点、线、面、体;视觉通道:用于控制几何标记的展示特性,包括标记的位置、大小、形状、方向、色调、饱和度、亮度、纹理等。视觉通道简介几何标记和视觉通道:视觉通道的类型我们将视觉通道分为两大类:定性(分类)的视觉通道:

如形状、颜色的色调、空间位置等;;定量(连续、有序)的视觉通道:

如直线的长度、区域的面积、空间的体积、斜度、角度、颜色的饱和度和亮度等。然而两种分类不是绝对的,例如位置信息,既可以区分不同的分类,又可以分辨连续数据的差异。视觉通道的类型视觉通道的表现力进行可视化编码时,我们需要考虑不同视觉通道的表现力和有效性,主要体现在下面几个方面:准确性,是否能够准确得在视觉上表达数据之间的变化;可辨认性,同一个视觉通道能够编码的分类个数,即可辨识的分类个数上限;可分离性,不同视觉通道的编码对象放置到一起,是否容易分辨;视觉突出,重要的信息,是否用更加突出的视觉通道进行编码。视觉通道的表现力数据可视化是一门用形和色表达数据的艺术。形指的是可视符号、位置变量、时间变量和形状、尺寸和方向等视觉通道;色指颜色、色调、密度、纹理等视觉通道。可视化的核心是设计数据到视觉通道的映射。单个可视化视图映射主要由如下三大部分组成:指定坐标轴系统指定视觉映射指定数据实例或属性的关系数据到视觉通道的映射指定坐标轴系统建立可视符号的坐标轴系统,包括:坐标轴布局坐标轴维度坐标轴属性数据到视觉通道的映射指定视觉映射根据数据集的不同维度和属性的类型,指定每个或每组属性对应的可视符号、位置变量、时间变量和视觉通道。指定数据实例或属性的关系不同数据实例或属性之间存在复杂的关系,例如组别、连接、突出、包含、混合、嵌套、关联、趋势、排列、对应等。PART03基本图表在传统数据可视化中,图表起着很重要的作用。不管在商业中,还是日常工作汇报中,图表都体现了它的价值。好的图表能用简单的视觉元素,清晰的传达复杂的数据信息。图表设计过程图表设计的目的是通过图表的视觉表现形式,直观、清晰、准确的展示已知多数据或单数据的联系。图表设计过程:常用的基本图表1.柱状图(BarChart)柱状图是最常见的图表,也最容易解读。它的适用场合是二维数据集(每个数据点包括两个值x和y),但只有一个维度需要比较。柱状图利用柱子的高度,反映数据的差异。肉眼对高度差异很敏感,辨识效果非常好,但是仅适用于中小规模的数据集。常用的基本图表2.折线图(LineChart)折线图适合二维的大数据集,尤其是那些趋势比单个数据点更重要的场合。常用的基本图表3.饼图(PieChart)饼图显示一个数据系列中各项的大小与各项总和的比例,总的来说,饼图的理解比较简单,就是用于表示总体中各部分的比例。常用的基本图表4.散点图(ScatterChart)散点图适用于三维数据集,但其中只有两维需要比较。为了识别第三维,可以为每个点加上文字标示,或者不同颜色。常用的基本图表5.气泡图气泡图是散点图的一种变体,通过每个点的面积大小,反映第三维。因为用户不善于判断面积大小,所以气泡图只适用不要求精确辨识第三维的场合。如果为气泡加上不同颜色(或文字标签),气泡图就可用来表达四维数据。常用的基本图表6.雷达图雷达图适用于多维数据(四维以上),且每个维度必须可以排序(国籍就不可以排序)。但是,它有一个局限,就是数据点最多6个,否则无法辨别,因此适用场合有限。迈阿密热火队篮球选手数据表:PlayerPointsReboundsAssistsStealsBloacksChrisBosh17.27.91.60.80.8ShaneBattier5.42.61.21.00.5LeBronJames28.08.46.11.90.8DwayneWade22.35.04.51.71.3MarioChalmers10.22.93.61.40.2TeamTotal98.241.319.38.55.3常用的基本图表6.雷达图迈阿密热火队篮球选手数据的雷达图表示:常用的基本图表基本图表功能小结图表维度注意点柱状图二维只需比较其中一维折线图二维适用于较大数据集饼图二维只适用反映部分与整体的关系散点图二维或三维有两个维度需要比较气泡图三维或四维其中只有两维能精确辨识雷达图四维以上数据点不超过6个图表的选择图表选择方式通过数据关系的四个方面来区分:对比构成分布关联再根据变量、类别、时间关系来选择图表。图表的选择1.对比对比型的图表可以展示多个数据之间的相同和不同之处,也可以展示单个数据在时间上的变化趋势。是基于时间或分类的维度来进行对比,通过图形的颜色、长度、宽度、位置、角度、面积等视觉变量来对比数据。典型的对比类图表有柱状图、条形图、折线图、雷达图。2.构成构成就是指在同一维度的结构、组成、占比关系,可以是静态的,也可以是随时间变化的。最典型的构成型图表就是饼图、环状图,还有百分比堆积柱状图、条形图、面积图。图表的选择3.分布分布型图表通常用于展示连续数据的分布情况,通过图形的颜色、大小、位置、长度的连续变化来展示数据的关系。散点图、直方图、正态分布图、曲面图表现方式都能体现数据的分布关系。4.关联关联型图表用于展示数据之间存在的关系。散点图、气泡图主要通过图形的颜色、位置、大小的变化关系来展示数据的关联性。大数据可视化就是对巨量的、结构复杂的、和多样化的数据的可视化,是数据可视化的一种。PART04大数据可视化简介大数据可视化有以下几点问题:视觉噪声:在数据集中,大多数对象之间具有很强的相关性。用户无法把他们分离作为独立的对象来显示;信息丢失:减少可视数据集的方法是可行的,但是这会导致信息的丢失;大型图像感知:数据可视化不仅受限于设备的长宽比和分辨率,也受限于现实世界的感受;高速图像变换:用户虽然能观察数据,却不能对数据强度变化做出反应;高性能要求:在静态可视化几乎没有这个要求,因为可视化速度较低,性能的要求也不高。大数据可视化简介大数据可视化工具必须具有以下特性:实时性:数据可视化工具必须适应大数据时代数据量的爆炸式增长需求,必须快速地收集分析数据、并对数据信息进行实时更新;简单操作:数据可视化工具满足快速开发、易于操作的特性,能满足互联网时代信息多变的特点;更丰富的展现:数据可视化工具需具有更丰富的展现方式,能充分满足数据展现的高维度要求;交互性:允许用户选择感兴趣的内容,或者改变数据的展示形式,更好的促进用户与数据之间的互动;多种数据集成支持方式:数据的来源不仅仅局限于数据库,数据可视化工具将支持团队协作数据、数据仓库、文本等多种方式,并能够通过互联网进行展现。大数据可视化简介高维数据是指具有三个以上属性的数据。一般来讲,人们可以比较容易理解二维和三维的数据,但是很难直观快速地理解三维以上的数据。而将数据转化为可视的形式,就可以帮助人们理解和分析高维数据的特性。PART05高维数据可视化高维数据可视化主要分为降维方法和非降维方法。高维数据可视化分类降维方法:指将高维数据投影到低维空间,尽量保留高维空间原有的特性。如果将高维度数据降到2维或者3维,就能够将原始数据可视化,从而对数据的分布有直观的了解,发现一些可能存在的规律。非降维方法:保留了高维数据在每个维度上的信息,可以展示数据的所有维度。各种非降维方法的主要区别在于如何对不同的维度进行数据到图像属性的映射。主成分分析(PCA)主成分分析是用一种较少数量的特征对样本进行描述以达到降低特征空间维数的方法。它是一个线性变换,这个变换把数据变换到一个新的坐标系统中,但是在新的坐标系下,表示原来的样本不需要那么多的变量,只需要原来样本的最大的一个线性无关组的特征值对应的空间的坐标即可。多维尺度分析(MDS)多维尺度分析的原理是利用成对样本间的相似性,去构建合适的低维空间,使得样本在此空间的距离和在高维空间中的样本间的相似性尽可能的保持一致。采用MDS可以创建多维空间感知图,图中的点(对象)的距离反应了它们的相似性或差异性(不相似性)。例如:希望研究消费者认为哪些饮料是相似的。七个受试验者按照1至7的尺度(1表示非常相近,7表示非常的不同)排列出饮料间两两相似的感知程度。共有28种可能(n(n-1)/2)。多维尺度分析(MDS)用户饮料MilkCoffeeTeaSodaJuiceBotwaterBeerWine1Milk166777771Coffee611777761Tea611754751Soda777153541Juice775515321Botwater774351661Beer777536111Wine765426112Milk157777372Coffee516776772Tea761644372Soda776177742Juice774714642Botwater764741772Beer373767152Wine77744751多维尺度分析(MDS)通过使用多维尺度分析可以把这8种饮料之间的相似性反映在2维空间。雷达图雷达图是一种以二维形式展示多维数据的图形。雷达图从中心点出发辐射出多条坐标轴(至少大于三条),每一份多维数据在每一维度上的数值都占用一条坐标轴,并和相邻坐标轴上的数据点连接起来,形成一个不规则多边形。如果将相邻坐标轴上的刻度点也连接起来以便于读取数值,整个图形形似蜘蛛网,或雷达仪表盘,因此得名。切尔诺夫脸谱图切尔诺夫脸谱图是用脸谱来分析多维度数据,即将P个维度的数据用人脸部位的形状或大小来表征。该方法和雷达图类似,也采用图标表示单个的多元数据对象,不同的是,切尔诺夫脸谱图采用模拟人脸的图标来表示数据对象,它可以把多元数据用二维的人脸的方式整体表现出来。各类数据变量经过编码后,转变为脸型、眉毛、眼睛、鼻子、嘴、下巴等面部特征,数据整体就是一张表情各异的人脸。切尔诺夫脸谱图切尔诺夫脸谱图的原理主要是根据当人们面对错综复杂的信息时,人脑会自动过滤掉无用信息,保留有用信息。人脑通常可以察觉到一些非常细微甚至难于测量的变化,然后对其做出反应,同时,人脑区分脸谱时,这种优越性更加明显,因为无论是脸的胖瘦还是五官的大小位置,都很容易给人留下深刻的印象,因为易于区别。但是,人们对于脸上各个部分或者特征的感知程度不同,所以需要根据数据分析的目的和属性的优先级来选择合适的属性与某个人脸特征之间形成映射。散点图散点图(ScatterPlot)是将抽象的数据对象映射到二维的直角坐标系平面上的分布图。用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点图将序列显示为一组点,值由点在图表中的位置表示,类别由图表中的不同标记表示。平行坐标平行坐标(ParallelCoordinates)是将高维数据的各个变量维度用一系列相互平行的坐标轴来表示,变量值对应轴上的位置。为了表示在高维空间的一个点集,在N条平行的线的背景下(一般这N条线都竖直且等距),一个在高维空间的点被表示为一条拐点在N条平行坐标轴的折线,在第K个坐标轴上的位置就表示这个点在第K个维的值。PART06作业

作业作业:1.什么是数据可视化?科学可视化、信息可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论