版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第
1
章
数据可视化概述本章主要内容数据可视化的内涵和意义数据可视化的发展历史数据可视化的应用数据可视化的挑战可视化分析与编程工具1. 数据可视化的内涵和意义人眼是一个高带宽的巨量视觉信号输入并行处理器,最高带宽为每秒100MB,具有很强的模式识别能力,对可视符号的感知速度比对数字或文本快多个数量级,且大量的视觉信息的处理发生在潜意识阶段。视觉是获取信息的最重要通道,超过50%的人脑功能用于视觉的感知,包括解码可视信息、层次可视信息处理和思考可视符号。可视化对应两个英文单词:VISUALIZE
和VISUALIZATIONVISUALIZE是动词,意即“生成符合人类感知”的图像;通过可视元素传递信息。VISUALIZATION是名词,表达“使某物、某事可见的动作或事实”;对某个原本不可见的事物在人的大脑中形成一幅可感知的心理图片的过程或能力。VISUALIZATION,也可以用于表达对某目标进行可视化的结果,即一帧图像或动画。利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,称为可视化。它将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色、纹理等,增强数据识别效率,传递有效信息。表. 4个二维数据点集单维度均值、最小二乘法回归线方程、误差的平方和、方差的回归和、均方误差的误差和、相关系数等统计属性均相同可视化是认知的过程,即形成某个物体的感知图像,强化认知理解。可视化的终极目的是对事物规律的洞悉。包含多重含义:发现、决策、解释、分析、探索和学习。可视化可简明地定义为“通过可视表达,增强人们完成某些任务的效率”。可视化的作用信息记录对信息的推理和分析信息传播与协同抽象Harry
Beck,1933数据可视化分类科学可视化(Scientific
Visualization)信息可视化(Information
Visualization)
面向的领域主要是自然科学,如物理、化学、气象气候、航空航天、医学、生物学等各个学科。这些学科通常需要对数据和模型进行解释、操作与处理,旨在寻找其中的模式、特点、关系以及异常情况。
数据通常表达在三维或二维空间,或包含时间维度。科学可视化(Scientific
Visualization)数据的类别可分为:标量(密度、温度)向量(风向、力场)张量(压力)科学可视化也可粗略地分为标量场可视化、向量场可视化、张量场可视化三类。科学可视化(Scientific
Visualization)信息可视化(Information
Visualization)处理的对象是抽象的数据集合(如文本、图表、层次结构、地图、软件、复杂系统等)更关注抽象、高维数据。
1.时空数据可视化
对于地理信息数据可视化来说,合理地选择和布局地图上的可视化元素,从而呈现尽可能多的信息是关键。时变数据通常具有线性和周期性两种特征,需要依此选择不同的可视化方法。
2.层次与网络结构数据可视化
人与人之间的关系、城市之间的道路连接、科研论文之间的引用都组成了网络。通常使用点线图来可视化,如何在空间中合理有效地布局节点和连线是可视化的关键。
3.文本和跨媒体数据可视化
随着网络媒体,特别是社交媒体的迅速发展,每天都会产生海量的文本数据,人们对于视觉符号的感知和认知速度远远高于文本。
4.多变量数据可视化现实世界中复杂问题和对象的数据通常是多变量的高维数据,数据降维到低维度空间,使用相互关联的多视图同时表现不同维度等等。可视分析学(Visual
Analytics)是一门综合性学科:在可视化方面,有信息可视化、科学可视化与计算机图形学;与数据分析相关的领域:信息获取、数据处理和数据挖掘;在交互方面,人机交互、认知科学和感知等学科融合。图. 可视分析学涉及的学科科学可视化的研究重点是带有空间坐标和几何信息的医学影像数据、三维空间信息测量数据、流体计算模拟数据等。由于数据的规模通常超过图形硬件的处理能力,所以如何快速地呈现数据中包含的几何、拓扑、形状特征和演化规律是其核心问题。随着图形硬件和可视化算法的迅猛发展,单纯的数据显示已经得到了较好的解决。信息可视化的核心问题主要有高维数据的可视化、数据间各种抽象关系的可视化、用户的敏捷交互和可视化有效性的评断等。可视分析将可视化、人的因素和数据分析集成在内。感知与认知科学研究人在可视分析学中的重要作用数据管理和知识表达是可视分析构建数据到知识转换的基础理论地理分析、信息分析、科学分析、统计分析、知识发现等是可视分析学的核心方法;人机交互必不可少,用于驾驭模型构建、分析推理和信息呈现等整个过程;可视分析流程中推导出的结论与知识最终需要向用户表达和传播。可视分析偏重于从各类数据综合、推理出知识。其实质是完成机器智能和人脑智能的双向转换,整个探索过程是迭代的、螺旋式的上升过程。可视分析2. 数据可视化的发展历史十六世纪:Early
Maps
&
Diagrams(萌芽时期)人类已经掌握了精确的观测技术和设备,也采用手工方式制作可视化作品。公元前6200年的人类地图图片来源:http://www.math.yorku.ca/SCS/Gallery/imagesloldest-
map.jpg图片来源:http://www.math.yorku.ca/SCS/Gallery/images/peutinger335-366.jpg人类历史上第一幅城市交通图呈现了罗马城的交通状况十七世纪:Measurement
&
Theory(成长时期)对物理基本量(时间、距离和空间)的测量设备与理论完善,被广泛用于航空、测绘、制图、国土勘探等。制图学理论与实践也随着分析几何、测量误差、概率论、人口统计和政治版图的发展而迅速成长。产生了基于真实测量数据的可视化方法开始了可视化思考的新模式诞生于1626年表达太阳黑子随时间变化的图。在一个视图上同时可视化多个小图序列是现代可视化技术中邮票图表法(
small
multiples
)
的雏形。图片来源:
http:J/content/m11970/latest/tres_epistolae.gif图片来源:http://www.math.yorku.ca/SCS/Gallery/images/halley1866a-1.jpg1686年绘制的历史上第一幅天气图,显示了地球的主流风场分布。这也是向量场可视化的鼻祖。十八世纪:
NewGraphicForms(发展时期)发明了新的图形化形式(等值线、轮廓线)包含地理,经济和医学数据信息的概念图产生创造了新颖的视觉形式来描绘经济和政治方面的真实数据大多数这些新图形形式出现在发行量有限的出版物中,在这一时期并没有引起广泛关注。1701年绘制的人类历史第一幅等值线图图片来源:http://www.math.yorku.ca/SCS/Gallery/images/palsky/halley-
map.jpg;1758年Lambert完成的三维金字塔颜色系统可视化图片来源:http:/lirtel.uni-mannheim.de/colsys/Lambcrt..html图片来源:http://www.math.yorku.ca/SCS/Gallery/images/priestley.gif1765年JosephPriestley发明的时间线图采用了单个线段表现某个人的一生同时比较了公元前1200年到公元1750年间2000个著名人物的生平。这幅作品直接激发了柱状图的诞生。18世纪是统计图形学的繁荣时期,苏格兰工程师、政治经济学家William
Playfair是统计制图法的创始人,他创造了折线图、柱状图、饼图、面积图等今天使用最频繁的统计图,并且坚信图表比数据更有表现力。William
Playfair作品:丹麦和挪威1700—1780年间的贸易进出口序列图图片来源:/wiki'William_Playfair世界上第一幅饼图显示了1789年土耳其帝国在亚洲、欧洲和非洲的疆土比例图片来源:
http://www.math.yorku.ca/SCS/Gallery/images/Lambert1765-evaporation.jpg德国物理学家Lambert用于表达水的蒸发和时间之间的关系的线图可视化。图片来源:
http://www.math.yorku.ca/SCS/Gallery/images/Lambert1765-evaporation.jpg十九世纪:1800-1849年,
Modern
Period(现代时期)统计图形、概念图等呈爆炸式增长关于社会、地理、医学和经济的统计数据越来越多衍生了可视化思考的新方式:图表用于表达数学证明和函数;列线图用于辅助计算;各类可视化显示用于表达数据的趋势和分布,便于交流、获取和可视化观察。Playfair绘制的⼩⻨价格与⼯资时间序列图、柱形图。图片来源:
http://www.datavis.ca/milestones/1837年第⼀幅流图,以可变宽度的线段显示了交通运输的轨迹和乘客数量。图片来源:http://www.math.yorku.ca/SCS/Gallery/images/
harness-flow.gif19世纪下半叶(1850-1899年),系统地构建可视化方法的条件日渐成熟,进入了统计图形学的黄金时期
(Golden
Age)
。认识到数字信息对于社会计划、工业化,商业和运输的重要性日益提高,统计理论扩展到社会领域。法国工程师查尔斯∙约瑟夫∙米纳德(CharlesJosephMinard)
,是将可视化应用于工程和统计的先驱者。其最著名的工作是1869年发布的描绘拿破仑进军莫斯科大败而归的历史事件的流图,该图被誉为有史以来最好的统计可视化。图片来源:/wikipedia/commons/2/29/Minard.png1812——1813年拿破仑进军莫斯科的历史事件的流图米纳德在这一幅平面图,呈现了6
个维度的信息:1.军队人数2.距离3.温度4.经纬度5.移动方向6.时‐地关系南丁格尔“玫瑰图(极区图)”图.
南丁格尔弗洛伦斯ꞏ南丁格尔(1820年5月12日~1910年8月13日)是世界上第一个真正意义上的女护士,被誉为现代护理业之母。5.12国际护士节就是为了纪念这一天是南丁格尔的生日除了在医学和护理界的辉煌成就,南丁格尔还是一名优秀的统计学家——她是英国皇家统计学会的第一位女性会员,也是美国统计学会的会员。南丁格尔早期大部分声望都来自其对数据清楚且准确的表达。她认为医学统计资料有助于改进医疗护理的方法和措施。在她编著的各类书籍、报告等材料中使用了大量的统计图表,其中最为著名的就是极区图,也叫南丁格尔玫瑰图。•••1854年4月~1855年3月图片来源:
http://www.datavis.ca/milestones/1855年4月~1856年3月东部军队死亡原因示意图(1854-1856)生动有力的说明了在战地开展医疗救护和蓝色促代进表伤可预兵防医和疗可工缓作解的的疾病治疗不必及要时性造。成的死亡红
色打代动表了战场当阵局亡者,增加黑色了代战表地其他医死院亡,原改因善。了军队医院的条件,为图表各挽个救扇区士角兵度生相命同做,出用了半径及扇区面巨积大来贡表献示”死亡。人数。图1-3 极区图:Facebook
vs.
推特英国麻醉学家、流⾏病学家John
Snow绘制的1854年伦敦霍乱地图。该图⾸次结合了地图和疾病数据。现代黑暗时期很少有图形创新应⽤和普及的时期第⼀次使⽤图形⽅法来提供有关天⽂、物理、⽣物和其他学科的新发现和新理论开始对各种图形形式的效率进⾏实验⽐较二十世纪: 1900-1949年:
Modern
Dark
Age1904年关于太阳黑子随时间扰动的蝴蝶图验证了太阳黑子的周期性1957年发明的圆形图标,采用线段及其朝向编码多维数据。图片来源:http://www.math.yorku.ca/SCS/Gallery/images/dan/anderson_glyphs2.jpJacques
Bertin提出的七个视觉变量,给出了完备的图形符号和表示理论。针对点(Point
)、线(Line)和区域(Area)数据采用不同视觉通道的图形符号表示方案。图片来源:http://www.math.yorku.ca/SCS/Gallery/images/bertin-ve.jpg图.
1973年Herman
Chernoff发明的表达多变量数据的脸谱编码⾎液化学数据使⽤计算机软件Biplot进⾏的可视化图.JohnHartigan发明的散点图矩阵图.
1975年统计图形学家发明的增强型散点图1991年Ben
Shneideman教授发明的树图,⽤级联嵌套的平⾯化树状结构表达层次结构。1994年施乐公司创造的表格透镜技术进入21世纪,现有的可视化技术已难以应对海量、高维、多源和动态数据的分析挑战,需要综合可视化、图形学、数据挖掘理论与方法,研究新的理论模型、新的可视化方法和新的用户交互手段,辅助用户从大尺度、复杂、矛盾甚至不完整的数据中快速挖掘有用的信息,以便做出有效决策。3.
数据可视化的应用斯坦福大学生物工程和精神病学负责人Karl
Deisseroth说:“以分子水平和全局范围观察整个大脑系统,曾经一直都是生物学领域一个无法实现的重大目标”。可视化系统在探索性任务(例如包含大数据量信息)中有突出的表现,它可以帮助用户从大量的数据空间中找到关注的信息来进行详细分析。医学可视化工程可视化表意性可视化地理气象信息可视化政治社会领域可视化商业智能可视化数据可视化的应用4.
数据可视化的挑战(1)导入和清理数据。决定如何组织输入数据以获得期望的结果,它所需要的思考和工作经常比预期的多。(2)把视觉表示与文本标签结合在一起。视觉表示是强有力的,有意义的文本标签起到很重要的作用。(3)查找相关信息。经常需要多个信息源来做出有意义的判断。(4)集成数据挖掘。信息可视化和数据挖掘起源于两条独立的研究路线。研究人员正在逐渐把这两种方法结合在一起。(5)与他人协同。发现是一个复杂的过程,它依赖于知道要寻找什么、通过与他人协同来验证假设、注意异常和使其他人相信发现的意义。(5)实现普遍可用性。当可视化工具打算被公众使用时,必须使该工具可被多种多样的用户使用而不管他们的生活背景、工作背景、学习背景或技术背景如何。(6)评估。分析很少是一个孤立的短期过程,用户可能需要长期从不同视角察看相同的数据。5可视化分析与编程工具bleau(1)TaTableau
(http://
www.
tableausoftware.
com)是可视化领域标杆性的商业智能分析软件,起源于美国斯坦福⼤学的科研成果,其设计⽬标是以可视的形式动态呈现关系型数据之间的关联,并允许⽤户以所⻅即所得的⽅式完成数据分析和可视图表和报告的创建。Tableau软件最吸引⼈的特点在于,⽤户⽆需掌握⾼深的技术或任何编程技能便可以上⼿操作。该⼯具已经引起了来⾃各⾏各业的⼈们的兴趣,⽐如咨询、⾦融、通信、媒体、⾼科技、制造业、能源、体育、科研机构等等。Python指⼀种⾯向对象、解释型的计算机程序设计语⾔,是⼀种功能强⼤的通⽤型语⾔,具有近⼆⼗年的发展历史,成熟且稳定。它包含⼀组完善⽽且容易理解的标准库,能够轻松完成很多常⻅的任务。Python的NumPy、SciPy库能够⾮常快速和⽅便地操作⼤量数据、进⾏科学计算,Matplotlib库能够以简洁的代码绘制出漂亮的图形。(2)
Python(3)
其他可视化工具ExcelGpreadsheetsoogle
S谷歌版的Excel,但用起来更容易,而且是在线的。可以通过内置的聊天和实时编辑功能进行协作。通过importHTML和importXML
函数,可以从网上导入HTML和XML文件。(1)TileMill。自定义地图的制作难度较大且技术性强,然而现在已经有多种程序能够基于自己的数据、按喜好和需求设计地图。地图平台MapBox提供的TileMill就是一款开源的桌面软件,有不同平台的多个版本。(2)ImagePlot。加州电信学院软件研究实验室的ImagePlot能将大规模图像集合作为一组数据点来进行探索。例如,可以根据颜色、时间或数量来绘制图形,从而展现某位艺术家或某一组照片的发展趋势与变化。针对特定数据的工具(3)树图。马里兰大学人机交互实验室的交互式软件是最早的,可以免费使用。树图对于探索小空间中的层次式数据非常有用。Hive小组还开发并维护了一款商用版本。(4)indiemapper。这是地图制作小组AxisMaps提供的一个免费服务。与TileMill类似,它支持创建自定义地图以及用自己的数据制图,但它运行在浏览器中,而不是作为桌面客户端软件运行。indiemapper使用简单,并且有大量的示例帮助起步。可以方便地变换地图投影,找出最适合自己需要的投影方式。(5)GeoCommons。其与indiemapper类似,但更专注于数据的探索和分析。你可以上传自己的数据,也可以从GeoCommons数据库中抽取数据,然后与点和区域进行交互。还可以将数据以多种常见的格式导出,以便导入其他软件。(6)ArcGIS。在新的地图工具出现之前,对大数人来说,AreGIS都是首选的地图工具。ArcGIS是个特性丰富的平台,几乎能做与地图有关的任何事情。大多数时候,基本功能已经足够,因此最好还是先尝试一下免费选项,如果不够用,再尝试ArcGIS。(7)Gephi。是一款跨平台的基于JVM的复杂网络分析软件,其主要用于各种网络和复杂系统,帮助用户创建动态的层次丰富的图表。Gephi自称是“开放的图表及可视化平台”
,起创于2009年的一个大学生项目,已迅速成为一个颇具价值的开源软件资源。支撑用户创建检验假设、深入探寻模式以及观测异常值、偏差值。可以将Gephi想象成统计辅助工具(能跟R进行整合)。(8)Timeflow。用于分析时间数据的开源可视化工具,由
Sarah
Cohen(杜克大学)于
2010
年创建。TimeFlow
有一套强大的工具用于过滤和聚合数据。该程序提供了四种不同的显示视图:标准时间线、表格、条形图和交互式日历。可程工具视化编– JavaScript、HTML和CSS随着浏览器的速度越来越快,可视化开始借助HTML
、JavaScript和CSS代码在浏览器中展示。具有很大的灵活性,可以做出用户想要的各种效果。JavaScript具有很多进行可视化的库,例如D3.js、Echarts、Recharts、ApexCharts等。D3.js
。处理基于数据文档的JavaScript
库。利用诸如HTML
、Scalable
Vector
Graphic以及Cascading
Style
Sheets等编程语言让数据变得更生动。通过对网络标准的强调,D3赋予用户当前浏览器的完整能力。提供的基于数据的DOM操作(文档对象模型,Document Object
Model)不仅提供了极大的灵活性,同时避免了面向不同类型和任务设计专用可视表达的负担。Echarts:是基于JavaScript的开源数据可视化图表库。可以流畅的运行在PC端和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等),底层依赖矢量图形库ZRender,提供直观、丰富、可高度个性化定制的图表,并且支持图与图之间的混搭。Echarts开源且使用简单,官网有丰富的API及文档说明。R语言。由新西兰奥克兰大学Ross
Ihaka和Robert
Gentleman开发的R是一个用于统计学计算和绘图的语言,它已超越仅仅是流行的强有力开源编程语言的意义,成为统计计算和图表呈现的软件环境,并且还处在不断发展的过程中。图
R绘制的数据分析图形Processing。它原本是为美工设计的,它是一种开源的编程语言,基于素描本(sketchbook)这一隐喻来编写代码。只需要几行代码就能实现非常有用的功能。此外,它还有大量的示例、库、图书以及一个提供帮助的巨大社区。PHP。是比R语言和Processing应用更为广泛的编程语言。PHP主要用于Web编程,大多数Web服务器都已经安装了PHP。PHP
有图形库,可以把它应用于数据的可视化。结论:交互式可视化工具如Tableau、PowerBI、FineBI等可能仅需要用户掌握软件使用方法,难度较小,容易上手,但同时也不够灵活,功能有限。适用于用户缺少编程基础、数据相对简单、任务需求比较直接的应用场景。编程式可视化工具较难学习,但提供可以更多的灵活性和选项。可以做出更好的作品。适用于任务难度高,数据复杂的场景。配置式可视化工具如Echarts,需要使用人员具有一定基础编程能力,一般是通过用户传入特定的配置选项来完成既定的可视化形式。适用于稍复杂的场景,任务为中等复杂度。第二章 数据可视化的理论基础主要内容视觉感知和认知格式塔理论视觉通道色彩1.视觉感知什么是视觉感知?视觉感知感知是指客观事物通过人的感觉器官在人脑中形成的直接反映感觉器官眼、耳、鼻、神经末梢那么,视觉感知就是客观事物通过人的视觉在人脑中形成的直接反映感知:关于输入信号的本质;看见的东西认知:关于怎样理解和解释看到的东西什么是认知?认知认知心理学将认知过程看成由信息的获取、分析、归纳、解码、储存、概念形成、提取和使用等一系列阶段组成的按一定程序进行的信息加工系统。科学领域中,认知是包含注意力、记忆、产生和理解语言、解决问题,以及进行决策的
心理过程
的组合。“当人们观察事物时,人们所看到的依赖于事物本身是什么。将事物看做什么,取决于人们对看到的事物了解多少。”“Visualizationisreallyaboutexternalcognition,thatis,howresourcesoutsidethemindcanbeusedtoboostthecognitivecapabilitiesofthe
mind.”Stuart
Card可视化致力于外部认知,也就是说,怎样利用大脑以外的资源来增强大脑本身的认知能力。有多少黑点交叉点上的黑色圆点在跳跃变化相对性&绝对性感知系统基于相对判断,而非绝对判断(Weber’sLaw)无线框未对齐有线框未对齐ABABAB无线框A和B那一个更高?相对性&绝对性感知系统基于相对判断,而非绝对判断(Weber’sLaw)A和B哪一个更亮?2.格式塔理论最大的特点是强调研究心理对象的整体性整体性思想的核心是有机体或统一的整体大于各部分单纯相加之和。整体论思想最早出现在古希腊和古罗马时代,但真正体现是在黑格尔(G.W.F.
Hegel)的哲学之中。黑格尔用有机体的整体论来解释人类的历史,认为人类历史的基本单位是国家和民族,历史事件不能简单还原为个人行为。Wolgang
Köhler1887‐1967Kurt
Koffka1886-1941Max
Wertheimer1880-1943为什么我们在观看事物的时候会把一部分当做前景,其余部分当做背景?为什么我们能区分形状?什么形状是好的?格式塔(gestalt)原则接近(或邻近)原则相似原则封闭(闭合)原则连续原则简单原则6.共势原则7.好图原则对称原则经验原则
1.接近(或邻近)Proximity两个对象在空间或时间上比较接近或邻近时,则这两个对象就倾向于被一起感知为一个整体。
刺激物的形状、大小、颜色、强度等物理属性方面比较相似时,这些刺激物就容易被组织起来而构成一个整体。主体在感知物体时有一种能自行填补缺口使其闭合将其知觉为一个整体的倾向。
我们倾向于完整地连接一个图形,而不是观察残缺的线条或形状。人们对一个复杂对象进行知觉时,如没有特殊要求,常常倾向于把对象看作是有组织的简单的规则图形。6.共势原则(common
fate)
如果一组物体沿着相似的光滑路径有运动趋势或具有相似的排列模式,人们会将他们识别为同一物体。从一堆字符中认知语句7.好图原则(Good
Figure)
好图原则指人眼通常会自动的将一组物体按照简单、规则、有序的元素排列方式识别。即个体识别世界的时候通常会消除其中的复杂性和不熟悉性,采纳最简化的形式。上:奥运环;下:
割裂的圆环。8.对称原则(Symmetry)
人的意识倾向于将物体识别为沿某点或某轴对称的形状。某国男女人口随年龄的分布情况9.
经验原则(Past
Experience)
是指在某些情形下,视觉感知与过去的经验有关。如果两个物体看上去距离相近,或者时间间隔小,那么它们通常被识别为同一类。3.视觉通道可视化编码将数据信息以可视化视图呈现,其核心内容是可视化编码,它是将数据信息映射成可视化元素的技术。可视化编码由几何标记(图形元素)和视觉通道两部分组成。
几何标记:可视化中标记通常是一些几何图形元素,例如:点、线、面、体。
视觉通道:用于控制几何标记的展示特性,为标记提供视觉特征,包括标记的位置、大小、形状、方向、色调、饱和度、亮度等。视觉通道的类型
定性(分类)的视觉通道:如形状、颜色的色调、空间位置。
定量(连续、有序)的视觉通道:如直线的长度、区域的面积、空间的体积、斜度、角度、颜色的饱和度和亮度等。视觉通道的特性空间位置尺寸颜色亮度饱和度色调配色方案透明度方向形状纹理动画空间
三维:虚拟现实……。是放置所有可视化元素的容器。可以是:
一维:温度计……。设计和结构简单。
二维:手机、电视……最常见。和人类视觉的生理构造相对应。通常采用平面像素而不是三维像素成像,通过跟踪用户位置和视角不断更新,让用户产生置身于现实三维环境中的感受。位置
既可以用于编码分类的数据属性,又可以编码定序或者定量的数据属性的视觉通道。如果是平面上的接近性,还可以参与分组。
平面位置的两个可以分离的视觉通道是水平位置和垂直位置。尺寸尺寸是定量或定序的视觉通道,适合编码有序的数据属性。长度是一维的尺寸,包括垂直尺寸和水平尺寸,即高度和宽度。面积是二维的尺寸。体积是三维的尺寸。维度越高判断越来越不准确。颜色最复杂的,也是可以编码大量数据信息的视觉通道之一。
亮度
(明度)
(Brightness)
(定量或定序)
饱和度
(彩度)
(Saturation)
(定量或定序)
色调
(Hue)
(定性或分类)配色方案
关系到信息表达和美观。可以应用一些软件在线配色,比如:
ColorBrewer配色系统:
/
Adobe的Kuler配色系统:
/zh/create方向纹理
纹理被认为是多种视觉变量的组合,包括形状、颜色和方向。(1)形状组成纹理。(2)颜色是纹理中每个像素点的颜色。(3)方向是纹理中形状和颜色的旋转变化。
二维应用:不同的数据范围或者分布。
三维应用:一般作为几何物体的属性,表示高度、频率、方向等。动画指由计算机生成的连续播放的静态图像所形成的动态效果的图画作品。利用人的视觉残留现象,产生视觉动感。视觉通道主要是:运动的方向(编码定性的数据属性)运动的速度(编码定量的数据属性)闪烁的频率等(编码定量的数据属性)特点:完全吸引了人的注意力,观察其中的非动画部分非常困难。精确性(准确编码数据包含的所有信息,要尽量忠于原始数据)可辨性可分离性视觉突出视觉通道的表现力和有效性精确性
研究表明,人类感知系统对于不同的视觉通道感知精确性是不同的。
美国心理物理学家史蒂文斯在1953年提出了心理物理学定律,也称作“史蒂文斯幂次法则”。该定律认为,感觉量的大小与刺激量的乘方成正比,也即心理量是物理量的幂函数。用公式表示为:
S=K·I^n其中S为心理量,K为常数,I为物理量,n因不同的感觉而异。下表为史蒂文斯幂次法则所描述的一些视觉通道的幂次。表示了视觉通道的实际变化量与人类主观感知存在的联系。视觉通道亮度面积长度灰对比度幂次0.50.71.01.2表
不同视觉通道对应的n值视觉通道感知的精确性将影响可视化结果对数据信息传递的准确性,因此在表达定量数据的时候,通常采用一端对齐射线的长度或柱状图的高度进行表示。可辨性
视觉通道可以有不同的取值范围,调整取值范围能让人们区分该视觉通道的状态,便于辨认。图
使用直线宽度编码流量可分离性
在同一可视化结果中,多个视觉通道的存在可能会影响到用户的正确感知。视觉突出
是指在很短时间内(200
~
250ms),人们可以仅仅依赖感知的前向注意力来直接发觉某一对象的不同。具有高表现力的视觉通道用于更重要的数据属性编码!图.
视觉通道的表现力排序表现力从高到低第3章
数据的理解与分析本章主要内容数据基础数据特征数据预处理数据存储数据分析3.1
数据基础3.1.1
数据属性是一个数据字段,数据对象的特征(Characteristics)或特性(feature).数据对象中往往包含一个或多个属性。别名:特征维度变量3.1.2
属性类型类别型属性:⽤于区分不同数据对象的名称或符号。属性类型有序型属性:按照一定的意义排列顺序。属性类型数值型属性:是可度量的量,⽤整数或实数值表示。例如⻓度、重量、体积、温度等常⻅物理属性。离散型和连续型离散型属性的取值来⾃有限或可数的集合,例如等级,⽂档单词,邮政编码等。连续型属性则对应于实数域,例如⾼度,温度和湿度等。3.2
数据特征3.2.1
基本统计描述数据的宏观表达。把握数据的全貌,了解数据的分布状况,探索式数据分析的基础。样本数据的基本统计特征分为三类:集中趋势度量:
表示数据的集中位置,寻找数据中的中⼼值或者代表值,主要有均值、中位数、众数等。离中趋势度量:表示数据的分散程度,反映了数据远离中⼼值的程度,描述⼀组数据的波动性,主要有标准差、极差、四分位数、四分位数极差、变异系数等。数据分布形态:
主要有偏态和峰态。基本统计描述均值方差
方差用来衡量所有样本点偏离均值的程度。标准差是方差的平方根。𝛿
=1𝑛iI
𝑥 -𝑥̅2ni=1中位数
指样本按从小到大排列后处于中间位置上的值。
中位数依赖数据的排序位置确定,而不是使用全部数据求得,因而会损失部分数据信息,但它较少受到极端异常值影响。百分位数
是中位数的推广,表明数据集中小于它的数的比例。第一步:将n个变量值从小到大排列,X(j)表示此数列中第j个数。第二步:计算指数,设(n+1)P%=j+g,j为整数部分,g为小数部分。第三步:1)当g=0时:P百分位数=X(j);2)当g≠0时:P百分位数=g*X(j+1)+(1-g)*X(j)=X(j)+g*[X(j+1)-X(j)]
例3.2
一家电器商城12个员工在某天售出的电视机数量按照升序排列如下:
1,
3,
3,
3,
4,4,5,6,6,8,12,14
有12个数据,求第10百分位数?
在位置(12+1)X10%=1.3位置处,即在第一个数据和第二个数据之间且离第一个数据30%位置处,因而第10百分数位是1+(3‐1)×30%=1.6。四分位数
三个四分位数𝑸𝟏,𝑸𝟐,𝑸𝟑将数据分成均匀的四份,因而𝑸𝟏和𝑸𝟑分别为数据排序后位于25%和75%位置上的值,分别被称为第25百分位数和第75百分位数。𝑸𝟐为中位数。
在例3.2中,
𝑸𝟏、
𝑸𝟑分别是多少?𝑸𝟏的位置在?𝑸𝟑的位置在?四分位数间距
是测量数据分布宽度的值,定义为第75百分位数与第25百分位数之间的距离,即𝑄1和𝑄3的差距。反映了中间50%数据的离散程度,不受极端异常值的影响。
例3.2中四分位数间距是多少?𝑄3‐𝑄1=7.5‐3=4.5。众数
是一组数据中出现次数最多的数值,有时众数在一组数中有好几个。
若一组数据中只有一个众数,则此数据集是单峰的;若一组数据中有多个众数,则此数据集是多峰的。极差值
极差值是一组数据中最大值与最小值之差,它只能描述数据的分布范围,不能充分表达数据的分布信息。3.2.2
数据对象间的关系:相似度和相异度数据间关系的度量。经常在统计和数据挖掘中使用。相似度(Similarity)是衡量多个数据对象之间相似程度的数值,通常位于0和1之间,如果两个对象完全不相似,则其相似度为0;相似度越高,对象之间的相似性越大。与之对应的测度是相异度(Dissimilarity)。邻近度是相似度和相异度的统一描述。相异度矩阵
相异度矩阵存储n个对象两两之间的相似性,表现形式是一个n×n维的矩阵。d(i,j)是对象i和j之间相异性的量化表示,通常为非负值,两个对象越相似或“接近”,其值越接近0,越不同,其值越大,且d(i,j)=
d(j,i),d(i,i)=0。相异度矩阵相异度类别型数据距离计算数值型属性间的距离计算不匹配率:对于具有p个类别属性的两个对象X,Y,他们的相异度定义为:1.
类别型数据距离计算其中,m为两对象对应属性取值相等的个数。例:学生信息中包含性别、宿舍和年级三个类别属性,两个学生的信息分别为(男,十一公寓,大二)和(男,十三公寓,大一),求它们的相异度?3-
1=23 3(1)杰卡德距离
对于对象X,Y,取值同为1的属性有𝑝个,X
取0且Y取1的属性有𝑞个,X
取1且Y取0的属性有𝑟个,则X,Y的杰卡德距离为:
杰卡德距离越大,说明相异度越大。
例:
当X取值为(1,0,1,0),Y取值为(1,0,0,1)时,d
𝑋,
𝑌
=𝑞+
𝑟𝑝+𝑞+
𝑟它们的杰卡德距离1
+是1多少=?21
+
1+
1 3杰卡德距离可以用来比较两个文档的相似性,对于文档中的所有主干词,当每个词在文档中出现时将它的值设为1,否则设为0,然后通过计算杰卡德距离可以衡量两文档的相似度。(2)汉明距离
表示两个等长字符串在对应位置上不同字符的数目,用于度量两个等长字符串的相异性。
例如字符串“karolin”和“kathrin”的汉明距离为?。
汉明距离度量了通过替换字符的方式将字符串x变成y所需要的最小的替换次数。在信息编码中,为了增强容错性,应该将编码间的最小汉明距离最大化。2.
数值型数据的相异度欧几里得距离(Euclidean
Distance)
欧氏距离,两点之间的直线距离。曼哈顿距离(Manhattan
Distance)
也被称为城市街区距离,在规则布局的街道中,从一个十字路口前往另一个十字路口,行走距离不是两点间的直线距离,而是垂直的移动路线,闵可夫斯基距离(Minkowski
Distance)切比雪夫距离(Chebyshev
Distance)标准化欧氏距离(StandardizedEuclidean
Distance)马氏距离(Mahalanobis
Distance)余弦距离本身误差精度转换特定应用需求缺失值数据集成3.2.3
数据不确定性
指属性的值并不单一,而是按照一定的概率取多种值。这些误差信息通常用一个概率密度函数或者其他统计量(均值、方差、协方差等)来表示。分类存在不确定性指数据是否存在具有一定的概率。属性不确定性3.3
数据预处理1
标准系统架构应用数据库ETL抽取(Extract)转化(
Transform)装载(Load)数据仓库数据产品商业智能分析数据仓库从各数据源获取数据及在数据仓库内
的数据转换和流动都可以认为是ETL,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢。2.
ETL的过程ETL的过程包括数据抽取(Extract)、数据转换(Transform)、数据装载(Load)。抽取阶段:从一个或多个数据源中抽取数据。转换阶段:主要进行数据变换操作,包括数据清理、重构、标准化等。装载阶段:将转换过的数据按照一定的存储格式进行存储。3
数据质量数据质量:数据质量高
->
对目标用途的符合度高精确性(Accuracy)完整性(Completeness)一致性(Consistency)适时性(Timeliness)可信性(Believability)可解释性(Interpretability)常用的可视化质量指标包括:尺寸:是可量化的量度,如数据点的数量,构成了其他计算的基础。视觉有效性:用于衡量图像退化(如冲突、模糊)或可视布局的美学愉悦程度。特征保留度:是评估可视化质量的核心,它衡量可视化结果在数据、可视化和认知角度正确展现数据特性的程度。4 数据可视化质量4 数据可视化质量
衡量视觉有效性的常用方法有:数据密度(data
density)
是爱德华∙塔夫特(Edward
Tufte)提出的一个概念,即图形单位面积内展示的观察变量数据量。
他认为图表的数据密度越高越好,特别是当处理和解释额外信息的边际成本降低时。不要在少量的信息上浪费大量的图形。数据墨水比(data-ink
ratio)图形中的数据墨水量除以图形中的总墨水量。图里有多少提升的空间?如何在提升数据墨水比和有效传递观点之间找到平衡?数据展示为先,确认图表设计成功传递了观点删除图表垃圾提升数据墨水比围绕要传递的观点,补充辅助信息5
数据清理数据清理:检测和清除数据中的错误和不一致,以提高数据质量。Data…Data!数据错误类型及处理方法缺失值常量代替缺失值属性平均值填充回归、分类方法进行预测式填充人工填充噪声值:回归分析是被测量变量的随机误差或方差。离群点分•析这些记录值通常具有数据有效性,但并不准确。可视数据清洗在清理中,可以使用交互式可视化方法来提高数据清理效率。6
数据整合数据1数据2数据3数据是将不同数据源的数据进行采集、清理、精简和转换后统一融合在一个数据集合中,并提供统一数据视图的数据集成方式。数据整合包括:
(1)合并来自多个数据源的数据(2)向用户提供一个关于这些数据的统一视图管理来自多个数据源的数据多数据源结构冲突(structural
conflicts):不同的模式(schema)等数据冲突(data
conflicts):重复的记录,冲突的记录属性等数据整合实例(1)客户列表1客户列表2整合结果数据整合实例(2)对同一篇论文,来自不同论文数据库的引用格式可能存在不同整合为某种统一格式另一种数据整合方式:虚拟化数据源A数据源B数据源C转换器转换器转换器拥有统一模式的“虚拟数据库”数据并没有从数据源中移出,而是在不同的数据源之上增加转换策略,并构建一个虚拟层,以提供统一的数据访问接口。通常使用中间件技术,在中间件提供的虚拟数据层之上定义数据映射关系。同时,虚拟层还负责将不同数据源的数据在语义上进行融合,即在查询时做到语义一致。数据清洗和整合步骤初步分析:在操作之前进行数据分析冲突解析:解析数据源间的数据冲突定义数据转换工作流和转换规则:使用工作流方式完成模式(schema)配准和转换工作流验证:验证工作流中的步骤是否正确数据转换:开始流程3.4
数据存储装载并存储数据数据分析与可视化所涉及的数据存储组织形式主要包括以下三类:基于文件的存储数据库
&
数据库管理系统数据仓库最简单的方法直接将数据存储为文件形式简单、方便电子表格类型:CSV文件逗号分隔值(comma-separated
values)结构化文件格式数据导向型的应⽤程序采⽤标记语⾔格式将数据进⾏结构化组织,以⽅便通⽤型数据的存储和交换。通用格式:XML(可扩展标记语言,eXtensibleMarkupLanguage)<employer><id>23</id><name>Alice</name><city>CA</city><dptid>1</dptid></employer>IDNameCityDpt.
ID23AliceCA124BobNY2据库数“Adatabaseisacollectionofdata,typicallydescribingtheactivitiesofoneormorerelatedorganizations.”应用数据库(数据库是数据的集合,通常用来描述多个相关组织结构的活动。)--RaghuRamakrishnanand
JohannesGehrke,“DatabaseManagementSystem”关系数据库管理系统(RDBMS)数据的关系模型是现代数据库系统的标准—最小化应用程序与机器表示间的耦合度高级数据语言:数据定义语言(Data
DefinitionLanguage),结构化查询语言(Structured
QueryLanguage)关系模型表(关系)列(属性)行(记录)约束键:主键,外键等索引“Whenpeopleusetheworddatabase,fundamentallywhattheysayisthatthedatashouldbeself-describinganditshouldhaveaschema.That’sreallyalltheworddatabase
means.”(当使用数据库这个词时,人们强调的是数据需要能够自描述,并且拥有模式。这就是“数据库”的含义。)--JimGray,“TheFourth
Paradigm”关系数据库可视化⻩⾊节点:基⾦项⽬红⾊节点:科研⼈员灰⾊节点:研究机构该图展示了“研究⼈员所属机构”和“项⽬参与⼈员”两张表合并后的结果。美国自然基金数据库可视化Z.Liu,S.B.Navathe,andJ.T.Stasko,Network-basedvisualanalysisoftabulardata,IEEEConferenceonVisualAnalyticsScienceandTechnology(VAST),pp.41–50,
2011.挑战胜任交互式任务所需的响应时间(通常为亚秒级)大尺度数据的索引构建数据间的语意关系NoSQL数据库(⾮关系型数据库)“NotOnlySQL”(不仅仅是SQL)面向海量数据(并且数据不需要关系模型),扩展性较高可以处理分布式、规模庞大、类型不确定、完整性没有保证的“杂乱”数据通常不使用表结构,并且不使用SQL进行查询NoSQL数据库实例文档存储–
CouchDB图结构存储–
Neo4j键-值存储–
Redis(内存数据库),
MongoDB(磁盘数据库)表格数据–
Apache
HBase
(基于Hadoop)3.4.3数据仓库Adatawarehouseisasubject-oriented,integrated,time-varient,andnonvolatilecollectionofdatainsupportofmanagement’sdecisionmaking
process.(数据仓库是面向主题的、已整合的、时变且稳定的数据集合,用来支持管理的决策过程。)--W.H.Inmon,“BuildingtheDataWarehouse”.
1996.数据仓库数据库和数据仓库的异同,数据库数据仓库特点处理数据操作处理数据中的信息面向领域事务分析用户终端用户:职员,数据库管理员(DBA)知识工作者:经理,分析师执行官功能日常操作长期决策支持分析数据当前最新的数据历史数据,时变数据访问方式读写平均(主要)读聚焦点数据输入信息/知识输出容量尺度1GB~<1TB>=TB3.5
数据分析数据分析的五大思维方式探索式数据分析数据挖掘数据分析的常规技巧数据分析的五大思维方式1.
数据分析的五大思维方式在从数据到信息的过程中,有一些固定的思路,也称之为思维方式:对照拆分降维增维假说(a)(b)第一大思维:对照(对比)图. 对比数据分析的五大思维方式数据分析的五大思维方式第二大思维:拆分。当某个维度可以对比的时候,我们选择对比。••在对比后发现问题需要找出原因的时候或者根本就无法对比的时候。场景:运营经理经过对比店铺的数据,发现今天的销售额只有昨天的50%第三大思维:降维。当数据维度太多的时候,不可能每个维度都拿来分析,有一些有关联的指标可以从中筛选出代表的维度即可。【导读案例】数据分析的五大思维方式销售额
=
成交用户数×客单价成交用户数=访客数×转化率例:(a)(b)销售额成交用户数客单价访客数转化率××流量组成免费流量付费流量搜索直通车类目钻石展位第四大思维:增维。如果当前的维度不能很好地解释问题,就需要对数据做一个运算,增加多一个指标(“辅助列”)。竞争度第五大思维:假说(假设)当不知道结果,或者有几种选择的时候。先假设有了结果,然后运用逆向思维。从结果到原因,要有怎么样的因,才能产生这种结果。例:直播付费论文2.
探索式数据分析(ExploratoryData
Analysis,EDA)原始数据绘图简单统计值标绘多视图协调关联多视图协调关联来源:基于多视图协同的时空数据可视分析方法3.数据挖掘“DataMining,alsopopularlyreferredtoasknowledgediscoveryfromdata(KDD),istheautomatedorconvenientextractionofpatternsrepresentingknowledgeimplicitlystoredorcapturedinlargedatabases,datawarehouses,theWeb,othermassiverepositories,ordata
streams.”--H.
Jiawei
and
M.
Kamber,
“Data
Mining:
Concepts
and
Techniques”,
3rded.,
2011.数据挖掘模型解释&验证知识数据挖掘中的任务A.
描述性任务数据算法特征训练好的模型2B.
预测性任务1训练数据模型新数据特征训练好的模型A.描述性任务关联分析(Association
Analysis)聚类(Clustering)离群点分析(Outlier
Mining)分析数据中的“属性-值”频繁出现的情况,并探究频繁出现的条件对于无标记的数据,根据“最大化类内相似性、最小化类间相似性”的原则进行分组分析数据集中与数据一般行为或模型不一致的数据点概念描述(Concept
Description)对数据集中的数据本身或其特征进行描述B.预测性任务分类
(Classification) 使用能够描述并区分数据类别或概念的模型,预测数据中标记未知的对象。模型的导出基于对训练数据集的分析。演化分析(Evolution
Analysis)分析数据随时空变化所形成的演变规律(单调、周期等),并对其建模,使用模型对未知时空位置的数据进行预测。数据挖掘中的方法统计方法(回归分析;参数估计)贝叶斯机器学习(决策树;神经网络)约翰-麦卡锡(人工智能之父)算法方法(K-means,K-最近邻)Donald
Knuth(计算机算法奠基人之一)可视数据挖掘一些任务很难用自动方法实现,例如:聚类结果的评价检测数据集中的异常点用户参与数据挖掘过程可视数据挖掘实例可视聚类
数据图表专家
Andrew
abela
设计了一张汇总图,从全局出发,帮助快速确定图表样式。(见下页)快速选择数据图表类型的思考流程:
1.分析数据源
2.确定展示的类型
3.选择的变量类型及数量
4.选择对应的数据图表4.常见图表类型第4章
数据可视化的任务和过程本章主要内容
4.1
数据可视化的目的
4.2
数据可视化的任务
4.3
数据可视化的一般过程
4.4
数据可视化的基本原则
4.5
数据可视化设计组件4.1
数据可视化的目的1.模式2.相互关系3.有问题的数据4.让数据讲故事模式相互关系有问题的数据
大部分异常都只是笔误而已,但有些异常却真的存在,而它们就是有意思的地方,可以作为故事的重点。如果你遇到了异常,一定要确定它到底属于前者还是后者。4.2
数据可视化的基本任务概览任务缩放任务过滤任务按需细化任务关联任务历史任务提取任务七个基本任务(1)概览任务用户能够获得整个集合的概览。概览可能包含可移动的视图域框,用户用它来控制细节视图的内容,允许缩放因子在3~30之间。(2)缩放任务用户能够放大感兴趣的条目。用户通常对集合中的某个部分感兴趣,需要使用工具控制缩放焦点和缩放因子。平滑的缩放有助于用户保持他们的位置感和上下文。缩放在针对小显示器的应用程序中特别重要。(3)过滤任务用户能够滤掉不感兴趣的条目。当用户控制显示的内容时,他们能够通过去除不想要的条目而快速集中他们的兴趣。(4)按需细化任务用户能够选择一个条目或一个组来获得细节。通常的方法是仅在条目上点击,然后在单独或弹出的窗口中查看细节。按需细化窗口可能包含到更多信息的链接。(5)关联任务用户能够关联集合内的条目或组。在视觉显示之内,有机会按接近性、包容性、连线或颜色编码来显示关系。突出显示技术能够被用于引起对有数千条目的域中某些条目的注意。指向视觉显示能够允许快速选择,且反馈是明显的。(6)历史任务用户能够保存动作历史以支持撤销、回放和逐步细化。信息探索是一个有很多步骤的过程,所以保存动作的历史并允许用户追溯其步骤是重要的。(7)提取任务用户能够允许子集和查询参数的提取。一旦用户获得了他们想要的条目或条目集合,对他们有用的是,他们能够提取该集合并保存它、通过电子邮件发送它或把它插入统计或呈现的软件包中。4.3
数据可视化的一般过程可视化流水线模型描述了从数据空间到可视空间的映射体现了数据处理和图形绘制的嵌套组合科学可视化流程Haber,R.B.andMcNabb,D.A.
Visualizationidioms:Aconceptualmodelforscientificvisualizationsystems,
1990.信息可视化流程Card,S.K.,Mackinlay,J.D.,andShneiderman,B.,editors.ReadingsinInformationVisualization:UsingVisiontoThink,
1999.视化循环模型可ByC
Solte.回路模型ByJarkVan
Wijk人机交互可视化模型—可视分析模型KeimD,ZhangL.Solvingproblemswithvisualanalyticschallengesandapplications[C]EuropeanConferenceonMachineLearning.KnowledgeDiscoveryinDatabases.ElsevierB.V.
20111-4.4.4
数据可视化设计的基本原则1.
正确的可视化故事与视图选择2.
图表的可读性3.
美学原则4.
合理的信息密度筛选5.
恰当的可视化交互6.
自然的可视化隐喻7.
适度的动画与过渡网格及其标注的合理使用可视化元素的平衡分布21可视化中的美学因素认真仔细地对待可视化设计中的标注正确使用颜色(色彩美)合理使用网格构图美布局原则(布局美)聚焦平衡简单(a)不完整的可视化结果,用户无法得知几条曲线的意义;
(b)一个完整的可视化结果。恰当的交互交互之前有引导,交互之后有反馈保证交互操作的直观性、易理解性和易记忆性用信息轮播、动画等效果自动切换数据信息,以推进可视化故事的叙述.什么是视觉隐喻隐喻(metaphor)的一种在视觉上将目标物体/形象与另一领域的(源)物体进行相似性对比常用于广告、平面设计等可视化隐喻将数据特性与自然界真实物体结合起来通过读者对自然界物体的认知来增强可视化表达效果体现了可视化设计的人本思想隐喻:树猴面包树(baobabview):使用树表达分类隐喻:河流Textflow:使用流来表达文本主题演化巧用动画与过渡增加可视化结果视图的丰富性与可理解性;增强重点信息或者整体画面的表现力。原则;适量原则统一原则易理解原则动画适用场景
1.
辅助不同视图/不同可视化视觉通道的变换
如果可视化的信息筛选后,密度仍然较大,可设计多个视图用于展示各种数据表达的信息。
可视化视觉通道(数据量、表现形式/状态)发生变化时,为了减轻视图变化给用户带来的“冲击”,避免用户在变化中迷失,可以使用动画的形式过渡。动画适用场景不同图表类型切换动效
2.
交互反馈效果
实时的反馈效果有助于用户获得此次操作的确认,避免用户盲目重复操作。
当鼠标移动到特定可视化区域,出现光晕或者微动效发生相应变化,以指引用户进行操作。动画适用场景
3.
微交互动效,引起注意视觉通道经常有运动、闪烁、虚拟物体的动作等动画效果,增加趣味性动画适用场景闪烁动效,吸引注意力4.5
数据可视化设计组件坐标系:用散点图映射数据和用圆饼图是不一样的。标尺:有意义的增量可以增强可读性,就像改变焦点一样。背景信息:如果可视化产品的读者对数据不熟悉,则应该阐明数据的含义以及读图的方式。
视觉隐喻4.5.2 坐标系三种坐标系直角坐标系(笛卡尔坐标系)极坐标系地理坐标系4.5.2 坐标系(1)直角坐标系是最常用的坐标系(如条形图、散点图)。通常可以认为坐标就是被标记为(x,
y)的XY值对。坐标的两条线垂直相交,取值范围从负到正,组成了坐标轴。直角坐标系还可以向多维空间扩展。三维空间可以用(x,
y,
z)三值对来替代(x,
y)。可以用直角坐标系来画几何图形。4.5.2 坐标系(2)极坐标系由一个圆形网格构成,最右边的点是零度。角度越大,逆时针旋转越多。距离圆心越远,半径越大。极坐标系没有直角坐标系用得多,但在角度和方向很重要时它会更有用。4.5.2 坐标系(3)地理坐标系映射位置数据。位置数据的形式通常是用纬度和经度来描述,分别相对于赤道和子午线的角度,有时还包含高度。相对于直角坐标系,纬度就好比水平轴,经度就好比垂直轴。也就是说,相当于使用了平面投影。4.5.2 坐标系绘制地表地图最关键的地方是要在二维平面上显示球形物体的表面,被称为投影。当把一个三维物体投射到二维平面上时,会丢失一些信息,与此同时,其他信息则被保留下来了。标尺标尺坐标系指定了可视化的维度,而标尺则指定了在每一个维度里数据映射到哪里。3 4对数标尺关注百分比变化0 10 100 1000
10000线性标尺数值等距分布0 1 2分类标尺离散的条形A B C D E顺序标尺有序的分类标尺可怕的
坏的
好的
很好的
非常好百分比标尺描述整体中的部分0% 25% 50%
75%100%时间标尺以月、日或小时为单位1月
2月
3月
4月
5月三种基本标尺:数字标尺分类标尺时间标尺4.5.3 标尺(1)数字标尺其上的间距相等,因此,在标尺的低端测量两点间的距离,和在标尺高端测量的结果是一样的。对数标尺随着数值的增加而压缩。不像线性标尺那样被广泛使用。但关心百分比变化而不是原始计数,或者数值的范围很广,对数标尺很有用。百分比标尺通常也是线性的,用来表示整体中的部分时,最大值是100%(所有部分总和是100%)。4.5.3 标尺(2)分类标尺为不同的分类提供视觉分隔。通常和数字标尺一起使用。分类间的间隔是随意的,和数值没有关系。对于分类的顺序标尺来说,顺序很重要。比如,将电影的分类排名数据按从糟糕的到非常好的这种顺序显示,能帮助观众更轻松地判断和比较影片的质量。4.5.3 标尺(3)时间标尺时间是连续变量。可以把时间数据画到线性标尺上,也可以将其分成月份或者星期这样的分类,作为离散变量处理。也可以是周期性的,总有下一个正午、下一个星期六和下一个一月份。4.5.4 背景信息背景信息帮助更好地理解数据相关的5W信息,即何人、何事、何时、何地、为何,可以使数据更清晰,并且能正确引导读者。有时背景信息是直接画出来的,有时则隐含在媒介中。图.
汽柴油历史调价信息背景信息4.5.5 整合可视化组件组件整合视觉隐喻是人们看到的主要部
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电力设备安全协议
- 陕西省西安市碑林区2024年七年级上学期数学期中试题【附答案】
- 河北省石家庄市外国语教育集团2021-2022学年学八年级上学期期末数学试题
- 工程项目经理个人年终总结
- 工程项目划分-副本
- 2019年高考历史岳麓版一轮复习练习必修三第五单元近现代中国的先进思想练案58
- 湖北省“腾云”联盟2023-2024学年高二下学期5月联考历史试卷
- 工程项目管理流程(完美修正版)
- 3.3 大气热力环流 课件 湘教版(2019)必修一 地理高一上学期
- 八局大体积混凝土裂缝产生原因及控制措施
- 同舟共济活动规则
- 工艺美术史9明代
- ISO9001ISO14001ISO45001内审检查表
- 集体计件工资分配方案(案例)
- 预算表格(基站建设项目工程).doc
- 放射科诊断报告书写规范、审核制度与流程
- 欧洲合同法PECL韩世远译
- 上海市单位退工证明退工单(打印版)
- 盘扣架支架计算小程序EXCEL
- 三福时尚百货客户满意度调研报告(共20页)
- 项目管理组织机构框图及说明
评论
0/150
提交评论