版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据可视化简史
数据可视化是数据分析最常见的一种应用形式,本文介绍了数据可视化的发
展历史和应用现状。
引言
JohnSnow(不是G.QT.里那个“私生子")大概永远不会想到,自己在
排查霍乱传播途径时,在地图上标记死于霍乱病人的"霍乱地图”居然会被后
人评为历史上十佳数据可视化的案例,并且成为了医药地理学和传染病学中一
项基本的研究方法。约翰・斯诺(JohnSnow,1813年3月15日-1858年6
月16日),英国内科医生,曾经当过维多利亚女王的私人医师,因在1854年
宽街霍乱爆发事件研究中作出重大贡献,被认为是麻醉医学和公共卫生医学的
开拓者。
Thisguy:Notthisguy.
DrJolinSnoxv(1813-1858)
在斯诺生活的年代,对霍乱的起因的主流意见是空气污染论(认为霍乱像黑
死病一样通过空气传播工另一方意见是未被广泛接受病菌学说。通过深入研究,
在与当地居民的沟通中加上亨利・怀特海德的协助,斯诺判断出宽街的公共水泵
是污染源,斯诺随后使用点示图去解释霍乱案例爆发点是以水泵为中心。通过连
接霍乱事件与地理信息的关联,创制了著名的"霍乱地图"。
他将该地区的每一个水泵,以及四周的水井都标注到图中。最后他发现最
多的霍乱患者围绕的水泵位于宽街。
新冠疫情肆虐期间,大家每天查看的疫情地图,都得感谢祖师爷斯诺的贡
献。
回到本文的主题,关于数据可视化,数据玩家将按经典的Why-What-
How逻辑为大家逐步展开。
一、为什么要数据可视化
-Necessityfordatavisualization
先来举个栗子,大家可以尝试找出下图中的"7"
904836898902637
328783949036822
807958069338622
253737394349824
482395603253366
664440742275788
572882622485099
473556834698000
925500345730505
406077668830445
看累了?试试下面这张图呢?
904836898902637
328783949036822
807958069338622
253737394349824
482395603253366
664440742275788
572882622485099
473556834698000
925500345730505
406077668830445
是不是容易太多了,这就是视觉的力量。
可视化辅助决策
研究表明,人眼是一个高带宽大量视觉信号并行GPU,带宽在
2.339G/S,相当于一个两万兆网卡,具有超强的模式识别能力,且对可视符号
的处理速度比数字或者文本快多个数量级,在大数据时代,数据可视化是人们
洞察数据内涵、理解数据蕴藏价值的有力工具。
因此,可视化常常被用来辅助决策,如上图,中间的一张密密麻麻的客户
表,到底能得出什么有价值的信息指导决策呢?光看一行行一列列的数据,可
能需要很久才能得出一些结论,但是经过可视化,我们可以轻松的以各种形式
的可视化快速掌握结论,从而辅助决策。
这就是:可视分析,即将信息提炼为知识,起到"观物至知"对作用,便
于决策者从复杂、大量、多维度的数据中快速挖掘有效信息。
不当可视化误导判断
值得注意的是,并非所有的可视化都可以指导决策,甚至不当的可视化会
误导判断,以致做出错误的决策。
・2004年前后,美国有线通信协会(NCTA)发布的报告中,用下图声称美国
政府的管制行为导致了企业投资下降,而在放开管制后,企业投资就大量增
加。
•乍看之下,管制的时候是左柱,投资只有140亿美元,放开管制后,投资有
560亿美元貌似结论没有错误。但这张图有严重的误导与逻辑的维漏。
Lessregulation=Moreindustryinvestment
$56billionAfterregulations
wererelaxed
1993-19961999-2003
•1996-1999年间三年的数据缺失。三年可以发生很多事情,在缺乏数据的情
况下,强行将1999年后的投资增长归结于去管制,是有逻辑欠缺的。
•左柱只总结了3年的总投资,右柱则总结了4年的总投资,这更是故意误导
观众,让观众认为去管制后企业投资大大增加,而游说政府放开行业管制。实
际上很可能是其他因素造成的快速增长,而不仅仅是去管制。
真相到底是什么?
CableIndustryInfrastructureExpenditures
Inbillions
可以看到,事实上96年放开管制后,随后的三年里企业投资并没有显著
变化,99年以后的爆发式增长肯定是由于别的原因造成,而非单纯的放开管
制。
再看一个例子:
60.2
60
60
59.8
59.6
59.4
59.2
59
58.8
58.6
58.4
20152016
这图看起来,是不是16年比15年增加了特别多,实际看看坐标轴,才从
59增加到60,2%不到,把坐标轴换一下:
70i
60
20152016
这样看起来就能体现出2%的增量其实没多少了。不过,根据目的的不同,
不排除有的场景也可以采用第一种展现方式。再比如前一段时间好多群都在转的
下面这张图,纵坐标从1100万开始,显得2020年的1200万简直快到底了,
是不是没人生孩子了……
»2000年—2020年中国新出生人口数量
我们换成从0开始的纵坐标来看看:
这是不是正常多了,虽然也下降得不少,但是整个基数还是很大的。
不过,如果需要贩卖焦虑,用上面那张图就比较容易达到效果。
二、什么是数据可视化
------ConceptofdataVisualization
发展历程
利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术称为可
视化,它将不可见或难以分析的数据转化为可感知的图形、符号、颜色、纹理
等等,以提高数据识别和信息传递的效率。
我们拿到的原始数据,可能是半结构化,甚至非结构化的,经过数据清洗
和ETL过程,我们得到规整的结构化数据表,再通过视觉映射,我们得到需要
展示的视觉结构,即按照什么维度,展示什么指标,最后,将视觉结构通过图
像转换,转化为最终的可视化图像,呈现给决策者。
我们可以将数据可视化的发展历程分为七个历程。
17世纪之前——图表萌芽
人类早在公元前6200年就掌握了观测和绘制的能力,此后也一直通过手
工的方式制作可视化作品。可视化萌芽出自地图和一些简单的图表,数据也不
是测量而来,目的大多是展示一些重要的信息。
人类第一幅地图(公元前6200年)
公元950年,欧洲人画出了基于时间变化的折线图,用于展示太阳,月亮
等行星的位置变化趋势,开始出现如今的数据图表的雏形。
17世纪——物理测量
17世纪以后,随着对物理基本量(时间、距离等)的测量理论和设备的完
善,制图学理论也随着分析几何、概率论等学科迅速发展,17世纪末产生了基
于真实测量数据的可视化作品。
人类第一幅天气图(1686年)
这幅图是谁画的呢?EdmondHalley(1656-1742),埃德蒙•哈雷,是
不是挺耳熟,没错,就是发现哈雷彗星的那个哈雷。
EdmondHalley
图上绘制了信风和季风的方向,”一目了然地显示了这些风的所有不同地
段和路线;据此,有可能比任何口头描述都更容易理解"。
18世纪——图形符号
进入18世纪,人类不再满足于地图上的几何信息,随着统计理论、实验
数据分析等学科的发展,现在我们所熟悉的函数图、抽象图被广泛发明。
丹麦和挪威的进出口贸易时间序列
此图来自威廉•普莱费尔(WilliamPlayfair,1759-1823),他是来自苏格
兰的工程师和政治经济学家,今天我们使用的折线图、条形图、饼图和面积图
都是他发明的。图中,红线是出口额,黄线是进口额,通过两条折线可以很明
显的看出,1754年前,出口额小于进口额,之后出口额反超。
19世纪数据图形
19世纪,统计图、概念图等迅猛爆发,此时人们已经掌握了众多统计数据
可视化工具,包括柱状图、饼图、折线图、时间线、轮廓线等。政府规划和运
营也越来越多的采用可视化方法,19世纪下半叶,迎来了数据可视化的黄金时
期。这个时期的数据可视化代表作,除了上文中提到的"霍乱地图",还有下
面这张拿破仑东征流图。
1812-1813对俄战争中法军人力持续损失示意图(1869年,被誉为史上最佳可视化)
这张图的信息量极大,是1969年法国工程师CharlesJosephMinard
制作的,描绘了拿破仑1812年率军攻占莫斯科的行军图。
其中,最底层是地图,深黄色图形表示行军规模,黑色图形表示撤军规
模,线条宽度代表了军队的人数,可以看出从出发时开始的42w大军,行军规
模逐渐缩减,撤军规模逐渐增加,到达莫斯科时只剩lw人。当然,线条的走
势也是行军/撤军路线。
同时,底部既有横向的时间轴,也有纵向的刻度标识了当时的气温。
此图可以直观的感受到,拿破仑的40万大军是如何在长途跋涉和寒冬中
消耗殆尽,此次东征也称为拿破仑由盛转衰的转折点。此外,还有南丁格尔玫
瑰图:
南丁格尔玫瑰图
没错,就是那位护士弗罗伦斯•南丁格尔(FlorenceNightingale),护理
学的奠基人。
FlorenceNightingale
她的另一个身份是统计学家。"南丁格尔玫瑰图"直观展示了卫生条件对
死亡人数的影响,因而争取到了更好的医疗条件。
20世纪——多维数据
进入20世纪,数据可视化的黄金时期终结,主要原因是随着数理统计的
诞生,追求数理统计的数学基础成为数据科学行业的首要目标,而图形和可视
化作为其辅助,没有得到太多重视,多维数据可视化是这个时期可视化的重要
特点。
DAILYSUNSPOTAREAAVERAGEDOVERINDIVIDUALSOL/\RROTATION!
DATE
DATE
1904年关于太阳黑子随时间扰动的蝴蝶图验证了太阳黑子的周期性
1970S-21世纪——交互可视化
随着计算机的发明和应用,人们开始采用计算机编程完成可视化过程。70
年代以后,随着人机交互界面、图形显示设备的普及,人们获得了将更复杂、
更高维数据的可视化能力。
谷歌人体浏览器
自80年代末开始,Windows系统的问世使得人们能够直接与信息交互,
也极大的提升了人们对于可视化的热情。同时,随着高维数据和高性能计算的
进一步普及,对于多维、时变、非结构化数据呈现和分析的需求也更加强烈,
可交互的可视化产品开始登上历史舞台。
2004至今——可视分析学
大数据公司Palantir为美军分析的亚丁湾海盗概率热点图
进入21世纪,人们并不满足现有可视化技术对于数据的呈现和表示,开
始将可视化和数据挖掘、图形学结合起来,以辅助用户从大尺度、复杂、矛盾
甚至不完整的数据中快速挖掘出有用的信息,以便有效做出决策,这门学科就
称为可视分析学。
主流呈现形式
软件生成分析图
Excel.Python,Matlab和SAS等数据分析软件经常自带数据可视化包
或工具,科研人员或技术人员可借此对数据进行初步可视化,以继续深入分析
和挖掘,维度相对简单,对视觉要求较低,适合技术人员初步分析或学者发表
研究论文。下图是针对16年美国大选选民学历的可视化分析,未接受高等教
育的白人比例越大(相比4年前),Trump的胜算越大,而这个比例在男性中
更为明显。
-)N
T
O
a
g・
N
oWomen
a
w
♦25i
-N
3
9
N
4
HMen
O
PERCENTOFWHITESWITHOUTCOLLEGEDEGREE
255075^00%
50
信息图
由设计人员根据清洗过的数据,充分分析其含义后,利用illustrator.
coreldraw等平面设计软件进行手动加工,同时加入注解信息获得。可读性趣
味性很强,但相对数据准确度不高,常出现于媒体资讯或者公司行业报告中,
也就是大家经常看到的"一图看懂XXXX"。
HOWTOBfCOMI
PRESIDENTOFTHEUNITEDSTATES
可交互的HTML网页(BI系统)
可借由HTML5、JS等技术动态地、可交互地展示高维数据,非技术背景
的普通用户也可以对自己感兴趣的数据进行选取和下钻。常由多个网页构成商
业智能(BI)系统,但近年来也被媒体广泛采用展示热点数据。
三、怎么做数据可视化
------Howtovisualizedata
进入“大数据时代"后,复杂、异构、大尺度的数据中经过分析所得的知
识和人类所掌握知识的差异是导致新知识发现的根源,但如此复杂的数据也往
往会让人感到困惑。利用人的强大视觉识别能力和推理分析智能来表达、分
析、检验这些差异正是“大数据时代"数据可视化的新思路。这就要求我们在
进行数据可视化时必须理解数据含义、目标明确。
可视化流程
获取并清洗数据
巧妇难为无米之炊,第一步当然是要获取结构化的,干净的数据,否则:
于数据的分析,模型,支撑风控、营销和运营,在缺少数据质量支撑的前提下几
乎都无从谈起。
理解数据含义&明确目标
做可视化,最容易进入的误区就是,拿到一堆数据,还没有理解数据有什
么含义,直接就开始套用图形进行展示,把大部分时间用在美化图表上,而完
全忽略数据本身传达的意义。下面这张图信息量很大,可以帮助大家评估一个
可视化作品是否成功。比如,把数据按照一个故事线组织起来,那多半是一个
研究文档或者提纲,再加上特定的目标和功能介绍,才可以画出线框图,最后
加上视觉形式,才有可能变成一个成功的可视化作品。再比如,只有数据和视
觉形式,那可能只是纯粹的数据艺术,看起来很美,其实没有价值,就算加上
一个故事,也没有什么特定的用途,给不了任何启发,只有赋予它一个特定的
目标,才有可能成为一个成功的可视化。所以,明确一个可视化作品的目标是
很重要的,知道了要传达什么信息,达到什么目标,才知道要选择什么展现形
式。不同的图表类型适合表达不同的含义,比如,要比较趋势,折线图就比柱
状图更合适,比如,要表达占比,饼图不一定比堆积柱状图好用。
选择合适的展现形式
那么,如何选择合适的展现形式呢,毕竟,有那么多种类的图形:
)MnM
■I'll
AS3IHIIIIIES麓环金
TypesofInformationVisualization
下面列举了常用的各类图表及适用场景:
类刷使用缮最・点示例
TS常用的图形,可‘
以应对绝大多数可
视化场量,主要用
柱状回于:
9SAWSL
横轴通常有序(如
时序)
柱状图搐轴无含义
时使用
条形图一定要排序
如不同国家、地区
等数值的比较
柱状图
强调各部分数量或
堆积柱形图可替代燃图
占比
表达数个将定数值
之间的数量变化关
系、数据点之间数
瀑布围■的演变过程.
如,期中与期末每「皿
月成交件数的消长
表达值相对于总计
的关系或占比,适单度・
饼图用于只有一个系列只有一个系列
的数据,比较一个无负值
度.(引杉鲁度)
相比饼8B・加一个
度・,即篇形的半
径.由于半径和面
根之间是平方的关两个度■
玫瑰图系,视觉上,玫瑰只有f系列
朗会将数据的比例无负值
夸大.反之,相比
较较为接近的数据
饼图时,较为适合___
相比饼图,视觉上
环形图没有那么满,可以同饼图
配合其他网形展示
相比环形IB,多了
目■
为负值,数值为负两个度量
环形玫丽时,¥@^04^1只有f系列
有负值
相比玫瑰国,兼容
了负值
词过高度和斜率表.套柘峥口
水安化口玲,与柱身鸳1鬻易
状图相比,折线图2”堂小
更注西A理依转.第f
杆状由例中表现佥黑、个以上
化量的折线
国・二瞬!«:的介
布.
I当址数抠<111把
可以编做时
行用永做巾
照,出美性
时,Wffitf
解的多的样本
相比散点囹《8加了
78四个度工,加点的
人小
如U!单纯表现
幅如阳/曲印折线图+靖枳罔,表门苑建议用
M理占比的同以讦折线助因为
可以太斑变如势面积蜂巨杆
»n
rfulJ㈱
不能屈小负值
多
比胶不同编间同样:
。1因fc初l旃射和占比维度
数命相若对大
时不宜使用
阳彤爰别WVMSt置a/hM
W8B
根i»«W6g
限询共多个4Wt
出图气鼻仲激俱k:
需要先做标潜1
化
■・•・・•・・・
■■
小天法展示文
空间甥IL却要展
字1**(
w^ta示大量层次结构数
不肆EJ加度•*•-S
据■
/*ttPRSk"职三三一.
1卢丁一―=•
用S
l
l'「1
hu
・lT
比恸侦朝的・|
分布图B&•c
范丽分布z.・fAl
i.T
i1!
l
甲'-a
系基脚梆**•1tow.
w4MMiar
表现流程的示意恒,每条幽l--1-1
图,用于侬一期S>f^.
「一申11
值到月要变化,可使
紧找图F»0^1-111
向.分支的亮度对胸蜘1一二cL,.L|
一.〜中二1
应了如南淖的人变量人多,»——|—
小.—•MM"*...LB
关系fl8昵方法.
丽,涉
本质上展现的是一K
多也会造成信
种中关系,适合
息过莪
展现飘捌+复寂
系
WH「砥nr产P'-Q
四分检费r的祗通鸵用开㈤
念,版5强75"主
tiarveyBall分位等I膝进行了同堆圉稔
BH吐后,用来比势,定性多于
较不同个体之间的定量
可视化CheckList
过度设计影响信息表达
如下图,其实只需要表现一个度量,但是却用了三维图形,扇面的高度不
具有任何含义。
Shareofworldwideurban
populationgrowth2010-2050
条形图足以表达:
SHAREOFWORLDWIDEURBAN
POPULATIONGROWTH2010to2050
同样,下图想表现的信息过多:
看起来很美,但是看完以后完全不知所云,不如拆成几张图分别表达。
图表类型不合适
想表现趋势,却用了柱状图:
换成折线图更加直观:
123456789101112
使用过多的色彩
颜色本身也传递了一定的信息量,过多的颜色也给人一头雾水的感觉:
结合我们想要表现的重点,有针对性的突出一到两种颜色即可:
123456789101112
避免信息过载
折线图比较了太多系列,建议不超过三个:
ABCDEFGHIJK
系列1系列2系列3-----系列4
一系列5一系歹IJ6一系列7—系列8
同样,和弦图也有类似的情况:
少用3D效果
3D效果通常不能表现额外的信息,反而会造成不必要的遮挡和误解:
■系列1■系列2■系列3
改成2D的图形效果反而更好:
6
眯眼测试,突出重点
一套复杂的BI看板,常常让观看者无从看起:
一一j
三二二
e二三
M
r三二
l
三il三
t
M
a二
三*三二三
::
a
*
«
M三;
>>
»
三・,二三
・二三
*:
二-
三•<>工二二三
一二=三
M
受二U二三二
lll
m
”:一
三K二
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网络直播现场制片服务合同
- 旅馆客房墙纸更新合同
- 美发产品代言师招聘合同
- 简易城市污水处理工程合同模板
- 游戏开发任课教师聘用合同
- 公共服务挖机租赁合同协议
- 体育用品存放库租赁合同
- 木工工程承包合同范本
- 建筑公司净水器租赁协议
- 煤炭运输吊车租赁协议模板
- T-CCSAS014-2022《化工企业承包商安全管理指南》
- 电梯安全总监和安全员的任命文件
- 2024年安徽省普通高中学业水平选择性考试 历史试卷
- 电子商务师职业技能等级证书培训方案
- JBT 14615-2024 内燃机 活塞运动组件 清洁度限值及测定方法(正式版)
- DL5009.2-2013电力建设安全工作规程第2部分:电力线路
- 理智与情感:爱情的心理文化之旅智慧树知到期末考试答案章节答案2024年昆明理工大学
- GA/T 2097-2023执法办案管理场所信息应用技术要求
- GB 20052-2024电力变压器能效限定值及能效等级
- 陶行知与乡村教育智慧树知到期末考试答案章节答案2024年丽水学院
- 手术切口感染PDCA案例
评论
0/150
提交评论