数据科学与大数据技术导论-第4章-数据可视化_第1页
数据科学与大数据技术导论-第4章-数据可视化_第2页
数据科学与大数据技术导论-第4章-数据可视化_第3页
数据科学与大数据技术导论-第4章-数据可视化_第4页
数据科学与大数据技术导论-第4章-数据可视化_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据科学与大数据技术导论第4章数据可视化4.1可视化的定义

数据可视化是指利用计算机图形学等技术,将数据通过图形化的方式展示出来,直观地表达数据中蕴含的信息、规律和逻辑,便于用户进行观察和理解。数据可视化是数据探索以及发现有价值的知识的手段。

数据可视化的优点如下。(1)数据可视化用更直观的图形化的表现形式进行信息摘要。(2)数据可视化通过交互的方式,帮助用户对数据进行探索,发现数据里面隐藏的模式,获得对数据的洞察力和理解。4.2可视化发展历程

在19世纪,随着计算机图形学技术的发展,以及社会对数据应用和分析需求的增加,加速了以统计图表等为特征的现代数据可视化的诞生。这个时期的数据可视化图表包括散点图、直方图、极坐标图以及时间序列图等统计图表,以及以主题地图为代表的主题图,其中的典型代表是JohnSnow医生制作的用于展示1854年伦敦霍乱爆发的主题地图,如图4.1所示。图4.11854年伦敦霍乱地图

随着各行各业对数据的重视程度与日俱增,随之而来的是对数据进行一站式整合、挖掘、分析、可视化的需求日益强烈,因此也诞生了一批以数据可视化分析为主要业务的公司。如2003年成立的Tableau公司,其愿景是使用可视化工具与其他工具,让数据能够更好地被理解,让企业能够把握不断增长的数据流,促进数据发现,进而帮助人们进行更加合理的决策。

Tableau公司网站的主页如图4.2所示。图4.2Tableau公司网站的主页4.3可视化的意义和价值

可视化的特点是直观、美观、可交互。图4.3ManuCornet绘制的国际知名公司的组织结构图图4.4某院校部分课程的学生平均成绩与课程教学评估的分数及其散点图4.4数据可视化的流程

图4.5所示的原始数据中包含一批互联网新闻,每篇新闻中包含几百至几千字的报道内容。对于这些内容,很难直接进行可视化。在可视化之前,可以先通过命名实体抽取和话题挖掘,统计分析出这些新闻中包含的热门话题及其相应的频度,然后采用合适的图表对挖掘出来的这些结果和知识进行可视化。图4.5互联网新闻及其可视化4.5常见可视化图表

常见的统计图表有柱状图、折线图、饼图、散点图、气泡图、雷达图等,此外还有漏斗图、树图、热力图、关系图、词云图、事件河流图、日历图等。图4.6开课班级数年度对比4.5.1柱状图

柱状图适用于二维数据集(每个数据点包括两个值:x和y),但只有一个维度需要比较,用于显示一段时间内的数据变化或各项之间的比较情况。图4.7是一个实例的柱状图,从该图中可以很容易看出副教授的教学工作量(授课门数)要高于教授和讲师。图4.7示例柱形图4.5.2折线图

折线图一般在按照时间序列分析数据的变化趋势时使用,适用于较大的数据集。在通常情况下,折线图的x轴设定为时间(或者有大小意义的其他值),y轴设定为其他指标值。分析数量、比例等指标整体变化趋势时多用折线图。图4.8示例折线图4.5.3饼图

饼图一般在指定一个分析轴进行所占比例的比较时使用,只适用于反应部分与整体之间的关系,部分之间的对比不强烈,如图4.6所示。4.5.4散点图

散点图主要用于当数据中有两个以上维度需要比较的时候使用。散点图有时也用来展示数据中两个维度之间的关联关系。图4.4中展示了一个散点图。4.5.5雷达图

雷达图可以从不同角度对比数据之间的差异,一般来说,雷达图中实际展示的数据点不超过6个,否则各数据点之间重叠会导致不容易观察到数据之间的差异。图4.9所示为两个学者的行为画像。从该图中可以很容易看出学者一和学者二的差异。学者一的社交性和多样性高于学者二,而学者二的核心学术成果(论文数、引用数等)明显高于学者一。图4.9某两个学者的学术画像雷达图4.6可视化图表工具

传统的可视化工具包括微软公司的Excel,新一代的支持互联网数据可视化的工具有ECharts、HighChart、D3、GoogleCharts等。Python的第三方库matplotlib是通过代码进行可视化图表制作的另一种选择。1.Excel

利用Excel可以制作简单的折线图、柱状图等。在Excel中选择需要进行可视化的数据,单击“插入”选项卡中的“图表”按钮,从“图表”中选择一个合适的图表样式,或者从“所有图表”中选择一个自己喜欢的图表即可创建图表,如图4.10所示。Excel提供了非常灵活多样的配置功能,图表中的线条、文字、填充等样式都可以进行修改。图4.10Excel提供的图表2.ECharts

ECharts源自百度,目前是由Apache孵化器赞助的Apache开源基金会孵化项目。ECharts是一个使用JavaScript实现的开源可视化库,可以流畅地运行在PC和移动智能设备上,兼容当前绝大部分浏览器(IE8/9/10/11、Chrome、Firefox、Safari等),底层依赖矢量图形库ZRender,提供直观、交互丰富、可高度个性化定制的数据可视化图表。

ECharts的界面如图4.11所示。图4.11ECharts的界面3.matplotlib

matplotlib是Python下2D绘图中使用最广泛的套件之一。它能让用户轻松地将数据图形化,并且提供多样化的输出格式。matplotlib以各种硬拷贝格式和跨平台的交互式环境生成出版物质量级别的图形,支持绘制折线图、散点图、等高线图、条形图、柱状图、3D图形等。关于matplotl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论