《大数据可视化》教学教案_第1页
《大数据可视化》教学教案_第2页
《大数据可视化》教学教案_第3页
《大数据可视化》教学教案_第4页
《大数据可视化》教学教案_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 大数据可视化教学教案讲授章节第1讲数据可视化概述授课时数教学目的:1.介绍数据可视化概念和发展历史2.介绍可视化的三种类别3.理解可视化作用,了解可视化的发展方向教学内容(课程导入)一可视化概念数据定义数据可视化的定义数据可视化从数据中提取的信息:模式数据的规律关系数据之间的相关性异常问题数据二数据可视化发展历史数据可视化的起源可追溯到公元2世纪,但是在之后的很长一段时间并没有特别大的发展。数据可视化的主要进展都是在最近两个半世纪才出现,尤其是近四十年。目前最热门的可视化形式可以追溯到17世纪,那时的地质探索、数学和历史的普及促进了早期的地图、图表和时间线的出现。随着工艺技术的完善,到19世

2、纪上半叶,人们已经掌握了整套统计数据可视化工具(包括柱状图、饼图、直方图、折线图、时间线、轮廓线等)关于社会、地理、医学和基金的统计数据越来越多。到19世纪下半叶,系统构建可视化方法的条件日渐成熟,人类社会进入了统计图形学的黄金时期。到了20世纪上半叶,政府、商业机构和科研部门开始大量使用可视化统计图形。进入21世纪,新的可视化媒介互联网出现,这催生了许多新的可视化技术和功能。三可视化的分类根据所处理的数据对象的不同,数据可视化可分为科学可视化与信息可视化。科学可视化科学可视化是可视化领域发展最早、最成熟的一个学科,其应用领域包括物理、化学、气象气候、航空航天、医学、生物学等各个学科,涉及对这

3、些学科中数据和模型的解释、操作与处理,旨在寻找其中的模式、特点、关系以及异常情况。信息可视化信息可视化的数据更贴近我们的生活与工作,包括地理信息可视化、时变数据可视化、层次数据可视化、网络数据可视化、非结构化数据可视化等我们常见的地图是地理信息数据,属于信息可视化的范畴。可视分析学可视分析学被定义为一门以可视交互界面为基础的分析推理科学,综合了图形学、数据挖掘和人机交互等技术。四大数据可视化作用及发展方向数据可视化的作用包括记录信息、分析推理、信息传播与协同等。伴随大数据时代的来临,数据可视化日益受到关注,可视化技术也日益成熟。然而,数据可视化依然存在许多问题,且面临着如下巨大的挑战。数据规模

4、大数据质量问题数据快速动态变化面临复杂高维数据多来源数据的类型和结构各异未来主要有四个发展方向:可视化技术与数据挖掘技术的紧密结合。可视化技术与人机交互技术的紧密结合可视化技术广泛应用于大规模、高维度、非结构化数据的处理与分析。处理数据能力的弹性变化。本章节的教学重点、难点:本章重点是数据及数据可视化概念,难点是可视化面临的挑战教学方法、教学手段:使用教具:计算机和投影仪讲授章节第2讲数据可视化基础授课时数2教学目的:介绍数据可视化流程能够了解可视化用到的数据存储工具理解并可以简单运用可视化设计原则。教学内容(讲授提纲)一可视化流程数据采集在可视化设计过程中,一定要事先了解数据的来源、采集方法

5、和数据属性,这样才能准确地反映要解决的问题。数据处理和变换可视化之前需要将原始数据转换成用户可以理解的模式和特征并显示出来。所以,数据处理和变换是非常有必要的,它包括去噪、数据清洗、提取特征等流程可视化映射可视化映射过程是整个流程的核心,其主要目的是让用户通过可视化结果去理解数据信息以及数据背后隐含的规律用户感知可视化映射后的结果只有通过用户感知才能转换成知识和灵感。二可视化数据组织工具数据良好的组织与管理是优秀数据可视化方案的前提条件。在大数据时代,只有选择适合的数据组织与管理方式,才能得到最好的可视化性能,才又可能实现实时数据的可视化展示。有以下常见数据存储工具分布式文件系统文档存储列式存

6、储键值存储图形数据库关系数据库内存数据库三可视化设计原则数据可视化的主要目的是准确地为用户展示和传达出数据所包含(隐藏)的信息,需要平衡信息与美感。有如下原则指导设计:数据筛选原则数据到可视化的直观映射原则视图选择与交互设计原则美学原则适当运用隐喻原则颜色与透明度选择原则本章节的教学重点、难点本讲重点是理解可视化的原则,难点是可视化数据组织工具教学方法、教学手段:使用教具:计算机和投影仪作业、讨论题、思考题:P33讲授章节第3讲时间数据可视化授课时数教学目的:了解时间数据可视化的应用了解连续型时间数据的特点及可视化的方法了解离散型时间数据的特点及可视化的方法教学内容(讲授提纲)时间数据可视化的

7、应用时间是一个非常重要的维度和属性。历史数据的积累是大数据“大”的一个重要原因。时间序列数据存在于各个领域,比如金融和商业交易记录,社会经济指标记录,气象观测数据,动植物种群数据等。金融和商业记录包括股票交易价格以及交易量,各种商品的销售价格和销售量;社会经济指标包括GDP(国民生产总值)、CPI(消费者物价指数)等指数。这些带时间维度的数据中蕴含着大量的信息,是指导国家制定政策、企业调整战略的重要依据。表单属性:二连续型时间数据特点连续型时间数据在任意两个时间点之间可以细分出无限多个数值,它是连续不断变化现象的记录。可视化方法阶梯图散点图拟合曲线三离散型时间数据1.特点离散型时间数据又称不连

8、续性时间数据,这类数据在任何两个时间点之间的个数是有限的。讲授章节第4讲比例数据可视化授课时数2教学目的:了解比例数据在大数据中的应用掌握比例数据可视化的方法了解时空比例数据可视化教学内容(讲授提纲)一比例数据在大数据中的应用对于比例数据,进行可视化的目的,是为了寻找整体中的最大值、最小值、整体的分布构成以及各部分之间的相对关系。二比例数据可视化方法饼图环形饼图比例中的堆叠矩形树图三时空比例数据现在的数据往往都带有时间维度的信息,时间属性的比例数据也是经常出现的。例如,每年都会对各项消费占居民总消费的比例进行统计,每一的调查结果都会积累下来。各种消费占比随着时间的变化情况是国家很关心的信息,这

9、可以反映国民的生活是越来越好了还是越来越差了。本章节的教学重点、难点:本讲重点是比例数据中蕴藏的部分与整体的关系,学会比例数据的可视化方法,理解时空比例数据的表示方法。教学方法、教学手段:使用教具:计算机和投影仪作业、讨论题、思考题:P46讲授章节第5讲关系数据可视化授课时数2教学目的:了解关系数据的概念掌握具有关联的数据的可视化方法掌握数据分布性的可视化方法教学内容(讲授提纲)一了解关系数据的概念大数据的一个重要价值是可以帮助我们找到变量之间的联系,发掘事物背后的因果。在进行大数据挖掘前的重要一步就是探索变量的相关关系,进而才能探索背后可能隐藏着的因果关系。二数据的关联性事物之间的关联性是比

10、较容易被发现的,但是关联并不代表存在因果关系。数据的关联性,其核心就是指量化的两个数据间的数理关系。关联性强,是指当一个数值变化时,另一个数值也会随之相应地发生变化。相反地,关联性弱,就是指当一个数值变化时另一个数值几乎没有发生变化。关联性可以由以下图像看出。散点图散点图矩阵气泡图三数据的分布性分布性可以由以下图像看出。茎叶图直方图密度图本章节的教学重点、难点:重点掌握关系数据的概念以及关联性、分布性的可视化方法教学方法、教学手段:使用教具:计算机和投影仪作业、讨论题、思考题:P54讲授章节第6讲文本数据可视化授课时数4教学目的:了解文本数据可视化的用途、对文本信息需求的层级、文本数据的分类了

11、解文本数据的获取方法掌握文本内容可视化方法了解文本关系可视化方法教学内容(讲授提纲)一文本数据可视化应用、层级、分类从人文研究到政府决策,从精准医疗到量化金融,从客户管理到市场营销,这些海量的文本作为最重要的信息载体之一,处处发挥着举足轻重的作用。一般把对文本的理解需求分为二级:词汇级(LexicalLevel)、语法级(SyntacticLevel)和语义级(SemanticLevel)。有不冋的信息挖掘方法来支持对应层级信息的挖掘。一般来说,词汇级使用各类分词算法,语法级使用一些句法分析算法,语义级则使用主题提取算法。文本数据大致可分为三种:单文本、文档集合和时序文本数据。对应的文本可视化

12、也可分为:文本内容的可视化、文本关系的可视化、文本多层面信息的可视化。文本内容可视化是对文本内的关键信息分析后的展示;文本关系的可视化既可以对单个文本进行内部的关系展示,也可以对多个文本进行文本之间的关系展示;文本多特征信息的可视化,是结合文本的多个特征进行全方位的可视化展示。二文本数据的获取网络爬虫(WebCrawler)是指一类能够自动化访问网络并抓取某些信息的程序,有时候也被称为“网络机器人”它们最早被应用于互联网搜索引擎及各种门户网站的开发中,现在也是大数据和数据分析领域中的重要角色。爬虫可以按一定逻辑大批量采集目标页面内容,并对数据做进一步的处理,人们借此能够更好更快的获得并使用他们

13、感兴趣的信息,从而方便地完成很多有价值的工作大部分编程语言都可以实现爬虫程序的编写,也有部分商业软件提供爬虫服务。目前比较流行的就是用Python编写爬虫,有大量的第三方库可以使用,常见的有Request、urlib、Scrapy等。其中Scrapy库提供了比较完善的爬虫框架。三文本内容可视化一段文本的内容可以用高频词、短语、句子、主题等代表,但是文本可视化遇到的任务通常是对有海量文本的集合进行可视化分析,针对不同类型的文本集合,我们有不同的方法来进行可视化分析。一个词语若在一个文本中出现频率较高,那么这个词语可能就是这个文本的关键词。在实际应用当中还要考虑到这些词是否在其他文本中也经常出现,

14、通常使用TF-IDF(TermFrequencyInverseDocumentFrequency)方法来计算词语对表达文本信息的重要程度。标签云是一种常见的关键词可视化方法。文档散使用词汇库中的结构关系来布局关键词,同时使用词语关系网中具有上下语义关系的词语来布局关键词,从而揭示文本内容。时序文本具有时间性和顺序性,通常采用主题河流、文本流和故事流进行可视化。文本分布可视化实际上是引入了词语在文本当中的位置、句子长度等信息,这些信息常被制作成文本弧。四文本关系可视化文本关系包括文本内或者文本间的关系,以及文本集合之间的关系,文本关系可视化的目的就是呈现这些关系。文本内的关系有词语的前后关系;文

15、本间的关系有网页之间的超链接关系,文本之间内容的相似性,文本之间的引用等;文本集合之间的关系是指文本集合内容的层次性等关系。文本内关系可用词语树、短语网络进行可视化当对多个文档进行可视化展示时,可以引人向量空间模型来计算出各个文档之间的相似性,单个文档被定义成单个特征向量,最终以投影等方式来呈现各文档之间的关系。比如星系视图和讲授章节第7讲复杂数据可视化授课时数2教学目的:理解复杂数据可视化的难点了解高维多兀数据的可视化方法;了解非结构化数据的可视化方法教学内容(讲授提纲)一复杂数据可视化难点对高维多元数据进行分析的困难如下:数据复杂度大大增加。复杂数据包括非结构化数据和从多个数据源采集、整合

16、而成的异构数据,传统单一的可视化方法无法支持对此类复杂数据的分析;数据的量级大大增加。复杂数据的量级已经超过了单机、外存模型甚至小型计算集群处理能力的上限,需要采用全新思路来解决大尺度的调整;数据质量问题在数据获取和处理过程中,不可避免地会产生数据质量的问题,其中特别需要关注的是数据的不确定性;数据快速动态変化。数据常以流式数据形成存在,对流式数据的实时分析与可视化技术还存在一定问题;二高维多元数据可视化方法高维多元数据指每个数据对象有两个或两个以上独立或者相关属性的数据。高维(Multidimensional)指数据具有多个独立属性,多元(Multivariate)指数据具有多个相关属性。空

17、间映射法包含散点图、表格透镜、平行坐标、降维等多种方法图标法以雷达图为典型代表三非结构化数据可视化1.基于并行的大尺度数据高分辨率可视化复杂数据并不只有高维度数据。还包括异构数据等。异构数据是指在同一个数据集中存在的如结构或者属性不同的数据。存在多个不同种类节点和连接的网络被称为异构网络。异构数据通常可采用网络结构进行表达。分而治之的大尺度数据分析与可视化可视化领域以及计算机图形学有一种标准方法叫作分治(DivideandConquer)法,如二叉树、四叉树等空间管理结构等。统计分析层的分而重组包括条件变量分割法、重复分割法数据挖掘层的分而治之使用分而后合的方法对数据进行分类。大体分为三个步骤

18、:首先,输入数据或者文本信息,将输入数据等份成n份或者按规则划分;然后,对每份数据使用最适合的分类器进行分类,并将分类结果融合;最后,通过一个强分类器计算获取最终结果。目前比较流行的Hadoop和Mapreduce等处理框架通常被用来处理非空间型数据,Mapreduce框架应用于科学计算的空间型数据,这就意味着使用统一的分而治之的框架可以处理科学计算的空间型数据和非结构化数据。本章节的教学重点、难点:重点掌握高维多元数据的概念和可视化的方法难点是非结构化数据的可视化教学方法、教学手段:使用教具:计算机和投影仪作业、讨论题、思考题:P78实验讲授章节Tableau数据可视化方法授课时数4教学目的

19、:1.了解Tableau软件的基本特点学会安装Tableau软件掌握使用Tableau绘制基础图表的方法学会使用Tableau创建仪表盘了解TableauServer的安装与特点了解TableauReader的安装与特点教学内容(讲授提纲)一Tableau的下载;二Tableau的特点支持数据类型的任意性简单易用性智能仪表板与瞬时共享三使用TableauDesktop绘制图表四下载并探索TableauServer、TableauReader的功能特点本章节的教学重点、难点:重点在于使用Tableau软件进行简单的可视化难点在于理解Tableau软件的功能特点教学方法、教学手段:学生实验作业、讨

20、论题、思考题:讲授章节DataV数据可视化方法授课时数4教学目的:掌握DataV的功能特点掌握DataV可视化应用管理以及数据源管理了解DataV的组件管理掌握使用DataV提供的模板进行可视化的方法教学内容(讲授提纲)一DataV功能特点多种场景模板丰富的图标库与地理绘制支持支持多种数据源容易实现的图形化搭建工具灵活的发布方式二在DataV中创建可视化应用三在DataV中添加数据源四尝试使用DataV组件包的功能五使用DataV的模板创建可视化结果本章节的教学重点、难点:重点在于DataV可视化模板的使用难点在于DataV数据源的管理以及DataV的功能特点教学方法、教学手段:学生实验作业、

21、讨论题、思考题:讲授章节ECharts数据可视化方法授课时数4教学目的:掌握Echarts的功能特点熟悉Echarts的基础概念掌握Echarts绘制简单可视化图表的方法了解Echarts主题和扩展管理工具教学内容(讲授提纲)ECharts的功能特点丰富的可视化类型多种数据格式无需转换直接使用千万数据的前端展现移动端优化支持多渲染方案与跨平台使用深度的交互式数据探索多维数据的支持以及丰富的视觉编码手段动态数据绚丽特效以及强大的三维可视化配置ECharts运行坏境从官网或者GitHub获取源码三随机生成数据并使用Echarts进行可视化根据人口增长模型随机生成一段时间的人口数据并进行可视化。本章

22、节的教学重点、难点:重点是理解Echarts的功能特点难点是掌握Echarst绘图语法教学方法、教学手段:学生实验作业、讨论题、思考题:讲授章节FineBI数据可视化方法授课时数1教学目的:掌握FineBI的产品定位以及安装使用FineBI设计自己的仪表盘。教学内容(讲授提纲)FineBI的产品定位FineBI的产品定位就是提供一种自助数据分析模式,帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析,适当减少IT人员在其中的参与,从而减少跨部门沟通产生的时间等成本。安装FineBI并制作出仪表盘本章节的教学重点、难点:重点在于使用FineBI进行仪表盘的设计和制作教学方法、教学手段:学

23、生实验作业、讨论题、思考题:讲授章节R语言可视化方法授课时数1教学目的:掌握R语言功能特点掌握R语言绘图基础语法教学内容(讲授提纲)一R语言功能特点R是一套完整的数据处理、计算和制图软件系统。其功能主要包括:1.R语言有强大的数据存储和处理系统,除了在R语言使用各种数学或统计工具进行数据的处理,R语言本身也提供了强大的数据存储处理系统,在R语言中可以完成数据的初步存储与处理。2数组运算工具,R语言的向量、矩阵运算功能尤其强大。3完整连贯的统计分析工具,通过R语言可以使用绝大多数的经典或者最新的统计方法。4优秀的统计制图功能,输出的图形可以直接保存为常用的JPG等图片格式,也可以直接保存为PDF格式,之所以特别强调,是因为如果存成PDF格式可以保

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论