大数据可视化 课件 概述_第1页
大数据可视化 课件 概述_第2页
大数据可视化 课件 概述_第3页
大数据可视化 课件 概述_第4页
大数据可视化 课件 概述_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

—大数据可视化概述:目录CONTENTS思考与练习项目描述学习目标可视化概述数据集应用概述1项目概述项目概述

本概述重点介绍大数据可视化的理论背景,着重介绍如何使用Python对MySQL数据库中的数据以及本地数据文件进行操作,并结合综合应用对所学内容予以练习,以便熟练掌握基于Python语言可视化的基本思路和方法。本概述具体工作如下:

1.可视化概述;

2.数据集应用概述

3.Python加载数据方法。2学习目标学习目标通过对于概述的学习,了解数据可视化概貌、Python基础语法和MySQL的安装,掌握Python的安装与入门使用、MySQL数据库的搭建、Python操作MySQL数据库等技能。培养学生具备利用Python工具实现大数据可视化的基本技能,拓宽软件工程、大数据等相关专业学生视野;培养学生具备良好的思想品质、职业道德、敬业精神和责任意识,成为数字经济时代所需的高素质技术技能人才。3可视化概述任务描述了解互联网背景下大数据的发展概况、数据可视化与大数据的关系,了解数据可视化的基本图形,了解大数据的国家政策、相关国家推荐标准中大数据系统的逻辑架构和对数据可视化的要求。通过学习本任务内容,为掌握基于Python的大数据可视化技术奠定基础。知识与技能七、数据可视化图表类型2、柱状图柱状图是用矩形条形呈现数据,其高度或长度代表数据的数量或比例。柱状图可以横向或纵向展示数据,常用于展示离散数据的差异和比较。例如,可以用柱状图展示不同城市的销售额,比较它们之间的差异。知识与技能3、饼图饼图是通过将一个圆划分成几个扇形,然后利用各个扇形的角度来表示不同类别数据的比例关系。饼图常用来展示不同种类之间的比较关系,如销售额、用户数量、市场份额等。知识与技能4、散点图散点图是用坐标轴上的点来表示数据集中的数据分布情况,通过研究散点图的形态和密度,可以发现数据集合中的关系趋势和规律。散点图通常用于展示两个或多个变量之间的关系,以及它们之间的相关性。知识与技能5、热力图热力图是一种二维图表,使用颜色来表示数据点的值的大小,通过颜色深度和亮度来显示数据的密度分布。最常见的应用场景是对空间分布信息的可视化,如气象预报、人口普查等。热力图可以帮助用户快速确认数据中的“热门”区域,并进一步分析其背后的原因和特征。知识与技能6、树状图树状图(TreeMap)是按照面积来表示数据的图表类型,将根据数量或大小分类的数据呈现为一个矩形树形结构。树状图可以帮助用户直观了解不同类别的数据之间的比例关系和层级结构。知识与技能7、三维图三维图是一种用于在三维空间内展示数据的图表类型,通常具有更高的复杂性和交互性。三维图的应用场景广泛,可以用于展示房地产市场、电子商务市场和科学研究等领域的数据。知识与技能8、雷达图雷达图是一种适合于展示多维数据的图表,可以将多个数据维度组合在同一个图表中,以便比较它们之间的相对大小和趋势。雷达图通常是由一个中心点和多个顶点组成的多边形,每个顶点代表不同的数据维度,线段长度表示该维度的值大小。雷达图常用于展示产品特性、市场份额等多维数据。知识与技能9、箱线图箱线图是一种用来表示数据分布情况的图标类型,通过箱体和“须”线来描述数据的分布情况。箱体代表数据的四分位数,即数据的中位数、上四分位数和下四分位数,而“须”线则表示数据的最大值和最小值。箱线图通常用于比较两个或多个数据集合之间的差异和趋势。10、其他图表类型还有一些其他的大数据可视化图表类型,如双轴图、漏斗图、气泡图等。每个图表类型都具有其独特的使用场景和特点,可以根据需求进行选择。知识与技能数据可视化图表类型多种多样,从简单到复杂,覆盖了各种数据格式的展示,可以根据需求选择合适的图表类型来展示数据,帮助用户快速理解数据间的联系和趋势。常见的图表类型如图0-1所示。知识与技能数据可视化图表的种类非常多样,但每张图表的基本组成有较强的规律性。一张完整的图表一般包括:画布、图表标题、绘图区、数据系列、坐标轴、坐标轴标题、图例、文本标题、网格线等。下面详细描述各个组成部分的功能:1.画布:图中最大的白色区域,作为其它图表元素的容器。2.图表标题:用来概括图表内容的文字,常用的功能有设置字体、字号及字体颜色等。3.绘图区:画布中的一部分,显示图形的矩形区域,可改变填充颜色、位置,以便为图表展示更好的效果。4.数据系列:在数据区域中,同一行数值数据的集合构成一组数据系列,也就是图表中相关数据点的集合。5.坐标轴及坐标轴标题:坐标轴是表示数值大小、类别的水平线和垂直线,坐标轴上有刻度。一般而言,水平坐标轴表示分类,垂直坐标轴表示数值。标题用来给坐标轴命名。6.图例:指图表中系列区域的颜色、形状等数据系列所代表的内容。7.文本标签:用于为数据系列添加文字。8.网格线:贯穿绘图区的线条,类似标尺。4数据集应用概述任务描述在学习了大数据概念、演变、特点和趋势后,本任务将对数据集类型进行简要介绍,并针对大数据场景中涉及到的数据库进行讲解,帮助用户全方位了解不同数据库的应用,掌握本任务重所涉及的数据库使用方法。本任务对MySQL简介、Python操作数据库、Python读取文件等进行讲解与实践,激发学习大数据可视化课程的兴趣与积极性。完成本任务需要学生掌握Python对数据库数据的操作、Python读取文件方法等,练习巩固应用。知识与技能1、数据库概念:

数据库(Database)是指一个存储数据的集合、管理这些数据的系统以及操作这些数据的接口和工具。通常,数据库由多个表格组成,每个表格包含了一组有关联的数据。使用数据库可以快速、高效地存储和查询数据,并允许多个用户同时访问和修改数据。数据库还提供了数据安全性、完整性以及可靠性保障等功能。2、数据库应用场景:

数据库被广泛应用于各种领域,包括商业、医疗、教育、政府、科研等等。例如,在电子商务中,数据库可以用来存储商品信息、订单记录、支付信息、用户数据等;在银行和金融服务中,数据库可以用来存储客户信息、交易记录、财务报告等;在医疗保健中,数据库可以用来存储患者记录、医疗图像、药品信息等;在政府和公共服务中,数据库可以用来存储人口普查信息、税务记录、警察数据库等。一、数据库概述知识与技能当前市场上的数据库种类繁多,根据其所采用的不同数据模型和架构设计,可以大致分为以下类别:1、关系型数据库关系型数据库(RDBMS)基于关系模型进行设计,采用表格、行和列的方式存储数据,并使用SQL语言进行操作和管理数据。关系型数据库对数据的完整性和一致性有着强大的支持,被广泛应用于金融、医疗、电信等领域。常见的关系型数据库有Oracle、MySQL、MicrosoftSQLServer等。2、NoSQL数据库NoSQL(NotOnlySQL)数据库是指不仅支持SQL语言的关系型数据库,还包括键值数据存储、文档型数据库、图形数据库、列存储数据库等多种类型的非关系型数据库。NoSQL数据库通常具有高可扩展性、高并发性和高性能等优点,特别适合处理大量非结构化数据。常见的NoSQL数据库包括MongoDB、Redis、Cassandra等。二、数据库分类知识与技能3、图形数据库图形数据库是一种以图形结构为基础的数据库,将数据抽象为节点和边(关系),从而实现更加灵活的数据建模和分析。图形数据库通常使用CQL(CypherQueryLanguage)或者SPARQL进行数据查询和分析,特别适合处理社交网络、推荐系统等场景下的大规模复杂数据。常见的图形数据库有Neo4j、ArangoDB等。4、列存储数据库列存储数据库将数据按列进行存储而非按行,可以快速读取和处理表格中的特定列,适合处理大量宽表和大数据量的数据。列存储数据库通常采用分布式架构和压缩算法来提高数据的处理效率和存储空间利用率。常见的列存储数据库包括HBase、ApacheCassandra等。知识与技能5、内存数据库内存数据库是指将数据直接存储在内存中的数据库,通过优化读写操作和采用高度可扩展的架构,支持高并发和实时性处理。内存数据库常常用于对实时数据进行处理和分析,并具有良好的数据一致性和可靠性。常见的内存数据库有Redis、Memcached等。6、文档型数据库文档型数据库以文档为基础单元进行数据建模和管理,每个文档是一个键值对集合,可以嵌套和递归,非常灵活。文档型数据库通常使用BSON或者JSON格式进行序列化和反序列化,并支持动态的schema设计,易于应对数据结构变更和扩展。常见的文档型数据库有MongoDB、CouchDB等。知识与技能7、时序数据库时序数据库是一种专用于存储和管理时间序列数据的数据库,主要用于处理IoT设备、传感器、监控数据等大量高频时间序列数据。时序数据库采用优化的数据结构、存储和索引策略,支持高效的时序数据查询和分析。常见的时序数据库有InfluxDB、OpenTSDB等。8、空间数据库空间数据库是一种专门用于地理信息系统(GIS)等空间数据的数据库,具有较好的地理位置方面信息管理和应用能力。空间数据库提供对地图、卫星影像、地理和位置数据等的存储、管理以及查询和分析功能。常见的空间数据库有IBMDb2Spatial、PostGIS等。不同类型的数据库都有其自身的特点和优缺点,并且适用于不同的应用场景。随着技术的发展和应用范围的扩展,未来还会有更多新型的数据库涌现出来,为我们提供更加高效、灵活和智能的数据管理和分析服务。Python操作MySQL数据库第一步:安装第三方库PyMySQL使用Python操作MySQL,需要用第三方库PyMySQL,安装步骤如下:打开命令提示符,输入pipinstallpymysql,点击回车即可安装。这里安装的是1.0.2版本在Python中导入(importpymysql)没有报错,说明安装成功Python操作MySQL数据库第三步:查询操作以四六级单词库为例,分别查询a到z开头的单词数量,并存入列表中,以便后续可视化操作importpymysqldefselect_db(select_sql):

#建立数据库连接

db=pymysql.connect(

host="",

port=3306,

user="root",

passwd="root",

db="big_data"

)

cur=db.cursor(cursor=pymysql.cursors.DictCursor)

cur.execute(select_sql)

data=cur.fetchall()

cur.close()

db.close()

returndata

select_sql='SELECT*FROMmap_enword'

#查询四六级单词库中的所有数据

words=select_db(select_sql)#将数据赋值给变量words

print(words[:3])#查看前三条数据

letter=[''foriinrange(26)]

foriinrange(26):

letter[i]=chr(i+97)

print(letter)enword=[0foriinrange(26)]#定义列表

foriinrange(len(words)):#遍历所有单词

#将单词第一个字母取出并小写,转化为ASCII码,进而转化为序列号

enword[ord(words[i]['english'][:1].lower())-97]+=1

print(enword)第二步:导入SQL脚本将四六级单词库的脚本(map_enword.sql)导入MySQLWorkbench中。可在本教材附带的代码文件中获取脚本文件Python文件读取第一步:Python读xls、xlsx文件将“瓜果类单位面积产量.xls”和“瓜果类单位面积产量.csv”文件复制到C盘的“big_data”目录下。读xls或者xlsx文件主要使用Pandas的read_excel方法,语法格式为:pandas.read_excel(io,sheet_name=0,header=0,names=None,index_col=None,usecols=None,squeeze=False,dtype=None,engine=None,converters=None,true_values=None,false_values=None,skiprows=None,nrows=None,na_values=None,keep_default_na=True,verbose=False,parse_dates=False,date_parser=None,thousands=None,comment=None,skipfooter=0,convert_float=True,mangle_dupe_cols=True,**kwds)常用参数说明:io:xls、xlsx文件路径,字符串格式。sheet_name:可以传入None、字符串、整数、字符串列表、整数列表,默认为0,如果未None,则获取所有sheet、若为整数,则整数为索引。header:指定作为列名的行,默认为0,0时为取第一行为列名。names:要是用的列名列表。Python文件读取效果:Python读xls、xlsx文件:importpandasaspd#需要安装xlrd,pipinstallxlrd-i/pypi/simple/--trusted-host=/pypi/simple

importxlrd

df=pd.read_excel("瓜果类单位面积产量.xls")

print(df)Python文件读取效果:Python读csv文件importpandasaspd#在将xls文件另存为csv时,默认编码格式为GBK

df=pd.read_csv("瓜果类单位面积产量.csv",encoding='

utf-8')

print(df)任务总结通过本任务的学习,了解了MySQL数据库的搭建与入门、初步掌握Python操作MySQL数据库的方法。本任务的难点在于灵活运用Python对MySQL数据库中的数据进行操作,可以通过练习题进行掌握与提升、课外学习更多MySQL数据库的知识加深和拓宽知识储备。基于本任务的成果,对于MySQL数据库的原理有了一定的了解与练习,为后续学习做好铺垫,通过案例更好地理解MySQL数据库的原理。5思考与练习思考与练习1.选择题数据可视化能用哪种语言实现?()A.C++语言B.Java语言C.Python语言D.JavaScript语言(2)数据可视化可以用哪种符号元素编码?()A.长度B.长度、色彩、尺寸、位置、纹理、方向、形状以及关系C.长度、高度D.色彩、尺寸、位置、纹理、方向、形状以及关系思考与练习(3)数据可视化常用布局有哪些?()A.柱状图、饼图、折线图B.表格、散点图、雷达图C.网络图、时间线、热力图、地图、树图、复合图形等D.以上都对(4)本任务中测试Python是否安装成功的语句是?()A.Python-VB.Python-VC.Python-RD.Python-R

思考与练习技能题:1、使用for循环,计算1到100的和。2、使用for循环,计算10的阶乘。3、查询四六级单词库中的前十条数据。4.查询四六级单词库中以o开头的单词数量。THANKS附:Python环境配置

Python安装第一步1、进入/官网,点击Downloads下的Windows选项,下载自己要安装的版本,此处我们下载python3.8.5为例,同学们也烤鱼下载其他安装版本,不同的版本安装方法基本相同。Python环境配置图Python开始安装第二步2、在下载路径中找到并双击exe文件,开始安装。勾选左下角“AddPython3.8toPATH”,否则安装完成之后需要手动进行环境配置。Python环境配置图Python安装第三步3、“可选功能”默认全选,可选功能如下图所示,然后点击next。Python环境配置图Python安装第五步5、出现如图所示的画面,安装成功“Setupwassuccessful”字样即为安装成功Python环境配置图

验证是否安装成功6、验证是否安装成功,在搜索按钮出输入cmd命令,打开命令提示符窗口,在命令提示符中输入python,按下回车,如果显示内容如图所示,则为安装成功,并且可以看到所安装Python版本信息。Jupyternotebook下载与安装

1、安装Jupyter:打开CMD窗口,直接输入以下命令:pipinstalljupyterJupyternotebook下载与安装

2、打开CMD窗口:输入jupyternotebookJupyternotebook下载与安装3、打开CMD窗口:输入jupyternotebook,点击新建,就会跳转到新的文本页面,然后就可以编辑python代码了Jupyternotebook下载与安装4、编辑python代码页面Python环境配置图Python安装第四步4、可在“高级选项”中修改安装路径,高级功能如下图所示。之后点击Install进行安装。MySQL数据库的搭建与入门第一步:安装Mysql1、进入安装页面如果需要重新安装Mysql需要先卸载Mysql,双击mysql-installer-community-.msi,进入安装界面后选择Custom自定义安装,点击Next。MySQL数据库的搭建与入门2、在左侧目录中选择MySQLServer5.7.28-X64,点击→加载到右侧,选择要安装的产品名,在右下角会出现AdvancedOptions,单击它可以设置安装路径。MySQL数据库的搭建与入门例如将安装路径和数据路径修改到D:\develop\下,点击OK。注意,安装目录避免空格和中文(可选),如图0-15所示。MySQL数据库的搭建与入门选择安装模块:MySQL数据库的搭建与入门点击Execute执行安装,有的可能会提示需要先安装C++动态库等,那就先安装C++动态库,没有提示说明操作系统中已有需要的动态库。MySQL数据库的搭建与入门安装完成,点击Next(下一步)MySQL数据库的搭建与入门安装完成,点击Next(下一步)MySQL数据库的搭建与入门点击Next(下一步)MySQL数据库的搭建与入门3、将MySQL配置类型选择DevelopmentComputer开发电脑设置,点击Next(下一步)MySQL数据库的搭建与入门网络类型配置MySQL数据库的搭建与入门4、设置MySQL密码,因为管理员用户为root,学习初期建议将MySQL数据库密码也设置为root,设置完成后,点击Next(下一步)MySQL数据库的搭建与入门设置WindowsService系统服务,设置完毕后点击Next(下一步)MySQL数据库的搭建与入门点击Execute执行设置MySQL数据库的搭建与入门安装完成,点击Finish完成MySQL数据库的搭建与入门第二步:Mysql服务的启动与停止1、启动方式一(1)计算机(点击鼠标右键)==》管理(点击)==》服务和应用程序(点击)==》服务(点击)==》MySQL57(点击鼠标右键)==》启动或停止(点击)。(2)控制面板(点击)==》系统和安全(点击)==》管理工具(点击)==》服务(点击)==》MySQL57(点击鼠标右键)==》启动或停止(点击)。(3)任务栏(点击鼠标右键)==》启动任务管理器(点击)==》服务(点击)==》MySQL57(点击鼠标右键)==》启动或停止(点击)MySQL数据库的搭建与入门2、启动方式二:启动MySQL服务命令:netstartMySQL57停止MySQL服务命令:netstopMySQL57MySQL数据库的搭建与入门第三步:配置Mysql环境变量WIN10配置环境变量,MySQL数据库的搭建与入门第四步:MySQL数据库客户端的登录1、方式一:使用MySQL自带命令行客户端。开始菜单==》所有程序==》MySQL

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论