




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
高级数据挖掘Contents可视化的基础概念01可视化用具与技术02数据可视化的背景数据可视化作为一种信息表达方式,最早可追溯至17世纪,统计学家戈塞特利恩提出了统计图表的概念用以直观地展示数据分布,例如饼图、直方图等19世纪出现了很多创新的可视化方法,例如,弗洛伦斯·南丁格尔的“玫瑰图”成功地展示了不同因素对士兵死亡率的影响,被视为数据可视化历史上的重要里程碑20世纪出现了许多经典的可视化工具和技术,如X-Y图、树状图、雷达图和散点矩阵等21世纪进入大数据时代,数据可视化得到了进一步的蓬勃发展,在各个领域都有广泛的应用...数据可视化的背景案例例8-1:假设你是理想生活商城的销售经理,刚拿到Q1季度的销售数据,如图8-1所示,由于数据量较大,这里仅展示了2月25日至2月28日的销售数据。你的目标是对各类产品的销售情况进行详尽的分析,并制定相应的策略以提升整体销售业绩。然而,你发现仅通过表格形式的销售数据难以直观地观察数据及其之间的相互联系,因此,你期望能够运用数据可视化工具和数据分析技术来实现这些目标。图8-1季度销售数据(部分)数据可视化的定义及基本步骤数据可视化(DataVisualization)是指利用各种图表、图形等视觉化方式将数据以直观、易懂的形式呈现出来的过程。根本目的:通过视觉化的手段,帮助用户更为深入地理解和分析数据,揭示数据中的模式、趋势和关联性。本质:将抽象的数据转化为可视化的形式,减少人们面对大量数据时的认知负荷,使复杂数据更易于处理和分析,从而能够更轻松地理解和解释数据所蕴含的信息例如,图8-2展示了线上销售平台每个产品的销量信息,其中,横轴代表产品,纵轴代表产品的销量。相比于传统的表格形式,通过数据可视化的方式呈现销量数据,可以更直观地感受到不同产品之间销量的差异图8-2产品的销量信息数据可视化的定义及基本步骤数据采集数据采集是数据可视化的首要步骤获取数据时需要注意数据真实性和可靠性,以及数据隐私和合规性问题数据预处理处理噪声、误差和异常点等问题降低错误分析和判断的风险,并为后续的数据可视化与分析提供可靠基础可视化映射数据可视化过程的核心步骤可视化映射是指把经过处理的数据信息映射到视觉元素上,完成数据到可视化元素的转变结果解读与呈现需要深入分析数据的规律和趋势,结合特定业务的具体背景,利用领域知识,提炼出有价值的信息数据可视化的常用图表类型1.折线图折线图(linechart)主要用于在连续间隔或时间跨度上显示定量数值,常被用于显示变化趋势以及关系信息。在折线图中,横轴一般为类别型或序数型变量,分别对应文本坐标轴和序数坐标轴(例如日期坐标轴)两种类型;纵轴一般为数值型变量。图8-3商品总销售额(左)和销售量(右)变化趋势(20日至31日)数据可视化的常用图表类型2.柱状图柱状图(barchart)通常用于比较不同类别或组之间的数据差异,横轴一般为类别型或序数型变量,纵轴一般为数值型变量。常见的柱状图有三种类型:单数据列柱状图主要用于展示单一类别或组的数据,每个类别对应一个独立的柱形多数据系列柱状图主要用于展示多个类别或组的数据,每个类别包含多根并列的柱形,每个柱形代表一个不同的变量。堆积柱状图将不同变量的数值累加显示,使得整体柱形的高度表示总数值,而柱形内部的不同颜色区域表示各变量的贡献度。图8-4各个种类商品的销售量(单数据列)图8-5各个种类商品的销售量(多数据列)图8-6各个种类商品的销售量组成数据可视化的常用图表类型3.饼图饼图(piechart)将一个圆饼按照分类划分为多个区块,每个区块的大小代表该分类占总体的比例,所有区块的总和等于100%。饼图具有帮助用户快速了解数据占比的优势,但是饼图并不适用于多分类的数据。图8-7展示了2月27日理想生活商城各个商品销售额的占当天总销售额的比例。图8-7各个商品销售额占比(27日)
数据可视化的常用图表类型4.散点图散点图(scattergraph)使用一系列的散点在直角坐标系中展示变量的数值分布。在二维散点图中,可以通过观察两个变量的数据点分布情况,推断出变量间的相关性。当变量之间没有相互关系时,在散点图上将呈现出随机分布的离散点。然而,当变量之间存在某种相关性时,大部分数据点会相对密集地聚集并展现出特点的分布或趋势。数据的相关关系主要包括正相关、负相关、不相关、指数相关等。图8-8不同的相关性类型
数据可视化的常用图表类型5.雷达图雷达图(radarchart),又称为蜘蛛图,是一种用于可视化多个变量的图表形式。它以中心点为原点,通过从中心向外延伸的不同轴线来表示不同的变量。每个变量在对应的轴线上有自己的数据点或者连接线,形成一个闭合的多边形。雷达图常被用于比较多个实体在不同变量上的表现,例如,图8-9展示了两个同类型产品在好评率、品牌知名度、外观设计、产品质量和价格五个方面的评分。此外,雷达图也可以用于识别数据集中得分高或低的变量,是显示性能表现的理想之选。图8-9不同产品的得分数据可视化的常用图表类型6.箱型图箱型图(boxplot),又称为盒须图、箱线图,能够显示出一组数据的最大值、最小值、中位数以及上下四分位数,可用于反映一组或多组连续型定量数据分布的中心位置和散布范围。例如,图8-10使用箱型图展示了各个国家的收入信息,最左侧和最右侧的边界分别代表数据集的最小值和最大值,中间蓝色区域的三个边界分别代表三个四分位数Q1、Q2和Q3。图8-10各个国家的收入信息数据可视化实例(一)第六次全国人口普查数据分析——北京市人口流入流出情况北京作为我国的首都,吸引了大量的外来人口,与此同时,由于房价高涨,生活成本较高等因素,北京也面临着人口流出的挑战。图8-11展示了第六次全国人口普查中,北京市流入人口的情况,左侧使用了柱状图展示了每个省份流入北京市的人口信息,右侧使用了地图元素形象化地展示了北京流入人口的来源分布。图8-11第六次全国人口普查北京市人口流入流出情况从图中可以看出,河北、河南、山东等省份流入北京市的人口最多,而西藏、海南、青海等地区流入北京的人口较少。通过深入分析北京市人口的流动情况,能够更好地了解人口迁徙的趋势和原因,为实现可持续发展和人口资源的合理配置提供基础。数据来源网址:/wjw/#/data/classify/visualization?currentMapIndex=4数据可视化实例(二)网站流量数据分析网站流量数据分析对于理解用户行为、评估网站性能、优化运营和监测营销效果具有重要意义,能够帮助网站开发者更加深入地了解网站和用户之间的关系,从而提高网站的质量、效益和竞争力。图8-12展示了2019年某一国际网站的访问流量数据看板,此看板使用了地图、饼图以及柱状图等元素对网站访问数据进行了可视化呈现。图8-12访问流量数据看板数据来源网址:/wjw/#/data/classify/visualization?currentMapIndex=4Contents可视化的基础概念01可视化用具与技术02Python可视化常用类库
1.MatplotlibMatplotlib是一个较为基础的用于绘制图表和可视化数据的Python库。它提供了丰富的绘图功能,使用户能够轻松生成多种类型的图形,包括折线图、散点图、直方图和饼图等。目前,Matplotlib被广泛应用于数据分析、科学计算、工程以及其他领域。Python可视化常用类库
1.Matplotlib下面以堆叠柱状图和饼图为例,讲解如何使用Matplotlib来绘制图像,示例数据来源于8.1小节的例子。堆叠柱状图的核心代码如下,展示的是2月27日至2月28日各个种类商品的销售量,图8-13为绘制的效果图。
图8-14饼图
图8-13堆叠柱状图Python可视化常用类库
2.SeabornSeaborn是一个基于Python的数据可视化库,专注于统计绘图和美观度的提升。它建立在Matplotlib库的基础上,可以更加高效地生成各种类型的统计图形,此外,Seaborn具有内置的丰富配色方案,能够快速设置图表的颜色主题,使得图表外观更加美观。通过简单的代码调整,用户可以轻松改变图表的整体风格,增强可视化效果,同时保持代码的简洁易读。表8-3Seaborn常见二维图表的绘制函数Python可视化常用类库
2.Seaborn下面以理想生活商城的销售数据为例,展示如何使用Seaborn绘制带误差棒的柱状图。在本例中,将以面包、勺子、梳子和手套在2月份的销量和销售额为数据源,展示这四个产品的销量、销售额对比以及销量、销售额误差信息。销量柱状图的核心代码如下:图8-15带误差棒的柱状图Python可视化常用类库
3.PlotninePlotnine是一个基于Python的数据可视化包,它采用了一种语法简洁、易于理解的绘图风格,使用户能够轻松生成各种统计图表,包括散点图、柱状图、折线图、箱型图和热力图等。同时,plotnine还支持对图形进行高度自定义,包括调整颜色、样式、标签等,使得用户能够呈现出符合自身需求和审美的可视化效果。表8-4
plotnine常见绘制图函数Python可视化常用类库
3.Plotnine面以Plotnine内置的mpg数据集为例,展示如何使用Plotnine绘制散点图以及平滑曲线图。mpg数据集记录了关于汽车燃油经济性的信息,数据包括汽车型号、排量、驱动方式、燃料类型和高速里程等特征。在这个例子中,主要关注不同发动机排量和高速公路里程之间的关系,以及不同驱动方式的汽车在图表中的分布,核心代码如下:图8-15散点图JavaScript可视化开发工具
1.EchartsECharts是一个开源的基于JavaScript的数据可视化库,旨在为用户提供高度定制化和交互性强的数据可视化解决方案。ECharts提供了常规的折线图、柱状图、散点图、饼图、箱型图、地图、热力图、仪表盘等多种类型的图表。如图8-16所示,ECharts官网提供了大量的图表案例,能够帮助用户尽快掌握ECharts库的使用方法。图8-16ECharts官网案例JavaScript可视化开发工具
1.Echarts图8-4、图8-5、图8-6、图8-7展示的图表即为ECharts所绘制,下面以图8-5为例,展示其核心代码:图8-5各个种类商品的销售量(多数据列)JavaScript可视化开发工具
2.HighchartsHighcharts是一个使用纯JavaScript编写的HTML5图表库,旨在为Web网站或应用程序提供简便的、具有交互性的图表功能。Highcharts支持丰富的图表类型,包括折线图、柱状图、条形图、饼图、散点图、箱线图、仪表图和雷达图等共18种类型图表。如图8-17所示,Highcharts在官网提供了大量的图表案例,以帮助用户尽快掌握Highcharts库的使用方法。图8-17
Highcharts官网案例JavaScript可视化开发工具
2.HighchartsHighcharts支持多种数据形式,例如,Javascript数组、json文件、json对象、表格数据、CSV文件等,这些数据来源可以是本地文件、数据接口,甚至是不同网站。此外,Highcharts还提供了插件机制,为开发人员进行二次开发提供了便捷。图8-9即为Highcharts所绘制,核心代码如下:图8-9不同产品的得分软件类可视化工具
1.TableauTableau是一个可视化分析平台,成立于2013年,源于斯坦福大学的一个计算机科学项目。Tableau旨在通过直观的界面将拖放操作转化为数据查询,从而对数据进行可视化呈现。Tableau支持多种数据源,并提供丰富的图表类型和交互式功能,利用视觉化方式帮助用户探索数据关系。此外,Tableau还具备协作和共享的能力,用户可以将他们创建的仪表板和图表分享给团队成员或外部用户,以促进更广泛的数据共享和决策支持。下面将以8.1.1小节的情景故事为例,展示如何使用Tableau平台绘制可视化图表。软件类可视化工具
1.Tableau步骤一:连接数据源打开TableauDesktop后,首先看到的是“开始”页面,如图8-18所示。在页面左上角有“连接”功能,其作用是将Tableau与存储在文件中的数据进行连接,可以连接的数据类型包括MicrosoftExcel、PDF、空间文件等;此外,Tableau还可以连接到存储在TableauServer、MicrosoftSQLServer、GoogleAnalytics或其他服务器上的数据。开始页面的下方开设了“实例工作簿”的版块,以帮助用户快速掌握Tableau平台的使用方法。图8-18Tableau开始页面软件类可视化工具
1.Tableau步骤二:通过拖放创建视图不同于基于编程的Python库包以及JavaScript图表库,Tableau只需要在图形界面通过拖放操作即可创建图表视图。如图8-19所示,从左侧的数据窗格中选择数据表中的特征,并将选择好的特征拖放到“列”或“行”的位置。在完成拖放操作的同时,页面中部生成了创建好的图表。图8-19创建视图软件类可视化工具
1.Tableau步骤三:优化视图除了基本的视图创建操作外,Tableau还提供了多种方法来优化视图,例如,筛选器和颜色等功能,在这里以标记窗格中的color(颜色)为例讲解视图的优化操作。针对当前创建的柱状图视图,在默认情况下,所有柱形都是蓝色的。然而,通过为每个柱形赋予不同的颜色,可以进一步传达更多的信息。如图8-20,将数据窗格中的“日期”特征拖放至标记窗格中的color部分,并将“日期”特征按照天数分类,即可获得每一天不同产品的销量信息,从图中可以根据颜色来观察到这一信息。图8-20优化视图软件类可视化工具
2.PowerBIPowerBI是一款功能强大、灵活易用的商业智能工具,它提供了强大的数据分析和可视化功能,允许用户从多个数据源中提取、转换和加载数据,并通过直观而灵活的图表和仪表板来呈现数据。除了数据分析和可视化功能,PowerBI还具备强大的数据共享和协作能力,用户可以将图表和仪表板发布到PowerBI服务中,并与团队成员或外部用户进行共享。此外,PowerBI还提供了嵌入式分析功能,使得用户可以将仪表板嵌入到其他应用程序或网站中,以实现更广泛的数据分享和传播。下面将以8.1.1小节的情景故事为例,展示如何使用PowerBI绘制可视化图表。软件类可视化工具
2.PowerBI步骤一:连接数据源打开PowerBIDesktop软件后,与T
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年财务经理述职报告
- 福州市新型智慧城市标杆市顶层设计
- 郑州经贸学院《计算机技术基础(Python)》2023-2024学年第二学期期末试卷
- 南华大学《城市文化学》2023-2024学年第二学期期末试卷
- 重庆电信职业学院《影视广告创意与制作》2023-2024学年第一学期期末试卷
- 上海旅游高等专科学校《蒸馏酒工艺学》2023-2024学年第二学期期末试卷
- 宁波工程学院《舞蹈教育学》2023-2024学年第一学期期末试卷
- 雨雪天气交通安全教育
- 镇江市高等专科学校《软件定义网络》2023-2024学年第二学期期末试卷
- 山西工程技术学院《植物医学》2023-2024学年第二学期期末试卷
- 校园一卡通系统建设解决方案
- 居民自建桩安装告知书回执
- 国开2023秋《人文英语4》第5-8单元作文练习参考答案
- 期末复习Unit+6-10+单元信息摘录专项练习-人教版英语八年级上册
- 1 热工测量基础知识
- 肺癌肿瘤标志物检测与临床应用
- 物业公司章程模板
- 火龙罐技术课件
- 石膏粉生产线设备及工艺介绍
- 电镀产品检验记录
- 美国人工智能权利法案蓝图(英文)
评论
0/150
提交评论