版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第5章关系数据可视化主要内容1.关系数据在大数据中的应用2.数据的关联性3.数据的分布性1.关系数据在大数据中的应用大数据的一个重要价值是可以帮助我们找到变量之间的联系,发掘事物背后的因果。在进行大数据挖掘前的重要一步就是探索变量的相关关系,进而才能探索背后可能隐藏着的因果关系。分析数据时,我们不仅可以从整体进行观察,还可以关注数据的分布,如数据间是否存在重叠或者是否毫不相干?还可以从更宽泛的角度观察各个分布数据的相关关系。其实最重要的点,就是数据在进行可视化处理后,呈现在读者眼前的图表所表达的意义是什么。关系数据具有关联性和分布性。下面通过实例具体讲解关系数据,以及如何观察数据间的相关关系。2.数据的关联性事物之间的关联性是比较容易被发现的,但是关联并不代表存在因果关系。比如,大豆的价格上涨,猪肉的价格可能也会上涨,但是大豆的价格上涨可能不是猪肉上涨的原因。尽管如此,关联性还是能给我带来巨大的价值的,比如大豆的价格已经上涨了,那我们就可以抓紧时间囤一些猪肉,这样往往能省下一笔钱,至于背后是否存在因果关系,就没那么重要了。大数据可视化就是在告诉我们分析结果是“什么”,而不是“为什么”.2.数据的关联性数据的关联性,其核心就是指量化的两个数据间的数理关系。关联性强,是指当一个数值变化时,另一个数值也会随之相应地发生变化。相反地,关联性弱,就是指当一个数值变化时另一个数值几乎没有发生变化。通过数据关联性,就可以根据一个已知的数值变化来预测另个数值的变化。下面通过散点图、散点图矩阵、气泡图等来研究这类关系。2.1散点图变量间一般有三种关系:正相关、负相关和不相关,如图所示。正相关时,横轴数据和纵轴数据变化趋势相同;负相关时,横轴数据和纵轴数据变化趋势相反;不相关时散点的排列则是杂乱无章的。在统计学中有更科学的方法(比如相关系数)衡量两个变量的相关性,但是散点图往往是判断相关性的最简单、直观的方法,在计算相关系数前通常依靠散点图作出初步判断。2.2散点图矩阵前面讲解的散点图,是用两组数据构成多个坐标点,再通过观察坐标点的分布,判断两个变量之间是否存在某种关联,或总结坐标点的分布模式。但很多时候变量不止两个,因此,应同时考察多个(超过两个)变量间的相互关系,但是若一一绘制它们之间的简单散点图就十分繁琐。此时就可以利用散点图矩阵来同时绘制多个变量问的散点图,这样就可以快速发现哪些变量之间的相关性更高。这种方法在数据探索阶段十分有用,其基本框架如图所示。2.3气泡图气泡图和散点图相比,多了一个维度的数据。气泡图就是将散点图中没有大小的“点“变成有大小的“圆”,圆的大小就可以用来表示多出的那一维数据的大小。气泡图让我们可以同时比较三个变量,其基本框架如图所示。一个具体的例子如图5-4所示。二手车的价格由车龄和里程来决定,可以看出,两个指标越小,气泡越大,代表价格越高,反之则反。3.1茎叶图茎叶图又称“枝叶图”,是由20世纪早期的英国统计学家阿瑟•鲍利(ArthurBowley)设计。1997年统计学家约翰托奇(JohnTukey)在其著作《探索性数据分析》(exploratorydataanalysis)中将这种绘图方法介绍给大家,从此这种作图方法变得流行起来。茎叶图的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几数,每个数具体是多少。茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转90度,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。从而看出分布是否与正态分布或单峰偏态分布逼近。3.2直方图直方图与茎叶图类似,若逆时针翻转茎叶图,则行就变成列;若是把每一列的数字改成柱形,则得到了一个直方图。直方图又称质量分布图,是数值数据分布的精确图形表示。直方图中的柱形高度表示的是数值频率,柱形的宽度是取值区间。水平轴和垂直轴与一般的柱形图不同,它是连续的;一般的柱形图的水平轴是分离的3.3密度图直方图反映的是一组数据的分布情况,直方图的水平轴是连续性的,整个图表呈现的是柱形,用户无法获知每个柱形的内部变化。而在茎叶图中,用户可以看到具体数字,但是要求比较数值间的差距大小并不是很明确。为了呈现更多的细节,人们提出了密度图,可用它对分布的细节变化进行可视化处理。当直方图分段放大时,分段之间的组距就会缩短,此时依着直方图画出的折线就会逐渐变成一条光滑的曲线,这条曲线就称为总体的密度分布曲线。这条曲线可以反映数据分布的密度情况,其基本框架如图所示。第5章关系数据可视化3.4扇形图扇形图,又称扇形统计图,它是用整个圆表示总数,用圆内各个扇形的大小表示各部分数量占总数的百分数。通过扇形统计图可以很清楚地表示出各部分数量同总数之间的关系。它擅长表达某一占比较大的类别。但是不擅长对比。30%和35%在扇形图上凭肉眼是难以分辨出区别的。当类别过多,也不适宜在扇形图上表达。3.5雷达图雷达图是以从同一点开始的轴上表示的三个或更多个定量变量的二维图表的形式显示多变量数据的图形方法。轴的相对位置和角度通常是无信息的。雷达图也称为网络图,蜘蛛图,星图,蜘蛛网图,不规则多边形,极坐标图。它在商务、财务领域应用较大,适合用在固定的框架内表达某种已知的结果。常见于经营状况,财务健康程度。
比如对企业财务进行分析,划分出六大类:销售、市场、研发、客服、技术、管理。通过雷达图绘制出预算和实际开销的维度对比,会很清晰。如图所示:3.6热力图以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示。现今热力图在网页分析、业务数据分析等其他领域有较为广泛的应用。3.6热力图目前百度地图、高德地图、谷歌地图、腾讯微信等都会提供如上类似的地图热力图。这种热力图是利用获取的手机基站定位该区域的用户数量,通过用户数量渲染地图颜色。主要显示一个城市的某个地方人员比较集中甚至拥挤程度。颜色越深表示人员越多,颜色浅代表人比较少。热力图可以很直观的反映区域内的人群流量,便于人们进行出行规划,也可以帮助政府进行城市规划和城市管理。3.6热力图对于网页、App的热力图来说,常见的热力图可以分为三种:按鼠标点击位置的热力图、按鼠标移动轨迹的热力图、按内容点击的热力图。这些热力图将用户的每一次鼠标点击、滚动、视野停留都转作了数据化的色彩绘制出来。它作为一款好用的用户行为分析工具,可以直观清楚地看到页面上每一个区域的访客兴趣焦点,通过用户在页面上的浏览轨迹,点击热区来找到网站内对用户有价值的信息,并且优化网站死角来更加丰富和满足用户体验。网页、App的热力图在推广营销、转化漏斗、流量细分等方面也有其独特应用。4.数据可视化的意义图表以可视化形式来辅助大脑快速处理信息当我们在使用数据可视化时,就是在发挥人脑对视觉信息快速处理的优势。简而言之,很多科学家也已经针对可视化对于数据的重要性,进行了许多研究,发现可视化对我们大脑感知视觉效果的有效性。在这方面,数据可视化不仅仅是一个道具,它还提供了一个更高效的学习环境。4.数据可视化的意义图表提供干净易于理解的数据信息图表是不仅仅涉及创建数据可视化,还涉及如何利用图表去有效的传递数据信息。数据可视化很有用,因为它总结并指出了关键指标,当你需要局部数据信息时,选择针对性的图表数据,能够快速获取你想要的数据趋势和效果。对很多职场人士而言,时间就是金钱,效率就是生命,因此必须在数据信息当中快速建立清
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年小学二年级体育教学计划
- 保险公司前台客服总结
- 商贸行业助理工作总结
- 法律服务保安工作总结
- 社会评价机构申请
- 二零二五年度店铺租赁协议
- 二零二五年度健身房食堂托管服务合同2篇
- 2025年武威a2货运从业资格证模拟考试题
- 2025年承德货运从业资格证考试题及答案
- 2025年银川货车从业资格考试试题及答案
- 零碳智慧园区解决方案
- 2025年林权抵押合同范本
- 2024年北师大版四年级数学上学期学业水平测试 期末卷(含答案)
- 2024年高考物理一轮复习讲义(新人教版):第七章动量守恒定律
- 浙江省宁波市慈溪市2023-2024学年高三上学期语文期末测试试卷
- 草学类专业生涯发展展示
- 法理学课件马工程
- 《玉米种植技术》课件
- 第47届世界技能大赛江苏省选拔赛计算机软件测试项目技术工作文件
- 2023年湖北省公务员录用考试《行测》答案解析
- M200a电路分析(电源、蓝牙、FM)
评论
0/150
提交评论