版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据挖掘简介:导航数据、第3章导航数据、数据导航是什么?数据导航的主要目的是帮助选择适当的数据预处理和数据分析技术。通过可视化检查数据,可以使用用于浏览模式数据的可视化等一些技术来理解和解释数据挖掘结果。iris,本章中使用的数据集iris。为了更好地了解有关150种鸢尾的信息,我们对数据进行了初步研究,并且每3种鸢尾中的1种具有3种花类型(刺)Virginica(杂色)Versicolour(处女花)4种属性家庭平均收入的大部分汇总统计数据只能通过简单的计算得到结果,对于频率和群众数定义(频率最高的值、百分位数)、排序的数据,考虑值集的百分位数更有意义。给定排序或连续属性x和0到100之间的
2、数字p,p第一个百分比段XP是使x的p%观测值小于XP的x值。示例3.2表示从1到10的整数的百分比段x0%、x10%、x90%,x100%,依次为1.0、1.5、2.5、3.5、4.5、5.5、6.5、7.5、8.5、9.5、10.0。按照惯例,min(x)=x0%,max(x)=x100%。对于位置测量:平均值和中值,对于连续数据,最常用的两个汇总统计信息是值集位置的测量,即“平均值”(Mean)和“中值”(Median)。平均值和中值定义、位置测量:平均值和中值、平均值对异常值敏感。对于包含异常值的数据,中值再次提供值集之间更强的估计。平均截断:指定0到100之间的百分比段p,丢弃高端和
3、低端(p/2)数据,然后按常规方法计算平均值。结果是平均中断。位置测量:平均值和“中间”(Mean and Median),中间位数为p=100%时的剪切平均值,标准平均值为p=0%时的剪切平均值。范例3.3考量数值组1,2,3,4,5,90。如果这些值的平均值为17.5,中值为3.5,p=40%,则截断的平均值也为3.5。方差度量:极差和方差,连续数据的另一个典型聚合统计集是值集的方差或方差度量。此测量指示属性值是广泛分布,还是相对于单个点(例如平均值)附近集中。最简单的方差度量是极差。x的极差等于m值x1,XM Range(x)=max(x)-min(x)=x(m)-x(1),方差测量:极
4、和方差为此,经常需要使用值集分布更强的估计。包含平均绝对偏差、中间绝对偏差、象限极差、多汇总统计信息和多个属性的数据(多数据)的位置度量可以通过单独计算每个属性的平均值或中位数来获得。对于具有连续变量的数据,数据分布是两个属性的协方差,更多地用协方差矩阵S表示,这是两个属性一起发生变化并依赖于变量大小的度量。可视化,同步1:人们可以快速利用大量可视化信息,模式同步2:解释模式,可视化,数据可视化是指以图形或表格格式显示信息。成功的可视化需要将数据转换为视觉形式,因此可以分析或报告数据的特性和属性之间的关系。可视化的目标是对可视化信息的人工解释和信息的意境模型的形成。例如,以摄氏温度为单位表示:
5、海洋表面温度的1982年7月的海洋表面温度(SST),该图概括了约250000晶格数据,可以轻易看出海洋温度在赤道上最高,在两极上最低。,显示:将数据映射到图形元素(例如,将对象显示为点)的可视化是将信息映射为可视形式。也就是说,信息的对象、属性和关联映射为可视对象、属性和联系人。也就是说,数据对象、其属性和数据对象之间的连接将转换为图形元素,如点、线、形状和颜色。选择,选择:删除或不突出显示某些对象和属性(如PCA)如果数据点数太多(如数百个或更多),或者数据非常差,则很难显示每个对象的足够信息,有些数据点可能会遮挡其他数据点,或者数据对象可能无法占用足够的像素以清晰显示其特性。重新计划,重
6、新计划表中数据的重要性实例3.5:左图是具有6个二进制属性的9个数据对象,在对象和属性之间似乎没有明确的连接,但在重新计划后右图显示了数据的特征。示例3.6考虑了图3-3a,在图3-3b中,分离连接的子图使节点和图之间的连接更加容易和明确。可视化技术:直方图(Histograms),其通常显示各个变量值的分布;直方图,其将可能的值分布到框中,其显示每个框中的对象数。高度表示对象的数量,可视化技术:花瓣宽度(10和20个框),2d条形图,每个属性拆分为地块,两个地块集定义值的二维框的示例:花瓣宽度和花瓣长度从二维直方图中可以看出什么?可视化技术:方框图,方框图:是显示一维数字属性分布的另一种方法
7、。长方体图形的示例,长方体图形的图形相对较小,因此,可以将许多长方体图形的图形放在一个图形中。饼图和饼图类似于条形图,但通常用于值相对较少的分类属性。饼图不使用条形的面积或高度(如条形图),而是使用圆形的相对面积显示其他值的相对频率。累计分布函数(CDF)是累计分布函数和百分比段图,用于显示点小于该值的概率。可视化技术:散布图、散布图二维散布图、将数据对象的两个属性值用作x和y坐标值;每个数据对象可以将一般附加属性(如大小、颜色和图形)绘制为平面上的一点,从而表示散布图矩阵可以同时研究多个散布图。散点图矩阵示例:对于iris、可视化技术:等高线、等高线图中的某些3d数据,这两个属性指定平面上的
8、位置,第三个属性具有连续值,如温度或高程。对于这些数据,一个有用的可视化工具是等高线地图、坐标、可视化技术:矩阵、矩阵主要用于数据矩阵可视化,通过将数据矩阵中的每个元素与图像中的一个像素相关联,可以轻松确定一个类中的所有对象是否具有类似的属性值。不同的属性具有不同的值时,平均0、标准差1、iris数据矩阵的可视化、iris相关矩阵的可视化、可视化技术:并行坐标系、并行坐标系每个属性的坐标轴与现有坐标轴不同,平行坐标系可以标准化属性,使不同的坐标轴平行而不是正交。物件显示为线,而不是点。过多的对象会引起混乱,但是对象倾向于分成几个组,较少的对象最终会显示出有趣的图案。平行座标系统显示结果与iri
9、s的平行座标系统、其他视觉化技术、星形座标(starpplots)类似,但座标轴从中心点向四面发射的所有属性值为0,1间距每个物件都具有多边形Chernoff面(Chernoff Faces)、Star ploplotsOLAP通常表示如何将数据转换为多维数组。属性值需要离散化的目标值可以是计数或连续值等。示例: iris多维数组,离散花瓣长度,宽度低,中,高下表-注释属性,示例: iris多维数组,示例: iris多维数组,二维表切片这些表说明了什么?分析多维数据:数据立方(数据的多维表示法),将所有可能的聚集(总计)与数据立方一起称为转枢,转枢在除两个维之外的所有维中表示总计。结果是,只有两个指定的维是剩馀维,通过分析多维数据:轴、多维数据:切片和切片,生成为一个或多个维指定特定值的切片。在整个多维数组中选择一组单元格。指定块、属性值地块以选择单元子集。这实际上相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度安置房买卖合同协议书样本下载
- 2024年奶粉oem生产合同
- 《不同着地方式和变向角度对人体侧切动作下肢生物力学特征的影响》
- 《和肽素与急性缺血性脑卒中病情及近期预后的关系》
- 专题06期中复习解答题专练-2021-2022学年高一数学上学期专题训练期中期末全真模拟卷(人教A版2019)
- 《天津市蓟州区出头岭镇发展蘑菇特色小镇研究》
- 《对多系分化应激耐受(Muse)细胞的RNA测序和ATAC测序分析》
- 《彝族头饰的审美特征及应用研究》
- 2024年度城市污泥废弃物回收处理合同
- 2024年建筑材料供应与采购具体条款合同
- 人教版七年级道德与法治上册 期中复习知识梳理
- 3.1 农业区位因素及其变化 课件 高一地理人教版(2019)必修第二册
- 建筑施工企业(安全管理)安全生产管理人员安全生产考试参考题及答案
- 锅炉应急预案演练方案
- 关于高技能人才培养问题的思考高技能人才培养方案
- 2024新信息科技四年级《第三单元 有趣的编码应用》大单元整体教学设计
- 中国航天发展史主题班会 课件
- 一 《改造我们的学习》(同步练习)解析版
- 2024-2025学年北京市海淀区名校初三第二学期期中练习化学试题含解析
- 孙中山诞辰纪念日主题班会主题班会
- 内科知识练习题库(附答案)
评论
0/150
提交评论