




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第1章绪论第2章数据分析与可视化技术第3章认识数据第4章数据预处理第5章分类概念与方法第6章关联分析概念与方法第7章聚类分析概念与方法第8章大数据挖掘关键技术第9章案例分析第3章认识数据大数据挖掘导论与案例学习目标/Target掌握数据探索的基本内容,理解数据的中心趋势度量和散布度量方法。掌握数据可视化的基本方法,能够针对不同数据类型和数据集类型确定对应的数据可视化方法。掌握数据对象相似性度量方法,熟悉各常见数据类型的距离指标的计算方法。掌握数据和数据集的概念,熟悉常见的属性类型,了解数据质量问题的分析和纠正。引言/Introduction“知己知彼,百战不殆”
《孙子兵法·谋攻篇》“临河而羡鱼,不如归家织网。”
《淮南子·说林训》初步认识所收集的数据集,对数据预处理、数据挖掘等环节是有用的,也是必要的。了解数据集的属性和取值,探索数据集的质量和整体分布,通过统计描述、可视化方法和数据对象距离计算等方法对数据集进行全面分析,是进行数据挖掘的第一步。目录/Contents01数据类型02数据质量03探索数据04数据可视化05数据对象相似性与相异性度量数据类型3.1数据集由对象组成,一个数据对象代表一个实体,数据对象又被称为记录、数据点、事件、实例、样本、实体等,数据对象通常用一组属性进行描述。数据对象存放在数据库时,被称为数据元组,数据库的行对应于数据对象,数据库的列对应于属性。通常,数据集是一个文件,数据对象是文件的一条记录(或行),每个字段(或列)对应一个属性。3.1数据类型3.1.1属性与度量属性(attribute)表示数据对象的一个特征,又被称为变量、特征、特性、字段、维等。给定属性观测值的过程即为观测,度量是将属性的观测值与属性相关联的规则(或函数),属性向量(或特征向量)是描述一个给定数据对象的一组(一个或多个)属性。一个属性的类型由该属性具有的可能取值决定,属性分为定性属性(qualitativeattribute)和定量属性(numericattribute)。定性属性是分类的(categorical),包括标称属性和序数属性,具有符号的性质;定量属性是数值的,取整数或实数值,包括区间属性和比率属性,具有数的大部分性质。3.1.1属性与度量标称属性(nominalattribute)的值是一些符号或事物的名称,其值不必具备有意义的顺序,每个值代表某种类别、编码或状态,因此标称属性又被认为是分类属性。在实际应用中,常常使用数字表示标称属性的值。标称属性的属性值可以为数值,但对这些数值进行数学运算是没有意义的。由于标称属性值不是定量的,也不具备有意义的顺序,所以对标称属性进行平均值或方差计算是没有意义的。标称属性3.1.1属性与度量二元属性(binaryattribute)是一种标称属性,其只有两个类别或状态:0或1,其中0通常表示该属性不出现,1表示出现。如果两种属性或状态对应于True和False,则二元属性又称为布尔属性。如果二元属性的两种取值具有相同价值并且权重相同,则称二元属性是对称的。如果二元属性的两种取值具有不同价值和权重,则称二元属性是非对称的。例如,医学检测中属性“是否患病”的取值就具有不同的价值。二元属性3.1.1属性与度量序数属性(ordinalattribute)的属性值之间具有有意义的顺序,可以对序数属性的属性值进行排序处理,但其相邻属性值之间的差值是不可度量的。例如,学生对课程教学效果的评价可以表示为“较好”“一般”和“较差”,此三种属性值能够表达有意义的顺序,但属性值“较好”比“一般”好多少是不得而知的,同样,“较好”和“一般”之间的差值与“一般”和“较差”之间的差值也是无法比较的。标称属性、二元属性和序数属性都是定性的,只能描述对象的特征,无法给出具体的数量值,即使属性值使用数字表示,也仅为类别的代码,不是可度量的量。序数属性3.1.1属性与度量区间标度属性(interval-scaledattribute)用相等的单位尺度度量。区间标度属性的值有序,可以比较和计算属性值之间的差值,但不能使用比率对这些值进行评估和度量。例如,气温是一种区间标度属性,可以对其属性值进行排序或差值计算,但不能认为某个气温值是另一个气温值的2倍。类似地,日期和时间也是区间标度属性,可以计算出两个时间点之间的差值,但是对其进行比率计算没有意义。原因在于这些区间标度属性都没有绝对的零点,即,“0度”不表示“没有温度”,“0年”也不是“时间的开始”。区间标度属性3.1.1属性与度量比率标度属性(ratio-scaledattribute)存在真正的零点,即如果属性度量是比率标度的,则可以得到一个值和另一个值的倍数(或比率)关系。同时,这些值是有序的,可以计算差值,也可以计算均值、中位数和众数。常见的比率标度属性包括诸如员工工作年限、文档字数等计数属性。需要说明的是,现实生活中的温度是相对温度,属于区间标度属性,但绝对温度(又称热力学温度、开氏温度)属于比率标度属性,具有绝对零点。比率标度属性3.1.1属性与度量根据属性值的特点,数据挖掘和机器学习领域中的许多分类算法把属性分为离散属性和连续属性,并根据属性类型对数据使用不同的方法进行预处理。离散属性(discreteattribute)的取值是离散的,其属性值的数量可以是有限的或无限可数(countableinfinite)的。连续属性(continuousattribute)的取值通常是实数,具有连续性,对应于数轴上一段区间内任意一点的取值。如果属性不是离散的,则它就是连续的。在实际操作中,连续属性的属性值一般使用浮点型数字表示。离散属性与连续属性3.1.2数据集类型在对数据集进行处理和分析时,通常使用维度、稀疏性和分辨率对其特点进行描述,它们很大程度上影响着数据挖掘任务中的技术选择。维度(dimensionality)是数据集中描述数据对象的属性的数目。数据挖掘任务中,中、高维度数据与低维度数据往往有质的不同。稀疏性(sparsity)反应数据集中描述数据对象的属性的取值为“0”或“空值”的程度。属性取值为0或空值的比例越高,数据集越稀疏。需要注意的是,稀疏的数据集并不是无用数据集,结合适当的数据挖掘算法也可以挖掘出大量有用信息。数据集的一般特性3.1.2数据集类型数据集在不同的分辨率(resolution)下往往具有不同的性质。在模式识别领域,数据集分辨率是十分重要的特征。如果分辨率太高,数据集中隐藏的模式可能无法识别到,或者被掩埋在噪声中;如果分辨率太低,则关心的模式可能不会出现。例如,以小时为单位记录的气压变化能够反映出风暴等天气系统的变化和移动,而以月和年为单位的数据集对于相同的检测目标是没有意义的。数据集的一般特性3.1.2数据集类型记录数据是记录(数据对象)的汇集。记录数据通常存放在关系数据库中,是大多数数据挖掘任务最常处理和分析的数据集类型。记录数据集中,记录之间、属性之间没有明显的联系,每条记录具有相同的属性向量(或属性集)。在数据库中,记录数据除常见的记录数据集外,还包括事务数据、数据矩阵等其他类型。记录数据3.1.2数据集类型事务数据(transactiondata)中每条事务(记录)包含一系列的项,假设顾客在商场一次购买活动中所购买的商品的集合构成一个事务,则购买的商品就是事务的项。右表展示了一个事务数据集,每行记录一个顾客在一次购买活动中购买的全部商品。记录数据3.1.2数据集类型数据矩阵(datamatrix)中的所有数据对象都具有相同的属性集,每个数据对象都可以被看作多维空间中的点(向量),每个维度代表数据对象的一个属性。数据矩阵可以使用一个m×n的矩阵表示,每行表示一个数据对象,每列表示一个属性。右表3展示了鸢尾花数据集样本的数据矩阵,每行记录一个鸢尾花四个属性的观测结果。记录数据3.1.2数据集类型有时,图形可以更方便有效地表示数据。基于图形的数据常常用于表示数据对象之间的联系,此时数据对象被映射到图的结点,对象之间的联系用结点之间的链和链的性质(例如方向、权重)表示。例如,社交关系数据中人与人之间的联系往往是更受关注的信息,使用基于图形的数据更适合展示人与人(结点)之间的联系。此外,如果数据对象具有内部结构,包含具有联系的子对象,则可以用图形进行表示。例如,化合物的结构可以用图形表示,其中结点是原子,结点之间的链是化学键。基于图形的数据3.1.2数据集类型对于某些数据,属性涉及时间或空间顺序的联系。常见的如时序数据、序列数据、时间序列数据和空间数据等。时序数据(sequentialdata)也称时间数据,可以看作记录数据的扩充,其每个记录包含一个与之相关联的时间属性,用于发现一些与时间相关的模式。序列数据(sequencedata)是一个数据集合,记录各个实体的序列。序列数据与时序数据非常相似,序列数据没有时间戳,序列中项的位置有先后顺序。有序数据3.1.2数据集类型时间序列数据(timeseriesdata)是一种特殊的时序数据,数据中每个记录都是一个时间序列,即一段时间以来的测量序列。空间数据(spatialdata)描述了数据对象的位置或区域等属性,与时间序列数据相似。空间数据的重要特点是空间自相关性,即物理上靠近的对象趋向于在其他方面也相似。需要说明的是,使用记录数据的形式表示数据对象是较为方便的,但记录数据并不能记录数据集的所有信息,在进行数据处理和数据挖掘时需要考虑未被明确表示的关联和信息。同时,将数据挖掘方法使用在非记录数据上时,也需要考虑非记录数据的特点。有序数据数据质量3.2数据挖掘使用的数据常常是为其他用途收集的,或者在收集时目的并不明确。面对这一问题,数据挖掘过程从两方面入手以减少数据质量对结果的影响:(1)数据质量问题的检测和纠正;(2)设计和应用可以容忍低质量数据的算法。数据质量问题的检测和纠正通常称作数据清理。3.2数据质量3.2.1测量和数据收集人为失误、测量设备的缺陷或数据收集过程的漏洞等原因都可能导致数据质量问题。另外,即使所有的数据都正确,也可能存在数据对象不一致或数据取值错误的情况。测量误差(measurementerror)存在于测量过程中,测量误差是不可避免的。测量误差使属性的观测值与实际值在某种程度上存在差异,对于连续属性,测量值与实际值的差称为误差(error)。测量误差可能使数据产生噪声和伪像。数据收集错误(datacollectionerror)是数据收集过程中出现的纰漏。例如,在收集数据时出现遗漏数据对象或属性值,或额外的收集了其他数据对象等问题。测量误差和数据收集错误3.2.1测量和数据收集统计学和实验科学使用精度和偏倚对测量过程和结果数据的质量进行度量。精度(precision)通常用观测值集合的标准差进行度量,偏倚(bias)则用观测值集合的均值与已测出的值之间的差进行度量,即只有能够得到确定的测量值的数据对象才能计算偏倚。更一般地,准确率(accuracy)通常用来度量数据测量的误差的大小,准确率指观测到的测量值与实际值之间的接近度。精度、偏倚和准确率等常常被忽视,数据集通常是不包含数据精度信息的,数据处理和分析过程也很少关注此类信息,但是对于数据挖掘、统计学和自然科学,它们十分重要。精度、偏倚和准确率3.2.1测量和数据收集“噪声”一词通常出现在包含时间或空间分量的数据对象的描述中,噪声(noise)是测量误差的随机部分,噪声的出现表明数据对象的观测值可能被干扰、扭曲或加入了错误数值。此时需要使用信号处理技术降低噪声,从而发现可能“淹没在噪声中”的模式(或信号),显然,完全消除噪声是十分困难的。噪声的出现是随机的,但是由测量误差造成的数据错误也可能是确定的,例如一组照片在同一地方出现条纹。这种数据测量误差的非随机现象被称作伪像(artifact)。噪声和伪像3.2.1测量和数据收集数据收集过程中经常会出现某个对象遗漏一个或多个属性值的情况,有时甚至会出现数据对象收集不全的情况。例如,某些调查对象可能拒绝透露收入或婚姻状况。还可能出现某些属性并不能用于所有对象的情况。例如,调查问卷常常有“条件选择”部分,仅当调查对象符合前面的条件时,“条件选择”部分才需要填写,而调查问卷通常会展示所有问题以提高效率,在对问卷结果进行存储时也会保留所有属性,这会造成数据集中出现缺失值。无论何种情况,在数据分析时都应当考虑缺失值,特别是缺失值出现的原因。缺失值3.2.1测量和数据收集离群点(outlier)是在某种意义上具有不同于数据集中其他大部分数据对象特征的数据对象,即相对于属性的典型值来说不寻常的属性值,离群点也被称为异常对象或异常值。不同于噪声,离群点本身可能是正确的数据对象或值,甚至在某些场景中离群点就是数据挖掘任务的目标。例如,异常交易行为检测的目标本身就是从大量数据中发现不正常的数据对象。离群点3.2.1测量和数据收集数据集可能包含不一致的值。例如,客户信息表中经常出现两个不同用户的联系方式相同或同一用户的联系方式不同等现象,这可能是由于不同用户来自同一个家庭或同一个用户有两种联系方式。无论导致不一致值的原因是什么,重点都是将其检测出来,并且尽量纠正错误。有些不一致值很容易检测,例如学生成绩为负数或客户姓名为“未知”。另一些不一致值需要参考其他系统的数据才能完成检测,例如,银行为用户邮寄新的信用卡时,可能需要核对数据库以确认其最新邮寄地址来确保能够邮寄成功。检测到不一致后,需要对数据进行更正,数据不一致的纠正是需要额外的或冗余的信息的。不一致数据3.2.1测量和数据收集数据集常常包含重复或几乎重复的数据对象,处理这一问题需要考虑两种情况。如果重复的数据对象对应同一个实体,此时重复数据对象相应的属性值应该都是相同的,去除重复的数据对象即可,当存在不同的属性值时,需要解决数据不一致问题。如果重复或几乎重复的数据对象之间对应不同的实体,则需要进行确认,以避免将其作为重复数据进行处理。实际应用中,可能出现两个或多个对象在属性度量上是相同的,但仍对应不同的实体对象。这种重复是可解释的,也是合理的,在算法设计中没有考虑这种情况就可能导致问题。重复数据3.2.2数据应用某种程度上,数据质量取决于数据集的应用场景。对于给定的同一个数据集,不同场景下用户可能会得到完全不同的数据质量评估结果。时效性:如果数据集不符合时效性要求,则基于数据集的模型或模式也不符合时效性要求,以此为依据进行决策可能会造成严重问题。相关性:确保数据集中的对象与应用场景的相关性是十分重要的,相关性即被应用的数据集必须包含与应用场景相关的信息。数据说明:通常,标准的数据集应该附有描述数据的文档,此文档对数据集的正确应用十分重要。数据说明文档应该说明的重要信息包括数据精度、特征的类型(标称属性、序数属性、区间属性、比率属性等)、测量的刻度(如长度用米还是厘米)和数据的来源等。探索数据3.3对于数据预处理而言,进行数据探索,把握数据的全貌是至关重要的。此外,数据探索也有助于选择合适的数据预处理和数据分析技术。基本统计描述是用来进行数据探索的主要方法,包括下面三种基本统计描述。中心趋势度量,包括均值、中位数、众数和中列数,度量数据分布的中部或中心位置。离散趋势度量,包括极差、四分位数、百分位数和四分位极差,以及方差和标准差,度量数据的发散程度,有助于数据集离群点的识别。基本统计描述的图形显示,包括百分位数图、分位数-分位数图、直方图和散点图,通过可视化的方式审视数据,了解数据的分布特征。3.3探索数据3.3.1中心趋势度量中心趋势反应一组数据的中心点的位置所在。以鸢尾花数据集为例,当需要了解数据集中所有数据对象“花瓣长度”的取值大致是多少时,就要通过某种方法计算一个数值对其中心趋势进行度量。中心趋势度量值包括平均值(mean)、中位数(median)、众数(mode)和中列数(midrange)。3.3.1中心趋势度量
平均值3.3.1中心趋势度量平均值是描述数据集中心趋势最有用的度量,但是它容易受到极端值(例如,离群点)的影响,当数据集中存在极端值或数据是偏态分布时,平均值的代表性会变差。为了抵消少数极端值的影响,当数据集中存在极端值时,可以使用截尾均值(trimmedmean)代替平均值。截尾均值是丢弃高低极端值后的均值。需要注意的是,在计算截尾均值时应避免去掉太多数据对象,防止丢失有价值的信息。平均值3.3.1中心趋势度量对于偏态数据,中位数能更好度量其中心趋势。中位数是有序数据值的中间值,它是把数据较高的一半与较低的一半分开的那个值。在概率论与统计学,中位数一般用于数值数据。这一概念可以推广到序数数据。假设给定某序数属性X的N个值按递增序排序,如果N是奇数,则中位数是该有序集的中间值;如果N是偶数,则中位数可能是中间的两个值及这两个值之间的任意值,当X是数值属性时,中位数取作最中间两个值的平均值。中位数3.3.1中心趋势度量
中位数3.3.1中心趋势度量
众数和中列数3.3.1中心趋势度量下图展示了数据分布的单峰频率曲线。在完全对称的数据分布中,均值、中位数和众数是相同的,如图a所示。但是在大部分应用中,数据都是不对称的,它们可能是正倾斜的(又称右倾分布),其众数出现在小于中位数的值上,如图b,或者是负倾斜的(又称左倾分布),其众数出现在大于中位数的值上,如图c。3.3.2数据散布度量
五数概括法3.3.2数据散布度量
五数概括法3.3.2数据散布度量
五数概括法3.3.2数据散布度量
五数概括法3.3.2数据散布度量
五数概括法3.3.2数据散布度量五数概括法3.3.2数据散布度量
方差与标准差3.3.2数据散布度量
方差与标准差3.3.3数据基本统计描述的图形显示常用的基本统计描述的图形显示包括分位数图、分位数-分位数图、直方图和散点图。这些图形有助于可视化地观察数据,对于数据预处理也是有用的。其中,分位数图、分位数-分位数图、直方图显示一维分布,散点图显示二维分布。3.3.3数据基本统计描述的图形显示
分位数图3.3.3数据基本统计描述的图形显示
分位数图3.3.3数据基本统计描述的图形显示分位数-分位数图
3.3.3数据基本统计描述的图形显示分位数-分位数图对鸢尾花数据集,绘制Setosa和Versicolour两种鸢尾花花萼宽度的分位数-分位数图。如右图所示:3.3.3数据基本统计描述的图形显示分位数-分位数图
3.3.3数据基本统计描述的图形显示直方图
3.3.3数据基本统计描述的图形显示散点图散点图(scatterplot)可用于确定两个数值属性之间的联系、模式或趋势。将每对观测值视为坐标对画在坐标系中,即得到散点图。图3.5为鸢尾花数据集中花萼长度和花萼宽度的散点图。散点图也可用于观察点簇和离群点,或考察相关联系的可能性。给定两个属性X和Y,如果一个属性蕴含另一个,则它们是相关的。图3.6展示了两个属性之间的正相关(左图)关系和负相关(右图)关系。图3.7展示了数据集的两个属性之间不存在相关关系。3.3.3数据基本统计描述的图形显示散点图数据可视化3.4数据可视化已被广泛应用。在数据探索中使用可视化技术能够发现原始数据中隐藏的数据联系和模式,更常见的是使用数据可视化技术制作引人注目的图表以展示关键信息。数据可视化是指以图形或表格的形式显示信息,旨在通过图形清晰有效地表达数据,以分析或发现数据的特征和数据项或数据属性之间的关系。3.4数据可视化3.4.1一般方法和技术一般的可视化过程包括四个环节:选择合适的可视化表示方式,将数据映射为图形元素;对数据对象进行安排和组织,凸显数据的关键信息;在数据集维度较多或数据对象较多时,选择合适的属性子集或数据对象进行展示;确定适用的可视化技术。3.4.1一般方法和技术所谓表示(representation),就是将数据映射为可视形式,即将数据集的数据对象、属性以及数据对象之间的联系映射成可视的诸如点、线、形状和颜色等图形元素。数据对象常见的图形表示方法包含以下三种:只考虑对象的一个分类属性,通常根据该属性的值将数据对象聚成几类,将这些类作为表的项或图的区域进行表示。考虑对象具有多个属性,可以将对象表示为表的一行(或列),或图的一条线进行展示。当对象被映射为二维或三维空间中的点,可以使用几何图形,如圆圈或方框对点进行表示。表示3.4.1一般方法和技术数据属性的表示取决于属性的类型,即取决于属性是标称属性、序数属性还是连续属性(区间的或比率的)。数据对象之间的联系也可以通过图形元素来表示,其方式可以是显式的,也可以是隐式的。基于图形的数据,通常使用点和点间连线来表示。通常,将数据对象和属性映射为图形元素进行表示时,也会将数据对象之间的联系映射到图形元素中。需要说明的是,在任意给定的数据集中通过可视化映射,使数据集中重要的联系易于观察是很难实现的,这也是可视化过程的难点之一。表示3.4.1一般方法和技术在可视化任务中,安排(arrangement)就是将数据对象、数据属性、数据对象之间的联系或可视化元素进行整理和布置,通过改变其顺序、位置、颜色、视角和透明度等方式,将重要的信息或数据中隐藏的信息展示出来。显然,安排的前提是要对数据对象、数据属性以及数据对象之间的联系有一定了解。安排3.4.1一般方法和技术选择(selection)是可视化技术的另一个关键环节,指删除或不突出某些对象和属性。当存在很多数据对象时,可视化所有对象可能导致显示过于复杂,而且属性和对象都很多时,可视化会更加困难。属性数量较多时,最常用的方法是使用属性子集(通常是两个属性)进行可视化。当数据对象的个数很多(例如数百个)或者对象观测值的极差很大时,很难充分显示每个对象的信息,同时有些数据点可能遮掩其他数据点,或者数据对象可能只能被展示为很小的图像元素来表达其特征。在这些情况下,可以通过放大数据的特定区域或选取数据点样本的方式以剔除某些对象。选择3.4.1一般方法和技术可视化技术(visualtechniques)具有专门性的特点,不同的数据集类型通常对应着专用的可视化技术。当出现新的数据集类型和新的可视化任务时,经常需要创建新的可视化技术和方法或对已有方法进行变换以满足展示需求。技术3.4.2少量属性的可视化常见的用于具有少量属性的数据集的可视化技术包括茎叶图、散点图、直方图、饼图和盒图等。有些技术(如直方图)用于显示单个属性观测值的分布,有些技术(如散点图)可以显示两个属性值之间的关系。实际工作中需要结合具体的数据和任务选择适当的可视化技术,契合的可视化技术往往能够取得令人惊艳的效果。3.4.2少量属性的可视化茎叶图(stem-and-leafplot)可以用来观测一维属性数据对象的分布。绘图时首先将观测值分组,每组包含的观测值除低位数字外其他部分是相同的,每个组的相同部分展示为茎,而组中的低位数字展示为叶。例如,如果观测值是两位整数,则茎是高位数字,而叶是低位数字。通过垂直绘制茎,水平绘制叶,可以提供数据分布的可视化展示。茎叶图3.4.2少量属性的可视化散点图使用数据对象两个属性的值作为X轴和Y轴坐标,每个数据对象都作为平面上的一个点进行绘制(假定属性值是整数或实数)。散点图除过展示数据的相关性和分布关系及趋势外,还支持从类别和颜色两个维度观察数据的分布情况,而且散点图还可基于时间轴进行动态播放。散点图有两个主要作用:(1)将两个属性之间的关系具象化,可以判定两个属性之间的线性关系是否存在。(2)当数据集中存在类标号时,可以使用散点图分析某两个属性区分类标号的程度。更进一步,如果能够使用直线或曲线将两个属性定义的平面分成区域,每个区域包含该分类属性一个类别的大部分对象,则可以基于这两个属性建立较为精确的分类器。散点图3.4.2少量属性的可视化直方图通过将观测值进行分组,并显示落入每个组中的数据对象的数量,以展示属性观测值的分布。对于分类属性,每个属性值在一个组中,如“颜色”属性包含“红色”、“黄色”和“蓝色”三个属性值,每个属性值为一个组展示数据对象的数量。如果属性的值过多,则使用某种方法将值合并;对于连续属性,将属性的值域划分成组(通常是等距分组,也可以是其他分组策略),并统计每个组中观测值的数量。构造直方图时,每个组用一个矩形表示,每个矩形的面积与落在对应的分组的观测值(数据对象)的个数相关。如果所有的区间都是等宽的,则所有矩形的宽度相同,矩形的高度与其对应的分组中的观测值个数成正比。直方图3.4.2少量属性的可视化饼图(piechart)类似于直方图,通常用于值较少的分类属性,饼图使用圆的相对面积显示不同观测值的相对频率。但由于相对面积的大小很难通过图形直接确定,在技术性和准确性方面,直方图相对更有优势。饼图盒图(也称箱线图或盒须图)是展示一维数值属性值分布的方法。图中盒的下端和上端分别表示上四分位数和下四分位数,盒中的线表示中位数。盒图相对紧凑,在属性之间能够相互比较时,可以将多个盒图进行对比以分析不同属性的分布状况。盒图3.4.3可视化时间空间数据数据集经常包含空间或时间属性,或同时包含时间和空间属性。例如,反映每日股票价格的数据集包含了时间属性,而如观测时间内地球表面大气压、特定时段传感器某个范围内的压力等数据集,则既包含了空间属性,又包含了的时间属性。更常见的是三维数据集,其中两个属性确定平面上的位置,第三个属性为连续属性(如温度、气压或海拔高度等),这样的数据常用等高线图进行可视化展示和分析。等高线图(contourplot)根据位置信息将平面划分成许多区域,同一区域中第三个属性的值近似相等。3.4.4可视化高维数据高维数据通常需要使用特定的算法和模型进行处理。进行数据可视化时,高维数据也需要特定的可视化技术进行处理和展示。需要注意的是,这些技术只能显示数据的某些侧面。矩阵图(matrixdiagram)是常用的高维数据可视化技术之一。每个图像都可以看作像素的矩形阵列,阵列中的每个像素用颜色和亮度来表示。同样的,数据矩阵可以看作是观测值的矩形阵列,将数据矩阵的每个元素与图像中的每个像素相关联,就可以把数据矩阵转换为图像,图像中像素的亮度和颜色由数据矩阵中元素对应的观测值进行刻画。在对数据矩阵可视化时,如果类标号已知,需要进行安排操作,重新排列数据矩阵的次序,将某个类的所有对象聚在一起,以观察某个类的所有对象是否在某些属性上具有相似的属性值,同时,如果不同的属性具有不同的值域,则需要对属性进行标准化,使其均值为0,标准差为1,以减少数值较大的属性在视觉上的影响。数据对象相似性与相异性度量3.5在大多数数据挖掘应用中,都需要评估对象之间的相似性或差异性程度。相似性和相异性是有关联的,都称为邻近度(proximity)。相似度(similarity)是指两个对象之间的相似性程度的数值度量。如果两个对象没有相似性,它们的相似度为0。对象之间越相似,它们之间的相似度值越大。通常,相似度值落在[0,1]区间,两个对象等同时,相似度值等于1。相异度(dissimilarity)是指两个对象之间的差异性程度的数值度量,相异度通常也被称为距离(distance)。对象之间越相似,它们之间的相异度值越小。如果对象相同,则相异性值为0。对象之间的差异性越大,相异度值越大。相异度值可能在[0,1]中取值,也可在[0,∞)取值(这里的∞表示上限不确定)。3.5数据对象相似性与相异性度量3.5.1数据矩阵与邻近度矩阵
3.5.1数据矩阵与邻近度矩阵
3.5.1数据矩阵与邻近度矩阵
3.5.2标称属性的邻近度
3.5.3二元属性的邻近度
3.5.3二元属性的邻近度
3.5.3二元属性的邻近度
3.5.3二元属性的邻近度
3.5.4数值属性的邻近度用于计算对象的数值属性的邻近性度量包括欧几里得距离(euclideandistance)、曼哈顿距离(manhattandistance)和闵可夫斯基距离(minkowskidistance)等。在一些情况下,计算距离之前需要将数据规
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生态保护与城市生态灾害防范考核试卷
- 灯具销售中的渠道冲突与协调策略考核试卷
- 植物油加工在工业领域的多元化应用考核试卷
- 2025年远红外固化机项目可行性研究报告
- 2025年血琼脂培养基项目可行性研究报告
- 2025-2030中国能量饮料棒包装行业市场发展趋势与前景展望战略研究报告
- 简历道路施工方案
- 2025-2030中国耐酸粉行业市场发展趋势与前景展望战略研究报告
- 2025-2030中国美容仪器行业市场深度调研及竞争格局与投资研究报告
- 2025-2030中国网络视频行业市场发展分析及竞争格局与投资前景研究报告
- 电梯安全管理员考试题库
- 2024年4月自考00153质量管理(一)试题及答案
- 2025年山东省东营市2024-2025学年下学期九年级模拟一模数学试题(原卷版+解析版)
- 大坝固结灌浆与帷幕灌浆施工方案
- 交警道路交通安全执法规范化课件
- 人教五四 六年级 下册 语文 第五单元《中国有能力解决好吃饭问题 第二课时》课件
- 2025年湖北省八市高三(3月)联考物理试卷(含答案详解)
- 综合应急预案、专项应急预案、现场处置方案
- 放射医学检查技术及操作规范
- 《南非综合简要介绍》课件
- 新苏教版一年级数学下册第四单元《认识20~99》全部教案(共3课时)
评论
0/150
提交评论