第3章_探索数据_第1页
第3章_探索数据_第2页
第3章_探索数据_第3页
第3章_探索数据_第4页
第3章_探索数据_第5页
已阅读5页,还剩85页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022-5-81第第3章章 探索数据探索数据l3.1探索数据及其与EDA的关系l3.2鸢尾花数据集l3.3数据汇总l3.4可视化l3.5OLAP与多维数据分析2022-5-82什么是数据探索什么是数据探索?l数据探索的主要目的 有助于选择合适的数据预处理和数据分析技术 可以通过对数据进行直观检查来发现模式 数据探索中使用的某些技术(如可视化)可以用于理解和解释数据挖掘结果。 对数据进行初步研究,以便更好地理解对数据进行初步研究,以便更好地理解它的特殊性质它的特殊性质.数据预处理包括:特征选择、维归约、规范化、数据子集选择数据分析:描述性分析、线性回归分析、方差分析、聚类分析、关联分析2022

2、-5-83探索数据与探索数据与EDA的关系的关系l探索性数据分析(Exploratory Data Analysis),在上世纪六十年代被提出,其方法由美国著名统计学家约翰图基(John Tukey)命名。lEDA是指对已有的数据在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。l特别是当我们对这些数据中的信息没有足够的经验没有足够的经验,不知道该用何种传统统计方法进行分析不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。2022-5-84lEDA强调可视化、聚类分析和异常检验等主题。聚类分析和异常检验是其主要研究领

3、域。l本章内容主要是:数据汇总和可视化。不涉及聚类分析和异常检验。l数据挖掘将描述性数据分析技术本身看做目的,而统计学(EDA由此发源)趋向于将基于假设的检验作为最终目标。2022-5-85鸢尾花(鸢尾花(Iris)l本章主要使用鸢尾花数据集 150种鸢尾花的信息,每50种取自三个鸢尾花种之一 三种花类型 uSetosa(带刺的)uVirginica (杂色的)uVersicolour(处女花) 四个属性u萼片长度(厘米)u萼片宽度(厘米)u花瓣长度(厘米)u花瓣宽度(厘米)2022-5-86汇总统计(汇总统计(Summary Statistics)l汇总统计是量化的(如均值和标准差),用单个

4、数单个数或或数的小集合数的小集合捕获可能很大的值集的各种特性。 例子:家庭平均收入 大部分汇总统计只需要简单的计算就可得到结果2022-5-87频率(频率(Frequency )l频率定义为 关注具有该特征属性的数据在整体数据中所占比例。主要用于无序的、分类的值的集合。例如:球队胜率、就业率等( )iivfrequency vm具有属性值 的对象数2022-5-88众数(众数(Mode)l众数:具有最高频率的值 分类属性常常具有少量值,因此这些值的众数和频率可能是令人感兴趣的和有用的。 对于连续数据,众数通常没有用,因为单个值的出现可能不超过一次。 如果使用唯一值表示遗漏值,则该值常常表现为众

5、数。2022-5-89百分位数(百分位数(Percentiles)l对于有序数据对于有序数据,考虑值集的百分位数更有意义l给定一个有序的或连续的属性x和0与100之间的数p,第p个百分位数xp是一个x值,使得x的p%的观测值小于xp。2022-5-810 从1到10的整数的百分位数x0%, x10%,., x90%, x100%依次为:1.0, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5, 10.0。按照惯例,min(x) = x0%,而max(x) = x100%。 例:高考划分第一批、第二批组档分数线,控制上线人数。2022-5-811位置度量位

6、置度量:均值和中位数(均值和中位数( Mean and Median)l对于连续数据,两个使用最广泛的汇总统计是均值(mean)和中位数(median),它们是值集位置的度量。 l均值均值和中位数中位数定义 2022-5-812截断均值(截断均值(trimmed mean)l截断均值(trimmed mean):指定0和100之间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规的方法计算均值,所得的结果即是截断均值。例:跳水比赛中除去一个最高分、除去一个最低分,求平均分。l中位数是p = 100%时的截断均值,而标准均值是对应于p = 0%的截断均值。 2022-5-813l均值对于

7、离群值很敏感;对于包含离群值的数据,中位数又一次提供值集中间的一个更稳健的估计。l例: 考虑值集1, 2, 3, 4, 5, 90。这些值的均值是17.5,而中位数是3.5,p = 40%时的截断均值也是3.5。 2022-5-814偏态分布偏态分布其中Mo是众数、Me是中位数、X是均值。2022-5-815散布度量散布度量: 极差和方差(极差和方差(Range and Variance)l连续数据的另一组常用的汇总统计是值集的弥散或散布度量。这种度量表明属性值是否散布很宽,或者是否相对集中在单个点(如均值)附近。l最简单的散布度量是极差(range)。lx的极差定义为:最大值和最小值的差。给

8、定一个属性x,它具有m个值x1,., xm range(x) = max(x) - min(x) = x(m) - x(1) 2022-5-816l方差: l均值和方差对离群值很敏感,这样常常需要使用值集散布更稳健的估计。绝对平均偏差、中位数绝对偏差、四分位数极差: 2022-5-817多元汇总统计多元汇总统计l包含多个属性的数据(多元数据)的位置度量可以通过分别计算每个属性的均值或中位数得到。l均值向量: 其中 是第i个属性xi的均值),(1nxxxix2022-5-818协方差矩阵协方差矩阵l对于具有连续变量的数据,数据的散布更多地用协方差矩阵(covariance matrix)S表示,

9、其中S的第ij个元素sij是数据的第i个和第j个属性的协方差。Sij=covariance(xi , xj)u注意,covariance(xi , xi)=variance(xi)。协方差对角线上是属性方差。l两个属性的协方差是两个属性一起变化并依赖于变量大小的度量。2022-5-819相似度和相异度相似度和相异度l相似度相似度 两个对象相似程度。 两个对象越相似,它们的相似度就越高。 通常在0和1之间取值。l相异度相异度 是两个对象差异程度的数值度量。 对象越相似,它们的相异度越低。 通常术语“距离”用作相异度的同义词。相异度可以在0,1取值,也可以在 取值。, 02022-5-820简单属

10、性的相似简单属性的相似/相异度相异度2022-5-8徐佳骎21数据对象之间的相异度:距离数据对象之间的相异度:距离l欧几里得距离:其中n是维数,xk和yk是x和y的第k个属性值。nkkkyxd12)(),(yx01230123456p1p2p3p4pointxyp102p220p331p451p1p2p3p4p102.8283.1625.099p22.82801.4143.162p33.1621.41402p45.0993.162202022-5-8徐佳骎22闵可夫斯基距离闵可夫斯基距离l闵可夫斯基距离是欧氏距离的推广:其中r是参数:ur=1,城市街区距离。常见的例子是汉明距离,汉明距离,是两

11、个具有二元属性的对象之间不同的二进制为个数。ur=2,欧几里得距离。ur ,上确界距离。这是对象属性之间最大距离。【注注】不要将参数r与维数(属性数)n混淆。rnkrkkyxd/11|),(yxrnkrkkryxd/11| lim),(yx2022-5-8徐佳骎23距离性质距离性质1.非负性:非负性:对所有x和y,d(x, y) 0;仅当x=y时,d(x, y) = 02.对称性:对称性:对于所有x和y,d(x, y) = d(y, x) 3.三角不等式三角不等式:对于所有x,y和z,d(x, z) d(x, y) + d(y, z) 满足以上三个性质的测度称为度量。有些人只对满足这三个性质的

12、相异性度量使用属于距离,但在实践中常常违反这一约定。2022-5-8徐佳骎24非度量的相异度非度量的相异度l有些相异度都不满足一个或多个度量性质 例1. 集合差u每个对象是一个集合,相异度用集合差的元素个数定义:d(A, B) = size(AB)u一般地,可能AB BA, size(AB) size(BA) ,不满足对称性。u定义d(A, B) = size(A B) + size(B A) 例2. 时间 2112211221)(24),(ttttttttttd如果如果2022-5-8徐佳骎25相似度的性质相似度的性质1.仅当x=y,时s(x, y) =1。(0 s 1)2.对于所有x和y,

13、 s(x, y) = s(y, x) 。(对称性)对于相似度,没有三角不等式对应的一般性质。非对称相似性度量:非对称相似性度量:假定“0”出现了200次,它被分类为“0”160次,而被分类为“o”40次。类似的,“o”出现200次并且分类为“o”170次,但是分类为“0”只有30次。这种情况,通常选取s(x,y)=s(y,x)=s(x,y)+s(y,x)/2,相似性度量可以转换成对称的。2022-5-8徐佳骎26二元数据的相似度量二元数据的相似度量l设x和y是两个对象,都由n个二元属性组成f00 = x取0并且y取0的属性个数f01 = x取0并且y取1的属性个数f10 = x取1并且y取0的

14、属性个数f11 = x取1并且y取1的属性个数简单匹配系数(简单匹配系数(SMC):):Jaccard系数:系数:110001101100ffSMCffff值匹配的属性个数属性个数11011011fJfff匹配的个数不涉及0-0匹配的属性个数2022-5-8徐佳骎27l例: 两个对象x和yx = (1, 0, 0, 0, 0, 0, 0, 0, 0, 0)y = (0, 0, 0, 0, 0, 0, 1, 0, 0, 1)f01 = 2 x取0并且y取1的属性个数f10 = 1 x取1并且y取0的属性个数f00 = 7 x取0并且y取0的属性个数f11 = 0 x取1并且y取1的属性个数7 .

15、 0701270001110010011ffffffSMC0012011100111ffffJ2022-5-8徐佳骎28余弦相似度余弦相似度l通常,文档用向量表示,向量的每个属性代表一个特定的词(术语)在文档中出现的频率。l如果x和y是两个文档向量,则其中“”表示向量点积| x |是向量x的长度,l几何意义余弦相似度不考虑两个对象的量值(当量值重要时,欧几里得距离是更好地选择)| |),cos(yxyxyxnkkkyx1yx21|nkkxxx xyxyyxxyx |),cos(2022-5-8徐佳骎29l例: 两个数据向量对象x = (3, 2, 0, 5, 0, 0, 0, 2, 0, 0)

16、y = (1, 0, 0, 0, 0, 0, 0, 1, 0, 2)xy = 31+20+00+50+00+00+00+21+00+02 = 5cos(x,y)=0.3148. 600002200000055002233|x45. 222001100000000000011|y2022-5-8徐佳骎30l余弦相似度实际上是x和y之间夹角的度量。如果相似度为1,则x和y之间夹角为0,除大小(长度)之外,x和y是相同的;如果余弦相似度为0,则x和y夹角为90,它们不包含任何相同的词。2022-5-8徐佳骎31广义广义Jaccard系数和相关性系数和相关性l广义Jaccard系数可以用于文档数据,并

17、在二元属性情况下归约为Jaccard系数。又称Tanimoto系数。l两个具有二元变量或连续变量的数据之间的相关性是对象属性之间线性联系的度量。皮尔森相关系数:皮尔森相关系数:yxyxyxyx22|),(EJyxxyyxssscorr) ,(2022-5-8徐佳骎32相关性可视化相关性可视化2022-5-8徐佳骎33邻近度计算问题邻近度计算问题1l距离度量的标准化和相关性距离度量的标准化和相关性属性具有不同值域怎么处理?距离可能被具有较大值域的属性左右。例如:使用欧氏距离,基于年龄和收入两个属性来度量人之间的距离,距离将被收入所左右。处理办法:通过标准化,将两个属性变换到相同值域。属性之间相关

18、使用Mahalanobis距离mahalanobis(x, y) = (x y) 1(x y)T 其中, 1是数据协方差矩阵的逆2022-5-8徐佳骎34l例: 1000个点,其x属性和y属性的相关度为0.6。 在椭圆长轴两端的两个大点之间的欧几里得距离为14.7,但Mahalanobis距离仅为62022-5-8徐佳骎35邻近度计算问题邻近度计算问题2l组合异种属性的相似度组合异种属性的相似度当属性具有不同类型时,就需要更一般的方法算法算法2.1 异种对象的相似度异种对象的相似度 1:对于第k个属性,计算相似度sk(x, y),在区间0, 1中。2:对于第k个属性,定义一个指示变量k,如下:

19、k= 0,如果第k个属性是非对称属性, 并且两个对象在该属性上的值都是0,或者如果一个对象的第k个属性具有遗漏值k = 1,否则3:使用如下公式计算两个对象之间的总相似度:nkknkkkssimilarity11),(),(yxyx2022-5-8徐佳骎36邻近度计算问题邻近度计算问题3l使用权值 当某些属性对邻近度的定义比其他属性更重要时,可以通过对每个属性的贡献加权来修改邻近度公式。加权相似度:加权的闵可夫斯基距离:其中权wk的和为1。2022-5-8徐佳骎37小结小结本本章章小小结结数据汇总单个属性多个属性:均值矩阵、协方差矩阵无序、分类数据:频率和众数有序数据:百分位数位置度量:均值和

20、中位数、截断均值散布度量:极差和方差、绝对平均偏差、中位数绝对偏差、四分位数极差相似度 相异度1、相似度、相异度定义与变换2、距离度量3、相似度度量4、邻近度计算问题2022-5-8徐佳骎38可视化可视化l可视化是指以图形或表格的形式显示信息。将数据(信息)转化成可视形式,以便能够借此分析或报告数据的特征和数据项或属性之间的关系。l可视化动机动机1:使人们能够快速吸取大量可视化信息,并发现其中的模式。动机2:利用“锁在人脑袋中”的知识领域。可视化目标是可视化信息的人工解释和信息的意境模型的形成。2022-5-8徐佳骎39例子例子:海洋表面温度海洋表面温度 l以摄氏度为单位显示1982年7月的海

21、洋表面温度 (SST) 这张图汇总大约250000格数据,容易看出,海洋温度在赤道最高,而在两极最低。 2022-5-8徐佳骎40表示表示l表示:将数据映射到图形元素(如:用点表示对象)l可视化是将信息映射成可视形式,即将信息中的对象、属性和联系映射成可视的对象、属性和联系。就是说,数据对象、它们的属性,以及数据对象之间的联系要转换成诸如点、线、形状和颜色点、线、形状和颜色等图形元素。2022-5-8徐佳骎41选择选择l选择:删除或不突出某些对象和属性(如:PCA)l当数据点的个数很多(例如超过数百个)或者数据的极差很大时,显示每个对象的足够信息是困难的,有些数据点可能遮掩其他数据点,或者数据

22、对象可能占据不了足够多的像素来清楚地显示其特征。 2022-5-8徐佳骎42安排安排l重新安排表中数据的重要性l例3.5:左图为具有6个二元属性的9个数据对象,对象和属性之间看起来没有明显的联系,但经重新安排后,右图显示出了数据的特点2022-5-8徐佳骎43l例3.6 考虑图3-3a,该图显示一个图的可视化如果将连通子图分开,如图3-3b所示,结点和图之间的联系就变得更加简单易懂 2022-5-8徐佳骎44技术:少量属性的可视化技术:少量属性的可视化l直方图 通常显示单个变量值的分布 通过将可能的值分散到箱中,并显示落入每个箱中的对象数。对于连续数据,将值域划分成箱。 高度表示对象数2022

23、-5-8徐佳骎45l例子: 花瓣宽度 (10 和 20 个箱) 2022-5-8徐佳骎462022-5-8徐佳骎47茎叶图茎叶图l茎叶图可以用来观测一维整型或连续数据的分布。 对于最简单的一类茎叶图,将值分组,其中每组包含的值除最后一位数字外相同。每个组成为茎,而组中的最后一位数字成为叶。l茎叶图是一种类型的直方图。2022-5-8徐佳骎48例例2022-5-8徐佳骎49二维直方图二维直方图l每个属性划分成区间,而两个区间集定义值的二维长方体 l例子: 花瓣宽度和花瓣长2022-5-8徐佳骎50盒状图(盒状图(Box Plots)l盒状图: 它是另一种显示一维数值属性分布的方法 outlier

24、10th percentile25th percentile75th percentile50th percentile90th percentile2022-5-8徐佳骎51盒状图的例子盒状图的例子 l盒状图相对紧凑,因此可以将许多盒状图放在一个图中。2022-5-8徐佳骎52饼图饼图 l饼图(pie chart)类似于直方图,但通常用于具有相对较少的值的分类属性。饼图使用圆的相对面积显示不同值的相对频率,而不是像直方图那样使用条形的面积或高度。 2022-5-8徐佳骎53经验累计分布函数和百分位数图经验累计分布函数和百分位数图l一个累计分布函数(cumulative distributio

25、n function,CDF)显示点小于该值的概率。 2022-5-8徐佳骎542022-5-8徐佳骎552022-5-8徐佳骎56可视化技术可视化技术: 散布图(散布图(Scatter Plots)l散布图 二维散布图,使用数据对象两个属性的值作为x和y坐标值,每个数据对象都都作为平面上的一个点绘制 一般附加的属性可用如大小、颜色、形状等来表示 散布图矩阵可同时考察许多散布图2022-5-8徐佳骎57散布图矩阵例子:鸢尾花散布图矩阵例子:鸢尾花2022-5-8徐佳骎582022-5-8徐佳骎59可视化时间空间数据可视化时间空间数据l等高线图 对于某些三维数据,两个属性指定平面上的位置,而第三

26、个属性具有连续值,如温度或海拔高度。 对于这样的数据,一种有用的可视化工具是等高线图Celsius2022-5-8徐佳骎60l曲面图 使用两个属性表示x和y坐标,曲面图的第三个属性用来指示高出前两个属性定义的平面高度。 如果去年不太规则,除非交互式的观察,否则很难看到所有信息2022-5-8徐佳骎61l低维切片 考虑时间空间数据集,它记录不同地点和时间上的某种量,如温度或气压。 这样的数据有四个维。通过现实一组图,每月一个,可以显示数据的各个“切片”。2022-5-8徐佳骎622022-5-8徐佳骎63l动画 数据切片的另一种方法是使用动画,其基本思想是显示数据的相继二维切片。 尽管动画具有视

27、觉吸引力,但是一组静止的图可能更有用,因为这种类型的可视化使得我们可以按任意次序、使用任意多时间来研究这些信息。2022-5-8徐佳骎64可视化高维数据可视化高维数据l矩阵 图像可以看作像素的矩形阵列将数据矩阵的每个元素与图像中的一个像素相关联。 这使得容易检查一个类的所有对象是否在某些属性上具有相似的属性值。 如果不同的属性具有不同的值域,则可以对属性标准化,使其均值为0,标准差为12022-5-8徐佳骎65鸢尾花数据矩阵的可视化鸢尾花数据矩阵的可视化2022-5-8徐佳骎662022-5-8徐佳骎67可视化技术可视化技术: 平行坐标系平行坐标系l平行坐标系 每个属性一个坐标轴 与传统的坐标

28、轴不同,平行坐标系不同的坐标轴平行 ,而不是正交的。对象用线而不是用点来表示。 当对象过多时会产生混乱,但,对象趋于分成少数几组时,而且对象数少时,结果有可能揭示有趣的模式。 平行坐标系显示结果可能依赖于坐标轴的序 2022-5-8徐佳骎68鸢尾花的平行坐标系鸢尾花的平行坐标系2022-5-8徐佳骎692022-5-8徐佳骎70其他可视化技术其他可视化技术l星形坐标(Star Plots) 与平行坐标系相似,但坐标轴从一中心点向四周发散 所有的属性值都映射到0,1区间 每个对象映射成一个多边形lChernoff 脸(Chernoff Faces)2022-5-8徐佳骎712022-5-8徐佳骎

29、72星形坐标星形坐标SetosaVersicolourVirginica2022-5-8徐佳骎73Chernoff Faces for Iris DataSetosaVersicolourVirginica2022-5-8徐佳骎74OLAP和多维数据分析和多维数据分析l联机分析处理On-Line Analytical Processing (OLAP) 由关系数据库之父 E. F. Codd提出。lOLAP一般用多维数组表示数据l如何将数据转化成多维数组? 属性值需要离散化 目标值可以是计数或连续值等lOLAP是针对特定问题的联机数据访问和分析。通过信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。2022-5-8徐佳骎75OLAP的特性的特性1.快速性快速性系统能在数秒内对用户的多数分析要求作出反应。2.可分析性可分析性用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告。3.多维性多维性提供对数据分析的多位视图和分析。4.信息性信息性能及时获

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论