第2章数据资料讲解_第1页
第2章数据资料讲解_第2页
第2章数据资料讲解_第3页
第2章数据资料讲解_第4页
第2章数据资料讲解_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘:数据第2章数据什么是数据?数据集可以看作数据对象的集合。数据对象用一组刻画对象基本特性的属性描述数据对象记录、点、向量、模式、事件、案例、样本、观测、实体.属性变量、特性、字段、特征、维AttributesObjects属性与属性值属性的性质不必与度量它的属性值的性质相同,反之亦然相同的属性可能有不同的属性值

例子:高度可以用米或英尺来表示不同的属性可能映射到相同的值的集合

例子:雇员IDand年龄都用整型表示

然而,谈论平均年龄是有意义的,平均ID是无意义的ID和年龄最大值不同例

线段长度属性的不同类型四种属性类型分类的(定性的)标称举例:雇员id、眼球颜色、性别序数举例:矿石硬度、{好,较好,最好}数值的(定量的)区间举例:日历日期、摄氏、华氏温度比率举例:绝对温度、货币量、计数、年龄、质量、长度、电流属性类型描述例子操作标称标称值只提供足够的信息以区分对象.(=,

)雇员id、眼球颜色、性别众数、熵、列联相关、,

2

检验序数序数属性的值提供足够的信息确定对象的序.(<,>)矿石硬度、{好,较好,最好}、成绩中值、百分位、秩相关、游程检验、符号检验区间对于区间属性,值之间的差是有意义的,即存在测量单位.

(+,-)日历日期、摄氏、华氏温度均值、标准差、皮尔逊相关、t和F检验比率对于比率变量,差和比率都是有意义的.(*,/)绝对温度、货币量、计数、年龄、质量、长度、电流几何平均、调和平均、百分比变差属性类型变换注释标称任何一对一变换如果所有雇员的ID号都重新赋值,不会导致任何不同序数值的保序变换

新值=f(旧值)

f

是单调的.包括好、较好、最好的属性可以完全等价的用{1,2,3}或用{0.5,1,10}表示.区间新值=a*旧值+b华氏和摄氏温度标度零度的位置和1度的大小(单位)不同比率新值=a*旧值

长度可以用米或英尺度量.离散和连续属性离散属性具有有限或无限可数个值例子:ID号、计数、字母数经常用整数表示.一种特殊的离散属性:二元属性连续属性是取实数值的属性例子:温度、高度、重量.连续属性用浮点变量表示.实际上、实数值只能用有限的精度测量和表示.2.1数据集的类型记录数据数据矩阵(DataMatrix)文档-词矩阵(Document-termData)事物数据(TransactionData)图带有对象之间联系的数据具有图形对象的数据有序数据空间数据(SpatialData)时间数据(TemporalData)时间序列数据(TimeSeriesData)序列数据(SequenceData)数据集的一般特性维度(dimensionality)

数据集中的对象具有的属性个数维灾难维归约稀疏性(sparsity)

具有非对称特征的数据集,一个对象大部分属性值为0,非零项一般不到1%分辨率(resolution)

不同的分辨率下数据的性质不同记录数据记录(数据对象)的汇集,每个记录包含固定的数据字段(属性)集数据矩阵如果一个数据集族中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间的点(向量),其中每一维代表描述对象的一个不同属性。数据对象集可用m×n的矩阵表示它是记录数据的变体,它由数值属性组成,可以使用矩阵操作对数据进行变换和操作稀疏数据矩阵特殊的数据矩阵,只有非零值是重要的,例子:文档-词矩阵事务数据每个记录(事务)涉及一个项的集合.例子:一个杂货店。顾客一次购买的商品的集合就构成一个事务,而购买的商品是项.这种类型的数据称作购物篮数据基于图形的数据带有对象之间联系的数据具有图形对象的数据苯分子:C6H6有序数据时序数据例子:时序事务数据有序数据时间序列数据有序数据序列数据例子:基因组序列数据有序数据空间数据例子:温度数据数据质量现实世界的数据是“肮脏的”——数据多了,什么问题都会出现不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据含噪声的:包含错误或者“孤立点”不一致的:在编码或者命名上存在差异没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致地集成2.2数据质量数据质量问题的例子:噪声(Noise)离群点(outliers)遗漏值(missingvalues)重复数据(duplicatedata)噪声噪声是测量误差的随机部分Examples:distortionofaperson’svoicewhentalkingonapoorphoneand“snow”ontelevisionscreenTwoSineWavesTwoSineWaves+Noise离群点噪声和离群点的区别离群点可以是合法的数据对象或值,不像噪声,离群点本身可以是令人感兴趣的例子:欺诈和网络攻击检测中,目标就是从大量正常对象或事件中发现不正常的对象和事件遗漏值原因信息未收集

(例如:有的人拒绝提供年龄和体重)属性并不能用于所有对象

(例如:填写学历后,填写专业,研究方向)处理遗漏值删除数据对象或属性估计遗漏值在分析时忽略遗漏值如何处理遗漏(缺失)值忽略元组:当类标号缺少时通常这么做(假定挖掘任务涉及分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。人工填写空缺值:工作量大,可行性低使用一个全局变量填充空缺值:比如使用unknown或-∞使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值重复数据数据集可能包含重复或几乎重复的数据对象例子:许多人收到重复的邮件2.3数据预处理聚集抽样维归约特征子集选择特征创建离散化和二元化变量变换聚集将两个或多个对象合并成单个对象目的数据归约

使数据集规模减少,从而耗时较多的数据挖掘算法更可行尺度变换建立高层数据视图。城市聚集成地区、省、国家数据性质更加稳定

平均值、总数等聚集量具有更小的变异性聚集动机1.数据归约导致的较小数据集需要较少的内存和处理时间,因此可以使用花费更大的数据挖掘算法。2.通过高层而不是低层数据视图,聚集起到了辖域或标度转换的作用。3.对象或属性群的性质通常比单个对象或属性的性质更加稳定聚集StandardDeviationofAverageMonthlyPrecipitationStandardDeviationofAverageYearlyPrecipitation例2.7澳大利亚降水量该例基于从1982年到1993年的降水量。左图显示澳大利亚3030个0.5度乘0.5度(经纬度)的网格单元上的平均月降水量的标准差。右图为相同位置的平均年降水量的标准差。抽样抽样是一种选择数据对象子集进行分析的常用方法抽样长期用于数据的事先调查和最终的数据分析.

在统计学和数据挖掘中,抽样的动机并不相同.统计学使用抽样是因为获得感兴趣的整个数据集的费用太高、太费时间数据挖掘使用抽样是因为处理所有的数据的费用太高、太费时间抽样…有效抽样(样本有代表性):使用抽样样本与使用整个数据集的效果几乎一样

如果它近似地具有与原数据集相同(感兴趣)的性质。例子:如果感兴趣的数据对象是均值,而抽样样本具有近似于原数据集的均值,则样本是有代表性的抽样方法简单随机抽样无放回抽样有放回抽样

当样本与数据集相比相对较小时,两种方法产生的样本差别不大,有放回抽样较为简单分层抽样每种类型的对象数量差别很大时,简单随机抽样不能充分地代表不太频繁出现的对象类型。先分组,然后对每组抽样。可以使每组抽样个数相同或从每组中抽取的对象数量正比于该组的大小抽样——SRSSRSWOR(简单随机抽样,不回放)SRSWR(简单随机抽样,回放)原始数据分层抽样原始数据聚类/分层选样抽样与信息损失

8000points 2000Points 500Points较大的样本容量增大了样本具有代表性的概率,但也抵消了抽样带来的许多好处。反过来,使用较小容量的样本,可能丢失模式,或检测到错误的模式。抽样尺寸抽样尺寸选为多少?才能保证从每组中找出一个代表点.维归约目的:减少数据挖掘算法运行的时间和空间数据更容易可视化删除不相关特征、降低噪音维归约通过删除不相干的属性或维减少数据量属性子集选择找出最小属性集,使得数据类的概率分布尽可能的接近使用所有属性的原分布减少出现在发现模式上的属性的数目,使得模式更易于理解技术主成分分析(PrincipleComponentAnalysis)特征创建由原来的属性创建新的属性集,更有效地捕获数据集中的重要信息三个一般的方法:特征提取映射数据到新的空间特征构造特征提取映射数据到新的空间TwoSineWavesTwoSineWaves+NoiseFrequency傅立叶变换:把时间序列转化为频率信息小波变换特征构造有时,原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法。在这种情况下,一个或多个由原特征构造的新特征可能比原特征更有用例子:每个人工制品由体积、质量和其它信息构成。假定这些人工制品使用少量材料(木材、陶土、青铜、黄金)制造,并且我们希望根据制造材料对它们分类。密度=质量/体积将很直接地产生准确的分类。尽管有一些努力,试图通过考察已有特征的简单的数学组合来自动的进行特征构造,但是最常见的方法还是使用专家的意见构造特征离散化和二元化分类属性二元化如果有m个分类值,则将每个原始值唯一地赋予区间[0,m-1]中的一个整数。如果属性是有序的,则赋值必须保持序关系然后,将这m个整数的每一个都变换成一个二进制数。需要使用

个二进位表示这些整数例:一个具有5个值[awful,poor,ok,good,great]的分类变量需要三个二元变量表示。上面的变换可能导致复杂化,如无意中建立了转化后的属性之间的联系。关联分析可能认为x2和x3是相关的,因为good值使用这两个属性值表示对于关联分析,需要为每个分类值引入一个二元属性连续属性离散化连续属性变为分类属性将连续属性值排序后,通过指定n-1个分割点把他们分成n个区间将一个区间中的所有值映射到相同的分类例:对x=2.1,2.4,3,3.5,4,3.2离散化为三个分类值2.1,2.4,3,3.2,3.8,4设定区间(-∞,2.7],(2.7,3.5],(3.5,+∞)离散化为0,0,1,1,2,2

非监督离散化数据等宽离散化等频率离散化k均值离散化等宽这种方法将属性的值域划分成具有相同宽度的区间这种方法可能受离群点的影响而性能不佳等频率这种方法将相同数量的对象放进每个区域K均值聚类监督离散化带有类标号的数据离散化基于熵的离散化熵的计算公式Mi是第i个区间中值的个数Mij是第i个区间中类j的值的个数将初始值切分成两部分,使得两个结果区间产生最小熵。然后,取一个最大熵的区间,重复分割过程,直到区间的个数达到用户指定的个数变量变换是指用于变量的所有值的变换简单函数:xk,log(x),ex,|x|,1/x,sinx规范化和标准化规范化和标准化比较两个人的不同:因为年龄之差一般远小于收入之差,因此如果不对数据标准化,将导致收入之差将主导人的不同标准差方法:均值和标准差受离群点影响大,可用中位点和绝对标准差代替2.4相似性和相异性的度量相似度两个对象之间的相似度是这两个对象相似程度的数值度量.两个对象越相似,它们的相似度就越高相似度是非负的,并常常在0和1之间取值相异度两个对象之间的相异度是这两个对象差异程度的数值度量对象越相似,他们的相异度就越低距离常作相异度的同义词取值(0,1)或(0,∞)变量变换用于相似度与相异度例:如果对象之间的相似度在1(一点也不相似)和10(完全相似)之间变化,则我们可以使用如下变换将它变换到[0,1]区间:s‘=(s-1)/9,其中s和s’分别是相似度的原值和新值。在更一般的情况下,相似度到[0,1]区间的变换由如下表达式给出:s'=

(s-min_s)/(max_s-min_s),其中max_s和min_s分别是相似度的最大值和最小值。类似地,具有有限值域的相异度也能用d'=(d-min_d)/(max_d-min_d)映射到[0,1]区间。相似度与相异度互换对于变换s=1/(d+1),相异度0,1,10,100分别变换到1,0.5,0.09,0.01;对于s=它们分别被变换到1.00,0.37,0.00,0.00;对于s=1-它们分别被变换到1.00,0.99,0.00,0.00。

简单属性之间的相似度和相异度pandqaretheattributevaluesfortwodataobjects.数据对象之间的相异度EuclideanDistance

明可夫斯基距离(MinkowskiDistance)MinkowskiDistancer=1.城市块(曼哈顿,出租车,L1

范数)距离.r=2.欧氏距离(L2

范数)r

.上确界(Lmax或L

范数)距离.MinkowskiDistanceDistanceMatrix距离的性质距离具有一些众所周知的性质.非负性d(x,y)

0,仅当x=y时d(x,y)=0对称性d(x,y)=d(y,x)

三角不等式d(x,z)

d(x,y)+d(y,z)

满足以上三个性质的测度称为度量(metric)(距离)例2.14

非度量的相异度:集合差

这个例子是基于集合论中定义的两个集合差的概念,设有两个集合A和B,A

-

B是不在B中的A中元素的集合。例如,如果A={1,2,3,4},而B={2,3,4},则A-B={1},而B-A=Æ,即空集。我们可以将两个集合A和B之间的距离定义为d(A,B)=size(A-B),其中size是一个函数,它返回集合元素的个数。该距离测度是大于或等于零的整数值,但不对称性,同时还不满足三角不等式。然而,如果将相异度修改为d(A,B)=size(A-B)+size(B-A),则这些性质都可以成立二元数据的相似性度量两个仅包含二元属性的对象之间的相似性度量也称相似系数两个对象的比较导致四个量 f00

=x取0并且y取0的属性个数 f01=x取0并且y取1的属性个数 f10

=x取1并且y取0的属性个数 f11

=x取1并且y取1的属性个数简单匹配系数 SMC=值匹配的属性个数/属性个数=(f11+f00)/(f01+f10+f11+f00)Jaccard(雅卡尔)系数(非对称二元属性) J=匹配的个数/不涉及0-0匹配的属性个数=(f11)/(f01+f10+f11)SMCvsJaccard:例子x=1000000000

y=0000001001

f00

=7f01

=2f10

=1f11

=0

SMC=(f11+f00)/(f01+f10+f11+f00)=(0+7)/(2+1+0+7)=0.7

J=(f11)/(f01+f10+f11)=0/(2+1+0)=0

余弦相似度文档用向量表示,向量的每个属性代表一个特定的词(术语)在文档中出现的频率。当然,实际情况要复杂得多,因为需要忽略常用词,并使用各种技术处理同一个词的不同形式、不同的文档长度以及不同的词频。尽管文档具有数以百千计或数以万计的属性(词),但是每个文档都是稀疏的,因此,文档的相似性度量不仅应当像Jaccard度量一样需要忽略0-0匹配,而且还必须能够处理非二元向量。余弦相似度

Ifd1andd2aretwodocumentvectors,thencos(x,y)=(x

y)/||x||||y||,

Example:

x=3205000200 y=1000000102

x

y=3*1+2*0+0*0+5*0+0*0+0*0+0*0+2*1+0*0+0*2=5

||x||=(3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5=(42)0.5=6.481||y||=(1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2)

0.5

=(6)0.5=2.245 cos(d1,d2)=0.3150广义Jaccard系数(Tanimoto谷本贵义-系数)相关性两个具有二元变量或连续变量的数据对象之间的相关性是对象属性之间线性联系的度量。相关性皮尔逊相关系数:两个具有二元变量或连续变量的数据对象之间的相关性是对象属性之间线性联系的度量。相关性例2.19

完全相关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论