第8章为挖掘准备数据_第1页
第8章为挖掘准备数据_第2页
第8章为挖掘准备数据_第3页
第8章为挖掘准备数据_第4页
第8章为挖掘准备数据_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务数据挖掘与应用案例分析第8章为数据挖掘准备数据

8.1数据统计特征>>

8.2数据预处理>>

2/32每个公司都会存在有类似于冗余数据、错误数据、失效数据以及编码错误数据的情况,只是可能存在于IT隐蔽处秘而不宣。这虽然不是新问题,但是现在这种数据混乱却在一些知名项目里变得更加突出,如在实施企业资源规划软件或供应链管理软件(SCM)时,一位工作于波士顿AMR研究机构的分析师约翰·哈格蒂(JohnHagerty)指出:往往当公司把注意力集中在业务流程而非数据的形式和一致性上时,这种问题就出现了。当这种情况发生后,这个公司的IT部门就不得不重新从公司的各个数据库中净化、一致化以及集成化数据,然后再存入数据仓库。壳牌勘探有限公司(ShellExploration)正在吃这样的苦头。这家燃料公司希望整合其企业资源,规划财务数据和若干容量系统产生的数据,后者是处理该公司发现并开采了多少天然气和石油的计量信息系统。“每个不同的系统都有自己的一系列编码,”壳牌勘探有限公司位于苏格兰Aberdeen的数据仓库项目经理SteveMutch解释说,“如果推翻重来,在这些系统里再重新净化和集成数据并非良策,可能会占用太多的时间,而且花费昂贵。”Mutch换了一种办法,他找到了Kalido公司的一个软件工具。在伦敦用这个工具从各个系统里分析和映射数据,然后把这些数据集成到数据仓库里。在经过了近7个月的数据分析和数据映射工作后,27个数据源被整合在了一个450GB的数据仓库中。SteveMutch说,其实合作的策略并不赖,每个子公司也不会因此而失去对自身数据的控制权。现在,他们更加理解了公司作为一个整体进行信息处理的意义。“一旦建立了这种概念,我们就感到了来自高层领导的压力,要求我们从其他一些应用中集成数据,”他说,“他们自己就可以看到现在能从数据仓库中得到什么信息,而且看到它的功能是多么强大。”资料来源:JameA.O’Brien.IntroductiontoInformationSystem,12thedition,Copyright@2005bytheMcGrawHillCompanies,Inc.开篇案例——壳牌勘探有限公司数据仓库的商业价值8.1数据统计特征(1)8.1.1频数和众数8.1.2百分位数8.1.3中心度量8.1.4散布程度度量8.1数据统计特性(2)4数据统计又称为汇总统计,用单个数或数的小集合来捕获大的数据集的各种属性特征。通常需要数据的中心趋势和离散程度特征。中心趋势度量包括均值(mean)、中位数(median)、众数(mode)和中列数(midrange);而数据离散程度度量包括四分位数(quartiles)、四分位数极差(InterQuartilesRange,IQR)和方差(variance)等。设一个在上取值的分类属性x和m对象的取值,值的频率定义为众数是集合中出现频率最高的值。对分类属性来说,众数可以看成中心趋势度量;对于连续属性来说,众数通常没有意义。8.1.1频率和众数8.1.2百分位数对于有序数据,有时考虑值集的百分位(percentile)更有意义。给定一个有序的或连续的属性x和0与100之间的数p,数据集合的第p个百分位数一个x值,使得x的p%的观测值小于。最常用的百分位数是四分位数(quartile)。第一个四分位数记作Q1,是第25个百分位数;第三个四分位数记作Q3,是第75个百分位数。第一个和第三个四分位数之间的距离是分布的一种简单度量,它给出被数据的中间一半所覆盖的范围。该距离称为中间四分位数极差,定义为IQR=Q3-Q1。8.1.3中心度量(1)数据集“中心”的最常用、最有效的数值度量是均值和中位数。设x1,x2,…,xm是m个值的集合,则该值集的均值和中位数分别定义为:78.1.3中心度量(2)集合中每个值与一个权值相关联。权值反映对应值的显著性、重要性或出现频率。在这种情况下,使用加权算术均值(weightedarithmeticmean):88.1.3中心度量(3)截断均值:指定0和100间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值。中位数是p=100%时的截断均值,而标准均值是对应于p=0%的截断均值。例:计算{1,2,3,4,5,90}值集的均值,中位数和p=40%的截断均值.解:均值是17.5,中位数是3.5,p=40%时的截断均值也是3.598.1.4散布程度度量(1)极差和方差是值集的散布度量,表明属性值是否散布很宽,或者是否相对集中在单个点(如均值)附近。最简单的散布度量是极差,即最大值和最小值之差假设属性x具有m个值,其极差定义为:

range(x)=max(x)-min(x)=x(m)-x(1)方差(variance)定义如下:108.1.4散布程度度量(2)因为方差用到了均值,而均值容易被离群值扭曲,所以方差对离群值很敏感。更加稳健的值集散布估计方法:绝对平均偏差(AbsoluteAverageDeviation,AAD)中位数绝对偏差(MedianAbsoluteDeviation,MAD)四分位数极差(InterquartileRange,IQR)118.2数据预处理(1)8.2.1数据清理8.2.2数据集成8.2.3数据变换8.2.4数据归约128.2数据预处理(2)数据挖掘的目的是在大量的、潜在有用的数据中挖掘出有用的模式或信息,挖掘的效果直接受到源数据质量的影响。高质量的数据是进行有效挖掘的前提,高质量的决定必须建立在高质量的数据上。138.2数据预处理(3)数据清理填写空缺数据,平滑噪声数据,识别、删除离群点,解决不一致性数据集成集成多个数据库,数据立方体或文件数据变换规范化和数据泛化特征提取和特征构造数据离散化数据归约得到数据集的压缩表示及特征选择通过概念分层和数据离散化来规约数据,对数值数据特别重要148.2数据预处理(4)15数据清理数据集成数据变换数据归约脏数据“干净”数据-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48T1T2…T2000A1A2A3…A126T1T3…T1456A1A3…A115为什么要清理数据?现实世界的数据是“肮脏的”不完整的:有感兴趣的属性缺少属性值含噪声的:包含错误的或是“孤立点”意义:数据清理的目的就是试图填充缺失值、去除噪声并识别离群点168.2.1数据清洗(1)存在缺失值数据并不总是完整的引起空缺值的原因有些信息暂时无法获取某些属性并不能用于所有对象有些信息是被遗漏的有些信息(被认为)是不重要的要求统计的时间窗口并非对所有数据都适合178.2.1数据清洗(2)缺失值的处理方法忽略元组:当缺少类标号时通常这样处理(在分类任务中)。除非同一记录中有多个属性缺失值,否则该方法不是很有效。忽略属性列:如果该属性的缺失值太多,如超过80%,则在整个数据集中忽略该属性。数据填充:是用一定的值去填充缺失值,如用其余属性的平均值或最常见值来进行补充等。人工填写缺失值:通常情况下,该方法费时费力,并且当数据集很大或缺少很多值时,该方法可能行不通。自动填充缺失值:有三种不同的策略。使用一个全局常量填充缺失值,将缺失的属性值用同一个常数替换。使用与给定记录属同一类的所有样本的均值或众数填充缺省值。用可能值来代替缺失值:可以用回归、基于推理的工具或决策树归纳确定。188.2.1数据清洗(3)噪声数据的平滑方法噪声是测量变量的随机错误或偏差。噪声是测量误差的随机部分,包含错误或孤立点值。导致噪声产生的原因有:数据收集的设备故障

数据录入过程中人的疏忽数据传输过程中的错误噪声数据常用分箱的方法平滑:分箱:分箱方法通过考察“邻居”(即周围的值)来平滑有序数据的值。198.2.1数据清洗(4)数据平滑实例一组排序后的数据(单位:元):4,8,15,21,21,24,25,31,34,36划分为等深的箱箱1:4,8,15箱2:21,21,24箱3:25,31,34,36用箱平均值进行平滑箱1:9,9,9箱2:22,22,22箱3:31.5,31.5,31.5,31.5用箱的边界进行平滑箱1:4,4,15箱2:21,21,24箱3:25,36,36,36208.2.1数据清洗(5)特殊字段的处理有两种极端的字段需要特殊处理:取值几乎相同和几乎都不同的字段。8.2.1数据清洗(5)8.2.2数据集成将两个或多个数据源中的数据,存放在一个一致的数据存储设备中。在数据集成时,有许多问题需要考虑,数据一致性和冗余是两个重要问题。不同表中可能使用不同名称来指示同一属性,正如一个人有多个不同的别名或不同的人拥有相同的名字,这样将导致数据的不一致或冲突。一个属性是冗余的,如果它能由另一个表“导出”;属性或维命名的不一致也可能导致数据集中的冗余。228.2.3数据变换(1)聚集:汇总,数据立方体的构建数据泛化:沿概念分层高上汇总规范化:将数据按比例缩放,使之落入一个小的特定区间(消除量纲的影响)最小-最大规范化Z-score规范化小数定标规范化特征构造通过现有属性构造新的特征,并添加到数据集中数据离散化23(1)数据泛化概念分层通过使用高层的概念(比如:老年,中年,青年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据概念分层可以用树来表示,树的每一个节点代表一个概念(比如:按地区划分世界)对于数值属性,概念分层可以根据数据的分布自动地构造,如用分箱、直方图分析、聚类分析、基于熵的离散化和自然划分分段等技术生成数据概念分层。对于分类属性,有时可能具有很多个不同值。减少大量分类值的一个方法是使用代码属性而不是代码本身。这时领域知识通常会有帮助,如果领域知识不能提供有用的指导,或者这样的方法会导致很差的性能,则需要使用更为经验性的方法,仅当分组结果能提高分类准确率或达到某种其它数据挖掘目标时,才将值聚集到一起。8.2.3数据变换(2)(2)规范化最小-最大规范化Z-score规范化小数定标规范化258.2.3数据变换(3)(3)特征构造特征提取(FeatureExtraction):由原始数据创建新的特征集特征构造:由一个或多个原始特征共同构造新的特征提取来自单个属性的特征在记录内合并数值转轴正则时间序列汇总交易记录基于行为变量268.2.3数据变换(4)(4)离散化通过将属性域划分为区间,减少给定连续属性值的个数。区间标号可以代替实际的数据值。等宽离散化方法、等频离散化方法、近似等频离散化方法。278.2.3数据变换(5)8.2.4数据归约(1)从记录和维度两个方面减少数据量维归约特征变换与特征选择

维规约的好处如果维度较低,许多数据挖掘算法效果会更好。维归约使模型涉及更少的特征,因而可以产生更容易理解的模型。使用维归约可以降低数据挖掘算法的时间和空间复杂度。2829(1)特征选择概念:从一组已知特征集合中选择最具代表性的特征子集,使其保留原有数据的大部分信息,即所选特征子集可以像原来的特征全集一样用来正确区分数据集的每个数据对象。通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率。目的:去除不相关和冗余的特征,降低时间空间复杂度,提高数据质量及数据泛化能力。理想的特征

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论