第三章 数据预处理_第1页
第三章 数据预处理_第2页
第三章 数据预处理_第3页
第三章 数据预处理_第4页
第三章 数据预处理_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第三章 数据预处理n现实世界中的数据库很容易受噪声数据,空缺数据和不一致数据的侵扰;n数据挖掘系统对数据进行挖掘时,必须对数据进行预处理,去掉含噪声,空缺的,和不一致的数据;n含噪声的数据指,包含错误或存在偏离期望的值。空缺的数据,也就是不完整的数据,指某些感兴趣的属性缺少属性值;n不一致数据指同一属性由于采用的编码或表示不同而存在差异。23.1 数据预处理的形式33.2 数据清理n数据清理,就是用其例程通过填写空缺的值,平滑噪声数据,识别,删除孤立点,并解决不一致来清理数据。4其基本方法为:n(1)空缺值 1)忽略元组 ;2)人工填写空缺值; 3)使用一个全局常量填充空缺值,比如用一个常数

2、(Unknown)来替换所有空缺的值;4)使用属性的平均值填充空缺值;5)使用与给定元组属同类的所有样本的平均值;6)使用最可能的值填充空缺值,可以使用回归,或判定树确定推理获得。5噪声数据 一个测量变量中的随机错误或偏差。可以用以下方法:n分箱 包括按箱平均值平滑,即就是将属性值根据等深,例如每箱3个进行分箱,然后用这三个值的平均值代替箱中的值。类似有按箱中值平滑,按箱边界平滑;n聚类 聚类将相似的值组织成群或类,落在群或类外的值就是孤立点,也就是噪声数据;n计算机和人工检查结合,比如,在一种应用中,使用信息理论度量,帮助识别手写体字符数据库中的孤立点;n回归,让数据适合一个函数(如回归函数

3、)来平滑数据。6不一致数据 许多情况下,所记录的数据可能不一致,这是多方面的因素,比如,由于编码或表示不同,在数据集成的时候,就有可能造成不一致。73.3数据集成和变换n数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。源数据可能包括多个数据库,数据立方体或一般文件。8三个重要的问题要考虑n模式集成 主要是实体识别问题: 利用元数据数据的数据,这可以避免模式集成中的错误n冗余 ,一个属性是冗余的,如果它能由另一个表“导出”,如年薪,可以用相关分析检测到n数据值冲突的检测与处理 : 比如,重量属性可能在一个系统中以公制单位存放,而在另一个系统中用英制存放9数据变换n

4、数据变换:将数据转换成适合于挖掘的形式,涉及如下内容: 1)平滑:去掉数据中的噪声, 2) 聚集:对数据进行汇总和聚集 3)数据概化:使用概念分层,用高层次概念替换低层次“原始” 数据 4)规范化:将属性数据按比例缩放,使之落入一个小的特定 区间,如 0到1之间。 5)属性构造:可以构造新的属性并添加到属性集中,以帮助 数据挖掘。10规范化的方法 1)最小最大规范化 :对原始数据进行变换。假定A的属性最大值和最小值分别是MAX,MIX ,设A 中的任一值是V,则V的值经过规范化后则为:V=(V-MIN)/(MAX-MIX)*(NEW_max-NEW_min)+NEW_min 其中规范化后的区间

5、是NEW_min, NEW_max 例如:income的最大,最小值分别为9000,2000,则将它的值映射到0,1时,若income的值6800规范后为: (6800-2000)/(9000-2000)*(1-0)+0=0.68611 2)z-score规范化(或零均值规范化):就是属性A的值基于A的平均值和标准差规范。假设A的值V规范后为V,则公式为: V=(V-AVG(A)/A的标准差 假设属性income的平均值和方差分别为:5400,1600,则值7360的规范后的值为: (7360-5400)/1600=1.225 12 3)小数定标化:就是科学表示法的形式,将属性的值映射到0,1

6、之间。将小数点的位置规范化,小数点的移动根据属性的最大绝对值。如将A属性的值35规范后为:35/100=0.35 13 属性构造属性构造:是由给定的属性构造和添加新的属性,以有利于挖掘。比如,我们根据属性heigh 和 width可以构造 area属性。通过这种组合属性,属性构造可以发现关于数据属性间联系的丢失信息,这对知识发现有用的。143.4 数据归约n数据归约的策略为:n数据立方体聚集,也就是聚集操作于数据立方体n维归约:可以检测并删除不相关,弱相关或冗余的属性或维n数据压缩:使用编码机制压缩数据集。n数值压缩:用替代,较小的数据表示替换或估计数据,如聚集,选样和使用直方图。n离散化和概

7、念分层产生:属性的原始值用区间值或较高层的概念替换 15维归约n维归约就是删除不相关的属性减少数据量,通过找出最小属性集,使得数据类的概率尽可能接近全部的属性集。包括以下技术: 1)逐步向前选择: 2)逐步向后删除: 3)逐步向前选择和逐步向后删除的结合 4)判定树归纳:16三种技术例子n向前选择 向后删除 向前选择与向后删除的结合初始属性集 初始属性集 初始 属性集(A1,A2,A3,A4,A5,A6) (A1,A2,A3,A4,A5,A6) (A1,A2,A3,A4,A5,A6)初始化规约集: -A1,A3,A4,A5,A6 -A1 -A1,A4,A5,A6 -A1,A3,A4,A5,A6

8、 -A1 -规约后的属性集: -A1,A4-A1,A4 A1,A4,A6 -A1,A4,A5,A6-规约后的属性集: -A1,A4,A6 A1,A4,A6 -A1,A4,A6 规约后的属性集:A1,A4,A617数值归约n数值归约:通过用替代的,较小的数据表示形式来减少数据量。直方图:使用分箱技术近似数据分布,属性A的直方图将A的数据划分为不相交的子集,或桶。n对于确定桶和属性值的划分,有如下划分规则: 1)等宽: 就是将桶的宽度区间设为一个常数,也就是横坐标 2)等深: 就是将桶的频率设为一个常数,也就是纵坐标 3)V-最优:给定桶个数,如果我们考虑所有可能的直方图,V-最优直方图是具有最小

9、方差的直方图。 4)MaxDiff:考虑每对相邻值之间的差。18选样n用数据的较小随机样本(子集)表示大的数据集。n假定大的数据集D包含N个元组。对D的可能选样为: 1)简单选择n个样本,不回放(SRSWOR): 2)简单选择n给样本,回放(SRSWR): 3)聚类选样: 4)分层选样:193.5 离散化和概念分层n对于数值属性,概念分层定义了该属性的一个离散化。通过收集并用较高层的概念替换较低层的概念,概念分层可以用来归约数据。n数值概念分层生成方法: 1)分箱, 2)直方图, 3)聚类分析, 4)基于熵的离散化, 5)通过自然划分的数据分段。20n分类数据的概念分层 分类数据是离散数据,可

10、以用以下方法生成其概念分层: 1)由用户或专家在模式级显示地说明属性的部分序: 2)通过显式数据分组说明分层结构的一部分 3)说明属性集,但不说明它们的偏序 4)只说明部分属性集21广州城市规划空间数据的清理 n空间数据仓库存储了大量与空间有关的数据,例如地图,预处理后的遥感或医学图象数据,以及VLSL芯片设计数据等。空间数据仓库包含了拓扑和/或距离信息,通常按复杂的、多维的空间索引结构组织数据。 22 地理信息系统数据表现形式地理信息系统数据表现形式23广州市城市规划数据交换体系 数据格式转换接口程序监理程序数据生产流水线数据库管理系统办公自动化系统规划专业子系统电子报批子系统外部数据出图子

11、系统24城市规划的各种数据n办案过程中产生的数据n各种规划图形数据n基础地形图数据及各种规划勘测数据n规划成果数据n交通规划研究数据分局规划管理数据n档案数据 25应用实例应用实例 Mapinfo存储的空间数据信息既包含有空间信息,也包含有非空间信息,两者是统一的整体,为了便于分析问题,将其数据分为两部分,即非空间的与空间的,分别对其进行数据清理、整理。26一幅由多个图层组成的地图 27对带有非空间信息的数据进行清理 n对时间字段进行类型转换对时间字段进行类型转换 由于导出的数据为字符类型(Chr),这种类型不利于数据仓库的建立,和联机分析处理,将其转换成时间类型。n 对地址字段进行分层次对地

12、址字段进行分层次 为了更好地进行地址识别和地址分类,将地址字段根据市、区、路、街、门牌进行分层次,将其分别存入数据库。 28n对单位名称字段进行一致性的处理对单位名称字段进行一致性的处理 为了避免在同一数据库中,用两种形式、说法来代表同一事物,制定单位名称表,使单位代码与名称一一对应,同时也减少了数据库中多余的字段。n填充空缺值填充空缺值 检查数据记录中空缺值的情况,按照以上所述方法处理,这里不赘述。 29对带有空间信息的数据进行清理 n下图是市规划局周边的规划红线图,乍一看,看不出其中出现错误的地方,但是根据其空间信息的数据,可以发现这一个地方有重复申报的错误。 30 市规划局周边的规划红线图(91-96年) 31数据进行清理步骤n步骤步骤1 1:利用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论