数据仓库和数据挖掘第7章ppt课件_第1页
数据仓库和数据挖掘第7章ppt课件_第2页
数据仓库和数据挖掘第7章ppt课件_第3页
数据仓库和数据挖掘第7章ppt课件_第4页
数据仓库和数据挖掘第7章ppt课件_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第第7 7章章数据发掘中的数据预处置数据发掘中的数据预处置 数据预处置的根本功能数据预处置的根本功能 数据预处置的主要方法数据预处置的主要方法 数据清理数据清理 数据采样数据采样 数据集成与变换数据集成与变换 数据约简数据约简 数据的概念分层数据的概念分层DMDM的过程的过程1 1DW DW 的步骤:的步骤:数据预备:数据预备:数据集成数据集成数据选择数据选择预分析预分析发掘发掘表述表述评价评价2 2DW DW 系统的构造系统的构造: 用户界面用户界面结果输出结果输出数据发掘中心数据发掘中心知识库知识库数据仓库数据仓库数据库数据库文件系统文件系统其他其他数据源数据源ODBC或其他公用数据库接口

2、或其他公用数据库接口 数据预备阶段数据预备阶段: : 数据的选择选择相关的数据数据的选择选择相关的数据 净化消除噪音、冗余数据净化消除噪音、冗余数据 推测推算缺失数据推测推算缺失数据 转化离散值数据与延续值数据之间的相互转转化离散值数据与延续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组换、数据值的分组分类、数据项之间的计算组合等合等 数据缩减减少数据量数据缩减减少数据量 经过处置过的数据普通存储在数据仓库中。数经过处置过的数据普通存储在数据仓库中。数据预备能否做得充分将影响到数据发掘的效率据预备能否做得充分将影响到数据发掘的效率和准确度以及最终方式的有效性。和准确度以及最终方式的

3、有效性。数据发掘的过程数据发掘的过程数据发掘的过程数据发掘的过程 发掘阶段:该阶段是数据发掘的中心步发掘阶段:该阶段是数据发掘的中心步骤,也是技术难点所在。根据数据发掘骤,也是技术难点所在。根据数据发掘的目的,采用人工智能、集合论、统计的目的,采用人工智能、集合论、统计学等方法,运用相应的数据发掘算法,学等方法,运用相应的数据发掘算法,分析数据并经过可视化工具表述所获得分析数据并经过可视化工具表述所获得的方式或规那么。的方式或规那么。数据发掘的过程数据发掘的过程 评价阶段:在数据发掘中得到的方式能够是没有实践意义或评价阶段:在数据发掘中得到的方式能够是没有实践意义或没有运用价值的,也有能够不能

4、准确反映数据的真实意义,没有运用价值的,也有能够不能准确反映数据的真实意义,甚至在某些情况下是与现实相反的,因此需求评价,确定哪甚至在某些情况下是与现实相反的,因此需求评价,确定哪些是有效的、有用的方式。评价可以根据用户多年的阅历,些是有效的、有用的方式。评价可以根据用户多年的阅历,有些方式也可以直接用数据来检验其准确性。有些方式也可以直接用数据来检验其准确性。 稳定和运用阶段:用户了解的、并被以为是符合实践和有价稳定和运用阶段:用户了解的、并被以为是符合实践和有价值的方式构成了知识。同时还要对知识进展一致性检查,处值的方式构成了知识。同时还要对知识进展一致性检查,处理与以前得到的知识相互冲突

5、、矛盾的地方,使知识得到稳理与以前得到的知识相互冲突、矛盾的地方,使知识得到稳定。运用知识有两种方法:一种是只需看知识本身所描画的定。运用知识有两种方法:一种是只需看知识本身所描画的关系或结果,就可以对决策提供支持;另一种是要求运用知关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进展分析,由此能够产生新的问题,而需求对识对新的数据进展分析,由此能够产生新的问题,而需求对知识作进一步的优化。知识作进一步的优化。数据预处置的必要性数据预处置的必要性l数据发掘要求的数据:干净、准确、简约、数据发掘要求的数据:干净、准确、简约、完好。完好。l原始数据存在的问题:原始数据存在的问题:l

6、杂乱性:来自多种数据库和文件系统,缺乏杂乱性:来自多种数据库和文件系统,缺乏一致规范和定义。一致规范和定义。l冗余性:同一个事务在数据库中能够存在多冗余性:同一个事务在数据库中能够存在多个一样的物理描画。个一样的物理描画。l不完好性:设计缺陷或人为缘由呵斥数据丧不完好性:设计缺陷或人为缘由呵斥数据丧失、不确定、不完好。失、不确定、不完好。数据预处置的根本功能数据预处置的根本功能l数据清洗数据清洗l数据集成数据集成l数据变换数据变换l数据约简数据约简数据预处置的根本功能数据清数据预处置的根本功能数据清洗洗l功能:功能:l去除源数据中的噪声数据和无关数据去除源数据中的噪声数据和无关数据l反复数据处

7、置反复数据处置l缺值数据处置缺值数据处置l数据类型转换数据类型转换l方法:方法:l有监视方法:有领域专家指点有监视方法:有领域专家指点l无监视方法:样本数据训练算法无监视方法:样本数据训练算法数据预处置的根本功能数据集数据预处置的根本功能数据集成成l功能:功能:l数据的选择:从多数据源中选择数据数据的选择:从多数据源中选择数据l数据冲突处置:如字段同名异义、异名同数据冲突处置:如字段同名异义、异名同义、长度不同。义、长度不同。l数据不一致处置:如单位、命名、构造、数据不一致处置:如单位、命名、构造、含义不一致。含义不一致。l数据类型的选择数据类型的选择数据预处置的根本功能数据变数据预处置的根本

8、功能数据变换换l功能:功能:l格式化:将元组集按照格式化条件合并,即格式化:将元组集按照格式化条件合并,即对属性值量纲的归一化处置。对属性值量纲的归一化处置。l归纳:处置元组属性值之间的归纳:处置元组属性值之间的“is-ais-a语义关语义关系。系。l多维数据组织:采用切片、旋转、投影等操多维数据组织:采用切片、旋转、投影等操作将原始数据按照多维立方体方式组织成为作将原始数据按照多维立方体方式组织成为不同层次、不同粒度、不同维度的聚集。不同层次、不同粒度、不同维度的聚集。数据预处置的根本功能数据简数据预处置的根本功能数据简化化l功能:在对数据发掘义务和原始数据充功能:在对数据发掘义务和原始数据

9、充分了解的根底上,发现依赖于目的的表分了解的根底上,发现依赖于目的的表达数据的有用特征,从而尽能够地精简达数据的有用特征,从而尽能够地精简数据量。数据量。l方法:方法:l属性选择:属性剪枝、并枝、相关分析。属性选择:属性剪枝、并枝、相关分析。l数据抽样:随机抽样、等间隔抽样、分数据抽样:随机抽样、等间隔抽样、分层抽样。层抽样。数据预处置的主要方法数据预处置的主要方法l基于约略集的属性约简方法:按等价关系对属性集基于约略集的属性约简方法:按等价关系对属性集进展划分,求出最小约简集。进展划分,求出最小约简集。l基于概念树的数据浓缩方法:将元组逐层归纳为概基于概念树的数据浓缩方法:将元组逐层归纳为概

10、念树,并去除噪声数据。念树,并去除噪声数据。l基于信息论的数据泛化方法:数据立方体法、面向基于信息论的数据泛化方法:数据立方体法、面向属性的归纳方法、最大熵方法。属性的归纳方法、最大熵方法。l基于统计分析的属性选取方法:主成分分析、回归基于统计分析的属性选取方法:主成分分析、回归分析、公共要素模型分析,找出特征属性。分析、公共要素模型分析,找出特征属性。l遗传算法:高效进展数据聚类预处置。遗传算法:高效进展数据聚类预处置。数据清理空缺值处置数据清理空缺值处置 忽略有空缺值的元组忽略有空缺值的元组 人工填写空缺值人工填写空缺值 运用一个全局常量填充空缺值运用一个全局常量填充空缺值 运用属性的平均

11、值填充空缺值运用属性的平均值填充空缺值 运用与给定元组属同一类的一切样本的运用与给定元组属同一类的一切样本的平均值填充空缺值平均值填充空缺值 运用最能够的值填充空缺值运用最能够的值填充空缺值数据清理噪声数据处置数据清理噪声数据处置l噪声:丈量变量中的随机错误或偏向。噪声:丈量变量中的随机错误或偏向。l数据平滑技术:数据平滑技术:l分箱方法:调查临近数据同一箱中的分箱方法:调查临近数据同一箱中的值来平滑数据值。值来平滑数据值。l聚类方法:经过聚类发现孤立点。聚类方法:经过聚类发现孤立点。l计算机与人工相结合方法:识别噪声数据。计算机与人工相结合方法:识别噪声数据。l回归分析:建立回归方程,识别噪

12、声数据。回归分析:建立回归方程,识别噪声数据。数据清理不一致数据处置数据清理不一致数据处置l数据不一致处置:数据不一致处置:l单位单位l命名命名l构造构造l含义含义l方法:方法:l数据集成数据集成l数据变换数据变换数据采样数据采样l数据采样:运用样本集替代整个数据集。数据采样:运用样本集替代整个数据集。l方法:方法:l随机采样:运用随机函数。随机采样:运用随机函数。l分层采样:根据数据分布的不平衡性密分层采样:根据数据分布的不平衡性密度控制采样频率。度控制采样频率。l窗口采样:运用窗口保管一批数据作为学窗口采样:运用窗口保管一批数据作为学习算法的训练样本集。习算法的训练样本集。l静态采样与动态

13、采样:静态或动态确定样静态采样与动态采样:静态或动态确定样本集与母数据库的类似度。本集与母数据库的类似度。数据集成数据集成l根本义务:将多个数据源中的数据结合起来存根本义务:将多个数据源中的数据结合起来存放在一致的数据存储如数据仓库中。放在一致的数据存储如数据仓库中。l功能:功能:l数据的选择:从多数据源中选择数据数据的选择:从多数据源中选择数据l数据冲突处置:如字段同名异义、异名同义、数据冲突处置:如字段同名异义、异名同义、长度不同。长度不同。l数据不一致处置:如单位、命名、构造、含义数据不一致处置:如单位、命名、构造、含义不一致。不一致。l数据类型的选择数据类型的选择数据集成数据集成 方法

14、:方法: 实体识别方法:利用元数据识别同名异义、实体识别方法:利用元数据识别同名异义、异名同义的实体异名同义的实体 冗余属性识别方法:利用相关分析方法,冗余属性识别方法:利用相关分析方法,计算属性间的相关度计算属性间的相关度 反复元组识别方法:同一个数据存放在多反复元组识别方法:同一个数据存放在多个一样的元组中个一样的元组中 数据值不一致检测与处置方法:单位、命数据值不一致检测与处置方法:单位、命名、构造转换名、构造转换数据变换数据变换l根本义务:将数据转换成为适宜于发掘的根本义务:将数据转换成为适宜于发掘的方式。方式。l方法:方法:l数据平滑:去除数据中的噪声,分箱、聚数据平滑:去除数据中的

15、噪声,分箱、聚类、回归数据清理类、回归数据清理l聚集:对数据进展汇总和聚集,为多粒度聚集:对数据进展汇总和聚集,为多粒度数据构造多维立方体数据归约数据构造多维立方体数据归约l数据概化:运用功能分层,用高层概念交数据概化:运用功能分层,用高层概念交换低层原始数据数据归约换低层原始数据数据归约数据变换数据变换l方法:方法:l规范化:将属性值按比例缩放使其落入规范化:将属性值按比例缩放使其落入一个小的特定区间加快分类规那么一个小的特定区间加快分类规那么发掘、学习阶段的速度;最小发掘、学习阶段的速度;最小/ /最大规范最大规范化、小数定标规范化等化、小数定标规范化等l属性构造:构造新的属性添加到属性集

16、属性构造:构造新的属性添加到属性集中提高精度和对高维数据构造的了中提高精度和对高维数据构造的了解,有利于发掘过程解,有利于发掘过程数据约简数据约简 根本义务:将海量的源数据进展约简,但仍坚持根本义务:将海量的源数据进展约简,但仍坚持或接近源数据的完好性,使数据发掘产生一样或或接近源数据的完好性,使数据发掘产生一样或几乎一样的结果。几乎一样的结果。 数据约简的方法:数据约简的方法: 数据立方体聚集数据立方体聚集 维归约维归约 数据紧缩数据紧缩 数值紧缩数值紧缩 离散化和概念分层离散化和概念分层数据约简数据立方体聚集数据约简数据立方体聚集 数据立方体存储多维数据,创建在最低层数据立方体存储多维数据

17、,创建在最低层数据立方体的称为根本立方体,最高层笼数据立方体的称为根本立方体,最高层笼统的数据立方体称为顶点立方体,较高层统的数据立方体称为顶点立方体,较高层的数据立方体将减少结果数据。的数据立方体将减少结果数据。 数据立方体聚集即将感兴趣的实体提高其数据立方体聚集即将感兴趣的实体提高其笼统层次,以减少结果数据,便于分析运笼统层次,以减少结果数据,便于分析运用。用。数据约简维归约数据约简维归约 根本义务:删除不相关的维或属性数百根本义务:删除不相关的维或属性数百个,以减少数据量。个,以减少数据量。 方法:属性子集选择法,即找出最小属性集,方法:属性子集选择法,即找出最小属性集,使得数据的概论分

18、布尽能够接近运用一切属使得数据的概论分布尽能够接近运用一切属性的原分布。性的原分布。 问题:问题:n n个属性有个属性有2n2n个子集,如何找到个子集,如何找到“好的好的子集?子集?数据约简维归约数据约简维归约 属性子集选择法:紧缩搜索空间的启发式算法属性子集选择法:紧缩搜索空间的启发式算法 启发式方法的技术:启发式方法的技术: 逐渐向前选择:从空属性集开场,选择最好的逐渐向前选择:从空属性集开场,选择最好的属性添参与属性集。属性添参与属性集。 逐渐向后删除:从属性选集开场,删除其中最逐渐向后删除:从属性选集开场,删除其中最差的属性。差的属性。 向前选择和向后删除结合:每一步选择一个最向前选择和向后删除结合:每一步选择一个最好的属性,并在剩余的属性中删除一个最差的好的属性,并在剩余的属性中删除一个最差的属性。属性。 断定树归纳:删除不出如今断定树中的属性断定树归纳:删除不出如今断定树中的属性数据紧缩数据紧缩 根本义务:对数据进展编码和变换,得到根本义务:对数据进展编码和变换,得到数据的紧缩表示,运用时进展解紧缩,重数据的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论