版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1、数据预处理的意义2、数据清理(qngl)3、数据集成与变换4、数据归约第三章 数据(shj)预处理共五十一页1、数据质量问题: 噪声(zoshng)数据 空缺数据 不一致数据第一节 数据(shj)预处理的意义预处理数据提高数据质量提高挖掘结果共五十一页2、数据预处理的基本方法: 数据清理:除去噪声,纠正不一致性。 数据集成:将多种数据源合并成一致的数据存储(cn ch)。 数据变换:即规范化,可以改进距离度量的挖掘 算法的精度和有效性。 数据归约:通过聚集、删除冗余特性或聚类方法 来压缩数据。第一节 数据(shj)预处理的意义共五十一页第一节 数据(shj)预处理的意义3、数据预处理的意义
2、 改进数据质量,提高其后的挖掘过程的精度和 性能。 高质量的决策依赖于高质量的数据,数据预处 理是知识发现过程的重要步骤。 检测数据异常、尽早调整数据,并归约待分析(fnx) 数据,将得到较高决策回报。共五十一页第二节 数据(shj)清理 现实世界的数据一般是含噪声(zoshng)的、不完整的、不一致的。数据清理例程试图填充空缺的值,识别孤立点、消除噪声,并纠正数据中的不一致。共五十一页第二节 数据(shj)清理1、空缺值 忽略元组 人工填写空缺值 使用一个全局常量填充空缺值 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有(suyu)样本的平均值 使用最可能的值填充空缺值共五十一页第
3、二节 数据(shj)清理2、噪声数据 噪声是一个测量变量中的随机错误或偏差。对于(duy)噪声通常采用数据平滑技术去除噪声。 分箱(binning) 聚类(clustering) 回归(regression)共五十一页第二节 数据(shj)清理2、噪声数据 分箱:通过考察周围的值来平滑存储数据的值,存储的值被分布到一些“桶”或箱中。 按箱平均值平滑 按箱中值(zhn zh)平滑 按箱边界平滑共五十一页第二节 数据(shj)清理2、噪声(zoshng)数据 聚类:孤立点可以被聚类检测。聚类将类似的值组织成群或“聚类”,聚类集合之外的值被视为孤立点。共五十一页第二节 数据(shj)清理2、噪声数据
4、(shj) 回归:通过让数据适合一个函数(回归函数)来平滑数据。 线性回归:找出适合两个变量的“最佳”直线, 使得一个变量能够预测另一个。 多线性回归:是线性回归的扩展,它涉及多于 两个变量,数据要适合一个多维面。共五十一页第二节 数据(shj)清理3、不一致数据 对于有些事务,记录数据的不一致 数据集成可能造成数据的不一致 可以采用人工干预更正,以及知识工程工具来检测违反限制(xinzh)和规则的数据。共五十一页第三节 数据集成(j chn)与变换 数据挖掘经常需要: 数据(shj)集成:由多个数据(shj)存储合并数据(shj) 数据转换:将数据转换成适于挖掘的形式共五十一页第三节 数据(
5、shj)集成与变换1、数据集成 数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储中。这些(zhxi)数据源可以包括多个数据库、数据立方体或一般文件。共五十一页第三节 数据集成(j chn)与变换1、数据集成 模式集成:可以通过元数据避免错误(cuw)。 冗余:属性的冗余以及元组重复。 数据值冲突的检测与处理:不同数据源的属 性值不同。共五十一页第三节 数据(shj)集成与变换2、数据变换 数据变换将数据转换成适合挖掘的形式,主要有: 平滑:除去数据中的噪声,如分箱、聚类和回归。 聚集:对数据进行(jnxng)汇总和聚集。 数据概化:使用概念分层,用高层概念替换低层“原始” 数据。
6、 规范化:将属性数据按比例缩放,使之落入一个小的特 定区间。 属性构造:构造新的属性并添加到属性集中,以利挖掘。共五十一页第四节 数据(shj)归约 数据归约技术可以用来得到(d do)数据集的归约表示,虽然它很小,但仍接近于保持原数据的完整性。这样,在归约后的数据集上挖掘将更有效,并产生相同或几乎相同的分析结果。共五十一页第四节 数据(shj)归约数据(shj)归约的策略有: 数据立方体聚集: 维归约 数据压缩 数值压缩 离散化和概念分层生成共五十一页第四节 数据(shj)归约1、数据(shj)立方体聚集年=2002 年=2001 年=2000季度销售额Q1Q2Q3Q436004430425
7、05700年销售额200020012002179801623819650共五十一页第四节 数据(shj)归约1、数据立方体聚集 基本方体:创建在最低层的数据立方体。 顶点方体:最高层抽象的数据立方体。 方体:对不同层创建的数据立方体。 方体的格:数据立方体可以(ky)看作方体的格。共五十一页第四节 数据(shj)归约2、维归约 用于数据分析的数据可能包含数以百计的属性,其中大部分属性与挖掘任务不相关,是冗余的。 维归约通过删除不相关的属性(或维)减少数据量。基本采用属性子集选择方法。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近(jijn)使用所有属性的原分布。共五十一页
8、第四节 数据(shj)归约2、维归约 d个属性有2d个可能的子集,通过穷举搜索找出属性的最佳子集可能是不现实(xinsh)的,通常使用压缩搜索空间的启发式算法,这些算法是贪心算法,在搜索属性空间时,总是做看上去是最佳的选择。其含义是由局部最优选择,期望由此导致全局最优选择。实际应用中,贪心算法是有效的,并可以逼近最优解。共五十一页第四节 数据(shj)归约2、维归约 属性子集(z j)选择的基本启发式方法包括的技术有: 逐步向前选择 逐步向后删除 向前选择和向后删除的结合 判定树归纳共五十一页第四节 数据(shj)归约2、维归约 逐步(zhb)向前选择:由空集开始,选择属性集中最好的属性,并将
9、其添加到该集合中。随后每次迭代,将原属性集剩下的属性中的最好的属性添加到该集合中。 逐步向后删除:由整个属性集开始,每一步删除掉尚在属性集中的最坏的属性。共五十一页第四节 数据(shj)归约2、维归约 向前选择和向后删除的结合:向前选择和向后删除方法的结合,每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。 说明:以上三种(sn zhn)方法可以使用一个阈值来确定是否停止属性选择。共五十一页第四节 数据(shj)归约2、维归约 判定树归纳:判定树算法,如ID3和C4.5。判定树归纳构造一个类似流程图的结构,其每个内部节点表示一个属性上的测试(csh),每个分枝(非树叶)对应于测试(c
10、sh)的一个输出;每个外部节点(树叶)表示一个判定类。在每个节点,算法选择“最好”的属性,将数据划分成类。共五十一页第四节 数据(shj)归约2、维归约 判定树归纳:初始(ch sh)属性集:A1,A2,A3,A4,A5,A6归约后的属性集:A2,A3,A5A3A2A5类1类2类1类2属性子集选择的贪心(启发式)方法共五十一页第四节 数据(shj)归约3、数据压缩 数据压缩是指应用数据编码或变换,以便得到原数据的归约或“压缩”表示。 无损数据压缩技术:原数据可以由压缩数据重 新构造而不丢失任何信息(xnx),所采用的压缩技术。 有损数据压缩技术:只能重新构造原数据的近 似表示,所采用的数据压缩
11、技术。共五十一页第四节 数据(shj)归约3、数据压缩 两种流行的有效的有损数据压缩方法 小波变换(binhun) 主要成分分析共五十一页第四节 数据(shj)归约3、数据压缩(sh j y su) 小波变换 离散小波变换DWT(Discret Wavelet Transform) 离散傅里叶变换DFT( Discret Fourier Transform )共五十一页第四节 数据(shj)归约3、数据压缩 小波变换:离散小波变换DWT和离散傅里叶变换DFT均常用于信号处理技术。一般,DWT是一种较好的有损压缩,若DWT和DFT保留相同数目的系数,DWT将提供原数据更精确的近似。比较流行(li
12、xng)的小波变换包括Haar、Daubechies变换,应用离散小波变换的典型金字塔算法,在每次迭代将数据减半,导致很快的计算速度。共五十一页第四节 数据(shj)归约3、数据压缩(sh j y su) 小波变换可以用于多维数据,如数据立方体。其基本思路是:首先将变换用于第一维,然后第二维,如此下去。计算复杂性对于方体中的单元的个数是线性的。小波变换的有损压缩比当前的商业标准JPEG压缩好。小波变换广泛应用于指纹图象压缩、计算机视觉、时间序列数据分析和数据清理。共五十一页第四节 数据(shj)归约3、数据压缩 主要成分分析PCA 假定待压缩的数据由N个元组 或数据向量组成,取自k个维。PCA
13、搜索c个最能代表数据的k-维正交向量,这里ck。 意义:原来(yunli)的数据投影到一个较小的空间,导致数据压缩。共五十一页第四节 数据(shj)归约3、数据压缩 主要成分分析PCA PCA可以作为一种维归约形式使用。不象属性子集选择通过保留原属性集的一个子集来减少属性集的大小,PCA通过创建一个替换的、较小的变量集来“组合(zh)”属性的精华,原数据可以投影到该较小的集合中。共五十一页第四节 数据(shj)归约3、数据压缩 主要成分分析PCA PCA计算花费低,可以用于有序和无序(w x)的属性,并且可以处理稀疏和倾斜数据。对于多于2维的数据可以通过将问题归约为2维来处理。 与数据压缩的小
14、波变换相比, PCA能较好地处理稀疏数据,而小波变换更适合高维数据。共五十一页第四节 数据(shj)归约4、数值归约 数值归约技术就是通过选择替代的、较小的数据表示形式来减少数据量,主要有有参和无参两类: 有参方法:使用一个(y )模型来评估数据,使得只 需要存放参数,而不是实际数据。如,回归 和对数线性模型。 无参方法:使用存放数据归约表示。如,直方 图、聚类、选样。共五十一页第四节 数据(shj)归约4、数值归约 回归和对数线性模型(mxng) 直方图 聚类 选样共五十一页第四节 数据(shj)归约4、数值归约 回归和对数线性模型 回归和对数线性模型可以用来近似给定数据。在线性回归中,对数
15、据建模,使之适合一条直线。对数线性模型近似离散(lsn)的多维概率分布。基于较小的方体形成数据立方体的格,该方法可以用于估计具有离散(lsn)属性集的基本方体中每个单元的概率。共五十一页第四节 数据(shj)归约4、数值归约 回归和对数线性模型 回归和对数线性模型可以用于稀疏数据,但应用可能是受限制的。在用于倾斜数据时,回归效果更好。当用于高维数据时,对数线性模型表现(bioxin)出很好的伸缩性,可以扩展到10维左右。共五十一页第四节 数据(shj)归约4、数值归约 直方图 直方图使用分箱近似分布,是一种流行的数据归约形式。属性A的直方图(histogram)将A的数据分布划分为不相交的子集
16、,或桶。桶安放在水平(shupng)轴上,而桶的高度(和面积)是该桶所代表的值的平均频率。如果每个桶只代表单个属性值/频率对,则该桶为单桶。通常,桶表示给定属性的一个连续区间。共五十一页第四节 数据(shj)归约4、数值(shz)归约 直方图 等宽 等深 V-最优 MaxDiff共五十一页第四节 数据(shj)归约4、数值归约 聚类 聚类技术将数据元组视为对象。它将对象划分为群或聚类,使得在一个聚类中的对象“类似”,但与其他聚类中的对象“不类似”。通常,类似性基于距离,用对象在空间中的“接近”程度定义。聚类的“质量”可以用“直径(zhjng)”表示,直径(zhjng)是一个聚类中两个任意对象的
17、最大距离。共五十一页第四节 数据(shj)归约4、数值归约 聚类 质心距离是聚类质量的另一种度量,它定义为聚类质心到每个聚类对象的平均距离。 在数据归约时,用数据的聚类表示替换实际数据。 在数据库系统中,多维索引树主要用于提供(tgng)对数据的快速访问;也可用于分层数据归约,提供(tgng)数据的多维聚类;也可用于提供(tgng)查询的近似回答。共五十一页第四节 数据(shj)归约4、数值归约 选样 选样是用数据的较小随机样本(子集)表示大的数据集,它可以作为一种(y zhn)数据归约技术使用。共五十一页第四节 数据(shj)归约4、数值归约 选样假定大的数据(shj)集D包含N个元组,则对
18、D的选样有: 简单选择n个样本,不回放 简单选择n个样本,回放 聚类选样 分层选样共五十一页第四节 数据(shj)归约4、数值归约 选样 采用选样进行数据归约的优点:可以得到样本的花费正比例于样本的大小n,而不是(b shi)数据的大小N。因此选样的复杂性子线性于数据的大小。 用于数据归约时,选样最常用来回答聚集查询。在指定的误差范围内,可以用中心极限定理确定估计一个给定的函数的指定误差范围内所需的样本大小。共五十一页第五节 离散(lsn)化和概念分层生成 通过将属性域划分为区间,离散化技术可以用来减少给定的连续属性值的个数。区间的标号可以替代实际的数据值。 许多离散化技术都可以递归使用,以便提供(tgng)属性值的分层或多分解划分,即概念分层。共五十一页第五节 离散化和概念(ginin)分层生成1、数值数据的离散化和概念分层生成 对于数值属性,由于数据的可能取值范围的多样性和数据值的更新频繁,进行概念分层比较困难。数值属性的概念分层可以根据数据分布分析自动(zdng)地构造,基本方法主要有:共五十一页第五节 离散(lsn)化和概念分层生成1、数值数据的离散(lsn)化和概念分层生成 分箱 直方图分析 聚类分析 基于熵的离散化 通过自然划分分段共五十一页第五节 离散化和概念(ginin)分层生成2、分类数据的概念分层生成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课题申报参考:近代上海国立音乐院-国立音专学刊的历史叙事及其文化意义阐释研究
- 2025年《学习师德学习教育法规》心得体会例文(5篇)
- 2025年度个人二手房交易安全保障协议3篇
- 二零二五版罗马柱历史文化遗址保护合同4篇
- 二零二五版药店营业员药品配送及聘用合同4篇
- 2025版投资经理借贷双方合作协议书3篇
- 二零二五年度国际艺术品拍卖交易合同3篇
- 二零二五年度出差工作成果评估与奖励合同3篇
- 2025年度户外景观设计施工与后期养护合同4篇
- 2025版投标文件制作及审核服务合同模板3篇
- 中央2025年国务院发展研究中心有关直属事业单位招聘19人笔试历年参考题库附带答案详解
- 2024年09月北京中信银行北京分行社会招考(917)笔试历年参考题库附带答案详解
- 外呼合作协议
- 小学二年级100以内进退位加减法800道题
- 保险公司2025年工作总结与2025年工作计划
- 2024年公司领导在新年动员会上的讲话样本(3篇)
- 眼科护理进修专题汇报
- GB/T 33629-2024风能发电系统雷电防护
- 深静脉血栓(DVT)课件
- 2023年四川省广元市中考数学试卷
- GB/T 19885-2005声学隔声间的隔声性能测定实验室和现场测量
评论
0/150
提交评论