数据挖掘最新版_第1页
数据挖掘最新版_第2页
数据挖掘最新版_第3页
数据挖掘最新版_第4页
数据挖掘最新版_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.1,数据预处理,2、为什么要预处理数据?数据预处理是数据挖掘(知识发现)过程中的一个重要步骤,尤其是在对有噪声、不完整甚至不一致的数据进行数据挖掘时,需要进行数据预处理来提高数据挖掘对象的质量,最终达到提高数据挖掘所获得的模式知识质量的目的。为什么我们要预处理数据?真实世界的数据是“脏的”和不完整的:一些有趣的属性缺少属性值并包含噪音;包含错误或异常(偏离预期值)的数据是不一致的:编码或命名存在差异。没有高质量的数据,就没有高质量的挖掘结果。高质量的决策必须依赖于高质量的数据仓库。需要高质量数据的一致集成,以使挖掘过程更加有效和容易。从多个方面检查数据质量,如准确性、完整性、一致性、及时性、可信度、附加值、可解释性)。5、数据预处理、数据清理、缺失值填充、平滑噪声数据、识别和删除孤立点、解决不一致数据整合、整合多个数据库、数据立方体或文件、数据转换标准化和聚集数据缩减(约简)的主要方法,以获得数据集的压缩表示,该数据集小得多但可以获得相同或相似的结果。6,FormsofDataPreprocessing,7,数据清理-空缺值,数据并不总是完整的,例如,在数据库表中,许多记录的相应字段没有相应的值。例如,销售表中的客户收入导致空缺值的原因与其他现有数据不一致,并且由于误解而未输入的数据被删除。输入时,应在扣除后添加一些数据,因为未对其进行估价,并且未输入空缺值。8。如何处理空值并忽略记录:如果记录中的属性值缺失,该记录将被排除在数据挖掘过程之外,尤其是当classlabel的值不可用并且需要进行分类数据挖掘时。当每个属性的缺失值百分比变化很大时,其效果很差。9、如何处理空缺值,手工填写空缺值:工作量大,可行性低,用全局变量填写空缺值:一个属性的所有缺失值都用预定值填写。例如,未知或-或确定用于用属性的平均值填充缺失值。10、如何处理缺失值,以及用同一类别的平均值填充缺失值的方法特别适用于分类挖掘。例如,如果您想根据信用风险(credit_risk)对购物中心客户进行分类,您可以使用同一信用风险类别下属性的平均值(如good)来填写同一信用风险类别下属性的所有缺失值。数据清理噪声数据,噪声:噪声数据的原因由随机误差或测量变量数据收集工具的变化引起的问题数据输入误差数据传输误差技术限制命名规则的不一致性,12,如何处理噪声数据,宁滨):首先对数据进行排序,并将其划分为等深框,然后将其划分为(等深)框:框1: 4,8,15,21,21,24,25,28,34根据框的平均值,边界,13,在给定数值属性price:price的情况下,划分排序数据(以美元为单位)的数据平滑方法。34平滑带框平均值:框1: 9,9,9,2: 22,22,3: 29,29,29平滑带框边界:框1: 4,4,15,2: 21,21,24,3: 25,25,34,14,如何处理噪声数据,聚类方法:异常数据可以通过聚类分析找到,相似或相邻的数据聚集在一起形成每个聚类集,这些聚类集之外的数据对象自然被认为是异常数据。通过聚类分析找到孤立点,消除噪声,如何处理噪声数据,回归使数据平滑,使数据适应回归函数,数据集成,数据集成:数据挖掘任务通常涉及数据集成操作,即组合来自多个数据源的数据,如数据库,公共文件等。形成统一的数据集,为数据挖掘工作的顺利完成提供完整的数据基础。在数据集成过程中,需要考虑和解决以下问题:模式集成:不同数据源中元数据实体标识的集成:来自不同数据源的现实世界实体的匹配,例如:a cust-id=b customer _ no检测和解决数据值与现实世界中同一实体的冲突,来自不同数据源的属性值可能有不同的可能原因:不同的数据表示、不同的度量等,19.在数据集成中处理冗余数据时,经常会出现冗余数据。当集成多个数据库时,同一属性在不同的数据库中将有不同的字段名。一个属性可以从另一个表派生。例如,“年薪”中的一些冗余可以通过相关性分析检测出来。仔细整合来自多个数据源的数据可以减少或避免结果数据中的冗余和不一致,从而提高挖掘的速度和质量。数据转换是指将数据转换或合并成适合数据挖掘的描述形式。数据转换包括以下处理内容:21,数据转换和平滑:从数据中去除噪声(盒子分割、聚类、回归)聚合(聚合处理):汇总或聚合数据。例如,可以汇总每日销售额(数据)以获得月度或年度总额。该操作通常用于构建数据立方体或分析多种精细度的数据。数据的一般化:所谓的一般化过程是用更抽象(更高级)的概念来替换较低级或数据级的数据对象。例如,街道属性可以推广到更高级别的概念,如城市和国家。同样,数字属性(如年龄属性)可以映射到更高级别的概念,如年轻、中年和老年。规范化:将属性数据缩放到一个小的特定间隔,例如-1.0到1.0或0.0到1.0最小-最大规范化:原始数据的线性变换。假设属性A的最小值和最大值分别是minA和maxA,计算。24、将A的值映射到vz-在区间中的分数归一化new_minA,new_maxA:基于A的平均值和标准偏差的属性A的值的归一化,计算,十进制缩放归一化:通过移动属性A的小数点位置进行归一化,计算,25,数据约简,数据约简技术用于帮助从原始庞大的数据集获得一个紧凑的数据集,并保持原始数据集的完整性。因此,在紧凑数据集上的数据挖掘显然更有效,并且挖掘的结果与使用原始数据集获得的结果基本相同。数据立方体聚合降维数据压缩数值降维离散化和概念分层数据降维的时间不应超过或“抵消”数据挖掘在降维数据上节省的时间。27,数据立方体聚合,数据立方体存储多维数据,在最低级别创建的数据立方体称为基本立方体,在最高级别提取的数据立方体称为顶点立方体,最高级别的数据立方体将减少结果数据。数据立方体聚合是为了提高感兴趣实体的抽象水平,从而减少结果数据,方便分析和使用。降维:通过删除不相关的属性(或维度)来减少数据量。通常使用属性子集选择方法。属性子集选择方法:目标:找到最小属性集,使数据类的概率分布尽可能接近使用所有属性的原始分布。优点:发现模式中出现的属性数量减少,使模式更容易理解。数据预处理和属性子集选择方法包括以下技术:逐步向前选择:从一个空属性集合开始,每次选择原始属性集合中的最佳属性并添加到集合中。逐步向后删除:从整个属性集开始,在每一步删除属性集中最

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论