数据挖掘CHAPTER2数据预处理课件_第1页
数据挖掘CHAPTER2数据预处理课件_第2页
数据挖掘CHAPTER2数据预处理课件_第3页
数据挖掘CHAPTER2数据预处理课件_第4页
数据挖掘CHAPTER2数据预处理课件_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

为什么数据预处理?■现实世界中的数据是脏的不完全:缺少属性值,缺少某些有趣的属性,或仅包含聚集数据例,occupation=“”噪音:包含错误或孤立点n例,Salary=“-10不一致:编码或名字存在差异例,Age=“42”Birthday=“03/072019例,以前的等级“1,2,3”,现在的等级“A,B,C”■例,重复记录间的差异数据为什么脏?不完全数据源于数据收集时未包含数据收集和数据分析时的不同考虑人/硬件/软件问题■噪音数据源于收集录入传输不一致数据源于不同的数据源n违反函数依赖为什么数据预处理是重要的?没有高质量的数据,就没有高质量的数据挖掘结果!■高质量的决策必然依赖高质量的数据例如,重复或遗漏的数据可能导致不正确或误导的统计n数据仓库需要高质量数据的一致集成数据质量:一个多维视角种广泛接受的多角度正确性((Accuracy完全性(Completeness)致性(Consistency)合时(Timeliness):timelyupdate?可信性(Believability可解释性(interpretability)可存取性(Accessibility数据预处理的主要任务数据清理填充缺失值,识别/去除离群点,光滑噪音,并纠正数据中的不致数据集成多个数据库,数据立方体,或文件的集成数据变换n规范化和聚集数据归约得到数据的归约表示,它小得多,但产生相同或类似的分析结果:维度规约、数值规约、数据压缩数据离散化和概念分层数据预处理的形式-lookingcasaII'elaan"-Icaking.lalstowsoupsudsomdatalDataIrnteagralonDataTranstormation-2,32,10059.40.O2,.B2,1.00,D9,O.48DataReduction[36第2章:数据预处理■为什么预处理数据?■数据清理数据集成■数据归约■离散化和概念分层产生小结数据清理Datacleaning现实世界的数据是脏的:很多潜在的不正确的数据,比如,仪器故障,人为或计算机错误,许多传输错误aincomplete:缺少属性值,缺少某些有趣的属性,或仅包含聚集数据eg,业=“”(missingdata)nois:包含错误或孤立点aeg,Salary=“-10”(anerror)inconsistent:编码或名字存在差异,eg,A8e=“42”,Birthday=“03/07/2019”以前的等级“1,2,3”,现在等级“A,B,C重复记录间的差异有意的(eg,变相丢失的数据)■Jan.1aseveryone’sbirthday?8如何处理缺失数据?n忽略元组:缺少类别标签时常用(假定涉及分类不是很有效,当每个属性的缺失百分比变化大时手工填写缺失数据:乏味+费时+不可行?■自动填充个全局常量:eg,“unknown?”,anewclass?!■使用属性均值与目标元组同一类的所有样本的属性均值:更巧妙最可能的值:基于推理的方法,如贝叶斯公式或决策树噪音数据NoisyDataNoise:被测量的变量的随机误差或方差■不正确的属性值可能由于错误的数据收集工具数据录入问题dataentryproblems■数据传输问题datatransmissionproblems技术限制technologylimitationn不一致的命名惯例inconsistencyinnamingconvention

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论