![数据挖掘CHAPTER2数据预处理课件_第1页](http://file4.renrendoc.com/view/e56c96b05cefac0bd9bec0a4fc99cc49/e56c96b05cefac0bd9bec0a4fc99cc491.gif)
![数据挖掘CHAPTER2数据预处理课件_第2页](http://file4.renrendoc.com/view/e56c96b05cefac0bd9bec0a4fc99cc49/e56c96b05cefac0bd9bec0a4fc99cc492.gif)
![数据挖掘CHAPTER2数据预处理课件_第3页](http://file4.renrendoc.com/view/e56c96b05cefac0bd9bec0a4fc99cc49/e56c96b05cefac0bd9bec0a4fc99cc493.gif)
![数据挖掘CHAPTER2数据预处理课件_第4页](http://file4.renrendoc.com/view/e56c96b05cefac0bd9bec0a4fc99cc49/e56c96b05cefac0bd9bec0a4fc99cc494.gif)
![数据挖掘CHAPTER2数据预处理课件_第5页](http://file4.renrendoc.com/view/e56c96b05cefac0bd9bec0a4fc99cc49/e56c96b05cefac0bd9bec0a4fc99cc495.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
为什么数据预处理?■现实世界中的数据是脏的不完全:缺少属性值,缺少某些有趣的属性,或仅包含聚集数据例,occupation=“”噪音:包含错误或孤立点n例,Salary=“-10不一致:编码或名字存在差异例,Age=“42”Birthday=“03/072019例,以前的等级“1,2,3”,现在的等级“A,B,C”■例,重复记录间的差异数据为什么脏?不完全数据源于数据收集时未包含数据收集和数据分析时的不同考虑人/硬件/软件问题■噪音数据源于收集录入传输不一致数据源于不同的数据源n违反函数依赖为什么数据预处理是重要的?没有高质量的数据,就没有高质量的数据挖掘结果!■高质量的决策必然依赖高质量的数据例如,重复或遗漏的数据可能导致不正确或误导的统计n数据仓库需要高质量数据的一致集成数据质量:一个多维视角种广泛接受的多角度正确性((Accuracy完全性(Completeness)致性(Consistency)合时(Timeliness):timelyupdate?可信性(Believability可解释性(interpretability)可存取性(Accessibility数据预处理的主要任务数据清理填充缺失值,识别/去除离群点,光滑噪音,并纠正数据中的不致数据集成多个数据库,数据立方体,或文件的集成数据变换n规范化和聚集数据归约得到数据的归约表示,它小得多,但产生相同或类似的分析结果:维度规约、数值规约、数据压缩数据离散化和概念分层数据预处理的形式-lookingcasaII'elaan"-Icaking.lalstowsoupsudsomdatalDataIrnteagralonDataTranstormation-2,32,10059.40.O2,.B2,1.00,D9,O.48DataReduction[36第2章:数据预处理■为什么预处理数据?■数据清理数据集成■数据归约■离散化和概念分层产生小结数据清理Datacleaning现实世界的数据是脏的:很多潜在的不正确的数据,比如,仪器故障,人为或计算机错误,许多传输错误aincomplete:缺少属性值,缺少某些有趣的属性,或仅包含聚集数据eg,业=“”(missingdata)nois:包含错误或孤立点aeg,Salary=“-10”(anerror)inconsistent:编码或名字存在差异,eg,A8e=“42”,Birthday=“03/07/2019”以前的等级“1,2,3”,现在等级“A,B,C重复记录间的差异有意的(eg,变相丢失的数据)■Jan.1aseveryone’sbirthday?8如何处理缺失数据?n忽略元组:缺少类别标签时常用(假定涉及分类不是很有效,当每个属性的缺失百分比变化大时手工填写缺失数据:乏味+费时+不可行?■自动填充个全局常量:eg,“unknown?”,anewclass?!■使用属性均值与目标元组同一类的所有样本的属性均值:更巧妙最可能的值:基于推理的方法,如贝叶斯公式或决策树噪音数据NoisyDataNoise:被测量的变量的随机误差或方差■不正确的属性值可能由于错误的数据收集工具数据录入问题dataentryproblems■数据传输问题datatransmissionproblems技术限制technologylimitationn不一致的命名惯例inconsistencyinnamingconvention
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 14113:1997 EN Gas welding equipment - Rubber and plastic hoses assembled for compressed or liquefied gases up to a maximum design pressure of 450 bar
- 【正版授权】 ISO 1403:2005 EN Rubber hoses,textile-reinforced,for general-purpose water applications - Specification
- 【正版授权】 ISO 13958:2014 EN Concentrates for haemodialysis and related therapies
- 【正版授权】 ISO 13937-1:2000 EN Textiles - Tear properties of fabrics - Part 1: Determination of tear force using ballistic pendulum method (Elmendorf)
- 【正版授权】 ISO 13913:2014 EN Soil quality - Determination of selected phthalates using capillary gas chromatography with mass spectrometric detection (GC/MS)
- 【正版授权】 ISO 1382:1982/Add 9:1987 EN/FR/RU Rubber - Vocabulary - Addendum 9
- 【正版授权】 ISO 13775-2:2016 EN Thermoplastic tubing and hoses for automotive use - Part 2: Petroleum-based-fuel applications
- 【正版授权】 ISO 13703-2:2023 EN Oil and gas industries including lower carbon energy - Piping systems on offshore platforms and onshore plants - Part 2: Materials
- 【正版授权】 ISO 13623:2017/Amd 1:2024 EN Petroleum and natural gas industries - Pipeline transportation systems - Amendment 1: Complementary requirements for the transportation of fluid
- 幼儿教师看教育书的教育心得
- LY/T 1281-1998味精用粉状活性炭
- JJG 842-2017电子式直流电能表
- GB/T 7760-2003硫化橡胶或热塑性橡胶与硬质板材粘合强度的测定90°剥离法
- GB/T 19536-2015集装箱底板用胶合板
- GB/T 12145-2016火力发电机组及蒸汽动力设备水汽质量
- DB32/ 4440-2022 城镇污水处理厂污染物排放标准
- 光伏发电风险点告知牌
- 社会调查原理与方法授课版课件
- 超声在足踝部检查中的应用参考课件
- 小学人教版五年级下册数学期末测试卷(5套)
- 法律专题(本)(52876)-国家开放大学电大学习网形考作业题目答案
评论
0/150
提交评论