数据挖掘-dataminingch3预处理北邮计算机学院_第1页
数据挖掘-dataminingch3预处理北邮计算机学院_第2页
数据挖掘-dataminingch3预处理北邮计算机学院_第3页
数据挖掘-dataminingch3预处理北邮计算机学院_第4页
数据挖掘-dataminingch3预处理北邮计算机学院_第5页
免费预览已结束,剩余75页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DataWarehouseand第3据预处理计算机学院3.1为什么要对3.2描述性数3.33.4数据集3.5据归3.6离散化和概念分层产3.7北邮计算机学院北邮计算机学院北邮计算机学院脏数据→数据预处理→数据仓北邮计算机学院数据质量 北邮计算机学院北邮计算机学院北邮计算机学院数据的中心趋势和离中趋势特极差(interquartilerange,IQR)和方差(variance)北邮计算机学院1数据的中心趋势和离中趋势特极差(interquartilerange,IQR)和方差(variance)北邮计算机学院 数据清理主要内缺失值的处数据清理的北邮计算机学院 北邮计算机学院为属性填上丢失的忽略元人工填写缺失使用一个全局常量填充使用属性的均值填充缺使用与给定元组属同一类的所有样本你属性使用最可能的值填充缺北邮计算机学院忽略人工填写缺乏味+费时+不可北邮计算机学院自动填

使用一个全局常量填充缺失将缺失的属性值用同一个常数,如unknown,或-∞可能会形成一个新的class,这个新class虽然简单,却不可使用属性的均例如用平均薪水值填写某个元组缺失的salary属性使用与给定元组属同一类的所有样本的属性先给元组分类,用不同类别的均值填充缺失的本类属性值;——极了使用最可能的基于推理的方法,如Bayes,回归,决策树等推理预北邮计算机学院北邮计算机学院北邮计算机学院分箱:通过数据的近邻(即周围的值)来光滑有序数据的值。由于近邻的值,因此是一种局北邮计算机学院北邮计算机学院北邮计算机学院用一个函数(如回归函数)拟合数据来分为线性回归和多元回归北邮计算机学院数据清理:形成过北邮计算机学院 在一个一致的数据(如数据仓库)中。数据集成时需要考虑到问模式集成(对象匹配)、冗余数据、北邮计算机学院Schemaintegration实体识别问题EntiryidentificationA数据库中的customer_id与B数据库中的是相同的属BillClinton=William集成不同来源数据值的检测和解对真实世界的实体,其不同来源的属性值可能不原因:不同的表示,不同的尺度,如公vs北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院数据变换Data北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院DWTForImage北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院1北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院北邮计算机学院算法北邮计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论