版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、11 八月 2022Data Mining: Concepts and Techniques1Lecture 2: 数据预处理为什么要进行预处理?数据清洗数据集成与变换数据约简离散化总结11 八月 2022Data Mining: Concepts and Techniques2为何要进行预处理?现实世界的数据很“脏”不完整的: 缺少属性值, 感兴趣的属性缺少属性值, 或仅包含聚集数据如, occupation=“ ”含噪声的: 包含错误或存在孤立点如, Salary=“-10”不一致的: 在名称或代码之间存在着差异如, Age=“42” Birthday=“03/07/1997”如, 原来排
2、序 “1,2,3”, 现在排序 “A, B, C”11 八月 2022Data Mining: Concepts and Techniques3数据为何会变脏?不完整性来源于收集数据时,在不同的阶段具有不同的考虑人/硬件/软件的问题等噪声数据来源于收集阶段数据传输阶段等不一致性来源于不同的数据源功能依赖冲突(Functional dependency violation)11 八月 2022Data Mining: Concepts and Techniques4数据预处理的主要任务数据清洗(Data cleaning)填充遗失的数据, 平滑噪声数据, 辨识或删除孤立点, 解决不一致性问题数据
3、集成(Data integration)对多个数据库,数据立方或文件进行集成数据变换(Data transformation)规范化与聚集(Normalization and aggregation)数据约简(Data reduction)得到数据集的压缩表示,它小的多,但能够产生同样的(或几乎同样的)分析结果数据离散化(Data discretization)特别对数字值而言非常重要11 八月 2022Data Mining: Concepts and Techniques5第二章: 数据预处理为什么要进行预处理?数据清洗数据集成与变换数据约简离散化总结11 八月 2022Data Mini
4、ng: Concepts and Techniques6数据清洗重要性“数据清洗是数据仓库的三个主要问题之一”Ralph Kimball“数据清洗是数据仓库的首要问题”DCI survey数据清洗的任务填充遗失数据辨识孤立点、平滑噪声数据修正不一致性数据解决数据集成时带来的数据冗余问题11 八月 2022Data Mining: Concepts and Techniques7怎样处理遗失的数据?忽略元组: 除非元组有多个属性缺少值,否则该方法不是很有效人工填充: 费时费力自动填充使用一个全局常量填充: 如, “unknown”, 会误认为是一个新的、有意义的类?! 该属性的平均值使用与给定元
5、组属同一类的所有样本的该属性的平均值使用最可能的值: 使用基于推导的方法,如Bayesian公式或决策树11 八月 2022Data Mining: Concepts and Techniques8怎样处理噪声数据?噪声: 是一个策略变量中的随即错误或偏差分箱方法:先对数据进行排序,然后把它们划分到箱然后通过箱平均值,箱中值等进行平滑.聚类探测并去除孤立点计算机和人工检查相结合回归分析(Regression)让数据适合一个函数(如回归函数)来平滑数据11 八月 2022Data Mining: Concepts and Techniques9简单的平滑方法: 分箱等宽 (距离)划分:根据属性值
6、的范围划分成N等宽的区间如果A和B 属性值的最大与最小值,则区间宽度为: W = (B A)/N.很直接,但孤立点将会对此方法有很大的影响等深 (频率) 划分:划分成N个区间,每个区间含有大约相等地样本数具有较好的数据扩展性11 八月 2022Data Mining: Concepts and Techniques10分箱方法示例* 价格排序: 4, 8, 9, 11, 15, 21, 21, 22, 24, 25, 26, 28, 29, 30, 40* 划分成箱 (等深) : - Bin 1: 4, 8, 9, 11, 15 - Bin 2: 21, 21, 22, 24, 25 - Bi
7、n 3: 26, 28, 29, 30, 40* 用箱平均值平滑数据: - Bin 1: 9.4, 9.4, 9.4, 9.4, 9.4 - Bin 2: 22.6, 22.6, 22.6, 22.6, 22.6 - Bin 3: 30.6, 30.6, 30.6, 30.6, 30.6* 用箱中值平滑数据: - Bin 1: 9, 9, 9, 9, 9 - Bin 2: 22, 22, 22, 22, 22 - Bin 3: 29, 29, 29, 29, 2911 八月 2022Data Mining: Concepts and Techniques11聚类分析示例图11 八月 2022D
8、ata Mining: Concepts and Techniques12回归示例图xyy = x + 1X1Y1Y111 八月 2022Data Mining: Concepts and Techniques13第二章: 数据预处理为什么要进行预处理?数据清洗数据集成与变换数据约简离散化总结11 八月 2022Data Mining: Concepts and Techniques14数据集成数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中(如数据仓库)。实体识别问题 (EI): 从不同的数据源辨识实体,如, A.cust-id B.cust-#。检测与解决值冲突问题对客观世
9、界的同一实体, 不同数据源可能具有不同的值可能原因: 不同的表示方式, 不同的刻度,如公制与英制(metric vs. British units)等数据冗余问题冗余属性可以通过相关分析检测出来11 八月 2022Data Mining: Concepts and Techniques15数据变换平滑(Smoothing): 去除噪声数据聚集(Aggregation): 汇总,数据立方构造概化(Generalization): 沿概念层次上升规范化(Normalization): 刻度变换最小最大规范化z-score规范化小数定标规范化11 八月 2022Data Mining: Concep
10、ts and Techniques16数据变换: 规范化最小最大规范化z-score规范化小数定标规范化其中j是使得Max(| |)规约后的属性集: A1, A4, A611 八月 2022Data Mining: Concepts and Techniques21降维启发式特征选择方法对于d个特征,共有 2d 个可能的子特征集合几个启发式特征选择方法:在特征独立的假设下,选择最佳的单个特征: 根据重要性的测试进行选择.最佳单步特征选择: 最佳的单个特征首先被选择然后选择第二个最好的特征, .单步特征排除:重复排除最坏的特征最佳单步特征选择与排除的综合11 八月 2022Data Mining
11、: Concepts and Techniques22数据压缩原始数据压缩后数据无损近似原始数据 有损11 八月 2022Data Mining: Concepts and Techniques23数值规约参数化方法(Parametric methods)假设数据适合某个模型,然后估计模型参数,仅仅存储这些模型参数,而不再存储原有数据(除了可能的孤立点)对数线性模型(Log-linear models)近似离散的多维概率分布。基于较小方体形成数据立方体的格,该方法可以用于估计具有离散属性集的基本方体中每个单元的概率,这允许由较低阶的数据立方体构造较高阶的数据立方体非参数化方法不假设模型有: 直
12、方图(histograms)、聚类, 采样(sampling)等11 八月 2022Data Mining: Concepts and Techniques24回归与对数线性模型线性回归: 把数据拟合成一条直线分布常常用最小平方法拟合直线,Y = + X多元线性回归: 把响应变量Y建模为几个特征向量的线性函数,Y = b0 + b1 X1 + b2 X2对数线性模型11 八月 2022Data Mining: Concepts and Techniques25直方图(Histograms)常用的规约技术。把数据划分成若干个桶(buckets)并存储每个桶的平均值或和。常用于定量问题。11 八月
13、 2022Data Mining: Concepts and Techniques26聚类把数据集合划分成类(clusters), 然后仅仅存储这些类的表示有多种聚类的定义以及聚类算法,将在后续介绍11 八月 2022Data Mining: Concepts and Techniques27采样(Sampling)允许挖掘算法以线性时间的复杂性甚至O(1)时间运行选择原有数据集的具有代表性的一个子集自适应采样方法分层采样(Stratified sampling)11 八月 2022Data Mining: Concepts and Techniques28采样示例SRSWOR(简单随机采样,
14、不回放)SRSWRRaw Data11 八月 2022Data Mining: Concepts and Techniques29采样原始数据 聚类/分层采样11 八月 2022Data Mining: Concepts and Techniques30第二章: 数据预处理为什么要进行预处理?数据清洗数据集成与变换数据约简离散化总结11 八月 2022Data Mining: Concepts and Techniques31离散化(Discretization)属性的三种类型:标称性的 取自于无序集合(unordered set)的值有序的(Ordinal) 取自于有序集合(ordered
15、set)的值连续的 实数离散化: 把连续型属性的取值范围划分成区间通过离散化减少数据集大小为进一步分析做好准备11 八月 2022Data Mining: Concepts and Techniques32数值数据的离散化分箱 直方图分析 聚类分析 基于熵的离散化11 八月 2022Data Mining: Concepts and Techniques33基于熵的离散化给定一个样本集合 S, 如果用边界值T把 S划分成2个区间 S1与S2,则划分后的熵为:选择某一边界T的准则是:它使其后划分得到的信息增益(Information Gain,见上式)最大.上述过程递归地用于所得到的划分,直到满足某个终止条件。实验表明这种划分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年中铁五局一公司招聘笔试真题
- 大型活动垃圾处理及清运方案
- 2023年国有林管护人员选聘笔试真题
- 2023年包头第四医院招计划笔试真题
- 中学社团活动管理实施方案
- 华南理工大学《建筑构造基础》2022-2023学年第一学期期末试卷
- 服装展会供货与配送方案
- 家庭智能配电箱安装施工方案
- 线上教育平台教师管理制度
- 青少年网络安全保护工作方案
- 师徒结对仪式师徒结对薪火相传主题
- 资产评估公司入围项目评估方案投标技术服务方案评估质量控制及措施
- 新时代教师专业发展的路径与策略研究
- 煤矿瓦斯超限分析及预防措施
- 压力容器风险评估报告样板
- 涂层工安全操作规程
- 含砷硫化铜精矿的氧化焙烧
- 维修电工高级实操题库
- 风电场安全性评价
- 2023年全国统一高考英语试卷(甲卷)及答案解析
- 新生儿科品管圈成果汇报模板成品-降低新生儿红臀发生率课件
评论
0/150
提交评论