任务1.2数据清洗定义及对象_第1页
任务1.2数据清洗定义及对象_第2页
任务1.2数据清洗定义及对象_第3页
任务1.2数据清洗定义及对象_第4页
任务1.2数据清洗定义及对象_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ETL数据预处理技术主讲人:曾凡晋任务一了解数据预处理基础1.2数据清洗定义及对象数据清洗定义对于数据的“灵魂两问”:难道数据也会变“脏”吗?所有的数据都需要清洗吗?01.数据清洗定义02.目录数据清洗对象CONTENTS子任务1.2.1数据清洗定义数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。数据清洗(Datacleansing/Datacleaning/Datascrubbing)可以有多种表述方式,其定义依赖于具体的应用。因此,数据清洗的定义在不同的应用领域不完全相同。目前业界一般认为,数据清洗的含义是检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,以及去除空白数据域和知识背景下的白噪声。数据预处理在大数据分析应用中的环节子任务1.2.2数据清洗对象数据预处理的任务是对不满足数据挖掘要求的数据进行清洗,将清洗的结果交给数据挖掘的下一个环节。这些不满足要求的数据可以统称为“脏数据”。通常,对于这些“脏数据”主要关注其来源及其清洗方式。这些数据对象有如下分类:基于清洗方式的脏数据分类基于数据源的脏数据分类基于数据源的清洗对象通常有单数据源、多数据源两种。实际应用中,对于一些有常规要求的最好给出约束条件,避免输入错误单数据源单个数据源的数据质量,主要取决于它的模式设定,以及数据源中的数据完整性约束的控制,如果一个数据源没有数据模式,则对于输入或存储的数据缺乏相应的限制,这样出现数据不一致性或错误的几率就大大增加。多数据源来源于多个业务系统的数据,由于各业务系统在设计、实现时的功能需求、设计重点不同,多数据源存在的问题主要是名称冲突、属性值和结构的冲突名称冲突问题最常见,通常遵循“见名知义”原则,从字段含义的角度命名基于数据源的清洗对象通常有单数据源、多数据源两种。概括来讲,数据预处理主要针对有如下特点的数据:残缺数据:这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。此员工表“部门”、“性别”数据不完整概括来讲,数据预处理主要针对有如下特点的数据:错误数据:这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的数值数据输成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。概括来讲,数据预处理主要针对有如下特点的数据:重复数据:这一类数据是指在同一个数据表中相同数据出现多次的情况双胞胎√重复数据×小结数据清洗定义修正不符合要求的数据,不同应用领域表述方式不同数据清洗对象

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论