R语言学习系列13_第1页
R语言学习系列13_第2页
R语言学习系列13_第3页
R语言学习系列13_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

13.数据清洗简述目录:一.背景二.数据清洗概述三.数据清洗内容正文:对于数据挖掘和分析人员来说,数据准备(DataPreparation,包括数据的抽取、清洗、转换和集成)常常占据了70%左右的工作量。而在数据准备的过程中,数据质量差又是最常见而且令人头痛的问题。一、背景“大数据”时代的已经来临,各个领域都在每时每刻以惊人的速度产生出各式各样的规模巨大的数据信息,人类也在工作生活的方方面面接触到越来越多的数据信息。然而,人类在努力将数据信息转化为有利信息知识的同时,也面临着大数据之中夹杂的“脏数据”的挑战,对原始数据源的清洗,将其转化为可被理解利用的目标数据源,成为了数据挖掘的重要一步。

二、数据清洗概述1.概念数据清洗——是通过分析“脏数据”的产生原因和存在形式,利用现有的数据挖掘手段和方法去清洗“脏数据”,将“脏数据”转化为满足数据质量要求或应用要求的数据,从而提高数据集的质量,满足现阶段数据分析的需求。2.数据质量问题亢余*互相尹盾或朋一致的数擦I)不一致的汩总亢余*互相尹盾或朋一致的数擦I)不一致的汩总血名沖突2>结构冲寒3.数据质量评价(12个维度)⑴数据规范(Dataspecification):对数据标准、数据模型、业务规则、元数据和参考数据进行有关存在性、完整性、质量及归档的测量标准;数据完整性准则(Dataintegrityfundamentals):对数据进行有关存在性、有效性、结构、内容及其他基本数据特征的测量标准;重复(Duplication):对存在于系统内或系统间的特定字段、记录或数据集意外重复的测量标准;准确性(Accuracy):对数据内容正确性进行测量的标准;一致性和同步(Consistencyandsynchronization):对各种不同的数据仓库、应用和系统中所存储或使用的信息等价程度的测量,以及使数据等价处理流程的测量标准;及时性和可用性(Timelinessandavailability):在预期时段内数据对特定应用的及时程度和可用程度的测量标准;易用性和可维护性(Easeofuseandmaintainability):对数据可被访问和使用的程度,以及数据能被更新、维护和管理程度的测量标准;8)数据覆盖(Datacoverage):相对于数据总体或全体相关对象数据的可用性和全面性的测量标准;表达质量(Presentationquality);如何进行有效信息表达以及如何从用户中收集信息的测量标准;可理解性、相关性和可信度(Perception,relevanceandtrust):数据质量的可理解性和数据质量中执行度的测量标准,以及对业务所需数据的重要性、实用性及相关性的测量标准;数据衰变(Datadecay):对数据负面变化率的测量标准;效用性(Transactability):数据产生期望业务交易或结果程度的测量标准。在评估项目数据质量过程中,需先选取几个合适的数据质量维度再针对每个所选维度,制定评估方案,选择合适的评估手段进行测量,最后合并和分析所有质量评估结果。三、数据清洗内容(1)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论