任务1.3数据预处理原理及方法_第1页
任务1.3数据预处理原理及方法_第2页
任务1.3数据预处理原理及方法_第3页
任务1.3数据预处理原理及方法_第4页
任务1.3数据预处理原理及方法_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ETL数据预处理技术主讲人:曾凡晋任务一了解数据预处理基础1.3数据预处理原理及方法数据清洗定义认识数据处理的前提:数据预处理的原理是处理数据的根基与依据不同类型的“脏”数据有不同的清洗方法01.数据预处理原理02.目录数据预处理方法CONTENTS子任务1.3.1数据预处理原理利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据转换为满足数据质量要求的数据,具体有:

数据采集从数据库、文件、Web、API等数据源中采集和抽取数据,需考虑数据量、数据结构、数据格式、数据粒度等因素。数据清洗对数据进行识别、处理、修复、删除、填充等操作,提高数据质量和可用性数据集成将来自不同数据源的数据进行集成和整合,便于分析和挖掘数据转换对数据进行转换和格式化,以便适应不同的分析需求和工具,提高可操作性数据降维消除不必要的特征和维度,减少数据分析和挖掘的复杂性和成本,通常依靠机器学习手段进行评估数据采集指利用某些装置,从系统外部采集数据并输入到系统内部的一个接口。而大数据采集则是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。在数据采集过程中,可以使用网卡、条形码、触摸屏、PDA、RFID等各种设备进行数据的采集。数据清洗同一值的不同表示、拼写错误、不同的命名习惯、不合法的值以及空值都会导致“脏数据”的出现,通过定义好的数据清洗策略和清洗规则(即数理统计技术、数据挖掘技术等清洗策略)对脏数据进行清洗,得到满足数据质量要求的数据。数据集成联邦数据库模式:是最简单的数据集成模式,它需要在每对数据源之间创建映射和转换的软件,该软件称为包装器(Wrapper)。当数据源X需要和数据源Y进行通信和数据集成时,才需要建立X和Y之间的包装器。数据集成数据仓库模式:是最通用的一种数据集成模式,在数据仓库模式中,数据从各个数据源拷贝过来,经过转换,然后存储到一个目标数据库中。数据集成中介者模式:中介者(Mediator)扮演的是数据源的虚拟视图的角色,中介者本身不保存作保数据,数据仍然保存在数据源中。中介者维护一个虚拟的数据模式它把各个数据源的数据模式组合起来。数据映射和传输在查询时刻才真正发生。数据转换格式转换根据不同的分析工具的需求而进行转换数值转换为适应不同的数据分布形式及便于进行频域分析而转换——对数变换、幂次变换、离散余弦变换数据降维主成分分析(PAC):数据转换坐标系,线性布局奇异值分解(SVD):矩阵因式方法核主成分分析:处理非线性数据数据预处理评估数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。数据完整性数据准确性数据一致性数据规范性数据预处理评估数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。数据可靠性数据安全性数据可重复性数据易读性子任务1.3.2数据预处理方法

数据的标准化,是通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个小的特定区间内,例如0~1或-1~1的区间内,消除不同变量之间性质、量纲、数量级等特征属性的差异,将其转化为一个无量纲的相对数值。1、数据标准化1、数据标准化方法说明最大-最小规范化对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值,其公式为:新数据=(原数据-极小值)/(极大值-极小值)z-score标准化基于原始数据的均值(mean)和标准差(standarddeviation)进行数据的标准化。将属性A的原始值v使用z-score标准化到v'的计算方法是:新数据=(原数据-均值)/标准差小数定标规范化Decimalscaling通过移动数据的小数点位置来进行标准化。小数点移动多少位取决于属性A的取值中的最大绝对值。将属性A的原始值x使用decimalscaling标准化到y'的计算方法是:y=x/(10*j)

其中,j是满足条件的最小整数对数变换对数据进行对数变换,使其符合正态分布数据标准化方法2、不同类型“脏”数据的预处理方法类

别说

明实

例机械原因由于机械原因导致的数据收集或保存的失败造成的数据缺失数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)等。人为因素由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据等。数据缺失值数据缺失值产生的原因多种多样,主要分为机械原因和人为原因两种。2、不同类型“脏”数据的预处理方法数据缺失值从缺失的分布来讲可以分为完全随机缺失,随机缺失和完全非随机缺失。数据的缺失是随机的,不依赖于任何不完全变量或完全变量数据的缺失不是完全随机的,依赖于其他完全变量数据的缺失依赖于不完全变量自身完全随机缺失随机缺失完全非随机缺失依赖性增强随机性渐弱2、不同类型“脏”数据的预处理方法数据缺失值2、不同类型“脏”数据的预处理方法冗余数据重复数据会对数据分析和建模产生负面影响数据分析结果的准确性:重复数据会导致数据分析结果的偏差,影响对数据的正确理解和决策。数据存储和计算资源的浪费:重复数据会占用存储空间和计算资源,增加数据处理的时间和成本。数据质量的下降:重复数据会降低数据的质量,使得数据不一致、不完整和不可靠。

2、不同类型“脏”数据的预处理方法冗余数据冗余数据的一般处理方法:2、不同类型“脏”数据的预处理方法噪声数据噪声数据(NoisyData)就是无意义的数据,现阶段的意义已经扩展到包含所有难以被机器正确理解和翻译的数据,如非结构化文本。任何不可被源程序读取和运用的数据,不管是已经接收、存储的还是改变的,都被称为噪声。2、不同类型“脏”数据的预处理方法噪声数据硬件故障编程错误语音识别错误光学字符识别错误噪声数据产生源头2、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论