1.1 数据预处理简介_第1页
1.1 数据预处理简介_第2页
1.1 数据预处理简介_第3页
1.1 数据预处理简介_第4页
1.1 数据预处理简介_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1.1数据预处理简介学习目标2.了解数据预处理的重要性1.了解什么是数据3.掌握数据预处理的流程1.1.1数据与数据预处理

什么是数据?声音图片文字

在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称。1.1.1数据与数据预处理

什么是大数据?(4V)互联网每分钟产生的数据1)Volume:表示大数据的数据体量巨大。2)Velocity:表示大数据的数据产生、处理和分析的速度在持续加快。3)Variety:表示大数据的数据类型繁多。4)Value:表示大数据的数据价值密度低。1.1.1数据与数据预处理

为什么需要数据预处理?

原始数据往往存在规格或精度不一、数据缺失、属性名称或编码方式不统一、由于受到噪声影响而造成的数据错误或异常值等问题,因此原始数据往往是通常所说的“脏”数据。

数据预处理的目的就是把这些“脏”数据变成“干净”的数据。简单地说,数据预处理就是将原始数据变成便于进行数据分析或挖掘的形式的过程。数据预处理是进行数据分析或挖掘前一个非常必要的过程。1.1.2数据预处理的重要性在一个完整的数据分析或挖掘过程中,数据预处理往往要花费60%左右的时间,而数据质量的好坏往往关系后续数据分析或挖掘工作的成败。数据质量是在指定条件下使用时,数据的特性满足明确的和隐含的要求的程度。1.1.2数据预处理的重要性名称描述规范性数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度。完整性按照数据规则要求,数据元素被赋予数值的程度。包括数据元素的完整性和数据记录的完整性。是衡量所必须的数据的完整程度,如不能缺失的空值检查。准确性数据准确表示其所描述的真是实体(实际对象)真实值的程度。确保数据必须反映真实的业务内容。包括数据内容正确性、数据格式合规性、数据重复率、数据唯一性和无效数据出现率等。一致性数据与其他特定上下文中使用的数据无矛盾的程度。要求数据元素的类型和含义必须一致和清晰。包括相同数据的一致性和关联数据的一致性。时效性数据在时间变化中的正确程度。包括基于时间段的正确性、基于时间点的及时性和时序性。可访问性数据能被访问的程度。包括数据在需要时的可获取性和在有效生存周期内的可使用性。

数据预处理的过程1.1.3数据预处理的过程数据获取就是将爬虫,仪器设备等采集的不同数据源,可能是txt、excel、csv这种文件,也可能是存储在数据库中的数据库文件,通过读取这些文件加载到内存中,以Python特定的对象来保存,以便于进行后续的数据预处理操作。数据合并主要是将存储在多张表中的数据合并为一张表,便于进行数据分析。通过数据合并,可以将关联的数据信息存入一张表中。。数据清洗的主要目的是增加数据量,具体操作可能包括拼接多个数据文件等。数据变换主要是将数据变换

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论