数据的清洗电子_第1页
数据的清洗电子_第2页
数据的清洗电子_第3页
数据的清洗电子_第4页
数据的清洗电子_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据的清洗目录数据的质量2数据清洗的作用数据清洗的方法一、数据的质量数据清洗在汇聚多个维度、多个来源、多种结构的数据之后,就可以对数据进行抽取、转换和集成加载。在这个过程中,除了更正、修复系统中的一些错误数据之外,更多的是对数据进行归并整理,并储存到新的存储介质中。分清和掌握数据的质量至关重要31.完整性指数据记录和数据信息是否完整,是否存在缺失。2.完整性是对数据质量最基本的要求。1.数据的一致性主要包括数据记录的规范和数据逻辑的一致性。1.数据的准确性关注的是记录中存在的错误,可能存在于个别记录,也可能存在于整个数据集1.指数据刷新、修改和提取的及时性和快速性数据质量的四大要素一、数据的质量4二、数据清洗的作用数据清洗从名字上也看的出就是把“脏”的数据给“洗掉”,指发现并纠正数据文件中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。数据清洗的作用就是将数据中的脏数据去掉,过滤掉不符合要求的数据,使之成为符合要求的数据源。数据清洗是影响数据分析准确性的关键因素。5三、数据清洗的方法和过程1:手工实现,通过人工检查2:通过专门编写的应用程序3:针对特定应用领域的数据清理4:针对与特定应用领域无关的数据清理数据清洗的方法:数据清洗的过程:01数据分析,定义错误类型02搜索、识别错误记录03修正错误6数据清洗的实例游戏下载时长数据如果直接计算其游戏平均下载时长,得到的结果为23062.57秒,约6.4小时,与实际情况严重不符,说明这一数据集受到显著的噪声数据的影响。数据集中区域对数据集做异常值识别及剔除,将数据集等分为240300个区间,找到数据集中域[0,3266.376],对此区间的数据做箱型图分析,对新数据组剔除离群值,得到非离群数据组[Q_1-3IQR,Q_3+3IQR],再取非异常数据组[Q_1-1.5IQR,Q_3+1.5IQR]最后计算目标数据源的平均下载时长为192.93秒,约3.22分,符合游戏运营实

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论