数据处理的原则_第1页
数据处理的原则_第2页
数据处理的原则_第3页
数据处理的原则_第4页
数据处理的原则_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲教师:范微娜浙江经贸职业技术学院数据采集与处理数据处理的原则案例导入准确性适用性010203一致性041、案例导入小明的领导让他对采集到的销售数据进行处理,那她在处理过程中需要注意哪些原则问题呢,你能帮帮他吗?数据处理在整个数据分析中起着承上启下的作用,影响着数据分析的输出价值,是实现数据驱动决策的有效凭证。电子商务运营过程中,行为与反馈均可通过数据量化。通过数据分类与处理,可以更加清晰地了解当前状况,更加有效地监控运营过程和目标。更高质量的数据意味着更精准有效的决策。在数据分析之前,对收集到的数据进行清洗和加工、关联和聚合,一方面确保数据的内容完整、准确、有效,另一方面对数据格式化,使其形成适合数据分析的类型或样式。2、准确性导致不正确的数据(具有不正确的属性值)可能有多种原因:收集数据的设备可能出现故障;人或计算机的错误可能在数据输入时出现;当用户不希望提交个人信息时,可能故意向强制输入字段输入不正确的值。这成为被掩盖的缺失数据。错误也可能在数据传输中出现。也可能是由命名约定或所用的数据代码不一致,或输入字段的格式不一致而导致的。重复元组也需要数据清理。用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库(常识性规则、业务特定规则等)检查数据值,或使用不同属性间的约束、外部的数据来检测和清理数据。3、完整性不完整数据的出现可能有多种原因。有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可以得到的。其他数据没有包含在内,可能只是因为输入时认为是不重要的。相关数据没有记录可能是由于理解错误,或者因为设备故障。与其他记录不一致的数据可能已经被删除。此外,历史或修改的数据可能被忽略。缺失的数据,特别是某些属性上缺失值的元组,可能需要推导出来。4、一致性在数据有多分副本的情况下,如果网络、服务器或者软件出现故障,会导致部分副本写入成功,部分副本写入失败。这就造成各个副本之间的数据不一致,数据内容冲突。实践中,导致数据不一致的情况有很多种,表现样式也多种多样,比如数据更新返回操作失败,事实上数据在存储服务器已经更新成功。从多数据源集成的数据可能有语义冲突,可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,从而使得数据保持一致。总结数据处理没有统一的标准,只能说是根据不同类型的分析数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论