不一致数据处理_第1页
不一致数据处理_第2页
不一致数据处理_第3页
不一致数据处理_第4页
不一致数据处理_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲教师:张鑫浙江经贸职业技术学院数据采集与处理不一致数据处理案例导入不一致数据的定义不一致数据的原因不一致数据的解决方法010203041、案例导入小明在一家大型的电商企业做数据分析师工作,近期,他接到一个要分析企业销售额为什么会下降的任务,首先,小明通过外部以及内部数据采集工具对销售相关数据进行了采集,但是,他发现采集得到的数据中,有一些问题,比如,销售部门采集到的商品ID数据,和仓储部门采集的商品ID完全是两套编码规则,本来小明还想从仓储那里分析销售额下降的原因,这下却不知如何是好。2、不一致数据的定义数据是对现实世界的描述,应该符合一定的语义规则和逻辑常识,但实际应用中,由于各种原因,有些数据违反了这样的语义规则,表现为数据值异常、不完整或相互矛盾,对于关系数据而言,还有实体异常(多条记录对应同一实体)、包含异常(多表之间记录不满足包含关系)等,所有这类“脏”数据我们称之为不一致数据。数据不一致性是指数据的矛盾性、不相容性。2、不一致数据的定义刚才的案例中,小明从销售部门采集到的商品ID编码规则是A开头,然而,从仓储部分采集到的商品ID编码规则是B开头,两者出现了不一致情况,类似这种还有很多,像这种数据不一致的情况给小明的数据分析工作加大了难度。销售部门仓储部门3、不一致数据的原因01020301数据冗余数据冗余的出现往往是由于重复存放的数据未能进行一致性地更新造成的02并发控制不当并发控制不当是由于多用户共享数据库,而更新操作未能保持同步进行而引起03各种故障、错误造成当由于某种原因(如硬件故障或软件故障)而造成数据丢失或数据损坏3、不一致数据的原因如何解决数据不一致的问题呢?4、不一致数据的解决方法常见的解决方法有以下几点:完善数据库系统01基于标记的查询回答02聚类03建设数据标准04完善数据库系统01在考虑了各种破坏数据一致性的因素基础上,采取相应的措施来维护数据库系统的一致性。聚类03将数据集划分为聚类,然后通过聚类来表示数据集。基于标记的查询回答02不一致性被看作是数据的一个属性,并能使用标记符号加以说明建设数据标准04定义数据标准体系框架

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论