




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Duplicate Elimination重复数据的消除脏数据形成的原因滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语(如:ASAP对“at first chance”)重复记录丢失值拼写变化不同的计量单位过时的编码数据清理的重要性脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个及其困难的任务。垃圾进、垃圾出。数据清理研究现状数据清理常常与数据仓库、数据挖掘和数据集成的研究联系在一起。近年来在数据库研究团体中得到了广泛的关注。主要集中在模式集成问题的研究,如集成框架、中间件系统(mediator systems)、模式冲突解决方案。很少涉及实例层次的研究。数据清理处
2、理内容格式标准化异常数据清除错误纠正重复数据的清除重复数据清除概念模型数据清理有效性的度量标准返回率(Recall)定义:重复数据被正确识别的百分率例子:假定有7个记录A1,A2,A3,B1,B2,B3,C1,其中A1,A2,A3和B1,B2,B3分别是记录A和B的不同表示。如果清理过程识别出A1,A2,C1和B1,B2,那么Recall值为4/6*100%=66.7%False-Positive Error定义:错误地作为重复数据的记录的百分比。False-Positive Error=精确度(Precision)Precision=100%-False-Positive Error数据清理
3、过程存在的问题和困难不确定性和风险性很难确定两个不完全相同的记录是否表示同一个实体,即使它们非常相近。结果的确认很难找出真正的重复记录数,这样有效性的度量很难得到。数据库相关清理算法的性能跟数据库密切相关。现存的数据清理方法脏数据的预处理排序邻居方法优先排队算法多次遍历数据清理方法增量数据清理采用领域知识进行清理领域无关的数据清理采用数据库管理系统的集成数据清理扩展SQL进行数据清理过程方便用户的使用存在优化问题脏数据的预处理先于数据清理过程使数据更加规范化和一致,获得更好的结果包含外部参考文件,如缩写标准表。排序邻居方法(Sorted neighborhood method,SNM)SNM方
4、法包括三个步骤创建关键字:依赖于领域知识中的错误模型。排序数据合并SNM方法的缺点结果与所采取的关键字密切相关。“Window size”问题优先排队算法将各个记录根据相似性程度归入不同的队列中减少了比较的次数照样存在“Window size”问题多次遍历数据清理方法每次排序选用不同的关键字减少错过重复数据的机会选择关键字比较简单可以采用传递闭包(transitive closure)将相似记录合并成一个组增加false-positive error基于知识的方法进行重复数据的消除三个阶段预处理阶段数据类型检查数据格式规范化不一致的缩写处理阶段将预处理后的数据通过专家系统引擎和一系列的规则进行处理。人工检验和确认阶段处理规则无法处理的重复记录规则的分类重复识别规则(Duplicate identification):指定两个两个记录为相似记录的条件。合并/清除规则(Merge/purge) :指定对两个重复记录如何进行处理。更新规则(Update rules):在特殊情况下更新数据的方法。警报规则(Alert rules):当一个特定的事件发生时发出警报。原因分析会的建议措施建议措施中每项活动预防缺陷信息必须管理和控制*基于知识方法的好处应用商业规则进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南京车辆抵押合同范本
- 小学美术德育教育路径探讨
- 医疗设备 销售合同范本
- 审美人格视域下江海美术多元教学
- 净水器安装劳务合同范本
- 厂房围墙施工合同范本
- 出版合同范本填写规范
- 印刷出版合同范本
- 农业开发项目合同范本
- 个人房产抵押合同范例
- Photoshop+2024学习手册:第1课认识与操作基础
- 《不同血流限制训练方案对膝关节损伤运动员下肢功能的影响》
- 药品经营企业(批发和零售)面临的风险点和应对措施
- 基本公共卫生服务项目培训
- 北师大版(2024新版)七年级上册数学期末模拟测试卷(含答案)
- 无人机组装与调试 课件 项目1任务1 多旋翼无人机飞行平台组装调试
- 消防行业岗位培训与校企联合方案
- 中国通 用技术集团招聘笔试题库
- 自动化部门的发展规划
- 2024-2025学年上海市松江区高三一模生物试卷(含答案)
- 2024年中国天然橡胶产业数据分析简报-农小蜂
评论
0/150
提交评论