下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、信息集成中数据获取关键技术的研究探讨 【摘要】信息集成是以获取数据为基础来实现信息的共享,为需要信息的企业提供作出决策所需的依据,信息集成技术是现代企业重要的决策依据和获取信息的方式。信息集成中数据获取还有赖于数据的同步更新的实现,数据更新要在保证效率的前提下提高快照差分算法的查全率。在数据获取的技术方面,相似重复记录的检测方法也非常重要,笔者在本文中介绍了一种非常有效的字符串距离度量算法结合过实践应用和调查研究,对具体的算法在应用效率和作用进行了分析对比,提出了科学的对算法进行改进的建议,旨在进一步提高信息集成中数据获取关键技术,为实践提供更加可
2、靠、有效的支持。 【关键词】信息集成;数据获取;快照差分算法;相似重复记录检测 随着计算机技术的快速发展,信息集成的发展进步越加明显,信息集成在各行各业中的应用也在不断深入,对信息集成的需要和研究都成为了这个时代的热点。数据集成中最为重要的内容就是数据的获取,数据获取涉及的领域范围之广泛、数量之大以及获取数据的环境之复杂都是整个信息集成中最为耗时、过程最为繁琐的内容。信息集成需要做好基础的数据处理工作,数据处理时涉及的关键技术就是本文所要研究的对象。本文中笔者主要研究了关于数据同步更新的快照差分算法和应用于相似重复记录检测的度量计算方法。 1快照差分算法分析 快照差分算法主要是针对数据的同步更
3、新的一种算法,包括Windows算法、SortMerge算法等等,在最近的研究中又有新的研究成果,即基于压缩策略的改进算法。快照差分算法的内容就是根据系统所做的期限安排定期对基表形成分析的快照,再通过于前一次的基表快照进行差分对比,计算出两次基表之间的变化数据情况。快照文件中含有一系列的记录,基本表示为R1,R2,Rn,在这一系列的记录中,每条记录又都包含关键字段和其他字段,差分算法就是在两个快照的基础上产生一个输出快照,包含其他字段的更新、后期快照文件中不存在的关键字段记录以及在先期的快照文件中不存在的关键字段记录,通过输出快照得出数据的更新、删除和插入情况。 快照差分算法的准确度和计算效率
4、受到窗口的大小的影响,所以为了提高算法的精准度和提高计算效率需要选取合适的窗口大小,又因为窗口大小是与失配元组的数目密切相关的,所以对窗口大小进行调整是需要调整相应的失配元的数目来进行的,这样做的优势在于保障快照差分算法的效率,同时还能提高算法所得计算结果的准确度。 2相似重复记录检测方法分析 信息集成中数据获取关键技术还包括对记录的检测,检测两条记录是否相似的技术主要是相似重复记录检测方法。笔者在本文中结合概率后缀树来定义记录间距的计算公式和方法,这一设计的主要功能在于提高检测所得结果的准确度;在此基础上再对记录进行聚类计算,聚类计算不需要设置相关的参数,所以能够有效降低误差,使结果能够更加
5、的与最真实的情况相吻合,还可以实现对设定的不同形态的数据构造,保证数据的精准度。但是聚类算法也有一定的局限性,在计算字符串的长度时就存在着问题,字符串距离的度量公式十分复杂,所以需要应用更为先进的聚类方法,即二次聚类方法。二次聚类方法是通过低价的度量距离的方法对复杂的数据集合体进行归类后再用精准度较高的度量距离的方法和聚类方法进行数据的分类检测。 3实例研究比较分析 3.1快照差分算法的比较分析 本文主要对快照差分算法在中间过程存储量以及I/O量耗费这两个方面的比较进行分析,在此次比较中相关数据的内容并不产生影响,起到比较意义的主要是参与比较过程的数据的数目多少。笔者在此结合油料企业的仓库数据
6、来进行分析,文件大小为128MB或者512MB,记录大小为150B,记录数=文件大小/记录大小,前后快照的变动次数为记录数的1%,主要对I/O量和中间过程存储量进行记录,还需要记录错误率。主要采用了SM算法、SMC算法、PH算法、PHC算法,通过算法所得结果的对比发现在128MB和512MB时I/O量是存在差别的,在快照文件为128MB时,PH算法、SMC算法、PHC算法都比SM算法降低了I/O量,还存在大小的差别;在快照文件为512MB时,I/O量却有一定的上涨。在实例应用的算法中,SM算法、PH算法的复杂程度最高。在新近研究中Windows算法在准确度和开销等方面都表现出比较强劲的优势,在
7、效率上也较为显著,所以将在今后得到推广。 3.2相似重复检测算法的实例分析比较 本文主要结合测试数据生成系统对原始数据进行算法的分析比较,原始数据中包括的是常用的人名以及与之相对应的信息,如地址、邮编等等,系统通过人为的根据不同的需要设置不同的参数来生成所需的不同错误类型、错误比率以及不同规模的相似重复数据。在进行相似重复检测中,关系到效率和效果的标准是查全率(重复数据被准确识别的百分率)、查准率(相似重复检测算法识别出的重复记录中正确的重复记录的百分比)。 实例主要采用了不同规模的数据在不同的运行时间进行的检测,实验中显示在3000条记录之前查全率能够保持在80%,在规模增加到4000600
8、0条记录的过程中,查全率出现下滑表现,这即是上文提到的聚类算法在处理大规模数据时会降低准确度的原因所致。在不同数据规模的算法实验中,从10006000条记录的过程中,查准率基本没有大幅度变化,都在90%上下,所以可以看出算法的误检率是很低的,在目前使用的距离算法中该方法是可以与之配合适用的。此外通过实验分析,从结果中也可以看出,数据的数目来那个的增多,系统运行的时间也在不断的增加,增加的线性特征表现为抛物线形状,与聚类算法的时间复杂度基本符合。将该算法与传统的算法进行比较分析,传统的算法Merge/Purge算法用于计算距离的方法能力有无法克服的问题,所以笔者提出的算法中包括插入、交换、删除、
9、替换等其他多种不同类型的错误数据,在实例中有插入和删除错误的情况下检测算法的准确度基本无异,但是在数据中有了替换和交换错误的情况下,本文的检测方法就明显显现出了优势,在运行时间上就有显著的增加。 在有关检测方法的研究和实验不断兴起的今天,本文提出的检测算法也有其独特的优势,主要表现在以下几点:第一,对记录文件中的序列结构充分的认识,提高了相似重复记录的查全率和查准率;第二,提出了新的聚类算法,减少人为的设置参数的过程,降低人为造成的误差。 4结语 信息集成的发展势头正在逐渐增强,信息集成中国数据获取的关键技术也成为相关研究的热点,本文在这一背景下对信息集成中国数据获取关键技术进行了研究探讨,主要对于数据更新有关的快照差分算法,以及相似重复检测算法进行了分析比较,将理论与实际相结合研究了这两种算法。通过研究发现杂数据获取技术中还需要在今后做出更进
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《企业服务总线调度器的设计与实现》
- 《基于蛋白质组学技术探讨元七胶囊改善失眠小鼠记忆力的机制研究》
- 《中华传统礼仪文化的当代转化研究》
- 化学纤维生产中的工艺优化与工程设计考核试卷
- 2024-2030年中国民航IT应用融资商业计划书
- 《温室和大棚两种设施下的蓝莓品种生长结果特性比较》
- 2024-2030年中国殡葬服务行业运营态势分析及投资建议研究报告
- 低碳环保倡议书集锦8篇
- 2024至2030年中国热熔型阻尼板行业投资前景及策略咨询研究报告
- 《天津FAV-4TJ1607株的流行病学研究及免疫增效剂对其灭活苗免疫效果的影响》
- 港口行业经营分析
- 内分泌科利用PDCA循环提高全院胰岛素存放的合格率品管圈QCC成果汇报
- 贵州茅台酒厂招商实施方案
- 血栓性外痔护理课件
- 厌食病护理课件
- 2024届宜宾市普通高中2021级第一次诊断性测试理科综合试卷(含答案)
- 招投标评分标准表
- 灭火器充装检修方案范本
- 新文科建设视角下微观经济学课程教学创新的实现路径
- JIT、QR与供应链管理课件
- 车辆采购服务投标方案(完整技术标)
评论
0/150
提交评论