版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、常用数据匹配算法简介系类Jaro-Winklerdistance算法数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在看直接联系,高质量旳数据可以使公司保持竞争力并在经济动荡时期立于不败之地。本文介绍在数据匹配算法Jaro-Winklerdistance HYPERLINK mailto:2011-6-8Aboui-hisdocumentJarowmk-erDistanceIsroduciionDefinition90044Q.TheJarodistance鵬稱amffllaiwstMaichwindoMELHae斗WLSCffi解画列时坯Jaro-wink-erdistance教
2、程版本说明作者0.9总结常用ETL数据匹配算法理论wangheAboutthisdocument数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在看直灘系,高质量的数据可以使公司保捋竞争力并娱济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任両足所有需求的所有数据。然而大多数情况下、我们的数据源来自企业中各个系统、并不是所有的数据都有统一的标准、这样在我们做ETL过程的时候就需要将我们需要的数据清洗岀来、而清洗的过程中主要是对数据进行操作、因此采用一个高效的合理的算法必不可少。止匕文档简单对数据匹配的几种经典进行阐述与分析。以供参考,此文档介绍Jao-Winl
3、lerdistance。Jaro-WinklerDistanceIntroductionTheJaro-Winklerdistance(Winkler,1990)是计算2个字符串之间相彳履的一种算法。它是Jarodistance算法的期K主要用于recordlinkage/数据连接(duplicatedetection/重复记录)方面的领域,Jaro-Winklerdistance最后得分越高说明相彳赠越大。Jaro-Winlderdistance是适合于串比如名字这样较短的字符之间计算相彳履。0分表雨艾有任何相彳履,1分则懾完全匹配。DefinitionTheJarodistance算法最后
4、得分公式:di=I(高+孟+宁);公式-其中:Si.S2題比对的两个宇符叫是最后得分m是匹配的宇符数t戟位的数目MatchWindow(匹配窗口)计算公式w/I1Ar(Max(|sl|Js2|)vMW=()-1;公归其中:si.S2題比对的两个宇符MW是匹配窗口值C)瞬上面两组公式字符串S1与字符串S2在做匹配计算时,当两个字符的距离不大于公式二的最后结果(匹配奮口)即认为是匹配的。当si.s2中字符相匹配但是字符位置不一样时发生换位操作、而公式一中换位的数目t为不同III佛的匹配字符的数目的一半。比如:两个字符串伽7Z和TRACE做匹配操作,字符串中仅有RAE三个字符是匹配的,即m二3。为什
5、么C:T不算做是匹配的呢。因为虽然C,T都岀现在两个字符串中,但是通过公式二得出匹配窗口值为2)-1二1.5。而两个字符串中字符的距离均大于1.5。所以不算做匹配。因此t二0。在另一组字符串DwAyNE与DuANE。匹配的字符D-A-N-E在两个字符串中有相同的字符JII页序,所以不需要迸行换位操作,因此t=0,m二4。d)Jaro-Winklerdistance算法公式Jaro-Winkler算法给予了起始部分就相同的字符串更高的分数,它定义了T前缀范围p,对于要匹配的两个字符串,如果前缀部分有长度为L的部分字符串相同,贝0Jaro-WinklerDistance为:dw=dj+L*P(1-
6、dj);公式三其中:是Jarodistance最后得分L是前缀部分匹配的长度P是一个范围因子常量,用来调整前缀匹配的权值”但是P的值不能超过0.25,因为这样最后得分可能超过1分.Winkler的标准默认设置值P=0.1oAlthoughoftenreferredtoasadistancemetric,theJaro-Winklerdistanceisactuallynotametricinthemathematicalsenseofthatterm.Example(a)例子1给出两个字符串siMARTHA和s2MA阳TA、我们可以得出:m二6|si|=6I52I=6两组字符T/H和H/T要进
7、行换位操作,因此t二2/2=1;我们可以根据公式一得出Ja。得分:1/666-1di=3(|6|+面+H944如果使用Jaro-Winkler,并且取范围因子P二0.1,我们会得出:P二0.1L二3dw=0.944+(3*0.1(1-0.944)=0.961假使串SiDWAYNE并且S2DUANE我们发现:m=4|5i|=6丨9I=5t=0我们发现Nao比分:使用标准袪码发现Jaro-Winkler比分d二0.1我们继续发现:因而:g=0.822+(1*0.1(1一0.822)二0.84(b)例子2给岀两个字符串siDWAYNEands2DUANE、我们可以得岀:TOC o 1-5 h zm=4/si/=611=5t=0我们可以根据公式一得出Jaro得分:1/444-05=亍(面+面+h)=22如果使用Jaro-Winkler,并且取范围因子P二0.1,我们会得出:P二0.1L二1dw=0.822+(1*0.1(1-0.822)=0.84(C)例子3在这个例子中我们利用图形来说明匹配过程,给出两个字符串siDIXONands2DICKSONX得出下面图表:根据图标我们得出:m=4虽然两个字符串都含有字符X但是距离已经超过匹配窗口值,所以忽略111=5Is21=8t=0我们
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024合法的咨询服务合同
- 2024年度医疗设施EPC建设合同
- 2024电子版个人服务合同书
- 2024年度5G基站建设设计与施工服务合同
- 2024年度供应链管理合同:供应商与采购商之间的货物供应与付款协议
- 谁会跑课件教学课件
- 2024年度租赁期满后购买合同标的购买价格
- 2024年师范大学新进教师就业协议
- 2024年度文化旅游项目合作合同
- 2024年度医疗设备研发与生产许可合同
- PCS9700 监控后台操作方法培训
- creo自顶向下设计方法
- 程序员开发手册
- 物流配送中心规划与设计课件
- 常用截止阀尺寸表
- 2013三无班组评定标准
- 二年级《看图写话》教学设计
- 中国的算筹PPT课件
- 《骨盆重要性》PPT课件.ppt
- WHO癌痛的三阶梯止痛的原则
- 山西经济出版社小学第二册四年级信息技术第一单元活动教案
评论
0/150
提交评论