下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、常用数据匹配算法简介系-Jaro-Winklerdistance算法数据是组织最具价值a勺资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量a勺数据可以使公司保持竞争力并在经济动荡时期立于不败之地。本文介绍在数据匹配算法Jaro-Winklerdistancewanghetommy2011-6-8Aboutthisdocument4Jaro-WinklerDistance41) Introduction42) Definition4a) TheJarodistance算法最后得分公式:4b) MatchWindow(睡己窗口)计算俎4c)解心面两组俎5d)Jaro-Winklerdi
2、stance算法53)引用资源8教程版本说明作者0.9总结常用ETL数据匹配算法理论wangheAboutthisdocument数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在看直接联系,高质量的数据可以使公司保持竞争力并金豆济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。然而大多数情况下、我们的数据源来自企业中各个系统、并不是所有的数据都有统一的标准、这样在我们做ETL过程的时候就需要X帝们需要的数据清洗出来、而清洗的过程中主要是对数据进行操作、因此采用一个高效的合理的算法必不可少。此文档简单对数据匹配的几种经典进行阐述与分析。
3、以供参考,此文档介绍Jaro-Winklerdistance。Jaro-WinklerDistance1) IntroductionTheJaro-Winklerdistance(Winkler,1990)是计算2个字符串之间相彳唾的一种算法。它是Jarodistance算法的变种。主要用于recordlinkage/数据连接(duplicatedetection/重复记录)方面的领域,JarsWinklerdistance最后得分越高说明相越大。JarsWinklerdistance是适合于串比如名字这样加的字符之间计算相0分表示没有任何相彳以度,1分则像完全匹配。2) Definition
4、a) TheJarodistance算法最后得分公式:A_1/ininui-l4=共商+商+;公式一其中: si、s2是要比对的两个字符 4是最后得分 m是匹配的字符数 t是换位的数目b) MatchWindow(匹配窗口)计算公式MW=_1,公伫其中: si、s2是要比对的两个字符 MW是匹配窗口值C)解程上面两组公式1 .字符串si与字符串S2在做匹配计算时,当两个字符的距离不大于公式二的最后结果(匹配窗口)即认为是匹配的。2 .当si、s2中字符相匹配但是字符位置不一样时发生换位操作、而公式一中换位的数目t为不同I厕?的匹配字符的数目的一半。比如:两个字符串CRATEfTRACE做匹酉醵
5、作,字符串中仅有R'AE三个字符是匹配的,即m=3。为什么'C,T不算做是匹配的呢。因为虽然。T都出现在两个字符串中,但是通过公式二得出匹配窗口值为(5/2)-l=1.5o而两个字符串中,C','T字符的距离均大于1.5。所以不算做匹配。因此匕0。在另一组字符串DwAyNE与DuANE。匹国的字符D-A-N-E在两个字符串中有相同的字符JII页序,所以不需要进行换位操作,因此t=0,m=4。d)Jaro-Winklerdistance算法公式Jaro-Winkler算法给予了起始部分就相同的字符串更高的分数,它定义了一个前缀范围p,对于要匹配的两个字符串,如果前
6、缀部分有长度为L的部分字符串相同,则Jaro-WinklerDistance为:dw=dj+L*P(1-dj);公式三其中: 斗是Jar。distance最后得分 L是前缀部分匹配的长度 P是一个范围因子常量,用来调整前缀匹配的权值,但是P的值不能超过025,因为这样最后得分可能超过1分.Winkler的标准默认设置值P=0.1oAlthoughoftenreferredtoasadistancemetric,theJaro-Winklerdistanceisactuallynotametricinthemathematicalsenseofthatterm.3)Example(a)例子1给出
7、两个字符串siMARTHA和s2MARHTA我们可以得出: 777=6 |51I=6 I<2I=6 两组字符T/H和H/T要进行换位操作,因此t=2/2=l;我们可以根据公式一得出Jaro得分:1/666-14=向+向+=0.944如果使用Jar所Winkler,并且取范围因子P=0L我们会得出:P=0.1L=3dw=0.944+(3*0.1(1-0.944)=0.961假使串si勿VF并且比。必/VF我们发现: 777=4 |Si|=6 |灾|二5 t=0我们发现一个Jar。比分:使用标准祛码发现Jaro-Winkler比分d=0.1我们继续发现:因而:dw=0.822+(1*0.1(
8、1-0.822)=0.84(b)例子2给出两个字符串siDWAYNEands2DUANE.我们可以得出: m=4 1$11=6 121=5 t=0我们可以根据公式一得出Jar。得分:如果使用Jaro-Winkler,并且取范围因子P=01,我们会得出:P=0.1L=1dw=0.822+(1*0.1(1-0.822)=0.84(C)例子3在这个例子中我们利用图形来说明匹配过程,给出两个字符串siDIXONands2DICKSONX得出下面图表:根据图标我们得出:=4虽然两个字符串都含有字符X但是距离已经超过匹配窗口值,所以忽略 /$1/=5 Is2l=8我们可以根据公式一得出Jar。得分:1/44
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 云南省通海三中2025届高考考前提分数学仿真卷含解析
- 福建省泉州三中2025届高考仿真模拟语文试卷含解析
- 2025届湖南省醴陵二中、醴陵四中高考数学二模试卷含解析
- 广西贺州市平桂管理区平桂高级中学2025届高三第二次模拟考试英语试卷含解析
- 2025届湖南省各地高三第二次诊断性检测数学试卷含解析
- 2025届湖北省荆州市名校高考数学三模试卷含解析
- 山西省运城市临猗县临晋中学2025届高考英语一模试卷含解析
- 河北省衡水市深州市长江中学2025届高三第一次调研测试语文试卷含解析
- 山东省济南市长清区2025届高三二诊模拟考试数学试卷含解析
- 甘肃省武威市六中2025届高考仿真卷英语试题含解析
- 2024-2034年全球及中国核辐射行业市场发展现状及发展前景研究报告
- 微测网题库完整版行测
- 借款协议书格式模板示例
- 国家开放大学《管理英语4》边学边练Unit 5-8(答案全)
- 作家普希金课件
- 封山育林工程 投标方案(技术方案)
- 当代世界经济与政治 李景治 第八版 课件 第1、2章 当代世界政治、当代世界经济
- 2024年刑法知识考试题库附参考答案【满分必刷】
- 国开作业《公共关系学》实训项目1:公关三要素分析(六选一)参考552
- 肺功能进修总结汇报
- 《燃烧性能测试》课件-第二节 氧指数测试
评论
0/150
提交评论