版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Finding Near Duplicates(Adapted from slides and material from Rajeev Motwani and Jeff Ullman)1Set SimilaritySet Similarity (Jaccard measure)View sets as columns of a matrix; one row for each element in the universe. aij = 1 indicates presence of item i in set j ExampleC1 C2 0 1 1 0 1 1 simJ(C1,C2) =
2、 2/5 = 0.4 0 0 1 1 0 12Identifying Similar Sets?Signature IdeaHash columns Ci to signature sig(Ci)simJ(Ci,Cj) approximated by simH(sig(Ci),sig(Cj)Nave ApproachSample P rows uniformly at randomDefine sig(Ci) as P bits of Ci in sampleProblemsparsity would miss interesting part of columnssample would g
3、et only 0s in columns3Key ObservationFor columns Ci, Cj, four types of rowsCiCjA 1 1B 1 0C 0 1D 0 0Overload notation: A = # of rows of type AClaim4Min HashingRandomly permute rowsHash h(Ci) = index of first row with 1 in column Ci Suprising PropertyWhy?Both are A/(A+B+C)Look down columns Ci, Cj unti
4、l first non-Type-D rowh(Ci) = h(Cj) type A row5Min-Hash SignaturesPick P random row permutations MinHash Signature sig(C) = list of P indexes of first rows with 1 in column CSimilarity of signatures Let simH(sig(Ci),sig(Cj) = fraction of permutations where MinHash values agree Observe EsimH(sig(Ci),
5、sig(Cj) = simJ(Ci,Cj) 6Example C1 C2 C3R1 1 0 1R2 0 1 1R3 1 0 0R4 1 0 1R5 0 1 0 Signatures S1 S2 S3Perm 1 = (12345) 1 2 1Perm 2 = (54321) 4 5 4Perm 3 = (34512) 3 5 4 Similarities 1-2 1-3 2-3Col-Col 0.00 0.50 0.25Sig-Sig 0.00 0.67 0.007Implementation TrickPermuting rows even once is prohibitiveRow Ha
6、shingPick P hash functions hk: 1,n1,O(n)Ordering under hk gives random row permutationOne-pass ImplementationFor each Ci and hk, keep “slot” for min-hash valueInitialize all slot(Ci,hk) to infinityScan rows in arbitrary order looking for 1sSuppose row Rj has 1 in column Ci For each hk, if hk(j) slot
7、(Ci,hk), then slot(Ci,hk) hk(j) 8ExampleC1 C2R11 0R2 0 1R3 1 1R4 1 0R5 0 1h(x) = x mod 5g(x) = 2x+1 mod 5h(1) = 11-g(1) = 33-h(2) = 212g(2) = 030h(3) = 312g(3) = 220h(4) = 412g(4) = 420h(5) = 010g(5) = 120C1 slots C2 slots 9Comparing SignaturesSignature Matrix SRows = Hash FunctionsColumns = ColumnsEntries = SignaturesCompute Pair-wise similarity of signature columnsProblemMinHash fits column signatures in memoryBut comparing signature
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五版绿色建筑房地产转让合同补充协议3篇
- 二零二五年教育培训机构教师聘用合同书3篇
- 二零二五年度特色农产品黄牛养殖购销合同3篇
- 二零二五年融资租赁合同规范本2篇
- 二零二五版个人房产抵押借款担保合同3篇
- 二零二五年度食堂厨房设计咨询与服务合同2篇
- 二零二五版LOGO知识产权授权与品牌战略规划合同3篇
- 二零二五版粮食进出口贸易代理合同示范文本3篇
- 二零二五版服务器租赁与数据同步服务合同3篇
- 二零二五年度高速铁路建设用聚乙烯管材管件采购合同3篇
- 2025年度土地经营权流转合同补充条款范本
- 南通市2025届高三第一次调研测试(一模)地理试卷(含答案 )
- Python试题库(附参考答案)
- 聚酯合成副反应介绍
- DB37-T 1342-2021平原水库工程设计规范
- 电除颤教学课件
- 广东省药品电子交易平台结算门户系统会员操作手册
- DB32T 3960-2020 抗水性自修复稳定土基层施工技术规范
- 大断面隧道设计技术基本原理
- 41某31层框架结构住宅预算书工程概算表
- 成都市国土资源局关于加强国有建设用地土地用途变更和
评论
0/150
提交评论