




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1Web ges-Weblinks– →Web2BroadSearchEngines:2WhotoWebsearch中词 E.g.服装 Whatisthe“best”answertoaspecific 网页,(e.g.,foraqueryNosingleright4RankingNodesontheWeb56THE“FLOW”7Linkas8Example:Pagerank基本想
’sIdeaof 网页内容的判 ’s要性取值(pagerank),据此对网页排序SimpleRecursiveEachlink’svoteisproportionaltoimportanceofitssourceIfpagejwithimportancerjhasnout-links,eachlinkgetsrj/nvotesPagej’sownimportanceisthesumofthevotesonitsin-linksFlowModelSolvingtheFlow方程组无唯一解(无穷多解增加约束条件,唯一ry+ra+rm=ry=2/5,ra=2/5,rm= NewPagerank:MatrixMisacolumnstochasticmatrix,i.e.,columnssumtoLetpage𝑖has𝑑𝑖out-Ifij,thenMji=1/diElseRankvector𝑟𝑖istheimportancescoreofpage∑i𝑟𝑖=Theflowr=MExample:FlowEquation&Eigenvector1 例例 .. 用随 解设想用户随机浏览 任意时刻t,停留在页面 设页面停留概率分布矢量平稳分t+1时刻用户在哪里p(t+1)=如果随 的状态满p(t+1)=Mp(t)=p(t)为stationaryRankvectorrr Existenceand 关于PageRank的3个疑DoesthisDoesitconvergetowhatweAreresults收敛
来看两个例 收敛得有意义PageRank遭遇的2个问Problem:Spidermisaspider .. Iteration0,1,2,AllthePageRankscoregets“trapped”innode Solution: solutionforspiderAteachtimestep,therandomsurferhastwoWithprob.β,followalinkatWithprob.1-β,jumptosomerandomCommonvaluesforβareintherange0.8toSurferwill eportoutofspidertrapwithinafewtimesteps随机跳转 Y
yyyyyya 0A
1/21/201/31/3 0+1/31/3011/31/3yam随机跳转
1/31/21/2 0 + 0 yyamy1 a=1 .. m1 Problem:Dead路的网页(死胡同Solution1Web删除 Solution2: eports:Followrandom eportlinkswithprobability1.0fromdead-endsAdjustmatrix eportSolvetheSpider-trapsarenotaproblem,butPageRankscoresarenotwhatwewantSolution:NevergetstuckinaspidertrapbyeportingoutofitinafinitenumberofstepsDead-endsareaproblem.ThematrixisnotcolumnstochasticsoourinitialassumptionsarenotmetSolution:MakematrixcolumnstochasticbyalwayseportingatdeadendsSolution: Thisformulationassumesthat𝑴hasnodeadends.Wecaneitherpreprocessmatrix𝑴toremovealldeadendsorexplicitlyfollowrandom eportlinkswithprobability1.0fromdead-ends. Sample: ComputingPageMatrixRearrangingtheSparseMatrixSparseMatrix仅用非零项表示稀疏矩
destination031,5,1517,64,113,117,2213, (E.g.10N4*10*1billionBasicAlgorithm:UpdateBlock- 小PageRank的定PageRank的迭代计针对终止点 陷阱的措 稀疏矩阵表块更块条更新(分布式计算PageRank的一些问衡量页面的流行 单一的重要性测Topic-SpecificInsteadofgenericpopularity,canwemeasurepopularitywithinatopic?dependingonwhetheryouareinterestedinsports,historyandcomputersecurityGoal:EvaluateWgesnotjustaccordingtotheirpopularity,butbyhowclosetheyaretoaparticulartopic,e.g.“sports”or“history”AllowssearchqueriestobeansweredbasedoninterestsoftheuserTopic-SpecificeportcangoStandardPageRank:Anypagewithequalprobability.(Toavoiddead‐endandspider‐trapproblems)“relevant”pages eportIdea:BiastherandomWhen eports,shepicksapagefromasetScontainsonlypagesthatarerelevanttothetopic.(E.g.,OpenDirectorypagesforagiventopic/query)For eportsetS,wegetadifferentvectorMatrixA为不 建立不同的16个DMOZ顶 分e.g.,arts,business,WhichtopicrankingtoUsercanpickfromUsercontext,e.g.,user’susethecontextoftheE.g.,Historyofqueriese.g.,“basketball”followedbyFindingrelatedorsimilar Theproblemofmeasuring“similarity”ofobjectsarisesinmanyapplications.ExistingSim(a,b):similarityscoreof geaandI(a):in-linkneighborsof geO(a):out-linkneighborsof geCommonneighborSim(a,b)==|(c,d)|=CocitationSim(a,b)==|(c,d)|=ExistingSimRank(naive“twopagesaresimilariftheyarereferenced(cited,orlinkedto)bysimilarpages”(1)Sim(u,u)=1;(2)Sim(u,v)=0if|I(u)||I(v)|=,whereCisaconstantbetween0andTheiterationstartswithSim(u,u)=1,Sim(u,v)=0ifu≠v.SimRank(RandomworkPageRank:TRUSTRANK:WhatisWeb行为网页 WebFirstAspeoplebegantousesearchenginestofindthingsontheWeb,thosewithcommercialintereststriedtoexploitsearchenginestobringpeopletotheirownsite–whethertheywantedtobethereornotShirt‐sellermightpretendtobeaboutTechniquesforachievinghighrelevance/importanceforaw TermBelievewhatpeoplesayaboutyou,ratherthanwhatyousayaboutyourselfPageRankasatooltomeasure“importance” WhyitShirt‐sellersayheisaboutmoviesdoesn’thelp,becauseothersdon’tsayheisaboutmoviesHispageisn’tveryimportant,soitwon’tberankedhighforshirtsormoviesvs.Spammers:Round becamethedominantsearchengine,spammersbegantoworkoutwaystoSpamfarmsweredevelopedtoconcentratePageRankonasinglepageLinkspam:CreatinglinkstructuresthatboostPageRankofaparticularpageLink 者观点看,有3类网e.g LinkSpammer’s pageGetasmanylinksfromaccessiblepagesaspossibleto pagetConstruct“linkfarm”togetPageRankmultipliereffectLink最常见和有效 农场组织方式之采用统计方法分析文本e.gNaïveBayes类 邮件过滤的方检查几乎重复的页检测 农场的页Hidingvs.detectingspamfarms…(itisaTrustRank:topic-specificPageRankwitha eportsetof“trusted”pagesE.g. s, sfornon-USTrustRank:Basicprinciple:Approximate从web网上抽取一 网页“seed这个任务很艰巨,somustmakeseedsetassmallaspossibleTrustSimpleModel:TrustWhyisitagood信 选 集集合大小的权需要人工检查,所以保证所有好网页以最短路径抵达与集合;所以集合越大越好挑 集合的方 根据pagerank选择k个页面。原因 如.edu,.mil,.SpamIntheTrustRankmodel,westartwithgoodpagesandpropagatetrustComplementaryWhatfractionofapage’sPageRankcomesfromspampages?Inpractice,wedon’tknowallthespampages,soweneedtoestimateSpamMass HUBSANDHubsandHITS(Hypertext-InducedTopic目标:假设我们想要找到好报 Idea:Linkas In-link?Out-FindingHITS页Authorities:报纸主课程主汽车制造商的主 报纸列表页课程列表页每个汽车厂商 页Countingin-links:Countingin-links:ExpertQuality:联合迭代定Hubsand
[KleinbergHubsandHubsand存在性与唯一ExampleofPageRankandPageRank和HITS是一个问题的两种方ThedestiniesofPageRankandHITSpost-1998wereverydifferent本章小 HITS:导航页 Pagerank稀疏矩条块更面 的对 的ComputethePageRankofeachpage,assumingβ=0.8.eComputethetopic-sensitivPageRank,assumingtheeeportset(a)A(b)AandSupposetwospamfarmersagreetolinktheirspamfarms.How
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人买卖转让合同标准文本
- 中交一公局采购合同样本
- 修改供用电合同样本
- 土石方工程安全责任书
- 代建房屋租赁合同标准文本
- 2025二手车买卖合同
- 北师大版数学三年级上册《蚂蚁做操》教学设计
- 部编三下数学-第2课时《常用的面积单位》教案
- 企业自如合作合同样本
- 北师大版小学数学六年级上册《比的应用》教案教学设计
- 创造性思维与创新方法Triz版知到章节答案智慧树2023年大连理工大学
- 英语四级仔细阅读练习与答案解析
- 《产业基础创新发展目录(2021年版)》(8.5发布)
- 排水沟土方开挖施工方案
- CAD教程CAD基础教程自学入门教程课件
- 技术合同认定登记培训课件
- 停水停电时的应急预案及处理流程
- 电商部运营助理月度绩效考核表
- DB61∕T 1230-2019 人民防空工程防护设备安装技术规程 第1部分:人防门
- 第12课送你一个书签
- 教学课件:《特种加工(第6版)
评论
0/150
提交评论