词项Term加权问题细节课件_第1页
词项Term加权问题细节课件_第2页
词项Term加权问题细节课件_第3页
词项Term加权问题细节课件_第4页
词项Term加权问题细节课件_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

IR(继续)参考JaimeCarbonell讲稿和《ModernInformationRetrieval》1Today’sTopics词项(Term)加权问题细节GeneralizedVectorSpaceModel(GVSM)最大边界相关法(MaximalMarginalRelevance)SummarizationasPassageRetrieval(基于片段提取的综述)2词项加权问题我们有了“共有词汇”假设:“文档”和“查询”等价于它们含有的词汇集合,它们的相关性可以完全由共有词汇的情况来决定向量空间模型最简单的:二元向量,只是刻画一个词项的出现与否稍复杂些:计数向量,刻画一个词项在文档(查询)出现的次数一般的:我们可以考虑“以文档集合为背景,一个词项在一篇文档中的权重”3TermWeightingRevisited(2)DefinitionsC ,一个收藏(收集,Collection):一个索引文档的集合(例如,1998年人民日报的所有文章,Web等)Tf(wi,Dj) “TermFrequency:”,词频,wi在文档Dj中出现的次数。人们有时候通过除以该文档中最大的非停用词的TF对Tf进行规格化[Tfnorm=Tf/max_TF].5TermWeightingRevisited(3)DefinitionsDf(wi,C) “documentfrequency,文档频率:”,wi

至少在其中出现一次的文档的个数.Df

通常,我们取规格化的结果,即除以C中的文档总数。IDf(wi,C) “InverseDocumentFrequency”: [Df(wi,C)/size(C)]-1.多数情况下人们用 log2(IDf),而不是直接的IDf。6TermWeightingRevisited(4)词项在TfIDf意义下的权重(相对于一个文档)一般来讲:TfIDf(wi,Dj,C)= F1(Tf(wi,Dj)*F2(IDf(wi,C))通常,F1=0.5+log2(Tf),orTf/Tfmax or0.5+0.5Tf/Tfmax通常,F2=log2(IDf),“抑制函数”在Salton的SMARTIR系统中:TfIDf(wi,Dj,C)= [0.5+0.5Tf(wi,Dj/Tfmax(Dj)]*log2(IDf(wi,C))7TFIDF的(启发式)含义一个词项在一篇文档中的“重要性”和它在该文档中出现的次数成正比(局部)和它在文档集合中涉及文档的个数成反比(全局)重要性设计的目地区别两个文档对同一个查询的相关程度共有词(频)越多,则相关程度应该越高(同一性强)如果一个共有词在文档集合中出现得很普遍,则由它反映的相关程度应该越低(区分性差)8TermWeightingbeyondTfIDf(1)概率模型传统概率方法(计算q和d相关的概率)R.R.Korfhage,InformationStorageandRetrieval.JohnWiley&Sons,Inc.,NewYork,1997G.Marchionini,InformationSeekinginElectronicEnvironments.CambridgeUniversityPress,NewYork,1995Improvesprecision-recallslightly完整的统计语言学模型(CMU) Improvesprecision-recallmoresignificantly概率模型的共同缺点是计算效率不够高10TermWeightingbeyondTfIDf(2)神经网络理论上有吸引力不幸的是,基本谈不上什么可扩展性(规模不能大)模糊集合研究还不够深入,也会有扩展性的困难11GeneralizedVectorSpaceModel(1)原理通过其在多个文档中出现的模式(occurrencepatterns)来定义词项对查询中的词项也同样定义相似度的计算基于对d和q中重叠的模式来进行13GeneralizedVectorSpaceModel(2)好处自动包含了部分相似的效果如果“heartdisease”,“stroke”和“ventricular”共同出现在许多文档中,那么即使查询只包含其中一个,则包含其他几个的文档也会得一些分,和它们的文档“共生率”成一定比例。不需要做查询扩展或者相关性反馈14GeneralizedVectorSpaceModel(3)不利因素计算开销较大效果=“向量空间+Q扩展”的效果15Bytheway…Synonymy,同义词,影响recallPolysemy,多义词,影响precision17query-document的相似度计算相应变化,sim(q,d)不再是q和d的向量点乘,而是用上述“词项-词项”相似度的某个函数。例如,对q的每一个词项,分别得到它和d中词项的最大相似度,将这些最大相似度加起来得q和d的相似度:sim(q,d)=Σi[maxj(sim(tqi,tdj)]通常也以q和d的长度为基础做规格化:simnorm(Q,D)=GVSM,HowitWorks(2)18GVSM,HowitWorks(3)主要问题:

需要较大的计算量(sparse=>dense)主要好处:

自动完成了通过语料的termexpansion19对于单纯追求相关性的批评(2)其他重要的因素信息的新颖性novelty,

时新性timeliness,freshness,合适性appropriateness,有效性validity,可理解性comprehensibility,强度density,...??信息获取,我们其实是要最大化:

P(R(fi,...,fn)|Q&{C}&U&H)

其中Q=查询,{C}=文档集合, U=用户背景,H=交互历史,fi=某种因素...butwedon’tyetknowhow.Darn.21最大边界相关MaximalMarginalRelevance一种粗浅的近似:

novelty=>minimal-redundancy加权线性组合,重新确定文档序值: (redundancy=cost,relevance=benefit)自由调整参数:kandλ22MaximalMarginalRelevance(2)MMR(Q,C,R)=Argmaxkdi

inC[λsim(Q,di)-(1-λ)maxdj

inR(sim(di,dj))]Q,查询C,所有文档的集合R,已得到的一个以相关度为基础的初始集合Argmaxk[*],给出集合中k个最大元素的索引23MMRRankingvsStandardIRquerydocumentsMMRIRλ

controlsspiralcurl25MaximalMarginalRelevance(MMR)(4)应用:对从IR引擎中获得的文档重新定序在自动生成综述(summary)的应用中对要包含的片段(passage)的定序。一篇文章可能有近似的句子或段落,但综述中不宜有。26以片段提取为基础的综述(1)查询驱动的综述:将文档分成片段

e.g,sentences,paragraphs,FAQ-pairs,....用查询来提取最相关的片段,或者考虑MMR来避免冗余。将提取的片段装配成综述。29SummarizationasPassageRetrieval(2)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论