信息检索导论-王斌-第二次课后作业(6-12)_第1页
信息检索导论-王斌-第二次课后作业(6-12)_第2页
信息检索导论-王斌-第二次课后作业(6-12)_第3页
信息检索导论-王斌-第二次课后作业(6-12)_第4页
信息检索导论-王斌-第二次课后作业(6-12)_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1、习题6-10tf-idf = tf * idfcar的tf-idf值在三篇文档中分别为:doc1:27*1.65= 44.55 ; doc2:4*1.65= 6.6; doc: 24*1.65= 39.6 ;auto的tf-idf值在三篇文档中分别为:doc1:3*2.08= 6.24 ; doc2:33*2.08= 68.64 ; doc : 0*2.08= 0;insurance 的tf-idf 值在三篇文档中分别为:doc1:0*1.62= 0; doc2:33*1.62= 53.46 ; doc : 29*1.62= 46.98 ;best的tf-idf值在三篇文档中分别为:doc

2、1:14*1.5= 21.0 ; doc2:0*1.5= 0; doc : 17*1.5= 25.5 ;2、习题6-191/1.922 = 0.521301/1.922 = 0.677词查询文档qi*d itfwfdfidfq i=wf-idftfwfd i=归一化的wfdigital111000033110.521.56video0010000020110.520cameras11500002.3012.30121.3010.6771.558所用公式:wf = 1+ ?裨?w 0i0?idf?log ?归一化: x2 + 12 + 1.301 2 = 1.922-可编辑修改-最后的相似度结果

3、为:1.56+1.558=3.1183、习题7-2胜者表是提出的一种更快获取得分较高文档的一种方法,基本思路是考虑r篇白tf tf值。但在实际应用中,还应考虑到文档长度以及用户对搜索结果的关注程度等因素,并希望只关注那些不仅相关度高并且权威度也大的文档。如果只根据tf值来选取最后的结果文档,很可能导致的情况是,搜索结果和查询虽然相关,但会有文档长度过长且不是用户想得到的结果的问题。因此在考虑到全局的情况下,引入了 g(d)和tf-idf来对胜者表进一步扩展和精确。这样高分文档更可能在倒排索引的前期出现。4、习题7-8-可编辑修改-5、习题8-8m 心诙l mizmn nnner 鸭相小而;nr

4、/jnr rrnmn 吵。4. ma匕=(t+ 4+ 尹告)忤 0。方十用十对/* n邨m牙修尸ob.系统1的返回结果中相关文档比较集中,靠前两个,靠后两个。系统 2的返回结果中相 关文档比较分散。系统 1比系统2获得较高的map值。排名靠前的相关文档对 map值影响较大,相关文档位置越靠前,系统能获得越高的map值。c. ri=2/4=0.5r2=1/4=0.25按照r正确性值来看,与 map的排序结果一致。6、习题9-34-3 以;l 股限。居0山,四-3): %:江+日看 自彼赊始有响丸” 3_加%胫根%!lq.。)十仅15k(w0.5 lq)0。球hr也。i)二(3珏50.波2山5.卜

5、0。兄.075小沙)二(卷 五二血l (?, 7510 _.斜阳曲&阙变网 遍玳牛,祝由百7、习题9-7矩阵c里的元素表示该词项是否在这些文档中同时出现,1表示同时出现,0表示没有同时出现。-可编辑修改-8、习题11-3(l-j mlj和型仕甘物ld蕈大返峡,gl撤既心) 烝卡力3)噌征林产务三九犀小利g -他心加-闺但会嘴也4l复扁f 帕-)叼产i s7r辟一者卜多抵二帚9、习题12-6d=(, , ,landed, 1, , , ,sensation, 1, ,martin, 1)a. p(the) = 2/11 = 0.182, p(martian) = 1/11 = 0.091b. p

6、(sensation|pop) = 1, p(pop|the) = 010、习题 12-7该文档集的查询似然模型为:clickgotheshearsboysmetalhere模型11/21/81/81/81/800模型21000000模型3000001/21/2模型41/4001/401/41/4文档集模型7/161/161/162/161/162/162/16每篇文档模型对应的概率:p(d|q) 8p(d) n?r?(1 - ? + ?(?)-可编辑修改-querydoc1doc2doc3doc4click15/3223/327/3211/32shears2/161/161/163/16click shears15/25623/5127/51233/512p(click|doc1)=1/2*1/2+7/16*1/2=15/32,p(click|doc2)=1*1/2+7/16*1/2=23/32p(shears|doc1)=1/8*1/2+2/16*1/2=2/16,p(click shears|doc1)=15/32*2/16=15/256对于查询click shear

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论