




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1、习题6-10tf-idf = tf * idfcar的tf-idf值在三篇文档中分别为:doc1:27*1.65= 44.55 ; doc2:4*1.65= 6.6; doc: 24*1.65= 39.6 ;auto的tf-idf值在三篇文档中分别为:doc1:3*2.08= 6.24 ; doc2:33*2.08= 68.64 ; doc : 0*2.08= 0;insurance 的tf-idf 值在三篇文档中分别为:doc1:0*1.62= 0; doc2:33*1.62= 53.46 ; doc : 29*1.62= 46.98 ;best的tf-idf值在三篇文档中分别为:doc
2、1:14*1.5= 21.0 ; doc2:0*1.5= 0; doc : 17*1.5= 25.5 ;2、习题6-191/1.922 = 0.521301/1.922 = 0.677词查询文档qi*d itfwfdfidfq i=wf-idftfwfd i=归一化的wfdigital111000033110.521.56video0010000020110.520cameras11500002.3012.30121.3010.6771.558所用公式:wf = 1+ ?裨?w 0i0?idf?log ?归一化: x2 + 12 + 1.301 2 = 1.922-可编辑修改-最后的相似度结果
3、为:1.56+1.558=3.1183、习题7-2胜者表是提出的一种更快获取得分较高文档的一种方法,基本思路是考虑r篇白tf tf值。但在实际应用中,还应考虑到文档长度以及用户对搜索结果的关注程度等因素,并希望只关注那些不仅相关度高并且权威度也大的文档。如果只根据tf值来选取最后的结果文档,很可能导致的情况是,搜索结果和查询虽然相关,但会有文档长度过长且不是用户想得到的结果的问题。因此在考虑到全局的情况下,引入了 g(d)和tf-idf来对胜者表进一步扩展和精确。这样高分文档更可能在倒排索引的前期出现。4、习题7-8-可编辑修改-5、习题8-8m 心诙l mizmn nnner 鸭相小而;nr
4、/jnr rrnmn 吵。4. ma匕=(t+ 4+ 尹告)忤 0。方十用十对/* n邨m牙修尸ob.系统1的返回结果中相关文档比较集中,靠前两个,靠后两个。系统 2的返回结果中相 关文档比较分散。系统 1比系统2获得较高的map值。排名靠前的相关文档对 map值影响较大,相关文档位置越靠前,系统能获得越高的map值。c. ri=2/4=0.5r2=1/4=0.25按照r正确性值来看,与 map的排序结果一致。6、习题9-34-3 以;l 股限。居0山,四-3): %:江+日看 自彼赊始有响丸” 3_加%胫根%!lq.。)十仅15k(w0.5 lq)0。球hr也。i)二(3珏50.波2山5.卜
5、0。兄.075小沙)二(卷 五二血l (?, 7510 _.斜阳曲&阙变网 遍玳牛,祝由百7、习题9-7矩阵c里的元素表示该词项是否在这些文档中同时出现,1表示同时出现,0表示没有同时出现。-可编辑修改-8、习题11-3(l-j mlj和型仕甘物ld蕈大返峡,gl撤既心) 烝卡力3)噌征林产务三九犀小利g -他心加-闺但会嘴也4l复扁f 帕-)叼产i s7r辟一者卜多抵二帚9、习题12-6d=(, , ,landed, 1, , , ,sensation, 1, ,martin, 1)a. p(the) = 2/11 = 0.182, p(martian) = 1/11 = 0.091b. p
6、(sensation|pop) = 1, p(pop|the) = 010、习题 12-7该文档集的查询似然模型为:clickgotheshearsboysmetalhere模型11/21/81/81/81/800模型21000000模型3000001/21/2模型41/4001/401/41/4文档集模型7/161/161/162/161/162/162/16每篇文档模型对应的概率:p(d|q) 8p(d) n?r?(1 - ? + ?(?)-可编辑修改-querydoc1doc2doc3doc4click15/3223/327/3211/32shears2/161/161/163/16click shears15/25623/5127/51233/512p(click|doc1)=1/2*1/2+7/16*1/2=15/32,p(click|doc2)=1*1/2+7/16*1/2=23/32p(shears|doc1)=1/8*1/2+2/16*1/2=2/16,p(click shears|doc1)=15/32*2/16=15/256对于查询click shear
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国三氟化氮市场运行前景及未来发展趋势研究报告
- 2025至2031年中国精密校准件行业投资前景及策略咨询研究报告
- 新疆生产建设兵团第七师中学2024-2025学年高三3月网络考试物理试题含解析
- 2025-2030年中国LED封装键合银线行业市场深度调研和投资潜力研究报告
- 徐州工程学院《服装与化妆技巧》2023-2024学年第一学期期末试卷
- 与但丁讨论神曲高清大图(含详细人名)
- 2025-2030宠物罐头市场发展现状调查及供需格局分析研究报告
- 2025至2031年中国甲硝唑葡萄糖行业投资前景及策略咨询研究报告
- 平安公务车系统培训资料
- 2025至2031年中国环缝碾平机行业投资前景及策略咨询研究报告
- 广州广州市天河区华阳小学-毕业在即家校共话未来-六下期中家长会【课件】
- 公司事故隐患内部报告奖励制度
- 大学生创新创业基础(创新创业课程)完整全套教学课件
- DL∕T 5210.6-2019 电力建设施工质量验收规程 第6部分:调整试验
- ansys电磁场分析经典教程
- 美国数学竞赛AMC8讲座课件
- Unit 1 Looking forwards Understanding ideas 教学设计-高中英语外研版(2019)选择性必修第四册
- 2020年国家义务教育质量测查德育科目模块一模拟试题含参考答案
- 导管固定-PPT课件
- 服务器、存储、网络及安全设备visio图标系列PPT课件
- 《历史文献学》教学大纲
评论
0/150
提交评论