




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息检索 导论 课后练习答案 王斌 最后更新日期 2013/9/28 第一章 布尔检索 习题 1* 画出下列文档集 所对应 的倒排索引 ( 参考图 1的例子 )。 文档 1 档 2 in 档 3 in in 档 4 答: 2 3 4 3 3 4 4 4 2 3 4 习题 1* 考虑如下几篇文档: 文档 1 档 2 档 3 of 档 4 a. 画出 文档集 对应的词项 文档矩阵 ; 解答: 文档 1 文档 2 文档 3 文档 4 0 1 0 0 0 0 1 0 0 0 1 1 0 0 1 1 1 1 0 1 0 0 0 1 1 1 1 0 1 0 b. 画出该文档集的倒排索引 ( 参考图 1的例子 )。 解答: 参考 a。 习题 1* 对于习题 1的文档集,如果给定如下查询, 那么 返回的结果是什么? a. ND 答: 文档 1,文档 2 b. R 解答: 文档 4 习题 1* 对于如下查询,能否仍然在 O(x+y)次内完成?其中 x 和 y 分别是 对应的倒排记录表长度。如果不能的话,那么我们能达到的时间复杂度是多少? a. b. R 答: a. 可以在 O(x+y)次内完成。通过集合的减操作即可。具体做法参考习题 1 b. 不能。不可以在 O(x+y)次内完成。因为 倒排记录表需要 提取 其他所有词项 对应的倒排记录表 。所以需要遍历 几乎 全体倒排记录表, 于是 时间复杂度即为所有倒排记录表的长度的和N,即 O(N) 或者说 O(x+ 习题 1* 将倒排记录表合并算法推广到任意布尔查询表达式 , 其时间复杂度是多少?比如,对于查询 c. (R R 我们能在线性时间内完成合并吗?这里的线性是针对什么来说的?我们还能对此加以改进吗? 解答: 时间复杂度为 O(其中 q 为表达式中词项的个数, N 为所有倒排记录表长度之和。也就是说可以在词项个数 q 及所有倒排记录表长度 N 的线性时间内完成合并。由于任意布尔表达式处理算法复杂度的上界为 O(N),所以上述复杂度无法进一步改进。 习题 1* 假定我们使用分配律来改写有关 查询表达式。 a. 通过分配律将 习题 1的查询写成析取范式 ; b. 改写之后的查询 的 处理 过程 比原始查询处理 过程 的效率高还是低? c. 上述结果对任何查询通用还是依赖于文档集的内容 和 词 本身 ? 解答: a. 析取范式为: (b. 这里的析取范式处理比前面的合取范式更有效。这是因为这里先进行 括号内 ),得到的倒排记录表都不大,再进行 前面需要先进行 到的中间倒排记录表会更大一些。 12 c. 上述结果不一定对,比如两个罕见词 构成的查询 (A ) R 假设 时合取方式可能处理起来更高效。如果在析取范式中仅有词项的非操作时, 不对。 习题 1* 请推荐如下查询的处理次序 。 d. (R R R 其中,每个 词项 对应的倒排记录表 的 长度 分别 如下: 词项 倒排记录表长度 213 312 87 009 107 913 271 658 46 653 316 812 解答: 由于: (R 46653+316812 = 363465 (R 107913+271658 = 379571 (R 87009+213312 = 30321 所以推荐处理次序为: (R R R 习题 1 对于查询 e. ND 如何利用 文档频率来估计最佳的查询处理次序?特别地,提出一种在确定查询顺序时对逻辑非进行处理的方法。 解答: 令 x、 y、 z。 如果 则将 OT 然后按照 x、 y、 小到大合并。如果 z 极低,则按照 x、 y、 z 从小到大合并。 习题 1* 对于逻辑与构成的查询,按照倒排记录表从小到大的处理次序是不是一定是最优的?如果是,请给出解释 ; 如果不是,请给出反例。 解答:不一定。比如三个长度分别为 x,y,z 的倒排记录表进行合并,其中 xyz, 如果 x 和 y 的交集为空集,那么有可能先合并 x、 y 效率更高。 习题 1* 对于查询 x OR y,按照图 1方式,给出一个合并算法。 解答: 1 b. 当两个表进行合并时,倒排记录之间的比较次数是多少? 【如下答案不一定正确,有人利用程序计算需要 21 次,需要回到算法 ,本小题不扣分 ,下面不考虑重新比较同意对数字 】 解答: 18 次: , , , , c. 如果 不使用跳表指针,那么倒排记录之间的比较次数是多少? 解答: 19 次: , , 习题 2* 下面给出的是一个位置索引的一部分,格式为: 词项 : 文档 1: 位置 1, 位置 2, ; 文档 2: 位置 1, 位置 2, 。 2: 36,174,252,651 ; 4: 12,22,102,432 ; 7: 17 ; 2: 1,17,74,222 ; 4: 8,78,108,458 ; 7: 3,13,23,193 ; 2: 87,704,722,901 ; 4: 13,43,113,433 ; 7: 18,328,528 ; 2: 3,37,76,444,851 ; 4: 10,20,110,470,500 ; 7: 5,15,25,195 ; 2: 2,66,194,321,702 ; 4: 9,69,149,429,569 ; 7: 4,14,404 ; 2: 47,86,234,999 ; 4: 14,24,774,944 ; 7: 199,319,599,709 ; 2: 57,94,333 ; 4: 15,35,155 ; 7: 20,320 ; 2: 67,124,393,1001 ; 4: 11,41,101,421,431 ; 7: 16,36,736 ; 那么哪些文档和以下的查询匹配? 其中引号内的每个表达式都是一个短语查询。 a. “ 解答: 文档 2、 4、 7 b. “to 解答: 文档 4 第三章 词典及容错式检索 习题 3次考虑 中的查询 fi*mo*果 采用 2引的话,那么对应该查询应该会产生什么样的布尔查询?你能否举一个词项的例子,使该词匹配 的轮排索引查询,但是并不满足刚才产生的布尔查询? 解答: 2引下的布尔查询: $f ND ND ND r$ 词项 盗 )满足 的轮排索引 查询,但是并不满足上述布尔查询 习题 3果 | 表示字符串 长度,请 证 明 编辑距离不可能超过 |。 证明: 不失一般性,假设 |q,q,(根据题意文档采用 询采用 后计算内积,于是有: 词项 查询 q 文档 分 tf(a) 一化tf 一化 7 0 4 1 项 查询 q 文档 分 tf(a) 一化tf 一化 3 3 0 词项 查询 q 文档 分 tf(a) 一化tf 一化 4 0 9 7 于是,在 , q,q,q,第七章 一个完整搜索系统中的评分计算 习题 7定 单 个 词项 组成的 查询,请解释为什么采用全局胜者表 ( r=K) 已经能够充分保证找到前K 篇文档。如果只有 s 个词项组成的查询 ( s1) ,如何对上述思路进行修正 ? 解答: 词项 t 所对应的 高的 r 篇文档构成 t 的胜者表。单词项查询, 经不起作用了 (于区别不同词的先天权重 ),所以此时已经足够了。 对于 s 个词项组成的查询 ,有 重了。因此,不再独立。 【这一问本人也不知道该怎么答,不扣分吧】 习题 7新考察习题 6基于 重计算的数据,假定 静态得分分别是 1 和 2。请确定在公式 ( 7下,如何对 静态得分进行取值,才能分别保证它能够成为查询 排名第一、第二或第三的结果。 解答:这道题不扣分吧。整个书上有关余弦相似度的计算这块都有问题【即 按照 公式 (7(6出的应该 是 0 到 1 之间 的数,但实际例子 (例 6 是大于 1 的数,例子 中都没有考虑查询向量的大小 。另外, 按照 习题 6 出的根本不是什么余弦相似度 。整个一团乱 】 如果相似度先采用 算,最后除以文档向量的大小,则三篇文档的得分分别为: 排名第一: g( g( 排名第二: 十三章 文本分类及朴素贝叶斯方法 习题 13* 表 13的文档中,对于如下的两种模型表示,哪些文档具有相同的模型表示?哪些文档具有不同的模型表示?对于不同的表示进行描述。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《一、奔跑的鸵鸟》(教学设计)-2024-2025学年二年级上册综合实践活动山东科学技术版
- 2023七年级数学上册 第一章 有理数1.3 有理数的加减法1.3.2 有理数的减法第1课时 有理数的减法教学设计(新版)新人教版
- 胸引管护理操作流程
- 2024新教材高中历史 第五单元 工业革命与马克思主义的诞生 第10课 影响世界的工业革命教学设计 部编版必修中外历史纲要下
- 4山行教学设计-2024-2025学年三年级上册语文统编版
- 《学画写意花卉-梅花》教学设计-鲁教版五四制七年级美术上册
- 1 春夏秋冬(教学设计)-2024-2025学年统编版(2024)语文一年级下册
- 7 角的初步认识第二课时(教学设计)-2023-2024学年二年级下册数学苏教版
- 一年级道德与法治上册 第四单元 银色的冬天 14《庆元旦迎春节》教学设计设计2 鄂教版
- Module4 Unit2 What's the matter with Daming(教学设计)-2024-2025学年外研版(三起)英语五年级上册
- 2024年电子商务师真题试题及答案
- 撬装式承压设备系统安全技术规范
- 园艺植物遗传育种 课件全套 第1-10章 绪论-新品种的审定与推广繁育+实训
- 2025-2030中国免洗护发素行业市场发展趋势与前景展望战略研究报告
- 《智能优化算法解析》 课件 第6章-基于群智能的智能优化算法
- 云南省卫生健康委所属事业单位招聘工作人员真题2024
- 2025年全国国家版图知识竞赛题库及答案(中小学组)
- 《红岩》中考试题(截至2024年)
- 幕墙UHPC施工专项方案 (评审版)
- 华为IAD132E(T)开局指导书
- EDSS神经功能状况评估
评论
0/150
提交评论