下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 收集文档 (38-9*15 /6; 79*15 E529J ) 。 以上过程是顺序执行的。一般来说, 收集文档所占用的时 间最长, 其次是创建索引, 最后是传递索引。 主要采用三种方法: L,M 在访问文档时, ( ) 直接访问: 直接通过 NO, 来访问文件; (! ) 档案访问: 由 P3E 对 多 个 文 件 建 立 档 案 , 然后再传递 这些档案文件; (# ) 每次访问时, 每 个 文 件 都 通 过 DKKC 进 行 DKKC 访 问 : 传递。 在这三种搜集文档的方法中, 直接访问最快, 其次是档案 访问,最后是 DKKC 访问。为了检查上面哪种方法比较适用, 索引擎即使可以
2、搜索到包含指定关键词的所有文文件, 但是如 果搜索的页面太多, 搜索引擎就不能够从中选择出最重要的页 面。所以可以采用计分的方法来划分不同等级的文文件, 分数 越高, 该文档与查询谓词的关联程度就越大。 在对文档进行分级的所有方法中, 87V127 方 法 是 最 流 行 的 一种, 其中 87 是文档中某条目所出现的频率, 127 是某条目的稀 可以计算出 127 的值: 疏度。根据公式 ( ) ($ ) !"#W46 % ( ) 其中 $ 是所有文档的数量, % 是包含某条目文档的数量。 在 P,M 系 统 中 , 127 值 的 计 算 是 被 分 配 到 搜 索 过 程 中
3、与 搜 索过程并行执行的。 P,M 使 用 P3E, 又 称 为 探 测 器 , 来 探 测 Q9R ,9*09* 所 处 的 状 态。此外, P3E 还通过 ,9*09*S668 和 Q9R 服务器上的 T>9* 表为 每个用户创建自己的档案文件, 然后将这些档案文件传送给搜 索引擎。 U 结论 该文描述了一种新的分布式搜索引擎, 叫作协作式搜索引 擎 (P,M ) , 介绍了它的框架、 搜索和更新过程。P,M 通过元搜索 引擎将多个本地搜索引擎集成在一起协调工作, 多个本地搜索 引擎能够协调工作是由于元搜索引擎隐藏、 屏蔽了本地搜索引 擎的不同。在 P,M 中, 通过直接访问和档 案
4、 访 问 , 每个本地搜 索引擎能够快速更新 Q9R 站点上的文档,从而 P,M 克服了目 前的分布式搜索引擎 (如 D*09>8, 不能协调利用本地搜 36649 ) 索引擎、 收集文件时间过长以及本地搜索引擎之间响应不一致 的问题。因此, 更新及时、 定位准 P,M 能够真正实现收集快速、 确。 (收稿日期: !""# 年 月) # 协作式搜索引擎 (P,M ) 的特征 ( ) (S6R68) 增加并行 性 , 从而可以 P,M 采用分布式机器人 同时搜集多个文档 A%B。 (! ) P,M 主要是由多个彼此间相互协作的本地元搜索引擎 构成, 本地元搜索引擎是本地
5、搜索引擎与存储服务器进行通信 的接口。 (# ) 因为每个 Q9R 站点 上 的 索 引 代 P,M 的更新周期较短, 理 是 通 过 直 接 访 问 Q9R 文 文 件 来 建 立 索 引 的 , 而 不 是 通 过 DKKC 访问来建立索引的。 (U ) 采用 “下 " 个” 搜索方法, 提高用户获取信息的效率。 “下 " 个” 搜索方法是指搜索引擎先将搜索到的与查询条 而且每个页 面 仅 显 示 " 件相匹配的 " 个文文件显示给用户, 个, 用户在浏览这 " 个文文件的同时, 搜索引擎仍在后台不停 地搜索。这样就减少了用户查询信息所发费
6、的时间, 提高用户 获取信息的效率。 (% ) 根据与查询条件相关联的程度对文件划分等级。 参考文献 杨晓江$基于元资料与 X#H$%" 的分布协作式 Q9R 信息检索AFB$ $王继成, 软件学报, (U ) !"" ; ! !$P (1; Y6.?5 , C989* Y /5Z1 , /*95 S D*2+ 98 4$K-9 D*09>8 E576*?8165 /1>609*+ 52 :;9>> ,+>89?$-88= : .$5;>$<1<$92< ,/3 EKHU C*6;99215> ,9*;-
7、15 >-.*8Z$-*09>8 >-.*8Z$-*09>8$-8?4 .$15*12$6* #$E5*12$-88= : U$36649$-88= : .$6649$;6? %$N6R<+6>-1 ,86 , (156*< T9-* , 6>-17 8*1R<892 ,9*;- M5159 76* O*9>- E576*?8165 S98*1904APB$E5: K-1*2 E589*581654 (NYE,&# ) , !""&"H Q6*>-6= 65 N98.6*&Y
8、>92 E576*?8165 ,+>89?> P,M 可 以 根 据 与 查 询 谓 词 相 关 联 的 程 度 把 文 档 划 分 为 不 同的等级, 这也是一种减少更新周期的方法。这是因为一个搜 (上接 % 页) 软件体系结构是近来流行的软件设计模式, 它已经成为复 杂系统高层设计所关注的焦点。通常, 传统设计者不得不时刻 面对着新需求新技术的挑战, 而软件体系结构的研究通过为相 似的系统建立共通化的体系结构减少开发应用系统的开销。 该 文主要对管道 &过滤器这种面向数据流的体系结构进行了探讨 并给出了设计原型。对于与用户交互较少的, 面向数据流的应 中 止 用系统人们可以用这种体系结构建模, 提高开发效率, 实现软 件复用。 (收稿日期: !""# 年 月) 输 入 数 据 队 参考文献 列 为 空 $(*+ ,-. , /012 3*45$,678.*9 :*;-189;8<*9 : =9*>=9;8109> 65 5 9?9*15 21>1=41
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年秋季六年级班主任工作计划范文(34篇)
- 分包采购合同框架协议(2篇)
- Unit2into the Future(词汇短语句式)-2025届高三人教版英语一轮复习闯关攻略(解析版)
- 通关03 世界史选择题专练(解析版)
- 第2单元 第二次工业革命和近代科学文化(A卷·知识通关练)(解析版)
- 2024年度天津市公共营养师之三级营养师考前冲刺试卷B卷含答案
- 2025装修工程施工承包合同
- 2025年中国萍蓬草子行业市场全景评估及投资策略咨询报告
- 贸易组织研究院020255世界经济报录数据分析报告初试+
- 2025年中国风衣市场发展前景预测及投资战略咨询报告
- 江苏省盐城市、南京市2024-2025学年度第一学期期末调研测试高三政治试题(含答案)
- 中央2024年住房和城乡建设部信息中心招聘3人笔试历年典型考点(频考版试卷)附带答案详解
- ISO 56001-2024《创新管理体系-要求》专业解读与应用实践指导材料之19:“7支持-7.2能力”(雷泽佳编制-2025B0)
- 2024秋新商务星球版地理7年级上册教学课件 第5章 地球表层的人文环境要素 第4节 发展差异与区际联系
- 2025学年人教新版英语七下Unit1随堂小测
- 2024版教育培训机构店面转让及课程合作协议3篇
- 《BL急性肾盂肾炎》课件
- 2024-2025学年上学期上海小学语文六年级期末模拟试卷
- 公共卫生人员分工及岗位职责
- 2024年10月自考13658工业设计史论试题及答案
- 行政前台年终总结述职报告
评论
0/150
提交评论