




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、搜索引擎及其性能改良方法研究搜索引擎及其性能改良方法研究引言随着的迅速开展,网上的信息也飞速膨胀。用户的主要问题不是信息不够,而是信息过剩Infratinverlad。如何帮助人们有效利用的海量信息资源成为当务之急,其首要任务便是发现信息人们迫切需要有效的导航工具,以协助用户找到所需信息。搜索引擎是一种信息检索工具,衡量其查询质量有两个重要标准:查全率和查准率sup1/sup。查全率在信息检索领域的定义是:系统在进展某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。查准率是指在返回结果中相关页面占返回结果页面总量的比率。其
2、中查全率主要通过分布抓娶抓取动态网页来改良。对于查准率,由于判断网页是否相关是用户的主观感受,因此改良查准率并没有普适的方法。用户访问搜索引擎的根本操作包括:提交查询、阅读结果页面和在结果页面中点击相关网页。用户的查询意图以及对结果的满意程度都表达在这些行为中,而这些行为都记录在搜索引擎的用户日志中。分析本文由论文联盟.LL.搜集整理用户日志可以得到用户使用搜索引擎的根本特征,以这些根本特征为根据改良搜索引擎,可以进步搜索引擎的效劳质量。1搜索引擎分类尽管目前存在数量众多的搜索引擎,但根据它们所基于的技术原理,可以将它们分成三大主要类型:基于机器人Rbt的搜索引擎、目录式Diretry或ata
3、lg搜索引擎和元eta搜索引擎。这三类搜索引擎中,元搜索引擎是基于第一类和第二类搜索引擎。第一类搜索引擎基于Rbt的搜索引擎与第二类搜索引擎目录式搜索引擎各有如下特点:1基于Rbt的搜索引擎自动搜集、分析和处理网页,因此它索引的网页数多、信息量大,并且可以定期重新搜集网页,更新索引库的内容,向用户提供最新的eb网页信息。一般要定期访问大多数以前搜集的网页来刷新索引,以反映出网页的更新情况,同时还要去除一些死链接和镜像网页。网页局部内容的变化情况将反映到用户查询的结果中,这是基于Rbt的搜索引擎的一个重要特征。但它只提供基于关键词的检索,用户只有确切地知道自己感兴趣的网页含有哪些关键词时,查询效
4、果才比拟理想。否那么,返回的结果很可能和用户的实际需求风马牛不相及。这类搜索引擎的代表,国外有Ggle、AltaVista、NrthernLight、Exite、Infseek、Inkti、FAST、Lys等,国内有天网、百度、悠游等。2目录式搜索引擎支持基于分类目录的查询。目录式搜索引擎对搜集的网页采用人工分类,这种人工方式对网页内容的理解比拟准确。目录式搜索引擎的数据库依靠专职编辑或志愿人员建立起来。这些编辑人员在访问某个eb站点后撰写一段对该站点的描绘,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描绘放在该类别中。信息大多面向网站,提供目录阅读效劳和直接检索效劳。很
5、多目录也承受用户提交的网站和描绘,当目录的编辑人员认可该网站及描绘后,就会将之添加到适宜的类别中。目录的用户界面根本上都是分级构造,首页提供了最根本的几个大类的入口,用户可以按照目录构造层层向下访问,直至找到自己感兴趣的类别。另外,用户也可以利用目录提供的搜索功能直接查找一个关键词,该类搜索引擎因为参加了人的智能,因此用户从目录搜索得到的结果往往比从基于Rbt的搜索引擎得到的结果更具参考价值。缺点是需要人工介入、维护量大、信息量少、信息更新不及时。当用户对某个领域感兴趣但并不熟悉该领域的关键词时,这种查询方式能为用户提供更好的效劳。由于人工分类效率低,网页更新困难,目录式搜索引擎在索引网页的规
6、模上受到了很大限制。这类搜索引擎的代表有Yah、AL等。由于目录式搜索引擎完全采用人工进展网页的搜集和分类,其网页规模和更新速度与Internet的网页总量和网页更新速度相差太远,其涵盖的范围无法满足用户的需要,已经逐渐被基于Rbt的搜索引擎所代替。同时,基于Rbt的搜索引擎在用户的抱怨声中不断成长,不断改良检索质量,目前已经成为eb用户发现网上信息必不可少的工具。2目前搜索引擎存在的缺乏目前正处于第3代搜索引擎的研发阶段,这代搜索引擎没有某个单一的目的。它需要跟上的开展速度,为用户提供更快、更准确的查询结果。智能化、个性化、专业化成为其追求的目的。同第一代搜索引擎技术相比,第二代搜索引擎在各
7、方面都得到了很大进步,但是现有的搜索引擎技术仍然不能满足用户的需求。之前在RperStarh的调查中指出,36%的互联网用户一个星期花了超过2个小时在网上搜索;71%的用户在使用搜索引擎时遇到过费事;平均搜索12分钟后发现搜索受挫,搜索受挫中46%都是因为链接错误;86%的互联网用户感到应当出现更有效、更准确的信息搜索技术。另一项由Keen所做的调查显示,人们平均每天有4个问题需要从外界获取答案;其中31%的人使用搜索引擎寻找答案;平均每周花费8.75个小时找寻答案;网上查找答案的,半数以上都不成功。从这些调查数据中不难看出,目前的搜索引擎仍然存在不少局限。造成上述信息检索困难的本质原因在于,
8、传统的搜索引擎对要检索的信息仅仅采用机械的关键词匹配来实现,缺乏知识处理才能和理解才能,也即搜索引擎无法处理在用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识等。而搜索引擎从根本上说是为用户提供效劳,就需要研究用户行为,从中获取用户使用搜索引擎的一般性规律,这就等于学到一些用户认同的普遍常识,并用这些规律来对搜索引擎进展有针对性的改良。对于某些用户譬如经常访问搜速引擎的用户,可以考察其特性,为其提供量身订做的效劳。搜索引擎的用户日志中记录了用户访问搜索引擎的大量数据,对其进展分析可以得到用户访问搜索引擎的一般性规律和某些用户的特性。3性能改良及测试3.1日志分析Ggle是
9、搜索引擎的典型代表sup2/sup,它提供对30亿文档其中包括2073418204张网页的访问,利用高效的算法和庞大的机器资源,向用户提供高质量的检索效劳。国内搜索引擎中,具代表性的是北京大学网络与分布式实验室研究开发的天网Tianang搜索引擎。自1997年10月正式在ERNET上提供查询效劳以来,受到学术界和用户的广泛好评。本研究对天网系统一个月的日志进展实验性分析,统计用户访问天网系统的查询、翻页、点击行为,希望从中找到用户查询行为的一些规律。并且,针对搜索引擎的ahe设计了一系列实验,验证其可行性,并且测试了几种交换算法,得到如下结论:1在使用天网的用户中,有一些是属于长期的固定用户,
10、他们经常使用天网,大约占天网用户的20%,他们的查询占到了80%。而有30%以上的用户只是偶然使用一下天网,他们在一个月的时间内只使用了一次天网。2对天网用户的翻页点击行为进展分析发现,80%以上的查询用户只阅读了第一页内容,这说明第一页内容对于搜索引擎的形象至关重要。60%以上的查询用户没有在结果中点击页面,这表示用户对于天网搜索引擎的返回结果满意度不高。3用户的查询一般都不长,4个汉字以下8byte的查询词占到60%以上,而用户的查询词一般都被切成24个单词,99%以上的查询词都不在词典中出现。4用户的查询词、用户点击url、用户查询词切词得到的单词序列,全部具有很强的集中性、一定的短期相
11、关性和长期稳定性,可以考虑在查询端对查询词和索引端对单词进展ahe,以进步响应速度,并对未在查询ahe中命中的查询进展切词得到的单词序列进展分析,考察索引ahe的可行性。分析发现,该单词序列的集中性非常强烈,不到10%的单词占到了80%以上。由此可知,索引端的ahe也是非常可行和必要的。5对FIF、LRU、LFU3种ahe交换策略进展模拟实验,考察这3种交换算法的命中率。结果说明,LRU和LFU不分高低,FIF略低于二者,而时间性能方面,FIF和LRU要远好于LFU。因此,从时间效率和命中率两个角度考虑,LRU是最合适的交换算法。对于LRU,其命中率随ahe容量的增加而进步,当ahe容量超过5
12、000后,其增长趋于缓和。由此可知,根据目前情况,天网搜索引擎的查询ahe大小在5000比拟适宜。3.2位置相关性分析在分析用户查询行为时,发现这样两个规律:1用户的查询词一般都很短,24个汉字的查询词居多,8个字节长度以下的查询词占到总查询词的61.2%。2用户的查询词往往都不是一个单词,只有不到1%的查询词是字典里的单词,其它绝大局部查询词都被切分成多个单词。一般而言,假如用户输入的查询词是24个汉字,他们应该是把该输入作为一个整体提交给搜索引擎,比方用户提交频率很高的大鸿米店,用户希望返回的结果页面一定是包含大鸿米店的页面,但是经过切词,大鸿米店被切成了四个字大+鸿+米+店,索引子系统会
13、提取大、鸿、米、店4个字出现的文档,进展合并后排序。这样返回的结果只是包含了这4个字,并不一定全部是用户想要的文档;而且,假如其排序只是考虑各个词出现的多少,这样排在前面的更不一定是用户所需要的。因此在处理用户查询时,必须考虑用户输入查询词中单词之间的位置关系,为此,设计并实现了位置相关性模块。假如在处理查询时考虑查询词中单词之间的关系,就必须在索引数据库中记录单词的位置,这样才能在处理时进展匹配。因此,位置相关性模块涉及天网系统的两个局部:1搜集子系统。在网页抓取程序抓取网页进展切词的同时记录每篇文档中每个单词的位置信息。2索引子系统。在建立索引数据库时,将单词位置关系也保存到索引数据库中。
14、同时,在处理查询时,返回的结果要将单词位置关系和用户输入的查询词中单词位置关系进展匹配,有一样位置相邻关系的文档应该排在前面。位置相关性模块的系统构造如图1所示。图1位置相关性模块构造3.3测试结论根据日志分析结果,可以对天网进展3方面的改造:1增加位置相关性模块进步查询质量。传统的搜索引擎在定序时只考虑单词的出现次数而不考虑单词的位置关系,位置相关性模块打破了这种定序方式。它优先考虑用户查询中的单词位置关系,将与用户查询的单词位置关系一致的文档排在前面,借此来进步查询质量。2改造ahe模块进步响应速度。新的ahe系统为二级ahe构造,分为查询ahe和索引ahe两个局部。查询ahe属于查询子系统,容量5000,采用LRU交换算法,索引ahe属于索引子系统,容量500,采用静态ahe。3增加自动目录导航效劳进步用户满意程度。自动目录导航效劳为用户提供类别内阅读和类别内查询两个功能,用户可以沿着预先设定好的类别层层前进,到达感兴趣的类别进展阅读和查询。4结语本文对用户日志进展研究,以探寻用户访问的一般性规律,并根据研究结论对搜索引擎进展改造。研
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商业地下停车位租赁合同协议
- 3食物的消化(教学设计)-2023-2024学年科学六年级上册粤教版
- 版权许可合同 广播电视节目播放权许可合同
- 地下停车场使用合同
- 2023-2024学年陕教版小学信息技术三年级下册 第一单元 第3课 认识键盘大家族(教学设计)
- 机械施工劳务合同范本
- 7《健康看电视》(教学设计)2024-2025学年统编版道德与法治四年级上册
- 5 玲玲的画(教学设计)-2024-2025学年统编版语文二年级上册
- 借款经营合同范本
- 赠与过户合同范本
- (完整版)200210号文-工程勘察设计收费标准(2002年修订本)
- 部编版语文二年级上册第1单元核心素养教案
- 发展汉语初级口语I-第18课课件
- GB/T 43200-2023机器人一体化关节性能及试验方法
- XX森林康养度假建设项目可行性研究报告
- 小学奥数七大模块思维导图课件
- 火力发电厂OVATION 与西门子控制系统之间通讯实现
- 我长大以后【经典绘本】
- 2023学年完整公开课版闸阀
- 中国湿疹诊疗指南
- 国家电网有限公司电网数字化项目工作量度量规范应用指南(2020版)
评论
0/150
提交评论