下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浅析搜索引擎的工作原理及检索技巧
一、前言随着Internet的迅速发展,网上信息正以爆炸性的速度增长,其资源内容几乎涉及所有领域,已经成为知识、信息的集合体,是人们获取信息的基本工具。在Internet网上进行浏览和检索,就好比进入了世界上最大的图书馆,而这个图书馆里的书刊、杂志、广告、新闻及各种形式的文献信息全都没有规律地排放着,没有一个中心目录将这些信息组织起来。正是因为Internet资源既丰富又分散且处于无序状态,使得人们在网上查找自己所需的信息并非易事。这时为满足人众信息检索的需求,搜索引擎便应运而生。搜索引擎是指使用某些自动索引软件来发现、收集网络上的信息,然后对收集的网页进行标引,建立一个可供查询的大型数据库。二、搜索引擎的工作原理搜索引擎为了以最快的速度得到搜索结果,它搜索的通常是预先整理好的网页索引数据库。搜索引擎,不能真正理解网页上的内容,它只能机械的匹配网页上的文字。真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。搜索引擎的工作原理可以看作三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。1.从互联网上抓取网页利用能够从互联网上自动收集网页的爬虫系统程序(或者称为机器人程序),自动访问互联网,沿着任何网页中的所有URL爬到其它网页,重复这一过程,并把爬过的所有网页收集回来。2.建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL,编码类型,页面内容包含的所有关键词,关键词位置,生成时间,大小,与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。3.在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对于该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页而内容摘要等内容组织起来返回给用户。由于Web信息会频繁更新,例如,新闻网页通常每天就要更新,有的网页更新周期可能是一周或几个月,这种频繁更新,会导致数据库内信息的过时。因此,需要更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样,网页的具体文字变化情况就会反映到用户查询的结果中。三、检索技巧1.科学选择关键词。由于搜索引擎智能化程度的影响,它只能在现存的数据库中查找匹配的关键词,因此,这种匹配相对比较盲目,我们在选择关键词时,要注意两方面的问题,才有可能得到较好的搜索效果。2.使用双引号进行精确查询。如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最少、最精确。3.使用加号(+)、减号(-)限定查找。很多搜索引擎都支持在搜索词前冠以加号(+)限定搜索结果中必须包含的词汇,用减号(-)限定搜索结果不能包含的词汇。4.灵活运用使用通配符。很多搜索引擎支持通配符号,如“*”代表一连串字符,“?”代表单个字符。5.使用逻辑词辅助查找。比较大的搜索引擎都支持使用逻辑词进行更复杂的搜索界定,常用的有:AND(和)、OR(或)、NOT(否)及NEAR(两个单词的靠近程度),恰当应用它们可以使搜索结果非常精确。另外,也可以使用括号将搜索词分别组合,如(新闻OR足球)AND(米卢)NoT(“新闻”OR足球)6.有针对性地选择搜索引擎。用不同的搜索引擎进行查询得到的结果常常有很大的差异,这是因为它们的设计目的和发展走向存在着许多的不同,比如:D是针对软件类的搜索引擎,可搜寻大量的自由软件和共享软件。驱动之家主要是提供查找驱动程序及硬件厂商信息。7.使用元词检索。大多数搜索引擎都支持“元词”(metawords)功能,用户把元词放在关键词的前面,就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。例如,你在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。其他元词还包括:image,用于检索图片;link,用于检索链接到某个选定网站的页面;URL,用于检索地址中带有某个关键词的网页。8.细化查询。许多搜索引擎都提供了对搜索结果进行细化与再查询的功能,如有的搜索引擎在结果中有”查询类似网页”的按钮,还有一些则可以对得到的结果进行新一轮的查询。9.尽可能将搜索范围限制在特定的领域里。比如在yahoo中文网站中,你要查找的是与电脑相关的知识,那么你没有必要让搜索引擎在休闲与运动、健康与医药、艺术与人文等其他分类中查找。你可以进入“电脑与因特网”这一类,选中“检索此目录下的网站”。然后再开始搜索。四、结束语参考文献:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《肾移植术后的护理》课件
- 养老院老人生活设施维修人员激励制度
- 养老院老人关爱服务规范制度
- 《用餐的经验过程》课件
- 2024年泥工装修项目合作合同样本版B版
- 施工成本控制的合同(2篇)
- 健美操基本步伐课件
- 2024年甲乙双方关于城市轨道交通信号系统建设与维护合同
- 刑法学课程课件教案绪论
- 2025年廊坊货运从业资格模拟考
- 九年级上册人教版数学期末综合知识模拟试卷(含答案)
- 商标出租合同范例
- 重大版小英小学六年级上期期末测试
- 会计助理个人年终工作总结
- 钢铁厂电工知识安全培训
- 2024年山东省菏泽市中考历史试卷
- 电解加工课件教学课件
- 说明文方法和作用说明文语言准确性中国石拱桥公开课获奖课件省赛课一等奖课件
- 酒店建设投标书
- 2024秋期国家开放大学专科《民法学(2)》一平台在线形考(形考任务1至4)试题及答案
- 《基于javaweb的网上书店系统设计与实现》
评论
0/150
提交评论