版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Internet搜索引擎概述摘要:对基于Internet的搜索引擎的含义及分类、基本构成、工作原理及性能评价标准进行了概述,并进一步分析了利用搜索引擎检索网络信息的局限,对其未来的发展趋势作了相应的分析。关键词:搜索引擎,网络信息检索,发展趋势1搜索引擎的含义及其分类搜索引擎,即searchengine,这一词在国内外因特网领域中被广泛的使用,然而。它的含义却不尽相同。在美国。搜索引擎通常指的是基于因特网的搜索引擎,它们收集因特网上几千万到几亿个网页,并且每一个网页上的每一个词都被搜索引擎所收录,也就是我们所说的全文检索,典型的如Goog|e,In[oseek,HotBot。在中国,搜索引擎通常指的是基于网站目录的搜索服务或者是特定网站的搜索服务,前者如搜狐、新浪等公司开发的网站搜索服务,后者如Chinaren网站提供的全文检索服务。而本文研究的搜索引擎是指一种基于Intemet的信息查询工具,即一种基于Internet的信息查询系统,包括信息采集、信息标引和信息检索三个主要部分。现有的搜索引擎基本上分为三类:singlesearchengine(独立搜索引擎)它的特点是仅在搜索引擎自身的数据库检索信息,比如Yahoo。Metasearchengine(元搜索引擎)它在检索信息时通过调用其它多个独立的搜索引擎来完成检索功能,并且能够将从多个独立搜索引擎查询的结果进行不同程度的处理,比如删除重复结果、校验连接、结果按照相关度排序等。元搜索引擎本身可以有也可以没有自己的数据库。由于不同的元搜索引擎挂接的独立搜索引擎各不相同,且各自独立的搜索引擎在查询语法上的差别较大,使得元搜索引擎本身仅支持AND、OR、NOT等简单的语法操作,返回的结果只能满足“最低常用分母”,即不能提高搜索结果的准确性。Netsearchengine(网络搜索软件)就是网络用户可以将相应的搜索软件下载至本地的计算机上,安装查询,这是一种具有网络查询功能的离线浏览器。相对于元搜索引擎,它可以灵活地控制输出结果,其最大特点是方便用户使用和能快速地查询网络相关资源。2网络搜索引擎的工作原理及其基本构成用户检索信息时,搜索引擎是根据用户的查询要求,按照一定的算法从索引数据库中查找对应的信息返回给用户。为了保证用户查找信息的精度和新鲜度。对于独立的搜索引擎而言.还需要建立并维护一个庞大的数据库。独立搜索引擎中的索引数据库中的信息是通过一种叫做网络蜘蛛(spider)的程序软件定期在网上爬行,通过访问公共网络中公开区域的每一个站点采集网页,对网络信息资源进行收集,然后利用索引软件对收集的信息进行自动标引,创建一个可供用户按照关键字等进行查询的web页索引数据库,搜索软件通过索引数据库为用户提供查询服务。所以,一般的搜索引擎主要由网络蜘蛛、索引和搜索软件三部分组成.网络蜘蛛。是一个功能很强的程序,它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据该网页中的链接继续去访问。网络蜘蛛访问页面的过程是对互连网上信息遍历的过程。为了保证网络蜘蛛遍历信息的广度,一般事先设定_些重要的链接,然后进行遍历。在遍历的过程中不断记录网页中的链接,不断地遍历下去,直到访问完所有的链接。索引软件。网络蜘蛛将遍历搜索集得到的网页存放在数据库中。为了提高检索的效率,需要建立索引。索引一般为倒排档索引。搜索软件。该软件用于筛选索引数据库中无数的网页信息,选择出符合用户检索要求的网页并对它们进行分级排序。然后将分级排序后的结果显示给用户。3搜索引擎的主要性能评价指标3.1搜索引擎建立索引的方法数据库中的索引一般是按照倒排文档的文件格式存放,在建立例排索引的时候,不同的搜索引擎有不同的选项。有些搜索引擎对于信息页面建立全文索引;而有些只建立摘要部分,或者是段落前面部分的索引;还有些搜索引擎,比如Google建立索引的时候,同时还考虑超文本的不同标记所表示的不同含义。如粗体、大字体显示的东西往往比较重要;放在锚链中的信息往往是它所指向页面的信息的概括,所以用它来作为所指向的页面的重要信息。Google、infoseek还在建立索引的过程中收集页面中的超链接。这些超链接反映了收集到的信息之间的空间结构,利用这些结果信息可以提高页面相关度判别时的准确度。由于索引不同,在检索信息时产生的结果会不同。3.2搜索引擎的检索功能搜索引擎所支持的检索功能的多少及其实现的优劣,直接决定了检索效果的好坏,所以网络检索工具除了要支持诸如布尔检索、邻近检索、截词检索、字段检索等基本的检索功能之外,更应该根据网上信息资源的变化,及时地应用新技术、新方法,提高高级检索功能。另外,由于中文信息特有的编码不统一问题,所以如果搜索引擎能够实现不同内码之间的自动转换,用户就会全面检索大陆、港台乃至全世界的中文信息。这样不但提高了搜索引擎的质量,而且会得到用户的支持。3.3搜索引擎的检索效果检索效果可以从响应时间、查全率、查准率和相关度方面来衡量。响应时间是用户输入检索式开始查询到检出结果的时间。查全率是指一次搜索结果中符合用户要求的数目与和用户查询相关的总数之比;查准率是指一次搜索结果集中符合用户要求的数目与该次搜索结果总数之比;相似度是指用户查询与搜索结果之间相似度的一种度量。虽然由于无法估计网络上与某个检索提问相关的所有信息数量。所以目前尚没有定量计算查全率的更好方法,但是它作为评价检索效果的指标还是值得保留。查准率也是一个复杂的概念,一方面表示搜索引擎对搜索结果的排序,另一方面却体现了搜索引擎对垃圾网页的抗干扰能力。总之,一个好的搜索引辇应该具有较快的响应速度和高的查全率和查准率,或者有极大的相似度。3.4搜索引擎的受欢迎程度搜索引擎的受欢迎程度体现了用户对于搜索引擎的偏爱程度,知名度高、性能稳定和搜索质量好的搜索引擎很受用户的青睐。搜索引擎的受欢迎程度也会随着它的知名度和服务水平的变化而动态的变化。搜索引擎的服务水平和它所收集的信息量、信息的新鲜度和查询的精度相关。随着各种新的搜索技术的出现,智能化的、支持多媒体检索的搜索引擎将越来越受用户的欢迎。另外,搜索引擎的信息占有量也可以作为评价搜索引擎性能的指标。综上所述,评价搜索引擎的性能指标可以概括为:a.建立索引的方法(全文索引,部分索引,按重要程度索引等);b.检索功能(支持的检索技术,多媒体检索,内码处理等);C.查询效果(响应时间,查全率,查准率,相关度);d.受欢迎程度;e.信息占有量。4搜索引擎检索信息的局限2001年Roper的调查指出,36%的互连网用户一个星期花超过2个小时的时间在网上搜索;71%的用户在使用搜索引擎时遇到过麻烦;平均搜索12分钟以后发现搜索受挫。另一项由Keen所做的调查显示,31%的人使用搜索引擎寻找答案,网上查找答案的半数以上都不成功。从这些调查数据中不难看出。目前的搜索引擎仍然存在不少的局限性。概括起来大致有以下几个方面。1搜索引擎对信息的标引深度不够目前,搜索引擎检索的结果往往只提供一些线形的网址和包括关键词的网页信息,与人们对它的预期存在较大的距离,或者返回过多的无用信息,或者信息丢失,特别是对特定的文献数据库的检索显得无能为力。2搜索引擎的信息量占有不足作为搜索引擎必须占有相当大的信息量才能具有一定的查全率和实用性。目前还没有一种覆盖整个因特网信息资源的搜索引擎。3搜索引擎的查准率不高分析起来,这是因为:一方面由于网上信息数量巨大、内容庞大、良莠不齐,信息的质量得不到保障;另一方面是由于大多数搜索引擎的索引工作由程序自动完成,根据网页中词频及词的位置等因素确定关键词,有的网站为了提高点击率,将一些与网页主题并不相关的热门词汇以隐含方式放在页面上,并重复多次,从而造成查准率低。4.4检索功能单一,缺乏灵活性目前许多搜索引擎的查询方法比较单一,一般只提供分类查询方式和关键词查询方式。不能从文献的多个方面对检索提问进行限制,只能就某一关键词或者概念进行笼统的检索。4.5搜索引擎自身的技术局限像目前部分搜索引擎还不能支持对多媒体信息的检索。造成上述信息检索困难的原因实质在于搜索引擎对要检索的信息仅仅采用机械的词语匹配来实现,缺乏知识处理能力和理解能力。也就是说搜索引擎无法处理用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等等。5搜索引擎未来的发展趋势新一代搜索引擎的发展目标就是采用新兴的搜索技术为用户提供更方便易用、更精确的搜索工具来满足用户的信息查询需要。技术上,应该在自然语言理解技术上有所突破,以XML可扩展标记语言为主,并使用向导技术。下面就搜索引擎的发展趋势谈几点看法。vstrong>答案补充</strong>5.1垂直化专业领域搜索由于社会分工的加大,用户从事的职业有所不同,不同用户对信息搜索也往往有自己的专业要求。由于综合性的搜索引擎收录各方面、各学科、各行业的信息,因而搜索不相关的信息太多,专业垂直引擎则可以解决这个问题,垂直类搜索引擎是只面向某一特定的领域,专注于自己的特长和核心技术,能够保证对该领域信息的完全收录与及时更新。因此,基于专业领域的“垂直搜索引擎”开始成为搜索引擎发展的一个新趋势。5.2智能化搜索传统的搜索引擎使用方法是被动搜索,而准确的搜索应建立在对收录信息和搜索请求的理解之上。显然,基于自然语言理解技术的搜索引擎由于可以同用户使用自然语言交谈,并深刻理解用户的搜索请求,则查询的结果更加准确。5.3关联式的综合搜索所谓关联式综合搜索,是这样一种一站式的搜索服务,它使得用户在搜索时只需要输入一次查询目标,即可以在同一界面得到各种有关联的查询结果,这种服务的关键在于有一架构在XML基础上的整合资讯平台。vstrong>答案补充v/strong>5.4个性化搜索提高搜索精确度的另一个途径是提供个性化的搜索,也就是将搜索建立在个性化的搜索环境之下,其核心是跟踪用户的搜索行为,通过对用户的不断了解、分析,积累用户的搜索个性化数据来提高用户的搜索效率。5结构化搜索所谓结构化搜索,是指充分利用XML等技术使信息结构化,同时使用查询结构化,从而使搜索的准确度大大提高。6本土化的搜索世界上许多著名的搜索引擎都在美国,它们以英语为基础,完全按他们的思维方式和观点搜集和检索资料,这对于全球不同国家的用户来说是显然不合适的。各国的文化传统、思维方式和生活习惯不同,在对于网站的内容的搜索要求上也就存在差异。搜索结果要符合当地用户的要求,搜索引擎就必须本土化。7多媒体搜索。随着宽带技术的发展,未来的互联网是多媒体数据的时代,开发出可查询图像、声音、图片和电影的搜索引擎是一个新的方向,这也将极大地满足用户的需求。未来的搜索引擎应该信息量更大、搜索速度更快、搜索精度更高和更能够满足用户的信息查询需求。vstrong>答案补充v/strong>参考文献1张卫丰.徐保文等.Web搜索引擎综述.计算机科学,2001;(9)2王忠•周士渡.Internet英文搜索引擎评析.情报学报,1999;(5)张军.搜索引擎的功能及其局限性探讨.情报科学,2001;(5)张莉扬.网络检索工具性能评价标准浅议.情报科学,2001网络搜索引擎21世纪是信息时代,随着信息科学技术的不断发展,网络已成为人们生活中的重要组成部分,网上信息呈几何级数增长,面对众多繁杂无序的信息,如何能快速、准确、经济地查找到所需要的信息,成为人们迫切需要解决的问题。搜索引擎是为满足人们对网络信息的搜索需求而新兴的一种网络工具,它利用网络自动搜索功能,对各种信息资源分门别类地进行标引、建库,并对信息进行理解、提取、组织和处理,从而起到信息导航的作用,帮助人们从不同形式的数字化信息中进行搜索。搜索引擎起源于传统的信息全文检索理论。狭义上的搜索引擎仅指基于因特网的搜索引擎;广义上的搜索引擎除此之外还包括基于目录的信息检索服务。搜索引擎的研究极具综合性和挑战性,它涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的关键理论和技术,其核心问题是数据库的规模、索引数据库的质量和标引质量。搜索引擎的工作原理及分类搜索引擎由搜索器、索引器、检索器和用户接口四部分。它利用一个名为“蜘蛛”的机器人程序以一定的策略自动进行信息搜索,然后由索引器对信息进行理解、处理,从中抽取索引项,建立索引库,再由检索器根据用户的查询在索引库中快速检索文档,进行相关度评价,将要输出的结果排序,并按用户的查询需求合理反馈信息,由用户接口来接纳用户查询,显示查询结果,提供个性化查询项。按照信息搜集的方法和服务提供方式的不同,搜索引擎可以分为:全文搜索引擎全文搜索引擎是从各个网站提取信息,建立数据库,检索与用户查询条件相匹配的记录后,按照一定的排列顺序返回结果,是名副其实的搜索引擎。全文搜索引擎的自动信息搜集功能分2种:一种是定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库;另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序。全文搜索引擎中最具代表性的有国外著名的Google及国内的百度搜索。2.目录索引目录索引是一种人工方式或半自动方式的搜索引擎,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。由于目录索引只是一个按目录分类的网站链接列表,因此不能称为严格意义上的搜索引擎。由于目录索引中加入了人的智能,所以导航质量高,信息更准确,但也正因为如此,使得维护费用偏大,信息更新不及时。目录索引中最具代表性的为yahoo、新浪。3.元搜索引擎元搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果处理后,作为自己的结果返回给用户。元搜索引擎返回结果的信息量更大、更全,但是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。元搜索引擎的代表是WebCrawler、infomarket等。搜索引擎的发展现状及技术展望目前,搜索引擎一般提供的是关键词的全文检索和分类浏览的查询方式,检索方式单一。分类目录浏览常常检索到很多无关的信息,查全率、查准率不高;关键词检索仅仅是机械的词语匹配,缺乏知识处理能力和理解能力,信息检索质量不高。此外,数据库检索功能和应用上的局限性、排序技术指标单一、分类目标体系缺乏规范、信息加工深度不够,这些都严重影响着搜索引擎的发展。因此,必须增加检索途径,加强网络信息资源的科学标引和组织,推动网络资源标准化进程,积极推进搜索引擎的发展。1.精确搜索技术采用基于自然语言理解技术的智能化搜索引擎,加深理解用户搜索请求;通过对用户的不断了解、分析,提供个性化搜索;利用XML等技术使信息结构化,查询结构化,提高检索的速度和性能;针对某一行业,某一主题和某一地区的信息而建立专业化搜索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 气体灭火系统安装工程招标
- 个人担保借款协议范本
- 购销合同简易版面
- 中草药销售合同模板
- 钢铁材料购销协议
- 个人信用融资居间协议范本
- 焊接连接闸阀门购买合同
- 广告牌制作合作协议书
- 货物吊装服务协议
- 甘肃省嘉峪关市(2024年-2025年小学五年级语文)统编版随堂测试((上下)学期)试卷及答案
- 安全人机工程学 第5章 人的作业能力与可靠性分析
- 现场改善-精益布局规划精华版
- GB/T 10000-2023中国成年人人体尺寸
- 血液透析低血压的护理
- 小学综合实践活动-神奇的泡泡教学课件设计
- 2023年全国英语甲卷应用文写作(历史人物)讲义 高三英语一轮复习
- 主题班会课件:学会关心帮助别人
- 体外膜肺氧合技术ECMO
- 铁路线路工混凝土枕线路改道作业指导书
- 怀感恩与爱同行+主题班会课件
- 心怀感恩 所遇皆美 感恩主题班会课件
评论
0/150
提交评论