网络信息检索课件_第1页
网络信息检索课件_第2页
网络信息检索课件_第3页
网络信息检索课件_第4页
网络信息检索课件_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第六章网络信息检索第一节搜索引擎概述第二节常用中文搜索引擎第一节搜索引擎概述搜索引擎的定义与类型搜索引擎的定义搜索引擎,英文为Search Engine是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。搜索引擎的类型搜索引擎种类繁多,它可以按照内容组织方式和工作机理等进行区分。下一页返回第一节搜索引擎概述按内容组织方式划分第一类是全文检索(Full Text Search)的搜索引擎,用户能够对各网站的每个主页中的每个词进行搜索。全文搜索引擎的优点是查询全面而充分。当全文搜索引擎遇到一个网站时,会将该网站上所有开放的网页全部获取下来

2、,并收入到引擎的数据库中。第一类是建立在分类学基础上的目录分类式搜索引擎。它通过人工方式将所收入的站点进行分类而建立数据库,以提供查询。目录分类式搜索引擎当遇到一个网站时,先将该网站划分到某个分类下,再记录一些摘要信息对该网站进行概述性的介绍。下一页上一页返回第一节搜索引擎概述按工作机理划分第一类是机器人搜索引擎,由一个称为蜘蛛(Spider)的机器人程序按设计者和网站定制的策略自动在匀_联网中抓取相应的信息,并通过分析抓取的网页文件获取网页中存在的新的URL链接,以此达到层层深入抓取的日的,抓取结束后采用单机存储或分布式存储的方式进行磁盘存储,然后由索引器为搜集到的信息建立索引,根据用户的查

3、询输入检索索引库,并将查询结果返回给用户。该类搜索引擎的优点是信息量大,更新及时,无需人工干预;缺点是返回多而杂,必须进行人工筛选。第二类是元搜索引擎,这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。下一页上一页返回第一节搜索引擎概述搜索引擎的工作原理搜索引擎构成搜索引擎广义上是一种基于互联网的信息查询系统。一个网络搜索引擎一般由搜索器、索引器、检索器和用户接口四部分组成。搜索器就是帮助用户查找到特定信息的一种工具。而搜索引擎中的搜索器却承担了另一个网络数据抓取功能。只有准确地获取、表示、存储、组织信

4、息,同时提供便利的访问方式,才能方便用户进行准确的查询。下一页上一页返回第一节搜索引擎概述需要一种方法对文档进行预处理,在文档间建立一种便于检索的数据结构,以此来提高信息检索的速度,这种数据结构就是索引。而索引器的工作就是建立一个包含关键信息的索引库以备查询。索引器的策略在很大程度上影响了搜索引擎的效率与准确性。检索软件负责提供用户使用搜索引擎的接口。检索软件一般是一个Web应用程序,其主要工作包括获取用户制定的搜索规则;查询索引库;计算网页搜索请求的关联度;提供排序后的搜索结果返回。用户接口的作用是为用户提供可视化的查询输入和结果输出界面,其主要目的是方便用户使用搜索引擎获取有效信息,可以分

5、为简单接口和复杂接口两种。下一页上一页返回第一节搜索引擎概述搜索原理其搜索原理主要分为四个步骤:从网络上抓取网页,搜索引擎主动派出“蜘蛛”程序访问Internet,对一定IP地址范围内的互联网站或者网站拥有者主动向搜索引擎提交的网址进行检索,并将搜集到的信息和网页收集到服务器上。建立索引数据库,由索引系统程序对收集到网页进行分析,提取相关网页信息(包括网页所在URL,编码类型、页面内容包含的关键词、生成时间、大小、相关链接关系等),根据一定的相关度算法进行大量复杂计算,得到每个网页针对页面内容及链接中每个关键词的相关度,然后用这些相关信息建立网页索引数据库。下一页上一页返回第一节搜索引擎概述在

6、索引数据库中搜索,当用户输入关键词搜索后,分解搜索请求,由搜索系统从网页索引数据库中找到符合该关键词的所有相关网页。对搜索结果进行处理排序,所有相关网页针对关键词的相关信息在索引库中都有记录,通常根据网页中关键词的匹配程度,出现的位置、频次、链接质量等计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。下一页上一页第一节搜索引擎概述搜索引擎的语法规则与检索式的构建语法规则搜索引擎的语法规则主要包括基本数学规则、限制搜索语法、辅助搜索语法以及布尔逻辑算符。基本数学规则连接符号连接符号主要有(+)和减号(-)。在检索词前面使用“+”时候,表示所有检索结果的页面都必须

7、包含该词。检索式为“+A+B,表示所查的该页面中应出现“A”和“B”方面的信息。而检索式“A+B”则表示检索结果页面中一定含有+B;,但是不一定包含有“A”的信息。检索词前面使用“-”,表示任何检索结果的页面都不能包含该词语。下一页返回第一节搜索引擎概述空格、逗号、括号和引号的作用空格的作用与逻辑“与”的作用相同。逗号的作用类似于逻辑“或”,也是查找那些至少包含一个指定关键词的页面,区别在于检索结果输出时,包含指定关键词越多的页面,其排列顺序位置越靠前。括号的作用是使括号内的运算符优先执行,用来改变复杂检索式中固有逻辑运算符优先级的次序。引号的作用是将引在其中的多个词被当作一个短语来检索。下一

8、页上一页返回第一节搜索引擎概述限制搜索语法限制搜索语法是从不同角度限定网络搜索的功能性词语和符号,对搜索结果起到定向作用和控制作用。主要包括标题搜索(Title Search)、网站搜索(Site Search)、网址搜索(URL Search),链接搜索(Link Search)、文件搜索(Fileype Search)检索式的构建检索式是指搜索引擎能够理解和运算的查询串,由关键词、逻辑运算符、搜索语法等构成。关键词是检索式的主体,逻辑运算符和搜索指令根据具体的查询内容,力求使关键词与内容描述词一致。准确选择关键词,需要对查询内容有一定了解,有一个根据搜索结果从模糊到准确的逐步调整关键词的练

9、习过程。在使用逻辑运算上一页返回第二节常用中文搜索引擎百度概述百度()是由百度公司于1999年底在美国硅谷成立的,是目前全球最优秀的中文信息检索与传递技术供应商。使用百度搜索引擎,其基本检索页面由功能模块和检索输入框及检索按钮三部分组成,如图6-1所示下一页返回第二节常用中文搜索引擎检索方法和技巧百度支持布尔逻辑检索,支持通配符的使用支持逻辑“与”,检索时不需要使用“AND”或者“+”,只需要在输入的多个检索词之间以空格加以隔开,系统会自动在各检索词之间添加“+”;支持逻辑“非”,运算符为“一”,注意前一个关键词和减号之间必须有空格,否则减号会被当少戊连字符处理,而失去减号语法功能。减号和后一

10、个关键词之间,有无空格均可。下一页上一页返回第二节常用中文搜索引擎百度支持搜索位置的限定检索时,有如下命令:intitle关键词在网页标题中,把查询内容范围限定在网页标题中,有时能获得良好的效果。Fileype对搜索对象做格式限制,使用方法是在“Fileype”后跟文件格式。Inurl限定在URL链接中搜索,网页url中的某些信息,常常有某种有价值的含义,用户可通过对搜索结果的url做某种限定来获得良好的效果。下一页上一页返回第二节常用中文搜索引擎百度支持任意的关键词检索,无论中文、英文、数字,还是各种形式文字的混合在输入多个检索词时,应用空格隔开。要想精确搜索,有两个符号可以用到,双引号(“

11、”)和书名号( )。若输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。用户可以给查询词加上双引号而尝试让百度不拆分查询词。书名号是百度独有的一个特殊查询语法。百度提供相关检索如果用户无法确定输入什么词语能找到满意资料,可以试用相关检索,先输入一个简单词语,搜索引擎会在页面结果第一页下方提供“相关搜索”做参考,这时,只击要单击其中一个搜索词,就能得到那个相关搜索词的搜索结果。下一页上一页返回第二节常用中文搜索引擎依据检索需要,用户可以通过高级检索中提供的各种条件限制来精确检索范围,从而提高检索的查准率在百度高级检索中,如图6-3所示,用户可以限制某一检索必须包含或者排

12、除某些特定的关键词或短语,也可以定制搜索结果页面所含的条目数量,还可以限定所搜索网页的时间、地区、语言、格式及关键词在结果中出现位置等。下一页上一页返回第二节常用中文搜索引擎其他特色功能目前百度网页搜索的特色功能包括百度快照、相关搜索、拼音提示、错别字提示、英汉互译词典、计算器和度量衡转换、股票、列车时刻表和飞机航班查询、天气查询、高级搜索、地区搜索和个性设置等百度快照每个被收录的网页,在百度上都存有一个纯文本的备份,称为“百度快照”。相关搜索搜索结果不佳,有时候是因为选择的检索词不是很妥当。百度使用相关检索词智能推荐技术,即在用户第一次检索后,会在搜索结果页的下方提示相关的检索词,帮助用户查

13、找更相关的结果,统计表明其可以促进检索量提升10%20%下一页上一页返回第二节常用中文搜索引擎拼音与错别字提示如果只知道某个词的发音,却不知道怎么写,或者嫌某个词拼写输入太麻烦,可通过百度拼音提小来解决问题。英汉互译词典随便输入一个英语单词,或者输入一个汉字词语,留意一下搜索框上方多出来的词典提小。如搜索“apple “计算器和度量衡转换Window系统自带的计算器功能过于简陋,尤其是无法处理一个复杂计算式,很不方便。下一页上一页返回第二节常用中文搜索引擎股票、列车时刻表和飞机航班查询在百度搜索框中输入股票代码、列车车次或者飞机航班号,用户就能直接获得相关信息。天气查询百度支持全国多达400多

14、个城市和近百个国外著名城市的天气查询。百度搜霸百度搜霸是一款免费的浏览器工具条,下载后安装在IE浏览器的工具栏内用户无需登陆百度搜索引擎,即可以利用该工具条进行即时检索。下一页上一页返回第二节常用中文搜索引擎谷歌概述谷歌是Google中文名。Google(www.G)是一个搜索引擎,由斯坦福大学的两个博士生Larry Page与Sergey Brin于1998年9月发明,Google Inc.于1999年创立。基本检索Google的页面十分简单,如图6-4所示,在检索输入框下面排列着几大功能模块,分别是视频、图片、生活、地图、音乐、翻译、265导航。下一页上一页返回第二节常用中文搜索引擎高级检

15、索Google提供的高级检索功能可以为检索附加多种限制条件,从而使检索结果更精确,同时也在一定程度上避免用户由于对检索式构造不够熟悉而造成的错检、漏检等现象。Google高级搜索提供了输入项、网页语言、网页区域、文件格式、日期、关键词位置、网域、权限等自定义搜索结果,如图6-6所示。下一页上一页返回第二节常用中文搜索引擎检索方法与技巧空格、OR和减号(-)用户输入的关键词之间如果不加其他修饰符号而只留空格的话,Google会默认关键词之间为“and”的关系,就会对所有的关键词同时进行搜索并只返回那些符合全部查询条件的网页。双引号(“”)和通配符(*)在Google中,可以通过添加英文双引号来搜索短语。双引号中的词语在查询到的文档中将作为一个整体出现。下一页上一页返回第二节常用中文搜索引擎其他功能Google除了上述特点外,还具备相当多的功能,包括网页快照、类似网页、错别字改正、中英文字典、google学术搜索,天气查询、股票查询、邮编区号、手机号码等。下面介绍其中几个。google学术搜索Google提供可广泛搜索学术文献的简便方法。google生活搜索切

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论