(完整版)信息检索第十一讲搜索引擎_第1页
(完整版)信息检索第十一讲搜索引擎_第2页
(完整版)信息检索第十一讲搜索引擎_第3页
(完整版)信息检索第十一讲搜索引擎_第4页
(完整版)信息检索第十一讲搜索引擎_第5页
已阅读5页,还剩140页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一讲

搜索引擎及其使用技巧

我们被信息淹没,但却渴求知识。

——《大趋势》约翰·奈斯比特

必须找?

哪里找?

如何找?主要内容搜索引擎的发展历程、定义、原理、分类Google及其使用技巧其它搜索引擎搜索引擎的发展历程

因特网是世界上最大的信息宝库,它已成为全球范围内传播和交流科研信息、教育信息、商业信息和社会信息的最主要的渠道,要想在这一浩瀚无边、变化多端而又鱼龙混杂的信息海洋中发现并查找出有利用价值的信息并不是一件易事,犹如大海捞针。为了有效的利用这些资源,大量的搜索引擎便出现了。

搜索引擎的概念

所谓搜索引擎,是指WWW环境中能够进行网络信息的搜集、组织并能提供查询服务的一种信息服务系统。它们主要通过网络搜索软件(又称网络搜索机器人)或多种人工方式,将WWW上大量网站的页面信息收集、传输到本地,经过加工处理建成索引数据库或目录指南,从而能够对用户提出的各种查询请求做出响应,并提供用户所需要的信息。搜索引擎的发展历程搜索引擎的发展历程搜索引擎的雏形

蒙特利尔大学学生艾伦.伊米杰在1990年发明的Archie算是现代搜索引擎的雏形。虽然当时万维网还未得到全面的推广,但还是经常需要在网络中传输大量的文件,由于这些文件大多散布在分散的FTP主机中,查询起来非常不便,因此艾伦.伊米杰想到了开发一个可以通过文件名来查找文件的程序,于是便有了Archie。Archie工作原理与现在的搜索引擎很相似,它依靠脚本程序自动搜索网上共享的文件,然后对相关信息进行索引,以供使用者查询。不过此时的搜索工具还只限于文件索引功能,随后出现的一些类似于Archie的搜索工具中就加入了检索网页的功能。搜索引擎发展历程蜘蛛程序的由来当时,电脑“机器人”一词可是非常流行,它指的是某个能够以人类无法达到的速度不间断地执行某种任务的软件程序。由于专门用于检索网络信息的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎中的“机器人”程序就被称为“蜘蛛”程序。世界上第一个用于监测互联网发展规模的“机器人”程序是马太.杰瑞开发的WorldWideWebWanderer(四W)。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。与杰瑞的Wanderer程序相对应,马丁.科斯特于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是依靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yahoo等网站。第一个搜索引擎

第一个真正意义上的现代搜索引擎出现在1994年7月。当年4月,美国斯坦福大学的两名博士生,大卫.菲勒和美籍华人杨致远(/guiren/info.asp?newsid=16651)共同创办了大家熟知的超级目录索引Yahoo,从此搜索引擎进入了高速发展的时期。目前,互联网上大大小小的搜索引擎已达千余家,其检索的信息量也与从前不可同日而语。随着互联网规模和信息量的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。它本身可能并不是直接面向用户的搜索引擎,但向其他搜索引擎提供全文网页搜索服务。从这个意义上来说,它们是搜索引擎的搜索引擎。搜索引擎工作流程网页作者呈送查询请求1.1搜索引擎的定义搜索引擎是一个提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。搜索引擎常常是用户利用网上资源的第一途径。1.2搜索引擎原理从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。大多数搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。搜索引擎也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。1.3搜索引擎的分类

按检索机制划分

按检索内容划分(1)按检索机制划分

全文搜索引擎

目录式搜索引擎

元搜索引擎

全文搜索引擎从互联网上提取的各个网站的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。优点:是查询全面、充分,用户能够对各网站的每篇文章中的每个词进行搜索,检索直接、方便,而且可使用布尔逻辑检索、短语检索等高级功能。缺点:繁多而杂乱的感觉。代表性的全文搜索引擎是Google、百度。目录式搜索引擎通过用户浏览层次类型目录来寻找所需信息。分类一般按主题分类,并辅之以年代、地区等分类。网站多以此方式组织。例如:新浪>分类目录>计算机与互联网>硬件>行情报价。优点:使用户清晰方便地查找到某一大类信息,尤其适合那些希望了解某一范围内信息,并不严格限于查询关键字的用户。缺点:搜索范围较全文搜索引擎要小许多,尤其是当用户选择类型不当时,可能遗漏某些重要的信息源。代表性的目录式搜索引擎是Yahoo、搜狐、新浪网站元搜索引擎同时在其他多个引擎上进行搜索,并将结果返回给用户。没有自己的数据库,利用一个统一的界面,查询其他独立的搜索引擎。优点:快捷,信息覆盖面更加广泛缺点:高级检索功能不完善,检索结果没有经过处理

著名的元搜索引擎有InfoSpace、Dogpile()、Vivisimo()等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎(/),优客搜索()图Dogpile界面MetaCrawler1995年由华盛顿大学推出,1997年被InfoSpace购买。支持调用12个独立搜索引擎,提供涵盖近20个主题的目录检索服务。检索特性非常丰富,包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。高级检索模式可实现:搜索引擎的选择调用,基于域名、地区或国家的检索结果过滤,最长检索时间设置,每页可显示的和允许每个搜索引擎返回的检索结果数量的设定,设定检索结果排序依据(包括相关度、域名、源搜索引擎)等。以上内容均可作为定制检索的个性化选项并予以保存。检索结果中包括一个以1000为最大值的相关度指标。

一款理想的元搜索引擎应具备的特点和功能含盖较多的搜索资源,可随意选择和调用源搜索引擎;具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、软件、FTP、MP3、图像等)选择、返回结果数量控制、结果时段选择、过滤功能选择等强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自然语言检索等)和不同搜索引擎间检索语法规则、字符的转换功能(如对不支持“NEAR”算符的搜索引擎,可自动实现由“NEAR”向“AND”算符的转换等详尽全面的检索结果信息描述(如网页名称、URL、文摘、源搜索引擎、结果与用户检索需求的相关度等)支持多种语言检索。

(2)按检索内容划分通用型专题型

通用型搜索引擎

通用型搜索引擎在采集标引信息资源时不限制资源的主题范围和数据类型,又称为综合型检索工具。如:Google、百度、AltaVista、Excite、Yahoo等也有这种混合功能。右图是Yahoo的检索界面,既有检索窗口,也有分类浏览目录。专题型检索工具

专题型检索工具指那些专门用来检索某一类型信息和数据的检索工具,如查询地图的检索工具“MapBlast”、查询图像的检索工具“WebSEEK”等。图G的界面/2Google及其使用技巧由两个斯坦福大学博士生LarryPage与SergeyBrin于1998年9月发明。约搜索30亿张网页,包括35个国家和地区的语言的资源。已占有全球搜索市场的80%。Google在中国的搜索市场的市场份额也已突破30%,并且增长速度迅猛,在中文搜索市场有举足轻重的作用。2.1Google检索步骤

确定检索需求

构建检索策略

点击检索

评估检索结果

点击浏览

保存所需信息

2.2Google检索技巧

正确选择搜索字词大小写、自动使用“AND”合理利用“与/或”的搜索:OR

搜索中包括或不包括的词:+、-

搜索近似词:~

搜索特定词组:“”

网页快照、类似网页

利用高级检索使用“更多”功能自动"and"查询

默认情况下,Google只返回包含所有搜索字词的网页。在字词之间无需添加"and"。请记住,字词键入的顺序会影响搜索结果。要进一步限制搜索,只需加入更多字词。大小写

Google搜索不区分大小写。不论您如何键入,所有字母都会视为是小写的。例如,搜索georgewashington、GeorgeWashington

和gEoRgEwAsHiNgToN所返回的结果是一样的。注意:“+”为英文字符“+”与前面一个检索词之间要有空格“-”与后面一个检索词之间不能有空格注意:“-”为英文字符“-”与前面一个检索词之间要有空格“-”与后面一个检索词之间不能有空格注意:“~”为英文字符“~”与检索词之间不能有空格Google高级检索查找其他类型文件Google可以支持13种非HTML文件的搜索。除了PDF文档,Google现在还可以搜索MicrosoftOffice(doc,ppt,xls,rtf)、ShockwaveFlash(swf)、PostScript(ps)和其它类型文档。新的文档类型只要与用户的搜索相关,就会自动显示在搜索结果中。

例如,如果您只想查找PDF或Flash文件,而不要一般网页,只需搜索:

关键词filetype:pdf

关键词filetype:swf”货币转换

要使用我们的内置货币转换器,只需在Google搜索框中键入您需要完成的货币转换,并单击“回车”键或GoogleSearch按钮即可。

【实例】3.5USD=?RMB10新加坡元等于多少印度卢比8人民币换成泰国的货币30人民币每公升=?美元每加仑计算器

Google为用户提供了一个内置计算器。只需要在搜索字段中输入算式,按一下回车键或者搜索就可以了。这个计算器可以用来做所有简单的计算,一些复杂的科学计算,单位换算,以及提供各种物理常数。

【实例】5+2*22^20sqrt(-4)

一磅=?克

光速乘以二秒等于多少公里符号

功能示例+

3+44-减13-5*乘7*8/除以12/3^的…次方8^2%模(除之后的余数)8%7选组合运算X选Y表示在X个单位中选Y个有多少种选法

18选4开…次方

计算一个数的n次方根

32开5次方sqrt平方根

sqrt(9)sin,cos,etc.三角函数(括号中的数字单位为弧度)tan(45)ln以e为底的对数ln(17)log以10为底的对数log(1,000)

!阶乘5!%百分之20%按链接搜索

有一些词后面加上冒号对Google具有特殊的含义。其中的一个词是“link:”。查询link:显示所有指向该网址的网页。例如,“link:”将找出所有指向Google主页的网页。不能将link:搜索与普通关键词搜索结合使用。指定网域

有一些词后面加上冒号对Google有特殊的含义。其中的一个词是“site:”。要在某个特定的域或站点中进行搜索,可以在Google搜索框中输入“site:”。

如何辨别网站的性质

.edu教育学术.gov官方政府单位.net网络管理或服务机构.org财团法人或基金会等非官方的一般机构.int国际性组织.com代表商业企业团体与组织.中国科学研究机构天气查询用Google查询中国城市地区的天气和天气预报,只需输入您要查询的城市地区名称和一个关键词(“天气”、“气象”、“tq”、“tianqi”、“tianqi”等,任选其一)就能在搜索结果页面的最上方看到当日及未来二至三天的天气情况。当鼠标移动到天气图标上时,还可以显示对应的天气情况细节。“天气”、“气象”、“tianqi”、“tianqi”金融信息

在搜索框中输入股票和基金的名称或代码,可查询最新的股票和基金信息。邮编区号

用Google查询邮政编码或长途电话区号,您只需输入关键词(“邮编”,“yb”和“YB”任选其一;“区号”,“qh”和“QH”任选其一)和要查的城市地名或邮政编码或电话区号即可。Google会为您提供相关的所有信息,包括所在地的省市名称,邮政编码及长途电话区号。“邮编”、“YB”、“区号”、“qh”、“QH”手机号码用Google查询手机电话号码归属地,您只需直接输入要查的号码即可(不需要任何关键词)。Google能自动识别以13开头的11位数字为手机号码而返回相关的网站链接,让您即刻便知道答案。定义要查看字词或词组的定义,只需键入“define”,接着键入一个空格,然后键入您需要其定义的词。如果Google在网络上找到了该字词或词组的定义,则会检索该信息并在搜索结果的顶部显示它们。

通过包含特殊操作符“define:”,并使该操作符与您需要其定义的字词之间不留空格,还可获得定义的列表。Google更多功能

人在旅“图”:/

“学”海无涯:/schhp?hl=zh-CN“书”林漫步:/

新闻“快讯”:/alerts?hl=zh-CN

热门“榜”单:/rebang/home

关注“趋势”:/trends?hl=zh-CN

人在旅“图”“学”海无涯“书”林漫步新闻“快讯”热门“榜”单关注“趋势”3国外搜索引擎

AltaVistaAskJeevesExciteMetaCrawler……AltaVista(www.altavista.com)

DEC公司1995年12月推出AskJeeves(http:///)Excite(/

斯坦福大学1993年8月创建MetaCrawler(http://www.MetaC/)4常用的学术搜索引擎专注于科学搜索引擎与目录,还包括一些科学杂志以及其他的工具等提供了一种通过引文链接检索文献的网络学术信息搜索工具Google学术搜索提供可广泛搜索学术文献的简便方法专为搜索高度相关的科学信息而设计的搜索引擎

Scirus由Elsevier开发,是目前互联网上最全面、综合性最强的科技文献门户网站之一,Scirus引擎的信息源主要是两部分:网页和期刊。为科学家们在网络上和专有数据库中快速查找所需的信息打开了一道便捷之门,此外,还可以对网络中所搜索到的结果进行过滤,然后只列出包含有科学信息的成分。

目前Scirus可搜索4.5亿个与科学相关的网页,信息来源包括同行评审期刊论文、预印本、报告、科学数据、发明专利及有关网页,大多是网上开放获取资源(如电子打印稿件ArX、RePEc、MIT开放课程资料等),也含部分商业收费资源(如LexisNexis、ScienceDirect等)。

学科领域以自然科学为主,也有部分社科资源,如经济学、商业、管理、语言文字学、法学、社会与行为科学、心理学、社会学等。SCIRUS简介SCIRUS的特色过滤非科学方面的信息。收录同行评审(peer-reviewed)的文章,这在一般搜索引擎中大部份是被忽略掉的。可以搜索特定作者、期刊、出版年等缩小查询范围。可同时查询学科相关的会议、摘要、及专利资料。收录年代、排序及收费Scirus索引的更新频率与收录年限是每月更新,可检索1973-2011年间发表的文献。Scirus检索结果的排序:缺省情况下,Scirus将检索结果按照相关度进行排序。也可以将检索结果按照日期排序。用户可免费浏览所有检索到的互联网主页的信息。Scirus提供的期刊资源可以免费查看题录和文摘。但是,获取全文需要预先注册并支付费用。

SCIRUS检索方法“基本检索(BasicSearch)”界面和高级检索(AdvancedSearch)。

(1)基本检索:BasicSearchAllofthewords:检索结果中必须包括输入的每一个检索词,逻辑关系相当于“AND”;Anyofthewords:检索结果中可包括一个或多个检索词,相当“OR”;Exactphrase:检索结果与输入短语严格匹配,相当于引号“”的应用。

(2)高级检索:AdvancedSearch

Scirus高级检索支持逻辑检索符:逻辑与、逻辑或、逻辑非

5国内搜索引擎

百度

北大天网

搜狐

新浪

网易

……

百度

全球最大的中文搜索引擎,2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。

“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。百度

董事长:李彦宏搜索市场份额:83.6%世界排名:世界第三大搜索引擎员工数:约10000人(2010年)年营业额:79.15亿人民币(约合11.99亿美元)(2010年)外文名:Robin国籍:中国民族:汉出生地:山西省阳泉市出生日期:1968年11月17日职业:百度公司董事长兼首席执行官

李彦宏毕业院校:1991年毕业于北京大学信息管理专业,随后赴美国布法罗纽约州立大学完成计算机科学硕士学位。

主要成就:发明超链分析技术并获美国专利CCTV2005中国经济年度人物商业周刊2006年全球最佳商业领袖2008北京奥运会火炬手2008年中国改革开放30年30人资产:约617亿人民币/a/201109/5633.html李彦宏

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论