第八讲搜索引擎使用指南_第1页
第八讲搜索引擎使用指南_第2页
第八讲搜索引擎使用指南_第3页
第八讲搜索引擎使用指南_第4页
第八讲搜索引擎使用指南_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎使用指南

搜索引擎的基本功能

搜索:网站、网页、特定格式的文件(文本文件、视频文件、音频文件等)搜索引擎含义搜索引擎(Searchengine)是指通过网络搜索软件或网站登录等方式,对互联网上各种资源进行标引,并为检索者提供检索的工具。搜索引擎的工作原理

搜索引擎通过网络机器人(NetworkRobot)搜索软件,在因特网上自动跟踪和发掘各种网页信息后,再利用索引软件为扫描到的每一个网页建立倒排文档,从而构造出一个巨大的网络信息库;最后用户在搜索引擎服务器的WWW站点或网页上进行关键词检索或分类浏览得到搜索结果。可概括为以下几个过程(1)信息的采集和存储。全文搜索引擎一般运用“网络机器人”,定期对一定IP地址范围内的互联网站进行搜索,自动收集网页信息并存入数据库。而目录搜索引擎是通过编辑人员对提交的网站进行浏览评判,把被接纳的网站分门别类地存放在相应的目录中。(2)索引系统的建立。信息采集和存储后,要建立索引查询系统。要对采集到的网页信息进行信息语词切分、语词词法分析、词性标注及相关的自然语言处理,建立检索项索引。(3)检索界面的建立。通过人机交互的理论和方法,搜索引擎检索界面接受检索者提交的查询请求(可对查询内容、逻辑运算、相近关系及出现位置等进行限制),并根据检索者所输入的关键词在其索引数据库中进行检索,显示相应的检索结果,提供用户相关性反馈机制。(4)检索结果的处理。搜索引擎对检索结果按相关程度进行排列,把最相关的结果排在最前面。每个搜索引擎评判结果相关性的方法均不同,搜索引擎确定相关性的方法有概率方法、位置方法、摘要方法和分类方法。搜索引擎的类型?

目录式搜索引擎(亦称分类搜索引擎)机器搜索引擎(亦称全文搜索引擎)元搜索引擎

搜索引擎分类机器(全文)搜索引擎(FullTextSearchEngine)

网络机器人收集信息--由索引器建立索引由检索器根据用户的查询条件--输出查询结果服务方式是面向网页的全文检索服务。国外:Google,

AltaVista、Excite、Infoseek、Inktomi、Lycos、AlltheWeb、AskJeeves

国内最具代表性的是:百度、天网目录式搜索引擎其提供的资源的类型不同而分成不同的目录,再一层层地进行分类所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时搜索引擎的代表是:Yahoo!,OpenDirectory,国内最具代表性的是搜狐分类目录元搜索引擎:这类搜索引擎没有自己的数据,它将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。这类搜索引擎的代表是WebCrawler/著名搜索引擎简介

Yahoo—最著名的目录索引,搜索引擎开山鼻祖之一。/D/ODP—由义务编辑维护的目录索引。

/

AskJeeves—著名的自然语言搜索引擎,2002年初收购Teoma全文搜索引擎。

LookSmart—点击付费索引目录,2002年收购WiseNut全文搜索引擎。

/

A—有其自身特色的目录索引。国外英文目录索引

国外英文搜索引擎

Google—以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。

/

Fast/AllTheWeb—总部位于挪威的搜索引擎后起之秀,风头直逼google。

http://www.AllTheW/

AltaVista—曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。

由于种种原因,目前国内用户无法直接访问AltaVista。

Overture—最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。

Lycos—发源于西班牙的搜索引擎,网络遍布世界各地。

/

HotBot—隶属于LycosNetworks,搜索结果来自其他搜索引擎及目录索引。

国内目录索引搜狐(Sohu)—国内三大门户之一,最早在国内推出搜索引擎收费登录服务。

/

新浪(Sina)—最大的中文门户网站,同样也推出了搜索引擎收费索引项目。

/

网易(Netease)—网易搜索是ODP的国内翻版,其目录由志愿管理员维护,是google的网页搜索用户。

/

国内目录索引雅虎/

lycos中国/

法律网站/lawseek北极星

常用中文搜索引擎百度搜索引擎、Google中文搜索引擎、中国搜索联盟、搜狐搜索引擎、新浪搜索引擎、网易搜索引擎、天网中文搜索引擎等。常用英文搜索引擎AllTheWeb搜索引擎、AltaVista搜索引擎、Lycos搜索引擎、Yahoo!、SCIRUS等。国内搜索引擎

百度(Baidu)—国内唯一商业化的全文搜索引擎,提供搜狐、新浪、263、Tom等站点的网页搜索服务。

/

百度产品搜索引擎使用的逻辑运算符空格在搜索引擎中被认为是一种特定的操作符,常常被认为是“AND”用“,”或“︱”表示逻辑或

逗号的作用可以看成和“OR”作用一样。引号表示精确检索。“+”强调词汇必须出现在搜索结果中。-的作用是强调某个词汇必须不出现在搜索结果中。搜索关于“电子商务”,但不包含“网络支付”的资料,检索表达式:电子商务-网络支付-前要加空格Google使用技巧基本搜索

自动使用“and”进行查询。输入多个关键词,只要加空格就可以。

搜索:“搜索引擎”

结果:已搜索有关搜索引擎的中文(简体)网页。共约有796,000项查询结果,这是第1-10项。搜索用时0.08秒。示例:搜索所有包含关键词“搜索引擎”和“历史”的中文网页

搜索:“搜索引擎历史”

结果:已搜索有关搜索引擎历史的中文(简体)网页。共约有82,500项查询结果,这是第1-10项。搜索用时0.36秒。搜索结果要求不包含某些特定信息Google用减号“-”表示逻辑“非”操作。“A–B”表示搜包含A但没有B的网页。示例:搜索所有包含“搜索引擎”和“历史”但不含“文化”、“中国历史”和“世界历史”的中文网页

搜索:“搜索引擎历史-文化-中国历史-世界历史”

结果:已搜索有关搜索引擎历史-文化-中国历史-世界历史的中文(简体)网页。共约有48,000项查询结果,这是第1-10项。搜索用时0.25秒搜索结果至少包含多个关键字中的任意一个

Google用大写的“OR”表示逻辑“或”操作。搜索“AORB”,意思就是说,搜索的网页中,要么有A,要么有B,要么同时有A和B。在上例中,我们希望搜索结果中最好含有“archie”、“lycos”、“蜘蛛”等关键字中的一个或者几个,这样可以进一步的精简搜索结果。示例:搜索如下网页,要求必须含有“搜索引擎”和“历史”,没有“文化”,可以含有以下关键字中人任何一个或者多个:“Archie”、“蜘蛛”、“Lycos”、“Yahoo”。

搜索:“搜索引擎历史archieOR蜘蛛ORlycosORyahoo-文化”

结果:已搜索有关搜索引擎历史archieOR蜘蛛ORlycosORyahoo-文化的中文(简体)网页。共约有7,440项查询结果,这是第1-10项。搜索用时0.16秒。Google使用技巧英文字符大小写不敏感。搜索整个短语或者句子Google的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符。示例:搜索关于第一次世界大战的英文信息。

搜索:“"worldwarI"”

搜索引擎忽略的字符以及强制搜索Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www”等,以及一些符号如“*”、“.”等,作忽略处理。示例:搜索关于www起源的一些历史资料。

搜索:“www的历史internet”

结果:以下的字词因为使用过于频繁,没有被列入搜索范围:www的.已搜索有关www的历史internet的中文(简体)网页。共约有75,100项查询结果,这是第1-10项。搜索用时0.22秒。

搜索引擎忽略的字符以及强制搜索如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的“+”号。

搜索:“+www+的历史internet”

结果:已搜索有关+www+的历史internet的中文(简体)网页。共约有106,000项查询结果,这是第1-10项。搜索用时0.05秒。

搜索“我的太阳”搜索“”我的太阳””高级搜索Site

表示搜索结果局限于某个具体网站或网站频道,如“”,“”,或者是某个域名,如“”,“com”等。注:site后的冒号为英文字符,而且,冒号后不能有空格。此外,网站域名不能有“http”以及“www”前缀。字段检索

①filetype:查找特定格式的文件②intitle:查找指定标题的网页③inurl:在指定的路径上查找网页④site:在指定网站上查找网页高级搜索例:在文理学院网站上查找“越文化”越文化site:例:搜索中文教育科研网站()上的所有包含“三个代表”的页面

三个代表site:搜索的关键字包含在URL链接中Inurl

inurl语法返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“MIDI”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。高级搜索搜索的关键字包含在URL链接中示例:查找mp3曲“沧海一声笑”。搜索:“沧海一声笑inurl:mp3”结果:已搜索有关inurl:mp3沧海一声笑的中文(简体)网页。共约有14项查询结果,这是第1-10项。搜索用时0.01秒。URL路径名包含syjq关于Photoshop的使用技巧的网页Photoshopinurl:syjq搜索校务公开用“xwgk”URL中出现校务公开inurl:xwgk搜索的关键字包含在网页标题中Intitle的用法类似于上面的inurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。网页设计的一个原则就是要把主页的关键内容用简洁的语言表示在网页标题中。因此,只查询标题栏,通常也可以找到高相关率的专题页面示例:查找有关三个代表的体会的文章。搜索:“intitle:三个代表体会”结果:已搜索有关intitle:三个代表体会的中文(简体)网页。共约有5390项查询结果,这是第1-10项。搜索用时0.03秒。网页标题为绍兴文理学院的网页Intitle:绍兴文理学院网页标题中出现“绍兴文理学院”Intitle:绍兴文理学院在某一类文件中查找信息“filetype:”是Google开发的非常强大实用的一个搜索语法。也就是说,Google不仅能搜索一般的文字页面,还能对某些二进制文档进行检索。目前,Google已经能检索微软的Office文档如.xls、.ppt、.doc,.rtf,WordPerfect文档,Lotus1-2-3文档,Adobe的.pdf文档,ShockWave的.swf文档(Flash动画)等。其中最实用的文档搜索是PDF搜索。PDF是ADOBE公司开发的电子文档格式,现在已经成为互联网的电子化出版标准。目前Google检索的PDF文档大约有2500万左右,大约占所有索引的二进制文档数量的80%。PDF文档通常是一些图文并茂的综合性文档,提供的资讯一般比较集中全面。数据仓库filetype:doc数据挖掘filetype:doc网站策划书filetype:docFDIfiletype:docFDIfiletype:pdf搜索引擎filetype:ppt找

Flash文件。查找Flash文件,只需搜索“关键词

filetype:swf”Link:按链接搜索。在搜索框中输入“link:”,显示所有指向该网址的网页。Link:搜索引擎常用术语(1)域名。域名是计算机主机在Internet上的地址。域名在整个Internet必须是唯一的,字母大小写在域名中没有区别,一台计算机可以有多个域名。常见的域名后缀包括:代表商业组织的“.com”,代表教育机构或大学的“.edu”,代表非营利组织的“.org”,代表网络的“.net”,代表非军事性政府组织的“.gov”,代表军事性政府组织的“.mil”,代表中国的“.cn”,代表日本的“.jp”等。(2)模糊检索。匹配方式为模糊匹配的检索,搜索引擎对输入的关键词在数据库中对每个字进行匹配比较,只要相关记录中含有这些字即满足检索条件。模糊检索相当于对每个字进行逻辑与组配,显然这种检索反馈的信息量大,但准确性欠佳。3)精确检索。匹配方式为精确匹配的检索,搜索引擎对输入的关键词在数据库中对整个词进行匹配比较,只有相关记录中含有整个词才满足检索条件。相对于模糊检索,准确性要高一些。要使用精确检索,在输入关键词时一般要用双引号引起,或直接在高级检索的“包含以下完整字词(或关键词)”输入框中输入关键词。(4)网页快照。搜索引擎通过预览各网站,拍下网页的快照,为用户贮存大量的应急网页。当网页被删除或暂时无法连接时,用户可点击网页快照以查看该网页的快照内容。百度搜索引擎

(1)百度产品。主要提供新闻、网页、贴吧、知道、百科、MP3、图片、视频、下吧、网站、网站、词典、国学、黄页、风云榜等搜索服务。(2)百度搜索语法。①

“︺”(空格键)、“︱”(竖线)、“-”(减号)分别代表逻辑与、逻辑或、逻辑非。使用逻辑或、逻辑非符号时请在符号前加一空格。。

百度搜索引擎中允许使用intitle、site和inurl等字段限制搜索。允许使用filetype文件搜索。“filetype:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。百度搜索引擎双引号。对输入词加上双引号,把输入词作为一个整体进行精确匹配搜索。书名号。搜索电影、电视剧、小说,用“《》”可得准确结果,如搜索《手机》可准确得到该电影的相关信息,否则就是通讯工具的信息。(3)百度特色①

百度快照。②

相关搜索。③

拼音提示。④

错别字提示。⑤

生活搜索()。包括:天气预报、地图搜索、火车车次、航班班次、酒店查询、电视预告、食品价格、常用电话、文档搜索、手机号码、股票信息、计算器、度量转换、英语辞典、IP地址、地区区号、邮政编码、政府机构、交通处罚、消费者维权、万年历、历史上的今天、成语词典、汉语字典、百科词典、货币兑换等。⑥

搜索风云榜()。Google搜索引擎

(1)查找Flash文件。查找Flash文件,只需搜索“关键词filetype:swf”。Google已经可以支持13种非HTML文件的搜索。除了PDF文档,Google现在还可以搜索MicrosoftOffice(doc,ppt,xls,rtf)、ShockwaveFlash(swf)、PostScript(ps)和其它类型文档。新的文档类型只要与用户的搜索相关,就会自动显示在搜索结果中。例如,如果您只想查找PDF或Flash文件,而不要一般网页,只需搜索“关键词filetype:pdf”或“关键词filetype:swf”就可以了。(2)Google同时也提供用户不同类型文件的“HTML版”,方便用户在即使没有安装相应应用程序的情况下阅读各种类型文件的内容。(3)网页快照。Google在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”时,您将看到

Google将该网页编入索引时的页面。Google依据这些快照来分析网页是否符合您的需求。(4)货币转换。要使用我们的内置货币转换器,只需在Google搜索框中键入您需要完成的货币转换,并单击“回车”键或

GoogleSearch按钮即可。(5)计算器。Google为用户提供了一个内置计算器。只需要在搜索字段中输入算式,按一下回车键或者搜索就可以了。这个计算器可以用来做所有简单的计算,一些复杂的科学计算,单位换算,以及提供各种物理常数。(6)手气不错。按下“手气不错™”按钮将自动进入

Google查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。(7)错别字改正。Google的错别字改正软件系统会对输入的关键词进行自动扫描,检查有没有错别字。如果发现用其他字词搜索可能会有更好的结果,它能提供相应提示来帮助纠正可能有的错别字。(8)天气查询。用

Google查询中国城市地区的天气和天气预报,只需输入您要查询的城市地区名称和一个关键词("天气"、"气象"、"tq"、"tianqi"、"tianqi"等,任选其一)就能在搜索结果页面的最上方看到当日及未来二至三天的天气情况。(9)金融信息。在搜索框中输入股票和基金的名称或代码,可查询最新的股票和基金信息。对股票或者基金信息进行查询后,该信息会在

Google的主页搜索结果的上方显示。(9)金融信息。在搜索框中输入股票和基金的名称或代码,可查询最新的股票和基金信息。对股票或者基金信息进行查询后,该信息会在

Google的主页搜索结果的上方显示。(10)邮编区号。用Google查询邮政编码或长途电话区号,您只需输入关键词(“邮编”、“yb”和“YB”任选其一;“区号”、“qh”和“QH”任选其一)和要查的城市地名或邮政编码或电话区号即可。Google会为您提供相关的所有信息,包括所在地的省市名称,邮政编码及长途电话区号。(10)邮编区号。用Google查询邮政编码或长途电话区号,您只需输入关键词(“邮编”、“yb”和“YB”任选其一;“区号”、“qh”和“QH”任选其一)和要查的城市地名或邮政编码或电话区号即可。Google会为您提供相关的所有信息,包括所在地的省市名称,邮政编码及长途电话区号。(11)手机号码。用Google查询手机电话号码归属地,您只需直接输入要查的号码即可(不需要

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论