搜索引擎基础_第1页
搜索引擎基础_第2页
搜索引擎基础_第3页
搜索引擎基础_第4页
搜索引擎基础_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎检索基础2005年3月重庆大学搜索引擎搜索引擎是采用信息自动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。搜索引擎的检索系统由以下几部分组成:搜索器、分析器、索引器、检索器和用户接口。同检索数据库一样,利用搜索工具检索,也需要用户能够将自己的检索需求编制成合适的检索策略,并且需要一定的检索技巧。搜索引擎采用的检索词和信息标识词匹配运算的主要方法有:布尔逻辑检索、截词检索、限制检索、加权检索、词位置检索和全文检索等。搜索引擎分类

检索型搜索引擎:它使用自动索引软件来发现、收集并标引网页,建立数据库,并以Web形式让用户找到所需信息资源。比较著名的有:AltaVista、Google、天网、百度、悠游等。目录型搜索引擎:这类引擎将信息系统地分门归类,经过人工整理后形成庞大而有序的分类目录体系,用户可以在目录体系的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是以卓越的分类目录型导航服务而称誉全球。混合型搜索引擎:它兼有检索型和目录型两种方式。如:新浪、搜狐、网易、中华等门户网站。多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索的检索工具。国外综合型检索工具目前有记录可查的国外的搜索引擎数量已达到2500个,其中有不少优秀的综合型搜索引擎,如:Google、Yahoo!、AltaVista、Excite、Infoseek、Lycos、HotBot、OpenText等。访问AltaVista()的次数超过1亿次。HotBot(

)是美国享有盛誉的综合型、混合型搜索引擎。著名综合型检索工具Google

()Google是目前世界上最大的搜索引擎,它提供70多种界面语言和35种检索语言,有分类查询和关键词检索两种检索功能。Google不支持“词干法”和“通配符”,但可使用布尔逻辑检索,且逻辑“与”不用算符,词与词之间留一空格,逻辑“或(|)”和“非(-)”算符前必须留一空格。简单检索可直接使用字段限定检索。Google的字段限定检索site:限定在某个特定的域或站点中进行检索。命令格式:检索词site:域名示例:要搜索北京大学山鹰社的信息。检索式:山鹰社site:

inurl:表示限定搜索结果,网页的URL必须包含所规定的字符串。命令格式:inurl:限定的字符串检索词示例:搜索电子商务软件环境的专题资料。许多中文网站都以“dzsw”作为电子商务专题目录或频道名称。检索式:inurl:dzsw软件环境

filetype:用来限定命中文件的类型。命令格式:filetype:文件类型检索词

试析检索式:filetype:ppt信息检索著名综合型检索工具Yahoo

()Yahoo是因特网上历史最悠久、用户数最多的综合型、混合型搜索引擎,是分类式搜索引擎的典范。它拥有10余种语言版本,且各版本的内容互不相同。如果用户的检索词在Yahoo!中查询不到结果,它会自动将查询转交给Google搜索引擎做进一步的检索。Yahoo!支持词语检索和“+”和“–”限制检索等,它还提供日期限定、URL和题名限制检索等。“+”限定关键字串一定要出现在结果中;“–”限定关键字串一定不要出现在结果中。Yahoo搜索(续)(http://cn.)“雅虎中国”(http://cn.)提供了一份细蜜、层次丰富的中文网站分类目录。雅虎允许用多个关键词检索,各个关键词之间必须留一个空格,系统默认逻辑“与”检索。雅虎支持词组短语检索和“+”和“–”限定符,提供两种字段限定功能:t:网站名称搜索和u:网址(URLs)搜索。综合型中文搜索引擎目前形成规模的综合型中文搜索引擎有:搜狐、网易、新浪、天网、北极星、搜索客、悠游、中国搜索、263在线搜索引擎、21cn搜索引擎、TOM中文搜索、常春藤、焦点搜索引擎、看中国、中国搜索、中国导航等。综合型中文搜索引擎(续)新浪搜索():采用具有世界先进水平的百度搜索技术。提供“分类检索”和“关键词”查找两种查找方法。搜狐搜索():采用先进的Google检索技术,提供多语言检索。天网搜索():支持中英文搜索,只提供关键词查询方式。百度搜索引擎百度():百度搜索引擎是目前最有影响的中文网络信息检索系统。它的检索词可以是中文、英文、数字,或中英文数字的混合体。百度提供逻辑与、或、非检索,多个关键词之间必须留一个空格,系统默认为逻辑“与”检索,其他同Google的检索方法。百度的字段限定检索同Google专题型搜索引擎专题型检索工具专门提供某一学科/主题范围的网络信息资源导航系统。塞迪网“IT罗盘”():塞迪网是国内著名的面向IT行业提供全面信息服务的垂直门户站点。因特网法律资源指南(InternetLegalResourceGuide,简称ILRG。():是1995年美国推出的第一家系统、全面提供法律网络信息资源导航网站。它选择收集了来自238个国家、地区的4000多个与法律密切相关的网站,提供了较全面的法律信息检索。中文多元型搜索引擎多元搜索引擎又称为集合式搜索引擎。它是将多个搜索引擎集成在一起,通过一个统一的检索界面方便、快速、全面获取网络信息的检索工具。中文多元型搜索引擎(续)万维搜索引擎():是上海万维信息技术有限公司2000年推出的多元搜索引擎。网络灯塔(/steelk/navigator/gbindex.htm):集成了50多个中文搜索引擎,分别提供简繁体中文网站、网页和新闻的多元信息搜索服务。英文多元型搜索引擎Dogpile():是因特网上最早出现也是影响最大的多元搜索引擎。Dogpile集成了21个不同类型的搜索引擎,按照检索对象可以将这些检索工具分成6种类型:Web页、图像、FTP文件、新闻组、多媒体。系统支持的运算功能与运算符主要有4种:AND,+;OR;NOT,-;词组短语(用双引号)。MetaCrawler():是因特网上最有影响的多元搜索引擎之一,也是最典型的综合型集成搜索引擎。FTP资源及其使用FTP是英文TransterProtocol(文件传输协议)的缩写,和TCP/IP一样是因特网上广泛使用的一种通讯协议,是互联网上传送文件的标准。如果说TCP/IP是实现不同机器,不同操作系统、不同网络间互联的一座桥梁的话,那么FTP则是把资料从此岸传输至彼岸的货车。通过FTP协议,我们就可以跟互联网上的FTP服务器进行文件的上传(upload)或下载(download)等动作。FTP资源及其使用(续)和使用自己的硬盘不同,FTP服务器并不是可以随意使用的,上载和下载通常只对部分用户,因此登录FTP服务器需要用户帐号和口令。不过,在互联网上有很多匿名(anonymous)的FTP服务器,这些服务器向全世界开放,可以公开访问。这些FTP服务器在登录时使用“anonymous”作为用户名,而将你的E-mail地址作为口令进行登录。FTP资源及其使用(续)通过命令行使用FTP(略)用IE或Netscape浏览器进行文件传输:IE或Netscape不仅可以访问WWW主页,也可以访问FTP服务器。只要在地址栏中输入相应的服务器地址,然后按回车键。一个典型的FTP地址是:FTP搜索引擎如同搜索主页一样,可以用FTP搜索引擎来搜索一个文件存在于哪些互联网的FTP服务器上。为什么要使用FTP搜索引擎呢?1.在WWW主页上搜索到的文件往往要经过多重链接才能下载;2.下载速度慢(用http方式下载)且大多数不能断线连续传;3.更多的文件只是放在FTP的主机上,并没有做http链接,用户经常舍近求远。CERNET内的主要的FTP搜索引擎北大天网的FTP搜索引擎星空互联之FTP星空搜索/ftpsearch/search.html南京理工大学的“一网打尽”搜索引擎西安交通大学思源搜索引擎北京科技大学幻想FTP搜索.cn中国科技大学天狼中英文搜索引擎非CERNET的主要的FTP搜索引擎中国自由软件库/freesoft.html中国下载(原名“金蜘蛛”软件下载中心)http://.cn国外FTP搜索引擎.tw/GaisFtp收录台湾大学里面的FTP站点,可以限定前方一致和区分英文大小写。自称全球最大的FTP搜索引擎。中国教育科研网内主要FTP站点北京大学允许匿名方式北大图书馆允许匿名方式访问北京大学计算机系允许匿名方式访问清华大学北京邮电大学允许匿名方式访问,人数限制80国内其他FTP站点中国下载FTP服务器:.cn/黄金眼FTP服务器:2EastDoor亦多下载中心FTP服务器:20深圳热线FTP服务器:中国经济信息网FTP服务器:中经网自由软件FTP服务器:

国外FTP站点微软FTP服务器:IBM电脑FTP服务器:Borland公司FTP服务器:/pub/Adobe公司FTP服务器:/pub/3Com公司FTP服务器:中国科学文献服务系统Sciencechian提供国内科技期刊论文目次、文摘、引文及全文链接服务。该系统于今年年底之前免费向用户开放。读者访问中国科学院文献中心主页即可找到该系统。时间覆盖:1985年至今。中心网址:http://0:8080/las/indxe.jsp在该网页上还有一个“学科门户网站”供大家使用。读者也可直接访问以下网址找到该服务系统:;http://Shttp://S网络免费资源清单举例科学数据库系统:/台湾期刊文献资讯网:.tw/f4.htm中国科学文献服务系统:http://scie

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论