




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1返回目录返回目录2返回目录返回目录3w 近日,Search Engine Watch提供了一份最新报告,在全球搜索市场排名中,搜索巨头谷歌的份额列第一,百度第二,雅虎列第三,数据来自这份报告数据来自市场研究公司ComScore在2012年11月和12月份期间的统计数据。w 报告显示,在2012年11月和12月份期间,全球用户通过谷歌进行的搜索查询达到了1147亿次,市场份额为65.2%;使用百度搜索的查询达到了145亿次,份额为8.2%;使用雅虎搜索的查询达到了86亿次,份额为4.9%。w 除排在前三的搜索外,排在第四的是来自俄罗斯的Yandex搜索,其搜索量为48亿次,份额为2.8%。w
2、微软的必应搜索被挤到第五位,其搜索量为44亿次,份额为2.5%。返回目录返回目录4返回目录返回目录5w 以前的www 用户在互联网上查找信息时,通常是从某一 www 服务器的某个 URL出发,沿着一个个超级链接(Hyperlink)去访问其他网页。w 但随着 www 站点的日益增多,穷举式的查询使浏览者如同置身于一个无穷无尽的迷宫之中w 有的服务站点为了方便用户浏览,将手工搜集到的信息编制成 html 文件,按照某种顺序组织提供给用户查询,或将搜集到的网页地址记录下来,然后按照一定的顺序(如主题、地域、时间等)排列以供用户使用。返回目录返回目录6v1990年以前,没有任何人能搜索互联网v所有搜
3、索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie。它可以用文件名查找文件,Archie是第一个自动索引互联网上匿名FTP网站文件的程序v但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件返回目录返回目录7v Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序v 由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在
4、网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序v 世界上第一个Spider程序,是MIT 的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)返回目录返回目录8w 编程者将传统的Spider程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的的JumpStationColorado 大学大学O
5、liver McBryan的的The World Wide Web WormNASA(美国国家航空航天局(美国国家航空航天局(National Aeronautics and Space Administration)简称)简称NASA )的的Repository-Based Software Engineering spider返回目录返回目录9 搜索引擎的概念及其功能搜索引擎的概念及其功能 搜索引擎的类型搜索引擎的类型 搜索引擎的工作方式搜索引擎的工作方式 搜索引擎的检索方法和技巧搜索引擎的检索方法和技巧返回目录返回目录10w 1. 搜索引擎的概念搜索引擎的概念 (1)在网络检索工具发展的
6、初期,以雅虎为代表的网站分类目录查询非常流行,但人们一般只是把基于关键词检索类型的网站称为搜索引擎。 (2)随着网络技术的飞速发展和搜索技术的日臻完善,出现了一批为网络用户所广泛熟知和习惯使用的,既具有分类目录查询功能,又具有关键词检索功能的优秀中外通用搜索引擎。但是,任何搜索引擎的设计,均有其特定的信息索引范围、独特的功能和使用方法,以及预期的用户群指向。 搜索引擎(Search Engine)泛指网络上以一定的策略搜集信息,对信息进行组织和处理,并为用户提供信息检索服务的工具和系统,是网络资源检索工具的总称。返回目录返回目录11w 2. 搜索引擎的功能搜索引擎的功能 (1)及时搜索网络信息
7、)及时搜索网络信息 (2)搜索有效的、有价值的网络信息)搜索有效的、有价值的网络信息(3)有针对性地搜索网络信息)有针对性地搜索网络信息 返回目录返回目录12 搜索引擎按不同的分类原则可以有多种分类方式。(1)如按信息标引的方式,搜索引擎可以分为目录式搜索引擎、机器人搜索引擎和混合式搜索引擎;(2)按信息查询的方式,搜索引擎可分为浏览式搜索引擎、关键词搜索引擎、全文搜索引擎、智能搜索引擎;(3)按语种,搜索引擎又分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。(4)按工作方式或者检索机制来划分,搜索引擎主要可分为目录型搜索引擎、索引型搜索引擎和元搜索引擎三种类型。 返回目录返回目录13w
8、 1. 目录型搜索引擎目录型搜索引擎 目录型搜索引擎(Search Index/Directory),也被称为网络资源指南,是浏览式的搜索引擎。它是由专业信息人员以人工或半自动的方式搜集网络信息资源,并将搜集、整理的信息资源按照一定的主题分类体系编制的一种可供浏览、检索的等级结构式目录(网站链接列表)。用户通过逐层浏览该目录,在目录体系的从属、并列等关系引导下,逐步细化来寻找合适的类别直至具体的信息资源。这类检索工具往往根据资源采集的范围设计详细的目录体系,检索结果是网站的名称、地址和内容简介,因此,目录型搜索引擎是一种网站级搜索引擎。返回目录返回目录14w 2. 索引型搜索引擎索引型搜索引擎
9、 索引型搜索引擎(Robot Search Engine),也被称为机器人搜索引擎或关键词搜索引擎。它实际上是一个WWW网站,与普通网站不同的是,索引型搜索引擎网站的主要资源是它的索引数据库,索引数据库的信息资源以WWW资源为主,还包括电子邮件地址、FTP、Gopher等资源。索引式搜索引擎主要使用一个叫“网络机器人”(Robot)或 “网络蜘蛛”(Spider)的自动跟踪索引软件,通过自动的方式分析网页的超链接,依靠超链接和HTML代码分析获取网页信息内容,并采用自动搜索、自动标引等事先设计好的规则和方式来建立和维护其索引数据库,以Web形式提供给用户一个检索界面,供用户输入检索关键词、词组
10、或逻辑组配的检索式,其后台的检索代理软件代替用户在索引数据库中查找出与检索提问匹配的记录,并将检索结果反馈给用户。返回目录返回目录15w 目录结构人工选择目录结构人工选择w 学术性强学术性强w 分类浏览直观,适合新手分类浏览直观,适合新手w 适合目的不明确的检索适合目的不明确的检索w 查准率较高查准率较高w 数据库的规模相对较小数据库的规模相对较小 ,检索到,检索到的信息数量有限的信息数量有限 返回目录返回目录16w 3. 元搜索引擎元搜索引擎 元搜索引擎(Meta Search Engine,MSE)是一种将多个独立的搜索引擎集成到一起,提供统一的用户查询界面,将用户的检索提问同时提交给多个
11、独立搜索引擎,并检索其共享的多个独立搜索引擎的资源库,再经过聚合、去掉重复信息和排序等处理,将最终检索结果一并返回给用户的网络检索工具。 元搜索引擎是对搜索引擎进行搜索的搜索引擎,是对多个独立搜索引擎的整合、调用、控制和优化利用。元搜索引擎也被称为“搜索引擎之母(The Mother of Search Engines)”,“元”(Meta)为“总的”、“超越”之意。相对于元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”(Source Search Engine)或“成员搜索引擎”(Component Search Engine)。http:/ http:/ information返回目录
12、返回目录17 用户在使用搜索引擎进行查询时,搜索引擎并不是直接去搜索互联网,它实际上搜索的是已经预先整理好的网页索引数据库。搜索引擎会预先收集因特网上几千万到几十亿个网页,对网页中的关键词进行索引,建立索引数据库。当用户查找某项内容的时候,所有在数据库中保存的相关网页都将被搜索出来,再按照某种算法进行排序后,将相关链接作为搜索结果呈现给用户。 返回目录返回目录18图4-1 搜索引擎的工作流程返回目录返回目录19w 1. 信息采集模块信息采集模块 信息采集模块的主要功能为搜索、采集和标引网页,信息采集有人工采集和自动采集两种方式。 人工采集。 自动采集。自动采集是通过采用一种被称为Robot的网
13、络自动跟踪索引程序来完成信息采集 。 不同的信息采集方式和不同的自动采集软件采用的标引、搜索策略也各不相同,这对信息检索的质量有着直接的影响。自动采集能够自动搜索、采集和标引网络中的众多站点和网页,保证了对网络信息资源跟踪和检索的有效性和及时性;而人工采集基于专业性的自愿选择和分析标引,保证了资源的采集质量和标引质量。因此,目前的许多网络信息检索工具都采取自动和人工相结合的信息采集方式。 返回目录返回目录20w 2. 信息组织模块信息组织模块 搜索引擎信息组织和整理的过程称为“建立索引”,将纷繁复杂的网页数据整理成可以被检索系统高效、可靠、方便使用的格式是这一模块的重要工作。搜索引擎不仅要保存
14、搜集起来的信息,还要将它们按照一定的规则进行编排。 通过数据库管理系统来组织所采集的网页信息,建立相应的索引数据库,是搜索引擎提供检索服务的基础。由于数据库的规模和质量直接影响检索的效果,因此,需要对数据库数据进行及时的更新和处理,以保证数据库能准确地反映网络信息资源的当前状况。 返回目录返回目录21w 3. 信息查询服务模块信息查询服务模块 查询服务模块是指搜索引擎与用户查询需求直接交互的部分。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。这个模块主要以下完成3个方面的任务: 分析查询。 信息检索
15、。 结果排序。 返回目录返回目录22w 1. 选用适当的搜索引擎选用适当的搜索引擎w 2. 认真分析和思考认真分析和思考w 3. 准确提炼搜索关键词准确提炼搜索关键词w 4. 小心使用逻辑运算符小心使用逻辑运算符w 5. 掌握一些小的检索技巧掌握一些小的检索技巧w 6. 培养有效的搜索习惯培养有效的搜索习惯w 7. 搜索主题要明确,不要迷失搜索主题要明确,不要迷失 返回目录返回目录23选用搜索引擎的一般选择规则是:选用搜索引擎的一般选择规则是: (1) 如果要查找含有特殊性的内容或文件,那么可以使用索引型搜索引擎,如Google和Baidu等,它们是通过网页的完全索引来搜索信息; (2)如果想
16、从总体上或比较全面地了解一个主题,那么可以使用网站分类目录,如Yahoo!和Sina等,分类目录中提供的是由人工编辑整理的网站的链接; (3)如果用户想查找一些特殊类型的信息,可以考虑使用特殊的搜索工具,比如要找人或找地点,那么使用专业的寻人引擎或者地图、位置搜索网站,一般称之为垂直搜索引擎。目前,几乎每种主题都有与之相对应的特殊搜索工具。返回目录返回目录24w 1. Google(http:/)(1)概况与特点)概况与特点 自2000年开始商业运作以来,通过几年时间的发展,Google以其先进的技术、全面的检索功能和简单有效的服务,在全球范围内拥有了大量的用户,目前已经发展成为世界范围内规模
17、最大的搜索引擎和最优秀的搜索引擎之一。 Google采用超文本链接结构分析技术和大规模的数据挖掘技术,能根据Internet本身的链接结构对相关网站用自动方法进行分类,提供了最便捷的网上信息查询方法,并为查询提供快速准确的结果。 Google支持使用中、英、德、日、法等57种语言,支持新闻组的Web方式浏览和张贴、目录服务、PDF文档搜索、地图搜索、搜索结果过滤等功能。返回目录返回目录25w 1998年10月之前, Google 只是Stanford大学的一个小项目 BackRub w 1995年博士生 Larry Page 开始学习搜索引擎设计,于1997年9月15日注册了的域名,1997年
18、底,在 Sergey Brin 和 Scott Hassan 、 Alan Steremberg 的共同参与下,BachRub开始提供 Demo w 1999年2月,Google完成了从 Alpha 版到 Beta 版的蜕变。Google公司则把1998年9月27日认作自己的生日。返回目录返回目录26返回目录返回目录27w Google在 Pagerank 、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。w 在2000年中期以前,Google虽然以搜索准确性
19、备受赞誉,但因为数据库不如其它搜索引擎大,缺乏高级搜索语法,所以推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索引擎的东风,才一飞冲天w 2002年、2003年连续两年被评为世界第一品牌返回目录返回目录28返回目录返回目录29w Google 是从第一代搜索引擎中脱颖而出的第二代搜索引擎的代表。1998 年,两位斯坦福大学的博士生创立了Google,它的使命就是要为用户提供网上最好的查询服务,促进全球信息的交流。Google 开发出了世界上最大的搜索引擎, 返回目录返回目录30返回目录返回目录31w 第一次搜索实践为了方便讲解,我们假定你是个搜索新手,想要了解一下搜索引擎的来
20、龙去脉和搜索技巧。在搜索框内输入一个关键字“搜索引擎”, 选中“搜索中文(简体)网页”选项,然后点击下面的“Google搜索”按钮(或者直接回车),结果就出来了。 返回目录返回目录32返回目录返回目录33w 第二步:增加关键词,缩小范围第二步:增加关键词,缩小范围示例:示例:w搜索所有包含关键词“搜索引擎”和“历史”的中文网页搜索:w输入:搜索引擎 历史返回目录返回目录34w 第三步、排除某些特定信息Google用减号用减号“-”表示逻辑表示逻辑“非非”操作。操作。“A B”表示搜索表示搜索包含包含A但没有但没有B的网页。的网页。示例示例:搜索所有包含:搜索所有包含“搜索引擎搜索引擎”和和“历
21、史历史”但不含但不含“文化文化”、“中国历史中国历史”和和“世界历史世界历史”的中文网页的中文网页搜索:搜索:“搜索引擎搜索引擎 历史历史 -文化文化 -中国历史中国历史 -世界历史世界历史” 返回目录返回目录35返回目录返回目录36w 第四步:从搜索结果中更新检索策略点开点开se-的这个名为的这个名为“搜索引擎发展历史搜索引擎发展历史”的网页,我们发现,搜的网页,我们发现,搜索引擎的历史,是与互联网早期的文件检索工具索引擎的历史,是与互联网早期的文件检索工具“Archie”息息相关的。此息息相关的。此外,搜索引擎似乎有个核心程序,叫外,搜索引擎似乎有个核心程序,叫“蜘蛛蜘蛛”,使搜索引擎深入
22、人心的是,使搜索引擎深入人心的是“Yahoo”。了解了这些信息,我们就可以进一步的让搜索结果符合要求了。了解了这些信息,我们就可以进一步的让搜索结果符合要求了。示例:搜索如下网页,要求必须含有示例:搜索如下网页,要求必须含有“搜索引擎搜索引擎”和和“历史历史”,没有,没有“文文化化”,可以含有以下关键字中的任何一个或者多个:,可以含有以下关键字中的任何一个或者多个:“Archie”、“蜘蛛蜘蛛”、“Yahoo”。、。、检索式:检索式:“搜索引擎 历史 archie OR 蜘蛛 OR yahoo -文化”返回目录返回目录37搜索引擎最基本的语法“与”“非”和“或”,这三种搜索语法Google分别
23、用“ ”(空格)、“-”和“OR”表示。顺着上例的思路,你也可以了解到如何缩小搜索范围,迅速找到目的资讯的一般方法,即:w目标信息一定含有的关键字(用目标信息一定含有的关键字(用“ ”连起来),连起来),w目标信息不能含有的关键字(用目标信息不能含有的关键字(用“-”去掉),去掉),w目标信息可能含有的关键字(用目标信息可能含有的关键字(用“OR”连起来)。连起来)。 返回目录返回目录38wGoogle对通配符支持有限。它目前只支持“*”,不支持?号。w比如,“以*治国”,表示搜索第一个为“以”,末两个为“治国”的四字或四字以上的短语,中间的“*”可以为任何字符。关键字的字母大小写关键字的字母
24、大小写wGoogle对英文字符大小写不敏感,“GOD”和“god”搜索的结果是一样的。搜索整个短语或者句子搜索整个短语或者句子Google的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符。同义词检索:同义词检索:将该同义词运算符放在某检索词的前面(没有空格),是让检索该词及其同义词。例如,用“ ”(赛跑)做检索词时,可以检出匹配“”(赛跑)、“”(赛跑者的)、“”(马拉松)的网页。返回目录返回目录39Google对一些网上出现频率极高的英文单词,如对一些网上出现频率极高的英文单词,如“i”、“com”、“www”
25、等,以及一些符号如等,以及一些符号如“*”、“.”等,等,作忽略处理。作忽略处理。示例:搜索关于示例:搜索关于www起源的一些历史资料。起源的一些历史资料。如果我们用检索式如果我们用检索式 “www的历史的历史 internet”进行搜索,则得到的结果冠盖实际上只是进行搜索,则得到的结果冠盖实际上只是搜索了搜索了“历史历史”和和“internet” 两个关键词的结果,而两个关键词的结果,而“www的的”却被忽却被忽略了。略了。返回目录返回目录40如果要对忽略的关键字进行强制搜索,则需要在该关键字前加如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上明文的上明文的“+”号。号。比如:搜索关于比如:搜索关于www起源的一些历史资料搜索:则我们可以用起源的一些历史资料搜索:则我们可以用下面的检索式进行搜索:下面的检索式进行搜索:w+www +的历史 internet另一个强制搜索的方法是把上述的关键字用英文双引号引起来。另一个强制搜索的方法是把上述的关键字用英文双引号引起来。例如上面的例子可以构造成如下的检索式:例如上面的例子可以构造成如下的检索式:wwww的历史 internet注意:大部分常用英文符号(如问号,句号,逗号等)无法成注意:大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 怎样做行业第一
- 医院物品有效期管理
- 导游业务中的货币保险知识
- 教科版(2017)科学五年下册《热在水中的传递》说课(附反思、板书)课件
- 文化活动场所造价咨询合同
- 招投标服务外包协议
- 基础工程施工合同书
- 医务人员岗前院感知识培训
- 急诊创伤病人护理安全管理
- 年上下期实验室工作计划和总结模版
- 孤岛交直流混合微电网群分布式低碳控制策略
- 2025年浙江省建设工程检测技术人员(道路工程)认证参考试题库(含答案)
- 人教版美术八年级下册全册教案
- 消化科药物知识培训课件
- 预制板粘贴碳纤维加固计算表格
- 新形势下照相馆行业快速做大市场规模战略制定与实施研究报告
- ChatGPT过去现在与未来
- 用友软件销售合同(2025年)
- 妇产科子痫抢救演练
- 互联网医院建设与运营模式
- 客户档案管理制度和流程
评论
0/150
提交评论