搜索引擎的产生背景_第1页
搜索引擎的产生背景_第2页
搜索引擎的产生背景_第3页
搜索引擎的产生背景_第4页
搜索引擎的产生背景_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、搜索引擎技术的产生背景搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索弓I、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引 擎与免费链接列表等。百度和谷歌等是搜索引擎的代表搜索引擎的发生背景在因特网发展初期,网站相对较少,新闻查找比较容易。然而随着新闻技术的飞速发展,特别是因特网应用的迅速普及,网站越来越多,并且每天全球互联网网页数目以千万级的数量增加。要在浩瀚的网络新闻中寻找所需要的材料无异于大海捞针。 这时为满足人人新闻检索需求的搜索网站应运而生。搜索引

2、擎从发生到发展大概阅历履历了如下四个步骤:Archie的出现Archie已经具备了现代搜索引擎的雏形。1990年,加拿大蒙特利尔大学艾伦伊米杰等三个学生在查询文件的时候感触非常不便,当时需要到散布在各个地方的 FIP主机中去搜索,于是他们三人开发了用文件称号查找文件体例的想法。经过精心设计, 终于开发出了 Archie程序。Archie是第一个自动搜索互联网上匿名FTP网站文件的程序。Archie是一个可搜索的 FTP文件称号排列表,当用户输入精确的文件称号时,Archie会告诉用户哪一个 FTP地址可以下载该文件。Archie还不是真正的搜索引擎,只是实现了自动 索引互联网上匿名 FIP网站

3、文件的技术,但无疑是在搜索引擎技术发展上迈出的第一步。(2) Spider的出现为搜索引擎的发展奠定了基础,由于特地用于检索新闻的机器人(Robot)程序像蜘蛛(Spider)一样在网络间爬来爬去,因此, Robot程序又被称之为 Spider程序。世 界上第一个Spider程序,是由1993年6月美国麻省理工学院学生马杰杰瑞开发出来的, 它可以用来捕捉互联网上的网址,追踪互联网发展规模。虽然它也还不是真正意义上的搜索引擎,但Wanderer的原理与技术已经被今天的搜索引擎广泛采用。随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在www Wanderer基础上,一些编程者

4、将传统的spider程序工作原理作了些改进。其原理是,既然所有网页都可能有连向其他网站 的链接,那么从跟踪一个网站的链接开始,优化。就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷繁涌现,其中以 Jumpsti nsideion、 TheWorldWideWebWorm(Goto 的前身,也就是今天 Overture),和 Repository BasedSoftware Engineering(RBSE)最负盈盛名。然而Jumpstinsideion和wwwwo只是以搜索工具在数据库中 找到匹配新闻的先后次序排列搜索结果,因此毫无新闻关联度可言。而RBSE是是第一个索引

5、HTML文件正文的搜索引擎,是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。(3) Lycos 的发明 Lycos(Car negieMell onUni versityCe nter forMacA ine Tran sli nsidei onAnnounces Lycos)是搜索引擎史上又一个重要的进步。CarnegieMellonUniversity 的 MichaelMauldin将John Leavitt的spider程序接入到其索引程序中,创建了 Lycos。 1994年7月20 日,Lycos正式发布。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos

6、第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。同时期的 Infoseek(Steve Kirsch AnnouncesFree Demos Of the Infoseek SearchEngine) 是另 一个重要的搜索引擎。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭 Yahoo!和Lycos的概念,并没有什么独特的革新。但它的友善的用户界面、大量附加服务使它名望日隆。随着Lycos和Infoseek在国际互联网上的亮相,有人把这时期称之为搜索引擎的春天。尔后应用这两种技术的搜索引擎的出现如雨后春笋。从此搜索引擎进入了高速发展时期。(4) 搜索

7、引擎的搜索引擎一元搜索引擎。元搜索引擎的出现与其说是技术的发展,不如 说是管理的发展。随着互联网规模的急剧膨胀,搜索引擎光靠自己单打独斗己无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。如国外的In kt,它本身并不是直接面向用户的搜索引擎,但向包括overture、Looksmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。Google在其成立之初也是作为元搜索引擎,向Yahoo提供全文网页搜索服务例。国内的百度也属于这一类,搜索引擎的优化。搜狐和新浪用的就是它的技术。因此从这个意义上说,百度搜索引擎优化。

8、它们是搜索引擎的搜索引擎。图1搜索引擎原理图搜索引擎技术能解决的问题1、搜索引擎的主要功能及工作机制搜索引擎是In ternet 上的一个网站,它的主要任务是在In ternet 上主动搜索 Web 服务器信息并将其自动索引,其索引内容存储于可供查询的大型数据库中。当用户输入关键字(Keyword )查询时,该网站会告诉用户包含该关键字信息的所有网址,并提供通向该网站的链接。对于各种搜索引擎,它们的工作过程基本一样,包括以下三个方面:(1) 派出“网页搜索程序”在网上搜寻所有信息,并将它们带回搜索引擎;(2) 将信息进行分类整理,建立搜索引擎数据库;(3) 通过Web服务器端软件,为用户提供浏

9、览器界面下的信息查询。2 、优秀搜索引擎的基本特点目前各种各样的中西文搜索有10余种或更多,比较著名的搜索引擎有Yahoo、Excite、InfoSeek 。 一个优秀的搜索引擎应具有以Lycos、ItaVista 等。以下几个特点:支持全文检索(FullTextSearch ) 。全文搜索引擎的优点是查询全面而充分,用户能够对各网站的每篇文章中的每个词进行搜索。当全文搜索引擎遇到一个网站时,会将该网站上所有的文章 (网页)全部获取下来,并收入到引擎的数据库中。只要用户输入查询的“关键字”在引擎库的某篇文章中出现过,则这篇文章就会作为匹配结果返回给用户。(2) 支持目录式分类结构 (Direc

10、tory )。分类搜索引擎的优点是将信息系统地分门归类,当遇到一个网站时,它并不像全文搜索引擎那样,将网站上的所有文章和信息都收录 进去,而是首先将该网站 划分到某个分类下,再记录一些摘要信息,对该网站进行概述性 的简要介绍。最具代表性的目录式分类搜索引擎是Yahoo网站。(3) 能够区分搜索结果的相关性(Perti nency )。搜索引擎应该能够找到与搜索要求相对应的站点,并按其相关程度将搜索结果排序。(4) 检索方法多样,查找手段完备。(5) 其他性能。一个优秀的搜索引擎产品还必须查询速度快,具有较好的可维护、可更新性能。 现有的搜索引擎在信息维护、信息重复、网络及站点负载方面还存在很多

11、的不足,索引数据库往往很大,检索的查准率不高。现有搜索引擎的缺陷:(1) 运算符合布尔运算组合运用数量有限;(2) 仅使用关键词提问,但关键词检索不能完全满足用户的要求,而且它是一种盲目的匹配;(3) 不能检索历史信息;(4) 简单的结果表示方法使用户显得茫无头绪;(5) 单个引擎的限制。3 、搜索引擎的语法规则如果想要得到最佳的搜索效果,就要使用搜索的基本语法来组织要搜索的条件。(1) 使用逻辑操作符。搜索引擎中常用的操作逻辑符是:AND OR NOT AND表示逻辑“与”可用“ &”表示,OR表示逻辑“或”可用“”来表示,NOT表示逻辑“非”可用 “!”来表示。(2) 使用 “ +、-”连

12、接号和通配符。4 、搜索引擎研究的主要问题由于现有的搜索引擎有上述很多的缺陷,因此搜索引擎仍是网络和情报检索的研究热点。当前主要的研究热点有:(1) 能充分表达用户查询要求的查询语言。一套能充分表达用户要求但又不增加网络 负载的查询语言是搜索给用户的第一个良好印象。(2) 索引数据库的组织和管理。如何对大容量、非结构化的信息进行增、删、改操作 也是一个值得研究的问题。(3) 信息的自动加工。如何对信息进行准确的分类和标引是搜索引擎要研究的主要问 题。(4) 提高检索的查准率。现在搜索引擎的问题不再是能找到多少文献,且很多文献不一定与用户要求非常相关。因此,提高查准率是搜索引擎查找效率的主要体现

13、。(5) Web信息的发掘。如何迅速发现和搜索网上新加入的信息和被删除的信息。搜索引擎技术概览搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展。搜 索引擎的最新技术发展包括以下几个方面:(1)提高搜索引擎对用户检索提问的理解为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克 服关键词检索和 目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单 的疑问句,比如how can kill virus of computer? ”。搜索引擎在对提问进行结构和内容 的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行

14、再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就 以上面的例子来讲,如果用关键词查询,多半人会用“virus ”这个词来检索,结 果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息,而用how can kill virusof computer? ”,搜索引擎会将怎样杀病毒的信息提供给用户,提高了检索效率。(2)对检索结果进行处理1、基于链接评价的搜索引擎基于链接评价的搜索引擎的优秀代表是Google,它独创的“链接评价体系”是基于这样一种认识,一个网页的重要性取决于它被其它网页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量。

15、这种评价体制与科技引文索引的思路非常相似,但是由于互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。2、基于访问大众性的搜索引擎基于访问大众性的搜索引擎的代表是direct hit,它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网 站和他们在这些网站上花费的时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链接评价的 搜索引擎有着同样的缺点。3、去掉检索结果中附加的多余信息有调查指

16、出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的附加信息,可以采用用户定制、内容过滤等检索技术。(3)确定搜索引擎信息搜集范围1 、垂直主题搜索引擎网上的信息浩如烟海,网络资源以十倍速的增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽, 很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专 业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。作者认为,垂直主题有着极大的发展空间。2、非www信息的搜索提供FTP等类信息的检

17、索3 、多媒体搜索引擎多媒体检索主要包括声音、图像、视频的检索。关于图片搜索引擎的原理,浅谈图片搜索引擎的实现中提出了具有跨时代意义设计思路。(4)提供更优化的检索结果1、纯净搜索引擎这类搜索引擎没有自己的信息采集系统,利用别人现有的索引数据库,主要关注检索的理念、技术和机制等。2、元搜索引擎现在出现了许多的搜索引擎,其收集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个搜索引擎的用法。每个搜索引擎平均只能涉及到整个WWW资源的30-50%(search engine watch 数据),这样导致同一个搜索请求在不同搜索引擎中获得的查询结 果的重复率不足34%而每一个搜索引擎的查准率不

18、到45%。元搜索引擎(metasearch engining )是将用户提交的检索请求到多个独立的搜索引擎 上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的 设置和用户检索界面的友好性上,查全率和查准率都比较高。目前比较成功的元搜索引擎有 metacrawler、dopile、ixquick、搜客等。3、集成搜索引擎集成搜索引擎(All in One Search Page ),亦称为多引擎同步检索系统 ”(如 百度)是在一个WW页面上链接若干种独立的搜索引擎, 检索时需点选或指定搜索

19、引擎, 一 次检索输入,多引擎同时搜索,用起来相当方便。集成搜索引擎无自建数据库,不需研发支持技术,当然也不能控制和优化检索结果。 但集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更 新,尤其大规模专业(如 FLASH MP3等)搜索引擎集成链接,深受特定用户群欢迎。4、垂直搜索引擎垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新 的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体

20、和深入。个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。一种方式通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组织个人信息,然后在搜索引擎基础2004年10月信息库的检索中引入个人因素进行分析,获得针对个人不同的搜索结果。自yahoo推出myweb测试版,至U 11月a9推出个性化功能,到2005年Googlesearchhistory基本上都沿着一条路子走,分析特定用户的搜索需求限定的范围,然后按照用户需求范围扩展到互联网上其他的同类网站给出最相关的结果。另外一种是针对大众化的,Google个性化搜索引擎,或者 yahooMindSet,或者我们都知道的前台聚类的viv

21、isimo 。但是无论其中的哪一种实现方式,即 Google的主动选择搜索范围,还是yahoo, vivisimo 的在结果中重新组织自己需要的信息,都是一种实验或者创想,短期内无法成为主流的搜索引擎应用产品。走进网吧,不难发现各个网吧内的电脑浏览器首页或工具条上都会有google或百度的标志。百度甚至还推出了网吧联盟,可见搜索引擎们对网吧行业都格外的青睐。现在我们常用的搜索引擎无非就是百度和google两种。从百度方面来看,百度联盟可以算是目前唯一一个能够覆盖所有网吧并和几乎所有主流网吧软件缔结合作关系的媒体运营平台。而 google方面也不甘示弱,谷歌已经注意到了网吧市场,网吧已经成为了谷

22、歌的新型合作伙 伴。网吧的首页和工具条上都会出现谷歌的标志,相应地会给谷歌带去流量。谷歌对网吧市场的关注,表明谷歌注意到网吧作为中国互联网市场的特色之一。由于我国PC拥有量远落后于美国等西方国家,网吧作为网民主要上网地点的比例逐年在上升,我国网民在网吧上网的比例偏高。据 CNNIC第20次中国互联网络发展状况统计报告显示,超过1/3 ( 37.2%)的网民表示经常去网吧上网,比2006年12月的32.3%高了 5个百分点,第一次超过网民在工作单位上网的比例而成为第二大上网场所。一个网站的命脉就是流量,而网站的流量可以分为两类。一类是自然流量,一类就是通过搜索引擎而来的流量。 如果搜索引擎能够更

23、多更有效的抓取网站内容,那么对于网站的好处是不言而喻的。所以,SEO也应运而生了。在百度和谷歌两大搜索引擎的工作中,百度的工作周期相对来说短一些,百度大约在10天左右重新访问网站一次, Google大约在15天左右重新访问一次网站。 由于一天之内不 能游历全球所有的网站, 如果推广网站时,能到更多的网站上提交相应的网站信息, 也是加 快蜘蛛收录网站内容的重要环节。搜索引擎营销可分为四个层次,可分别简单描述为:存在层、表现层、关注层和转化层。第一层是搜索引擎营销的存在层,其目标是在主要的搜索引擎/分类目录中获得被收录的机 会,这是搜索引擎营销的基础,离开这个层次,搜索引擎营销的其他目标也就不可能

24、实现。即在搜索结果中有良好也就是通过搜索结果点第二层的目标则是在被搜索引擎收录的基础上尽可能获得好的排名, 的表现,因而可称为表现层。搜索引擎营销的第三个目标则直接表现为网站访问量指标方面, 才可能被点击,因此可称为关注层。击率的增加来达到提高网站访问量的目的。由于只有受到用户关注,经过用户选择后的信息搜索引擎营销的第四个目标, 即通过访问量的增加转化为企业最终实现收益的提高,可称为转化层。转化层是前面三个目标层次的进一步提升,是各种搜索引擎方法所实现效果的集中体现,但并不是搜索引擎营销的直接效果。搜索引擎是网站建设中针对“用户使用网站的便利性”所提供的必要功能,同时也是“研究网站用户行为的一

25、个有效工具”。高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略具有重要价值。1、从网络营销的环境看,搜索引擎营销的环境发展为网络营销的推动起到举足轻重的 作用;2、从效果营销看,很多公司之所以可以应用网络营销是利用了搜索引擎营销;3、就完整型电子商务概念组成部分来看,网络营销是其中最重要的组成部分,是向终 端客户传递信息的重要环节。在搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随着 2001年互联网泡沫的破灭,大多转向为竞价排名方式。现在搜索引

26、擎的主流商务模式(百度的竞价排名、Google的AdWords)都是在搜索结果页面放置广告,通过用户的点击向广告主收费。这种模式最早是比尔格罗斯(Bill Gross )提出的。他于1998年6月创立GoTo公司(后于2001年9月更名为Overture ),实施这种 模式,取得了很大的成功,并且申请了专利。 这种模式有两个特点, 一是点击付费(Pay PerClick ),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。2001年10月,Google推出AdWords,也采用点击付费和竞价的方式。 2002年,Overture 起诉Google侵犯了其专利。2004年

27、8月,和Yahoo! (Yahoo!于2003年7月收购 Overture ) 达成和解,向后者支付了 270万普通股(合3亿美元不到)作为和解费。AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的的第三方网页发布者进入 Google庞大的广告商网络。Google在这些第三方网页放置跟网页内容相 关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎。同时,Google武断地删除一些帐号,引起部分人的不满。类似的广告方式,其他搜 索引擎也先后推出。雅虎的广告方式是YPN(Yahoo Publisher Network ), YPN除了可以在网页上显示与内容相关的广告以外,还可以通过在RSS订阅中来显示广告。微软的广告计划叫AdCenter。百度也推出主题推广。四、心得体会在传统的网站分类目录搜索方面,新浪、网易、搜狐各出奇兵。新浪依托自身良好的 技术实力和新闻优势, 推出了综合搜索,省却了用户分门别类搜索的麻烦,只要输入一次想搜索的关键词,就能得到网站、网页、新闻、商品等常用信息,层次分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论