SEO工作原理资料_第1页
SEO工作原理资料_第2页
SEO工作原理资料_第3页
SEO工作原理资料_第4页
SEO工作原理资料_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SEO(二)

--搜索引擎工作原理搜索引擎工作原理搜索引擎发展历史1搜索引擎分类2搜索引擎工作原理3搜索引擎介绍4退出搜索引擎的发展历史第一阶段是以词频搜索为原理开发的,汇总互联网高频词汇进行信息检索。

第二阶段是以“超链分析”技术为核心的,分析网页链接相关度。

第三阶段是以竞价排名商业模式为显著特征的,对搜索排序进行排名干预。

第四阶段是以互动社区为基础的搜索引擎,随着人们对信息需求的增长,必

然要依靠其他用户的力量来满足,而社区化能很好地满足这一需求。

第五阶段?我想应该是基于概念的搜索,还需要市场的验证。

详情请查看:返回搜索引擎分类元搜索引擎目录搜索引擎搜索引擎分类全文搜索引擎国外最具代表性的全文搜索引擎有:Google、Yahoo、AllTheWeb、AltaVista、Inktomi等;国内比较著名的有百度等最具代表性的莫过于雅虎了(雅虎通过轮番的并购和持续的研发,已经跻身顶尖全文搜引擎行列),其他的还有ODP(即DMOZ)、LookSmart、About等著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等返回全文搜索引擎它通过从互联网上提取各网站的信息而建立数据库,再从这个数据库中检索与用户查询条件匹配的相关记录,最后把这些记录按照一定的排列顺序返回给用户。从搜索结果来源的角度,全文搜索引擎拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用。返回元搜索引擎元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。在搜索结果排列方面,有的直接按照来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo.返回

目录搜索引擎目录搜索引擎虽然具备搜索功能,但严格地说并不是搜索引擎,仅仅是按照类别用户展示相关网站列表的普通网站而已。除了这三大类搜索引擎外,还有以下几种非主流形式的搜索引擎(1)集合式搜索引擎:类似于元搜索引擎,区别在于不是同时调用多个引擎进行搜索,而是让用户从提供的引擎中选择,

如HotBot在2002年底推出的搜索引擎。(2)门户搜索引擎:虽然提供服务,但自身既没有分类目录也没有网页数据

库,其搜索结果完全来自其他引擎,如AOLSearch、MSNSearch等(3)免费链接列表:也就是常见的链接交换系统,这类网站一般只简

单的排列出网站的链接条目,少部分有简单的分

类目录,不过规模比起雅虎等分类目录要小得多返回搜索引擎工作原理搜索引擎优化的主要任务之一就是提高网站的搜索引擎友好性,因此,搜索引擎优化的每个环节都与搜索引擎存在必然的联系,研究搜索引擎优化实际上是对搜索引擎工作过程的逆向推理。所以学习搜索引擎优化应该从了解其工作原理开始。搜索引擎的主要工作包括:1、页面收录2、页面分析3、页面排序4、关键字查询返回搜索引擎对页面的收录搜索引擎收录页面实际上就是在互联网上进行数据采集,这是搜索引擎最基础的工作。搜索引擎的数据采集能力直接决定搜索引擎可提供的信息量及对互联网覆盖的范围,从而决定搜索引擎的质量。因此,搜索引擎总是想方设法地提高其数据采集能力。1、页面收录流程2、页面收录原理3、页面收录方式4、如何避免重复性收录5、页面维护方式6、页面存储返回页面收录流程URL列表抓取页面原始页面存储提取URL如右图所示搜索引擎抓取页面的简单流程URL是页面的入口,而域名是网站的入口。搜索引擎要在互联网上抓取到页面的首要任务就是建立一个足够大的域名列表,再通过域名进入相应的网站,从而抓取页面。那么对于网站来说,如果想要被搜索引擎收录,首要条件就是加入搜索引擎的域名列表。下面介绍两种常用的加入搜索引擎域名列表的方法。第一:利用搜索引擎提供的网站登录入口,向搜索引擎提交网站域名,例如:Google的登录地址是

(做法较被动,从域名提交到网站被收录花费的时间较长)第二:通过与外部网站建立链接关系,使搜索引擎可

以通过外部网站发现我们的网站,从而实现对

网站的收录。(主动权在我们手里,收录速度快,一般2—7天就会被收录)返回页面收录原理返回URL列表抓取页面提取URL存储原始页面内部URL域名URL如果把网站页面组成的集合看作是一个有向图,从指定的页面出发,沿着页面中的链接,按照某种特定的策略对网站中的页面进行遍历。不停地从URL列表中移出已经访问过的URL,并存储原始页面,同时提取原始页面中的URL信息;再将URL分为域名及内部URL两大类,同时判断URL是否被访问过,将未访问的URL加入URL列表中。递归地描述URL列表,直至耗尽所有的URL资源为止。经过这些工作,搜索引擎就可以建立庞大的域名列表、页面URL列表并存储足够多的原始页面。页面收录方式返回页面收录方式是指搜索引擎抓取页面时所使用的策略,目的是为了能再互联网中筛选出相对重要的信息。页面收录方式的制定取决于搜索引擎对网站结构的理解。加深对搜索引擎页面收录方式的认识,有利于为网站建立友好的结构,提供页面被收录的数量。下面介绍3种页面收录方式A、广度优先(横向)B、深度优先(纵向)C、用户提交为了提高抓取页面的数量,我们可以采取多种方法结合的方式抓取页面。用广度优先的方式抓取尽可能多的重要页面;再使用深度优先的方式抓取更多隐蔽的页面;最后,结合用户提交的信息,抓取那些被遗漏的页面。首页页面1-2页面1-1页面1-3页面2-1页面2-1页面2-1如何避免重复性收录返回搜索引擎在对页面进行分析时必须具备识别重复信息的能力,因为,大量的重复信息不但占用巨大的服务器硬盘空间,而且还会增加用户寻找信息的时间,影响用户体验。重复信息主要包括转载内容和镜像内容两种。(1)转载页面:搜索引擎把网页正文内容分为N个区域,如果有M个区域是相同或者相

似则搜索引擎认为这些页面互为转载页面。(2)镜像页面:把页面分成N个区域,如果这N个区域的内容完全一样,则认为这些页

面互为镜像页面。(3)镜像网站:形成镜像网站主要有两种情况:第一种是多个区域名或IP指向同一服务

器的同一个物理地址;另一种是整个网站内容被复制到使用不同域名或

者IP的服务器上。搜索引擎首先判断这些网站的首页以及首页直接链接

的页面是否互为镜像页面。如果是,则为镜像网站。页面维护方式返回由于搜索引擎不可能一次性抓取到网站中所有的页面,而且网站中页面的数量也会不断地变化,内容也在不断地更新。因此,搜索引擎还需要对已抓取的页面进行维护,以便能及时获取页面中最新的信息已抓取更多的新页面。常见的页面维护方式包括以下几种:(1)定期抓取:也成周期性抓取,即周期性地对已收录的页面进行全面更新,更新时

用抓到的新页面替换原有的旧页面,删除不存在页面,并存储新发

现的页面。周期性较长,Google一般是30-60天会更新一次。

(适用于维护页面少、内容更新缓慢的网站)(2)增量抓取:是通过对已抓取的页面进行定时监控,实现对页面的更新及维护。基

于重要页面携带重要内容的思想以及80/20法则,搜索引擎只需对网

站中部分重要页面进行定时监控,即可获取网站中的相对重要信息。

(抓取时间短,能及时向用户展示页面中最新的内容)(3)分类定位抓取:根据页面的类别或性质而制定相应更新周期的页面监控方式。在一个网站中,对于更新比较频繁的页面(如首页),可以使用增量抓取方式对其进行监控,这样就可以对网站中相对重要的页面进行及时更新;而对于实时性非常高的论坛页面则可以采用分类定位的抓取方式;为了防止遗漏网站中的某些页面,还需要采用定期抓取的方式。

网页分析页面抓取回来之后搜索引擎需要对原始页面进行一系列的分析、处理,以迎合用户信息查询的习惯。如图所示搜索引擎首先对存储的原始页面建立索引,再过滤原始网页的标签信息,从中提取出网页中的正文内容;然后,对正文内容进行切词,并建立关键词索引,得到了页面与关键字间的对应关系;最后对所有关键字进行重组,从而建立关键字与页面间的对应关系。主要包括:1、网页索引:为原始页面建立索引实际上就是为页面的URL建立索引2、网页分析:

网页正文信息关键字列表关键字索引网页提取切词索引重组正文信息提取:对网页中非正文信息的过滤,最重要的是对网页中标签信息的过滤。

分词/切词返回分词/切词经过对原始页面提取正文信息后,为了得到与用户相关的数据,搜索引擎还需要对页面中的内容进行切分,从而形成与用户查询条件相匹配的以关键字为单位的信息列表。在中文环境中,切词算法直接影响到网页内容经过分词处理后会产生什么样的关键字,而这些关键字是否与用户的搜索习惯一致。因而,切词的结果直接决定搜索引擎能否提供与用户查询条件相匹配的信息。(1)字符串匹配分词:是基于一个足够大、足够权威的“词典”进行的,如果页面

上的词与“词典”中的词匹配,则为命中,就可以得到一

个词或者短语。(2)统计分词:是根据相邻两个字出现的概率判断这两个字组合后是否会形成一个

词,它常常会结合“词典”一起使用,识别一些新词汇。(3)关键字索引:经过分词之后形成了关键字列表,列表中包含关键字所在的网页

的编号、关键字编号、关键字出现次数以及关键字在文档中的

位置。然后会对列表建立索引,能更快搜到某个关键字。(例子)(4)关键字重组:把所有页面中的关键字组成一个集合,并建立关键字索引,形成一个不重

复的关键字列表集合。这样通过某个特定的关键字就可以找到一个或多

个网页。返回页面排序用户向搜索引擎提交关键字查询信息后,搜索引擎就在结果页面返回与该关键字相关的页面,这些页面按照与关键字的接近程度由上至下进行排列。介绍几种常见的决定排列次序的因素。(1)页面相关性:指页面内容与用户所查询的关键字的接近程度(2)链接权重:某一页面得到的链接越多,从一定程度上反映了该页面越重要,链接

权重值越高。内部链接:指网站内部页面间的链接关系,体现了网站内部对某个页面的认可

程度,理论上,页面获得的链接质量越高数量越多,其重要性越大外部链接:指与本站以外的页面间的链接关系。由于不可操纵,所以是决定整

个页面权重最重要的因素

默认权重分配:在链接权重值补偿方面,搜索引擎把页面被抓取的日期作为一

参考因素。它认为页面在单位时间内获得链接的质量越高、数

量越多,则该页面的质量也更高。(3)用户行为:用户对搜索结果的点击行为是衡量页面相关性的因素之一。W(page)=W(relevance)+W(link)+W(user)

返回页面相关性页面相关性是指页面内容与用户所查询的关键字的接近程度,主要由关键字匹配度、关键字密度、关键字分布及关键字的权重标签等决定。(1)关键字匹配度(2)关键字密度:为有效防止网站所有者恶意操纵搜索结果,搜索引擎根据关键

字密度值来衡量页面中某关键字的词频是否合理。关键字密度

是关键字词频与网页总词汇量的比例。(3)关键字分布:是指关键字在页面中出现的位置,不同的位置会对页面的相关

性带来不一定的影响。(4)关键字的权重标签:在网页中,网页制作者利用不同的HTML标签使页面中

相关的内容实现不同的视觉效果(字体的样式、字号、

颜色等),灵活地运用各种HTML标签还有助于提高页

面相关性。在页面权重分配里,按招标签的作用,可以

把HTML标签分为“权重标签”(<b>(10),<hl>(50))和非权重标签(<img>,<by>).点击查看例子返回关键字匹配度关键字匹配度是指页面P中的内容与用户所提交的关键字K间的匹配程度,主要由两个因素决定页面P中是否存在与查询关键字K相匹配的内容。关键字K在页面P中出现的次数为了计算关键字匹配度,搜索引擎为每个页面分配一个关键字匹配值,该值由关键字在页面中出现的次数决定。假如某关键字在页面中出现一次,关键字匹配值为10;那么,如果某一关键字在页面中出现10次,则关键字匹配值=10*10返回例子返回通过对关键字匹配度、关键字密度、关键字分布以及关键字的权重标签进行说明后,我们推算出页面相关性的计算公式:W(relevance)=W(match)+W(density)+W(position)+W(tag)(页面相关性)=(关键字匹配值)+(关键字密度值)+(关键字分布值)+(标签权重值)例如某页面的内容为:<html><body><b>搜索引擎优化</b><hl>搜索引擎</hl>…</body></html>根据前面的假设值对于“搜索引擎优化”这个关键字来说,由于只出现一次,则关键字匹配值W(match)=10;关键字密度为50%,关键字密度值W(density)=20;关键字出现在页面顶部,关键字分布值W(position)=50;权重标签<b>在突出关键字“搜索引擎优化”时出现了一次,则标签权重值W(tag)=10;即W(relevance)=10+20+50+10=90。关键字查询搜索引擎查询功能的实现非常复杂,用户对返回结果的时间要求也非常高(秒级),要在短时间内进行这么复杂的计算是不现实的,所以搜索引擎需要通过一套高效的机制处理来自用户的查询。主要包括(1)在用户发出查询请求前就完成被查询关键字的反向索引、相关页面权重计算等工作。(2)为那些查询最频繁的关键字对应的页面排序列表建立缓存机制。下面介绍搜索引擎如何建立信息查询的缓存机制1、查询流程2、用户行为3、缓存机制返回查询流程返回切词查询Q关键字反向索引表空列表返回经过分配权重页面列表是否(1)先对用户提供的查询条件进行切词,并删除

查询条件中没有意义的字或词,例如(的、得)(2)再以切词结果作为条件在关键字反向索引列

表中进行匹配。(3)如果存在匹配结果,则把所有关键字相匹配

的页面组成一个列表。(4)最后,把匹配的页面按照权重值从高到低进

行排序,并返回给用户。用户行为返回用户在搜索引擎中的行为主要包括搜索和点击。搜索是用户获取信息的过程,点击是用户得到需要信息后的表现。搜索引擎通过对用户行为的分析可以进一步发掘用户的需求,提高搜索结果的精准度。(1)搜索:是用户获取信息的途径(2)点击:是用户找到所需信息后的表现,反映了用户对信息的关注。因此,用户对

链接的点击也是衡量页面相关性的因素之一,是衡量页面相关性的一个重

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论