下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、详解搜索引擎的工作原理2012-02-21 13:37小 大来源:小强的博客 评论:3条评论分享至:百度权重查询站长交易友情链接交换网站监控服务器监控SEO监控一名合格的seo工程师,一定会了解搜索引擎的工作原理,对于百度和谷歌的原理几乎差不多,只是其中 有些细节不同,比如分词技术等,因为国内搜索一般都是百度,所以我们以后的课程都会针对于百度,当 然,基础类的只是同样适用于谷歌!搜索引擎的工作原理其实很简单,首先搜索引擎大致分为4个部分,第一个部分就是蜘蛛爬虫,第二个部分就是数据分析系统,第三个部分是索引系统,第四个就是查询系统咯,当然这只是基本的4个部分!下边我们来讲搜索引擎的工作流程:什么
2、是搜索引擎蜘蛛,什么是爬虫程序?搜索引擎蜘蛛程序,其实就是搜索引擎的一个自动应用程序,它的作用是什么呢?其实很简单,就是在互 联网中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,然后建立索引库等等,我们可以把搜索 引擎蜘蛛当做一个用户,然后这个用户来访问我们的网站,然后在把我们网站的内容保存到自己的电脑上!比较好理解。搜索引擎蜘蛛是怎样抓取网页的呢?发现某一个链接 -下载这一个网页 -加入到临时库 -提取网页中的链接 -在下载网页 -循环首先搜索引擎的蜘蛛需要去发现链接,至于怎么发现就简单了,就是通过链接链接链接。搜索引擎蜘蛛在 发现了这个链接后会把这个网页下载下来并且存入到临时的库中,
3、当然在同时,会提取这个页面所有的链 接,然后就是循环。搜索引擎蜘蛛几乎是24小时不休息的(在此为它感到悲剧,没有假期。哈哈。)那么蜘蛛下载回来的网页 怎么办呢?这就需要到了第二个系统,也就是搜索引擎的分析系统。搜索引擎的蜘蛛抓取网页有规律吗?这个问题问的好,那么搜索引擎蜘蛛抓取网页到底有规律吗?答案是有!如果蜘蛛胡乱的去抓取网页,那么就费死劲了,互联网上的网页,每天都增加那么那么那么多,蜘蛛怎么 可以抓取的过来呢?所以说,蜘蛛抓取网页也是有规律的!蜘蛛抓取网页策略1 :深度优先什么是深度优先?简单的说,就是搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去,然后 在下一个页面又发现一个连
4、接,然后就又爬下去并且全部抓取,这就是深度优先抓取策略。大家看下图蜘蛛“锤接(u撻摇【5)锤接链播犍接d网页丸L链接(1)琏接“)链接)撬接Z)椎按I链接2)CT)链接(8)岡页冬b旌接(1)一 ”燕接1)链接(2)旌接蘸接(3)旌接(4)番接X)薩接【5)链接(5)椎接HSCT)琏接)海接(茁R5TC网贡R在上图中就是深度优先的示意图,我们假如网页 A在搜索引擎中的权威度是最高的,假如 D网页的权威是 最低的,如果说搜索引擎蜘蛛按照深度优先的策略来抓取网页,那么就会反过来了,就是D网页的权威度变为最高,这就是深度优先!蜘蛛抓取网页策略2 :宽度优先宽度优先比较好理解,就是搜索引擎蜘蛛先把整个
5、页面的链接全部抓取一次,然后在抓取下一个页面的全 部链接。(蜘蛛)静接t 1)镀接3静接f 3)撻接(5) 耨接酣二T 犍接 静接 T,网页Ei链接(t) 一一* 撻接3 - 牴接3)-*體接 链接佔)一4 链接德接【“犍接 i )臆接)一* 链接E 輕接Z) r 輕接f 51f琏接f A * (7) *L 琏接ED网页I网页D上图呢,就是宽度优先的示意图!这其实也就是大家平时所说的扁平化结构,大家或许在某个神秘的角落 看到一篇文章,告诫大家,网页的层度不能太多,如果太多会导致收录很难,这就是来对付搜索引擎蜘蛛 的宽度优先策略,其实就是这个原因。蜘蛛抓取网页策略3 :权重优先如果说宽度优先比深
6、度优先好,其实也不是绝对的,只能说是各有各的好处,现在搜索引擎蜘蛛一般都是 两种抓取策略一起用,也就是深度优先 +宽度优先,并且在使用这两种策略抓取的时候,要参照这条连接 的权重,如果说这条连接的权重还不错,那么就采用深度优先,如果说这条连接的权重很低,那么就采用 宽度优先!那么搜索引擎蜘蛛怎样知道这条连接的权重呢?这里有2个因素:1、层次的多与少;2、这个连接的外链多少与质量;那么如果层级太多的链接是不是就不会被抓取呢?这也不是绝对的,这里边要考虑许多因素,我们在后边 的进阶中会降到逻辑策略,到时候我在详细的给大家说!蜘蛛抓取网页策略4 :重访抓取我想这个比较好理解,就是比如昨天搜索引擎的蜘
7、蛛来抓取了我们的网页,而今天我们在这个网页又加了 新的内容,那么搜索引擎蜘蛛今天就又来抓取新的内容,这就是重访抓取!重访抓取也分为两个,如下: 1、全部重访所谓全部重访指的是蜘蛛上次抓取的链接,然后在这一个月的某一天,全部重新去访问抓取一次!2、单个重访单个重访一般都是针对某个页面更新的频率比较快比较稳定的页面,如果说我们有一个页面,1个月也不更新一次。那么搜索引擎蜘蛛第一天来了你是这个样子,第二天,还是这个样子,那么第三天搜索引擎蜘蛛就不会来了,会隔一段时间在来一次,比如隔1个月在来一次,或者等全部重访的时候在更新一次。以上呢,就是搜索引擎蜘蛛抓取网页的一些策略!那么我们上边说过,在搜索引擎
8、蜘蛛把网页抓取回来, 就开始了第二个部分,也就是数据分析的这个部分。数据分析系统数据分析系统,是处理搜索引擎蜘蛛抓取回来的网页,那么数据分析这一块又分为了一下几个:1、网页结构化简单的说,就是把那些 html代码全部删掉,提取出内容。2、消噪消噪是什么意思呢?在网页结构化中,已经删掉了 html代码,剩下了文字,那么消噪指的就是留下网页的主题内容,删掉没用的内容,比如版权!3、查重查重比较好理解,就是搜索引擎查找重复的网页与内容,如果找到重复的页面,就删除。4、分词分词是神马东西呢?就是搜索引擎蜘蛛在进行了前面的步骤,然后提取岀正文的内容,然后把我们的内容分成N个词语,然后排列岀来,存入索引库!同时也会计算这一个词在这个页面岀现了多少次。5、链接分析这一个步骤就是我们平时所做的做烦躁的工作,搜索引擎会查询,这个页面的反向链接有多少,导岀链接 有多少以及内链,然后给这个页面多少的权重等。数据索引系统在进行了上边的步骤之后,搜索引擎就会把这些处理好的信息放到搜索引擎的索引库中。那么这个索引库 又大致分为以下两个系统: 正排索引系统什么是正排索引?简单的说,就是搜索引擎把所有URL都加上一个编号,然后这个编号对应的就是这个URL的内容,包括这个 URL的外链,关键词密度等等数据。搜索引擎简单的工作原理概况搜
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年油田工程技术服务项目融资计划书
- 2024秋新沪科版物理八年级上册教学课件 第五章 质量 第三节 密度
- 机械原理考试题
- 养老院老人生活娱乐活动组织人员职业道德制度
- 养老院老人健康管理制度
- 《就业中国演讲》课件
- 《金地格林世界提案》课件
- 提前预支工资合同
- 2024事业单位保密协议范本与保密工作考核3篇
- 2024年度离婚协议书详述财产分配与子女抚养细节及责任2篇
- DBJ∕T15-231-2021 城市轨道交通既有结构保护监测技术标准
- 设备供货安装方案(通用版)
- 政府预算理论与实务(第四版)全套教学课件
- 新教材人教版高中地理必修一 4.2.1海水的性质和运动(第一课时 海水的性质) 教学课件
- S11型油浸式电力变压器使用说明
- (完整)小学初中课程体系图
- XX楼基坑锚索拉拔试验报告教学文案
- 《我与地坛》PPT课件(PPT 48页)
- 花生生长全过程图谱PPT课件(PPT 15页)
- 组织的高效沟通ppt课件
- 中考、高考标准答题卡答题注意事项ppt课件
评论
0/150
提交评论