版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、SEO是什么与搜索引擎原理沈阳沈阳SEO 目录1、SEO的含义2、SEO常见方向3、Spider4、内容处理、中文分词和索引5、页面去重原理、页面去重原理6、用户需求分析、用户需求分析7 7、内容相关性计算、内容相关性计算8 8、连接分析、连接分析9 9、用户体验判断、用户体验判断1010、有效索引和缓存机制、有效索引和缓存机制1111、反作弊和人工干预、反作弊和人工干预沈阳沈阳SEO 1、SEO的含义SEO原始定义搜索引擎优化,指为了提升网页在搜索引擎自然搜索结果中的收录数量及排序位置而做的优化行为,这一行为的目的,是为了从搜索引擎中获得更多的免费流量,以及更好的展现网站形象。SEO现实含义
2、还需要对搜索流量在网站中整个行为(PV和转化)负责。沈阳沈阳SEO 思考SEO是忽悠还是技术,策略还是艺术?面试官问“你认为SEO是什么?”沈阳沈阳SEO 2、SEO常见方向原始方向发发外链,写写文章,堆堆关键词现实方向技术,产品,运营沈阳沈阳SEO 搜索引擎原理互联网Spider内容处理分词索引去重反作弊内容相关性链接分析用户体验查询分析缓存机制页面排序沈阳沈阳SEO 搜索引擎原理搜索引擎主动抓取网页进行的流程和机制1、派出Spider,按照一定策略把网页抓回到搜索引擎服务器用户进行查询后,搜索引擎工作流程和机制2、对抓回的网页进行链接抽离、内容处理,消除噪声、提取该页面文本内容3、对网页的
3、文本内容进行中文分词、去除停止词4、判断该页面内容与已索引网页是否重复,剔除重复页,对剩余网页进行倒排索引,然后等待用户检索1、对用户所查关键词进行分词,并根据用户地理位置和历史检索特征进行用户需求分析2、查找缓存中是否有该关键词的查询结果,如果有,搜索引擎会根据当下用户的各种信息判断其真正需求,对缓存中的结果进行微调或直接呈现给用户3、如果用户查询的关键词在缓存中不存在,那么就在索引库中的网页进行调取排名呈现,并将该关键词和对应的搜索结果加入到缓存中4、网页排名是根据用户的搜索词和搜索需求,对索引库中的网页进行相关性、重要性(链接权重分析)和用户体验的高低进行分析所得出的沈阳沈阳SEO 3、
4、SpiderSpider也就是大家常说的爬虫、蜘蛛或机器人,是处于整个搜索引擎最上游的一个模块,只有Spider抓回的页面或URL才会被索引和参与排名首先,Spider想要抓取网页,要发现网页抓取入口,所以要给Spider一些网页入口,然后顺着入口进行爬行抓取,这就涉及抓取策略问题其次,网页内容是有时效性的,所以Spider对不同网页的抓取频率也要有一定的策略性,这就涉及再次抓取和更新策略问题再次,互联网中的网页总有一部分是没有外部链接导入的,也就是常说的“暗网”并且这部分网页也是需要呈现给网民浏览的,这就涉及如何解决暗网问题最后,大型搜索引擎的Spider不可能只有一个,为了节省资源,要保证
5、多个Spider同时作业且抓取页面不重复,这就涉及分布抓取策略沈阳沈阳SEO 3.1Spider分类批量型Spider增量型Spider垂直型Spider有明显的抓取范围和目标,设置抓取时间限制、抓取数据量的限制,或抓取固定范围内页面的限制没有固定目标、范围和时间限制,会无休止地抓取下去直到把全网的数据抓完为止只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某一个限制的范围内进行增量型的抓取沈阳沈阳SEO 3.2Spider的抓取策略Spider眼中的互联网页面已经抓取过的页面待抓取的页面可抓取的页面暗网中的页面123456789已抓取页面待抓取页面可抓取页面暗网中页面沈阳沈阳S
6、EO 3.2Spider的抓取策略Spider的抓取方式深度优先策略广度优先策略即一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条路Spider在一个页面上发现多个连接时,先把这些页面抓一遍,然后再抓这些页面中提取下来的链接其他策略重要页面优先抓取策略大站优先策略沈阳沈阳SEO 3.2Spider的抓取策略A1234567891011121314A123456781011121314深度优先策略广度优先策略沈阳沈阳SEO 3.3Spider再次抓取更新策略用户体验历史更新频率网页类型搜索引擎会搜集所有用户的搜索请求,然后统计所有搜索结果中用户可能看到的网页,继而进行优先再次抓取和更
7、新。Spider的再次抓取就是为了发现已经被索引网页是否有变化,如果某个网页持续没有变化,搜索引擎就会降低对其抓取的频率不同的网页类型有不同的更新频率网页权重网页权重是决定抓取频率的重要因素沈阳沈阳SEO 3.4分布式Spider和降权蜘蛛分布式Spider分布式抓取策略任务分发机制抓取范围常规网页分类站点质量等级分类网页类型分类站点或网页内容所在行业分类沈阳沈阳SEO 3.5Spider和普通用户的区别Spider可以容易的分辨网页中是否有隐藏内容,是否被挂了黑链,但不能完全了解网页的图片,JS,Flash中的内容,普通用户却恰恰相反Spider对网站的抓取全部都是直接访问,而普通用户中除了
8、直接访问的用户外一般都是有上级访问路径的Spider不支持Cookie,但普通用户的浏览器一般是支持的Spider不会主动注册登录网站,但是普通用户是可以的;Spider不会抓取网站Robots中屏蔽的内容,但是普通用户是可以访问的Spider对于有多个动态参数网站的抓取,可能会陷入死循环,但是普通用户不会Spider对于列表中前几页的新内容抓取可能不好,但是感兴趣的普通用户会依次浏览Spider暂时还不能真正判断文章是不是原创,但是普通用户可以通过多种方式来确定是原创还是转载沈阳沈阳SEO 4、内容处理、中文分词和索引4.1内容处理即搜索引擎对Spider抓取回来的页面进行处理步骤要判断该页
9、面的类型提取页面的文本信息去除页面噪声去除内容的停止词去除内容的停止词沈阳沈阳SEO 4.2中文分词中文分词1、基于词典匹配2、基于统计对大量文字样本进行分析,把相邻出现次数多的几个字当成一个词,可以解决搜索引擎词典更新问题,并消除歧义使用搜索引擎自己的词典对网页内容进行拆分正向最大匹配逆向最大匹配最小匹配匹配方式:沈阳沈阳SEO 4.3索引索引搜索引擎中使用的是倒排索引正向索引结构倒排索引结构沈阳沈阳SEO 5、页面去重原理搜索引擎不想呈现给用户的搜索结果都是相同的内容,在抓取这些重复的页面,在一定意义上就是对搜索引擎自身资源的浪费,因此去除重复内容的网页也成了搜索引擎所面临的一大问题。沈阳
10、沈阳SEO 6、用户需求分析6.1搜索词分析当用户向搜索引擎提交查询后,搜索引擎首先判断用户所提交的搜索词的类型:是普通的文本搜索、普通文本带有高级指令的搜索,还是纯高级指令的搜索。6.2搜索意图分析当用户搜索一些比较宽泛的关键词时,只根据关键词本身当用户搜索一些比较宽泛的关键词时,只根据关键词本身,搜索引擎并不能知道用户确切需要什么,此时就会尝试,搜索引擎并不能知道用户确切需要什么,此时就会尝试性地分析用户的搜索意图性地分析用户的搜索意图沈阳沈阳SEO 7、内容相关性计算相关性是指内容和关键词的相关程度。现在搜索引擎其实并没有真正解决相关性计算的问题,只是通过关键词分词匹配、关键词在内容中的
11、频率密度、关键词字体位置和页面外链等表面特征来进行内容相关度的计算。沈阳沈阳SEO 7.1关键词匹配1.把用户提交的搜索词分成词A和词B2.同时使用词A和词B在索引库中进行检索,并提出所有包含词A或者词B的文件组成文件集合上L3.在文件集合L中把同时包含词A和词B的文件优化提出来组成文件集合M排在前面,把只包含词A或词B的文件排在后面4.继续对文件集合M进行分析,把完全包含用户搜索词的文档提出来组成文件集合N,并排在前面,把内容中没有完全匹配搜索词的文件排在后面5.5.在根据搜索词在网页中出现的次数、位置、密度和形式等对文件集合在根据搜索词在网页中出现的次数、位置、密度和形式等对文件集合N N
12、中中的文件进行排序的文件进行排序6.搜索引擎还会分析文件的外链数量、质量和锚文本,根据锚文本辅助分析文件和关键词的相关度。外链的数量和质量来确定文件的重要程度,以进行排序调整沈阳沈阳SEO 7.2语义分析只根据关键词匹配和外部链接对网页的描述(锚文本),搜索引擎还不能真正理解网页的内容语义分析技术其实就是同各国对海量内容的分析找出词汇之间的关系,当两个词或一组词经常出现在同一个文档中时,就可以认为这些词之间是语义相关的沈阳沈阳SEO 8、连接分析网页之间的链接关系在一定程度上反映了每个网页各自的重要程度,理论上重要的网页获得的连接数量会比较多。同时链接的属性中还有锚文本,用来描述被连接页面的内
13、容,对搜索引擎的排名有很大的影响沈阳沈阳SEO 9、用户体验判断现在的搜索引擎已经不是以连接分析为中心了,而是以用户体验为中心。在正常的内容相关性判断和链接分析的基础上,网页的用户体验对于搜索排名的影响越来越大。网站的用户体验优化(UEO)沈阳沈阳SEO 9.1正常用户体验普通用户浏览网站时的用户体验,可以分以下五大类:1.感官体验:呈现给用户视听上的体验,强调舒适性;2.交互体验:呈现给用户操作上的体验,强调易用、可用性;3.情感体验:呈现给用户心理上的体验,强调友好性;4.浏览体验:呈现给用户浏览上的体验,强调吸引性;5.信任体验:呈现给用户的信任体验,强调可靠性。沈阳沈阳SEO 10、有
14、效索引和缓存机制 10.1有效索引用户搜索时,可能会匹配户几十万上至几亿的网页,但是大部分用户只会浏览前三页,这样搜索引擎就没有必要相应每次搜索时都对全部的索引文件进行检索,只需要对一个适当数量范围内的索引文件进行索引就可以了。百度最多呈现760个结果,Google最多呈现1000个结果。沈阳沈阳SEO 10.2缓存机制缓存就是临时文件交换区,是可以进行高速数据交换的存储器,它先于内存与CPU交换数据,因此速率极快。缓存淘汰机制把使用频率小的搜索结果剔除,补充进来使用频率大的搜索结果,来保证缓存空间中的内容可以相应及命中当下尽可能多的用户搜索请求。缓存更新机制搜索引擎为了节约资源,不可能对缓存中的内容进行实时更新,而是会选择搜索请求比较少的时间段进行更新缓存。沈阳沈阳SEO 11、反作弊和人工干预自从有搜索引擎以来,就有人不断研究搜索引擎的排名机制,进而寻找搜索引擎排名的技术和逻辑漏洞,来快速提升自己网站的搜索排名。沈阳沈阳SEO 11.1反作弊算法反作弊就是过滤环节的重要组成部分黑白名单搜索引擎会根据网站内容的质量、权重、品牌建立白名单,也会找出明显作弊严重的网站建立黑名单。作弊特征研究作弊特征研究是现在搜索引擎进行反作弊的主要手法。当发现一个对搜索结果影响很大的作弊网站或
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高考升学宴致辞15篇
- 军训汇演领导感想总结
- 读钢铁是怎样炼成的有感(集锦15篇)
- 小学教育活动总结
- 三年级的读书心得模板10篇
- 公证人员个人总结
- 旅游的实习报告模板锦集6篇
- 《水稻3种近等基因恢复系的构建及其对L-orfH79育性恢复的遗传分析》
- 污染修复课程设计
- 智能压力变送器课程设计
- 四川省绵阳市2023年九年级上学期期末化学试题附答案
- 《金融学》课程期末考试复习题库(含答案)
- 少数民族傈僳族民俗文化科普介绍图文课件
- 英语谜语100个及答案简单
- 塑料表面处理工艺
- 幼儿园中班下学期语言绘本-土土的鞋子
- 2023年10月自考02375运筹学基础试题及答案含评分标准
- 23J916-1:住宅排气道(一)
- 四年级全册《劳动》课程知识点汇总精排
- 小学语文二年级上册第八单元说教材
- 教育学原理课后答案主编项贤明
评论
0/150
提交评论