第5章--友好的网站结构设计_第1页
第5章--友好的网站结构设计_第2页
第5章--友好的网站结构设计_第3页
第5章--友好的网站结构设计_第4页
第5章--友好的网站结构设计_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SEO 教程:搜索引擎优化基础实战入门(微课版)沙旭 陈成主编徐红 杨学彬副主编第5章 友好的网站结构设计本章导读本章主要带读者学习网站的结构优化通过本章学习读者能够为自己的网站设计一个友好的网站结构通过本章学习读者能够掌握网站的301、404 和伪静态设置学习目标避免蜘蛛陷阱物理结构和链接结构友好的网站导航设计禁止抓取和收录机制URL静态化网址规范设计和301永久重定向设置网站地图的设置页面权重分配404错误页面的设置技能要点了解蜘蛛无法抓取的现象有哪些掌握网站导航的设计原则掌握网站301、404和伪静态的设计掌握网站地图的设置掌握nofollow、robots.txt和meta robot

2、s标签的使用方法实训任务设置网站的301、404和伪静态设置网站地图为站点添加次导航效果欣赏5.1 避免蜘蛛陷阱 5.1.1 Flash 动画 在网页的某一部分使用 flash 动画可以增加视觉效果,吸引用户的目光,常见于首页中的 banner 或者轮播图。 这种flash动画只是网页中的一小部分,对搜索引擎的收录和抓取没有任何影响。 但是有的网站将首页直接设置成一个全屏flash动画,这种做法用户可以看懂,但是搜索引擎是无法读取flash动画里面的文字信息和链接的,这就是我们常说的蜘蛛陷阱。 随着互联网的发展,人们对SEO的重要性认识逐渐加深,即使是网站首页的轮播图已经很少有站长使用 fla

3、sh动画了,一般会使用js文件替换flash动画。 5.1.2 各种跳转 网站跳转情况每一个互联网用户基本上都遇到过,大家打开某一个 URL 之后,网站会自动跳转到另外一个 URL,实现跳转的方法有很多种,包括 301 跳转、302 跳转、js 跳转、Meta Refresh 跳转等。 301 跳转是我们最常见,也是搜索引擎推荐的跳转方式,除去 301 跳转之外的其他跳转方式搜索引擎都比较敏感,不建议大家使用。 5.1.3 框架 这里所说的框架,最常见的就是一个页面中包含左右两部分,一般左侧为文章列表,右侧为文章详细内容;当我们点击左侧文章列表中的某一个标题的时候,右侧会显示相应的内容。 5.

4、1.4 动态网址(动态 URL)我们所说的动态网址指的是由数据库驱动,网站内容实时生成并且带有问号、等号和传参数的网址。早期搜索引擎抓取动态网址要弱一些,目前搜索引擎抓取动态网址已经没有任何问题了,但是过多的传参数的动态网址仍不利于搜索引擎爬行和抓取,所以我们要尽量避免或者通过伪静态将动态网址改成静态网址显示。 5.1.5 要求登录有些站点(论坛形式比较多)需要用户登录才能看到一些会员区域,或者强制用户登录才可以看到文章的内容。这些会员区域和内容,搜索引擎是无法看到的,蜘蛛只不过是一个机器人,不会自动注册、登录甚至回复。 现在我们也就可以理解为什么好多站长喜欢将文章部分内容供读者浏览,剩下的部

5、分内容需要注册才可以阅读,这也是为了迎合搜索引擎。5.2 物理结构和链接结构 5.2.1 物理结构 网站物理结构指的是网站真实存在空间中的目录文件夹及文章所在的位置所决定的结构,我们用超市来帮助大家理解。 超市中某一款产品的具体摆放位置就是它的物理结构,而从超市入口开始通过某几条通道可以达到该产品所在的位置就是它的链接结构。 互联网中网站的物理结构主要包含两种扁平式结构和树形结构。 1扁平式结构 扁平式结构指的是网站中的所有网页文件全部放在网站根目录下,如:/index.htm/list1.htm/list2.htm/page1.htm/page2.htm/page3.htm 2树形结构 树形

6、结构也被称为金字塔结构。根目录下以文件夹形式生成多个产品分类(也被称为频道、栏目、板块等) ,然后在每一个分类文件夹中放置属于该分类的所有文章(也被称为帖子、产品、内容等)页面。如:网站首页http:/网站栏目http:/list1/http:/list2/具体文章页面放到相应分类目录中http:/list1/page1.htmhttp:/list1/page2.htmhttp:/list1/page3.htmhttp:/list2/page1.htmhttp:/list2/page2.htmhttp:/list2/page3.htm 5.2.2 链接结构 网站链接结构也被称为逻辑结构,指的是

7、网站内部链接形成的链接网络图。 互联网中用得最多的链接结构是树形结构,这也是比较合理的一种链接结构,如图 5-1 所示。 H为网站首页,C1和C2是网站的分类首页,P1、P2是 C1下的文章页面,P3、P4 是C2下的文章页面。链接关系如下: (1)首页链接向所有分类首页; (2)首页一般不直接链向产品页面,除了几个需要特殊推广的产品,如 P3; (3)所有分类首页链向其他分类首页,一般以网站导航形式体现; (4)分类首页都链向网站首页; (5)分类首页链向本分类下产品页面; (6)分类首页一般不链接向其他分类的产品页面; (7)产品页都链向所有分类首页,一般以网站导航形式出现; (8)产品页

8、面都链向网站首页,一般以网站导航形式出现; (9)产品页面可以链向同一个分类的其他产品页面; (10)产品页面一般不链接向其他分类的产品页面; (11)在某些情况下,产品页面可以用适当的关键词链接向其他分类的产品页,如 P2 链接向 P3。图 5-1 网站链接结构5.3 友好的网站导航设计 5.3.1 导航分类 1导航主导航,一般放置在网站页面顶部或者网站logo下方,主导航存在于网站的每一个页面中。从用户体验的角度出发:一般情况下,网站主导航中放置着网站中一些最主要的内容,也是除去首页之外,站长最希望用户点击的一些网站栏目或者页面。 从搜索引擎的角度出发:网站的主导航位于SEO优化网站中F区

9、的最重要的位置,是搜索引擎蜘蛛检索最看重、 权重较高的一个位置, 同时在网站的主导航上还布局了网站栏目及各个单页面的导入链接(各个二级栏目间的回流设置),这是设置整个网站回流的最核心的部分。 2面包屑导航面包屑导航在 SEO 优化中的重要性虽然比不过主导航,但是我们仍然不可忽视。 网站的主导航主要用于网站主要栏目或者页面之间的切换,面包屑导航主要用于告知用户所在的网站位置,它增加了用户体验,同时也有利于搜索引擎的抓取,帮助搜索引擎了解网站的结构。 3次导航次导航,主要是相对于主导航而言的,一般情况下会放在网站的页脚部分。 互联网中的站点各种各样,某些公司站点的主导航中放置了公司荣誉、在线报名、

10、人才招聘等栏目。 从优化的角度来说,这些栏目没有必要放置在主导航中,但是公司为了显示自己的公司实力又不得不放。类似于上述情况,因为某些原因无法在网站主导航中布置关键词,我们就需要在页面底部布置次导航,在页面底部布置一句包含优化关键词的语句,并且将关键词做锚文本链接指向对应的 URL。 5.3.2 导航设置要点1一定要使用文字导航2导航中要布置关键词3主导航中的栏目需要按用户需求排列4主导航中的栏目布置需要遵循用户习惯5.4 禁止抓取和收录机制 5.4.1 抓取和收录的概念 在SEO优化中抓取和收录是两个不同的概念。站长可以自由设置网站中的某些页面可以被抓取,也可以设置某些页面不被抓取;但是搜索

11、引擎抓取的页面不一定就会被收录,搜索引擎抓取的页面会暂时被放到搜索引擎的临时库中,一些被搜索引擎认为不可读、无用的页面会被舍弃掉。 只有被搜索引擎认为有价值的页面才会被放到索引库中,才有排名机会。我们常常说的收录就是搜索引擎的索引量。 5.4.2 robots.txt 文件 robots.txt 文件是搜索引擎来到网站之后访问的第一文件,robots.txt 文件中设置了搜索引擎的抓取范围。1robots.txt 设置要求 (1)robots.txt 文件必须放置在网站根目录; (2)robots.txt 文件名必须小写。 如百度 robots.txt 文件访问路径是: https:/robo

12、ts.txt 2robots.txt 文件规则解读 robots.txt 的书写格式为:: 常见的 robots.txt 指令为: User-agent: * Disallow: / 主流的搜索引擎都会遵守 robots 文件指令, 但是被robots 文件禁止抓取的网址还会出现在搜索引擎结果中,这就好比你虽然不告诉我发生了什么事,但是我从别人那里知道了你的事情一样。 只要禁止被抓取的网址在互联网中存在导入链接,搜索引擎就会知道这个网址的存在,这个网址就有可能被搜索引擎收录,但是搜索结果标题下方会出现提示,如图 5-2 和图 5-3 所示。图 5-2 淘宝登录界面禁止百度抓取图 5-3 百度依

13、然收录该页面 5.4.3 meta robots 标签 meta robots 标签是页面 HTML 代码中 head 标签中的一部分, 它的作用是禁止搜索引擎索引本页面,此页面将不会出现在搜索引擎搜索结果中。 meta robots 标签中没有大小写之分,最简单的 meta robots 书写格式为: meta name=robots代表所有的搜索引擎,也可以针对某一个搜索引擎,只需要将 robots 替换成搜索引擎的蜘蛛名称即可。 content 指令有个选项,分别是 index、noindex、follow、nofollow、all 和none,它们的含义分别是:index:指令搜索引擎

14、可以索引本页面;noindex:指令搜索引擎禁止索引本页面;follow:指令搜索引擎可以跟踪本页面上的链接;nofollow:指令搜索引擎禁止跟踪本页面上的链接;all:相当于 index 和 follow 指令的总和, 指令搜索引擎既可以索引本页面, 也可以跟踪页面上的链接;none:相当于 noindex 和 nofollow 指令的总和,指令搜索引擎禁止索引本页面和跟踪页面上的链接。 5.4.4 nofollow 属性 这里所说的 nofollow 属性和上面讲解的 meta robots 中的 nofollow 是两个不同的概念。 严格意义上来说,nofollow 属性不算作一个标签

15、,只是 a 标签的一个属性,其使用格式是: 锚文字 链接中的 nofollow 属性只适用于本链接,意思是告诉搜索引擎不要跟踪本链接,也不传递权重。5.5 URL 静态化 5.5.1 为什么要做 URL 静态化随着互联网的发展,现在的大部分站点都是数据库驱动,页面由程序实时生成。 搜索引擎在发展初期一般不太愿意抓取动态页面,主要原因是有可能陷入无限循环或者抓取大量重复内容。 5.5.2 如何做 URL 静态化1pache 设置方法 (1)httpd.conf 文件httpd.conf文件是apache程序安装目录中的一个文件,我们可以通过 httpd.conf 文件设置网站的伪静态,但是此文件

16、一般不要随意更改,这个文件是 apache 的配置文件,设置不当的话会影响网站的运作。 (2).htaccess 文件 我们可以通过.htaccess文件设置网站的伪静态,.htaccess 放置于网站根目录中,将伪静态代码放到.htaccess 中即可。 在windows平台中.htaccess是无法直接建立的,需要建立一个文本文档另存为.htaccess。 Apache 默认情况下不支持.htaccess,站长或者空间商需要修改 Apache 安装目录中的 httpd.conf 文件。第一步:打开 apache 安装目录下的 httpd.conf 文件,把 AllowOverride No

17、ne 改为 AllowOverride All,如图 5-4 所示。图 5-4 httpd.conf 文件修改示例第二步:搜索。#LoadModule rewrite_modulemodules/mod_rewrite.so 去掉前面的#,如图 5-5 所示,重启即可。图 5-5 httpd.conf 文件中去掉对应的# 2IIS6.0 设置方法 Windows平台服务器操作系统有Windows2003 、Windows2008 和Windows2012,这三个操作系统默认安装的 IIS 版本是不一样的: Windows2003 配备 IIS6.0; Windows2008 配备 IIS7.0

18、 或者 IIS7.5; Windows2012 配备 IIS8.0 或者 IIS8.5。图 5-6 点击 IIS 中的属性选项图 5-7 添加对应的筛选器名称 图 5-8 默认名称前面不显示箭头图 5-9 重启 IIS 图5-10 显示向上的绿色箭头证明配置成功3IIS7.0 以上版本设置方法图 5-11 Microsoft URL 重写模块 2.0 下载页面图 5-12 将对应的代码添加到 web.config 文件中 4空间(虚拟主机)设置方法 在购买空间之前需要了解空间的参数或者询问客服,一般空间的控制面板中会提供伪静态设置模块。 有些 Apache 服务器提供的空间控制面板中无此模块,

19、直接在根目录中建立.htaccess 文件即可。5.6 网址规范化和 301 设置 5.6.1 规范网址 网址规范化指的是网站因为种种原因,同一个页面可能会出现多个 URL,搜索引擎挑选的 URL 有可能不是最合适的 URL。 这种情况下,我们需要通过网站设置,使搜索引擎更容易挑选出最合适,也是最规范的 URL。1页面为什么会出现不同网址2网址未进行规范的严重性3解决网址规范化问题 5.6.2 301 永久重定向1301 永久重定向的含义 301 永久重定向,也称为 301 转向、301 重定向、301 跳转,指的是当用户或搜索引擎向网站服务器发出浏览请求时,服务器返回的 HTTP 数据流中头

20、信息(header)中的状态码的一种,表示本网页永久性转移到另一个地址。 2301 永久重定向的重要性 (1)规范网站 URL,使搜索引擎更容易抓取和收录页面。 (2)301 转向会传递网站权重,google 传递大部分权重,百度会传递所有权重,但是百度对 301 处理比较保守,跳转的页面会在百度的搜索结果中保留很长时间。 3301 永久重定向的设置 IIS 服务器都可以在软件中直接设置 301,互联网中有具体的操作教程,不过不建议读者操作,防止操作不当造成网站打不开的现象出现。 如果您购买的是虚拟主机,虚拟主机的控制面板中一般都提供 301 跳转模块,读者直接设置即可,如图 5-13 所示。

21、图 5-13 空间控制面板中设置 3014301 永久重定向的检查301设置完成之后,我们需要使用工具进行检查,要确保跳转的域名的状态码是 301。互联网中查询工具有很多,我们可以在百度中搜索“http 状态码查询” ,在这里我们使用站长工具网提供的查询工具,网址是: http:/pagestatus/我们使用图5-11所示中的域名进行查询,其效果如图5-14所示。图 5-14 使用 http 状态码查询工具检查设置效果5.7 网站地图设置 5.7.1 网站地图的含义 1网站地图的含义网站地图,又称站点地图,就是在一个页面上面放置了网站上需要搜索引擎抓取的所有页面的链接(注:不是所有页面) 。

22、大多数人在网站上找不到自己所需要的信息时,可能会将网站地图作为一种补救措施。 2为什么要制作网站地图 (1)为搜索引擎蜘蛛提供可以浏览整个网站的链接,简单地体现出网站的整体框架给搜索引擎看; (2)为搜索引擎蜘蛛提供一些链接,指向动态页面或者采用其他方法比较难以到达的页面; (3)作为一种潜在的着陆页面,可以为搜索流量进行优化; (4)如果用户试图访问网站所在域内并不存在的 URL,那么用户就会被转到“无法找到文件”的错误页面,而网站地图可以作为该页面的“准”内容。 5.7.2 网站地图的制作1网站地图的制作技巧 (1)网站地图要包含网站最重要的一些页面,包括产品分类页面、主要产品页面、访问量

23、比较大的页面等; (2)网站地图布局一定要简洁,所有的链接都是标准的 HTML 文本,并且要尽可能多地包含关键字;(3)尽量在站点地图上增加文本说明;(4)站点的每个页面里面都需要放置网站地图的链接;(5)确保网站地图里的每一个链接都是正确、有效的。 2HTML 网站地图的制作 网站地图有两种表现形式,第一种是后缀名为.html 的网站地图,一般命名使用 sitemap。 HTML 版本的网站地图针对的目标是用户,也就是用户在网站上可以看到的网站地图,一般情况下在网站每个页面的顶部或者底部添加一个网站地图的锚文本链接,用户点击之后看到的内容主要是网站主要栏目和页面的链接。 对于小网站来说,网站

24、地图可以列出整个网站所有页面的链接,如果是大中型网站,内容页面较多的话,建议列出网站的主要目录和部分重要页面的链接。 HTML 版本的网站地图建议进行人工手动编辑,也可以使用 Dreamweaver 来完成,如图 5-15所示。图 5-15 HTML 格式的地图 3XML 网站地图的制作 网站地图的第二种形式是 XML 版本的网站地图,一般命名为 Sitemap.xml(首字母S通常大写) ,简单来讲,Sitemap.xml 放置的是网站上链接的列表。它由XML标签组成,文件本身必须是utf8编码。 制作 Sitemap.xml,并提交给搜索引擎可以使网站的内容完全被收录,包括那些隐藏比较深的

25、页面。这是一种网站与搜索引擎对话的好方式。 标准的 XML 网站地图格式为:/1.002017-07-24Always第一步:下载爱站 SEO 工具包并安装,下载地址是:/,如图 5-16 所示。图 5-16 爱站工具包下载界面第二步:打开软件登录之后选择“网站地图/sitemap” ,如图 5-17 所示。图 5-17 爱站工具包默认界面第三步:点击方框内的按钮添加一个站点,添加完成之后单击右侧的网站图标,如图 5-18 和图 5-19所示。图 5-18 添加对应的域名图 5-19 双击添加之后的域名第四步:设置网站地图的抓取类型和生成的格式,设置好之后单击右下角的“抓爬”按钮,如图 5-2

26、0所示。图 5-20 设置网站抓取格式第五步:待程序抓爬完成之后,单击右下角的“生成 XML 文件” 。生成完成之后,在程序的提示下找到地图文件,如图 5-21 所示。图 5-21 生成 XML 文件 4网站地图的提交 (1)一般的搜索引擎都会有自己的站长平台,我们需要登录站长平台验证网址之后,将自己的网站地图提交给搜索引擎。以百度站长平台(/)为例,如图 5-22 所示。图 5-22 将网站地图提交到百度站长平台 (2)第二种办法,将网站地图在 robots.txt 中进行声明,告诉搜索引擎网站地图的位置。使用方法如下: sitemap:http:/sitemap.xml 所有的主流搜索引擎

27、都支持使用 robots.txt 文件声明网站地图的位置。5.8 页面权重分配 网站页面的布局我们遵循以下几点。 (1)首页的权重在一个站点中是最高的; (2)首页 banner 下方应该放置用户最感兴趣的内容,但不一定是最新发表的内容。如果一个首页的用户主要来源于某一个关键词,那么首页 banner 下方应该放置和该关键词相关的产品或者内容; (3)相对于一个页面来说,蜘蛛根据代码是从上往下抓取的,所以一个页面位置越高,权重相对会越高,这也是许多人在网站左上角的 logo 中添加锚文本的原因; (4)网站中的“隐私权政策” “用户登录” “联系我们” “在线报名”等页面链接从 SEO 角度看

28、是没有必要的页面,但是相对于用户体验来说很重要,所以我们要有所取舍,类似于上述的页面要么只在首页添加链接,以降低这些页面的权重,要么为这些链接添加“nofollow”属性。5.9 404 错误页面的设置 5.9.1 404 错误页面的产生 一个站点随着时间的推移,网站中的页面也会越来越多,在网站运营的过程中不可避免地会因为各种因素(服务器瘫痪、黑客入侵、网站搬家、误删等)导致网站中的页面丢失。当用户访问网站中不存在的页面时,服务器通常会返回 404 错误。 如果站长没有设置好 404 错误页面,服务器会显示对用户体验极不友好的一个默认错误页面。 5.9.2 404 错误代码 当一个页面不存在的

29、时候,一定要返回404状态码。 在URL后面随意添加几个字符,将组合成的URL放到“http 状态码检测工具”中查询一下即知,如图 5-23 所示。图 5-23 http 状态码检测 404 是否设置成功 5.9.3 404 错误页面的设计 1404 页面设置要点 (1)404 页面设计要保持网站的统一,包括模板、logo 和名称,条件允许的话建议保留网站的顶部和底部内容,不要让用户搞不清楚来到了哪个站点。 (2)404 页面应该在最显著的位置明确错误信息,告知用户其访问的页面不存在,同时可以加上造成页面不存在的几种可能性。 (3)在错误信息下方添加网站的主要几个链接,包括首页、重要栏目或者网站地图的链接,甚至还可以加上站内搜索框,让用户自己去选择点击选项。 2404 页面功能实现 (1)一般的虚拟主机控制面板中都有 404 错误设置模块,读者可以在空间控制面板中直接设置即可。 (2)Apache 服务器可以在根目录中的.htaccess 文件中进行设置,代码如下: ErrorDocument 404 /404.htm (3

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论