



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、从 IIS 日志出发:发现并解决收录的几个思路网站的收录一直是个大问题,那么如何解决网站存在的收录问题,首先就需要从根源找到原因所在,那就是 IIS 日志。IIS 日志是搜索引擎爬行网站的一个记录,通过它能清晰的看到蜘蛛爬行网页的总时间,单页时间,爬行深度,是否有多次重复抓取等,看到之后我们就需要对症下药,从而从根本上解决网站收录存在的问题。好了,下边从以下几个方面做分析。其一、过度抓取的 URL 问题首先看下是否有过度抓取问题,这个很简单,把 IIS 日志用 dw 打开,然后复制一个 URL 查找全部就可以了,或者使用一些高级的 IIS 日志分析工具也能直接看得到。如果存在很多URL 被蜘蛛
2、访问了多次,那么很有可能是因为是首页或者距离1首页点击次数较近的页面,一般的调整就是需要减少这些 URL链接个数。过度抓取的 URL 会浪费蜘蛛爬行的整个时间。其二、是否存在重复内容通过第一步之后,还能发现一个问题就是重复内容,如果有些 URL 被蜘蛛抓取了很多次,那么有可能这是同一内容的不同 URL,比如静态的与动态的,比如一些 B2C 的排序页面,这些功能性的页面提供的内容都没有过多差别,但是 URL 可能不同。要使用 robots 屏蔽掉。其三、蜘蛛没爬行过的 URL这要借助于脚本实现,把你网站全部 URL 找出来,然后把蜘蛛爬行过的 URL 找出来,然后做对比,找出那些从来没有被蜘蛛爬行过的 URL,然后分析原因,是这些 URL 没有链接、目2录过深还是 URL 参数过多的原因?确定原因之后改正,日后继续观察收录情况。其四、整体内链结构如何看你网站的整体内链结构,自己点击测试,看首页到内页需要几次点击,如果你多次点击才能到达一些内页,那么爬虫从首页到内页也就需要更多的时间。这样自然就越浪费时间,所以调整内链结构,把更多的内容通过内链让蜘蛛更好的爬取到。其五、访问速度如何访问速度是受多个方面的影响,要从服务器到后台再到前端仔细查看,是否还有优化的余地。在保证页面效果的前提下,减少 html 代码的整体体积。将 js 和 css 单独引入,html 单独3存在,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年同学聚会策划方案
- 2025年第一季渣打香港中小企领先营商指数报告
- 2025年电工收缩带项目可行性研究报告
- 2025年玄米茶项目可行性研究报告
- 2025年牛蹄筋串项目可行性研究报告
- 2025春新版三年级下册科学•必背知识点考点
- 荆楚理工学院《管理统计》2023-2024学年第二学期期末试卷
- 江西工程学院《声乐(2)》2023-2024学年第一学期期末试卷
- 珠海科技学院《体育与生存》2023-2024学年第一学期期末试卷
- 湖南工程学院《英语视听说四》2023-2024学年第二学期期末试卷
- 0-3岁婴幼儿亲子关系与互动(杭州师范大学)知到智慧树章节答案
- 慢病管理中心工作
- 国开电大《中国法律史》形考任务1-3
- 形势与政策(贵州财经大学)知到智慧树章节答案
- 层流手术室的管理
- 机电安装安全措施方案
- 文化产业股东权益合作协议书
- 中华人民共和国学前教育法-知识培训
- 康复科自查报告及整改措施
- 2024年四川省宜宾市中考英语试题含解析
- 多式联运智慧物流平台构建方案
评论
0/150
提交评论