下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、从 IIS 日志出发:发现并解决收录的几个思路网站的收录一直是个大问题,那么如何解决网站存在的收录问题,首先就需要从根源找到原因所在,那就是 IIS 日志。IIS 日志是搜索引擎爬行网站的一个记录,通过它能清晰的看到蜘蛛爬行网页的总时间,单页时间,爬行深度,是否有多次重复抓取等,看到之后我们就需要对症下药,从而从根本上解决网站收录存在的问题。好了,下边从以下几个方面做分析。其一、过度抓取的 URL 问题首先看下是否有过度抓取问题,这个很简单,把 IIS 日志用 dw 打开,然后复制一个 URL 查找全部就可以了,或者使用一些高级的 IIS 日志分析工具也能直接看得到。如果存在很多URL 被蜘蛛
2、访问了多次,那么很有可能是因为是首页或者距离1首页点击次数较近的页面,一般的调整就是需要减少这些 URL链接个数。过度抓取的 URL 会浪费蜘蛛爬行的整个时间。其二、是否存在重复内容通过第一步之后,还能发现一个问题就是重复内容,如果有些 URL 被蜘蛛抓取了很多次,那么有可能这是同一内容的不同 URL,比如静态的与动态的,比如一些 B2C 的排序页面,这些功能性的页面提供的内容都没有过多差别,但是 URL 可能不同。要使用 robots 屏蔽掉。其三、蜘蛛没爬行过的 URL这要借助于脚本实现,把你网站全部 URL 找出来,然后把蜘蛛爬行过的 URL 找出来,然后做对比,找出那些从来没有被蜘蛛爬行过的 URL,然后分析原因,是这些 URL 没有链接、目2录过深还是 URL 参数过多的原因?确定原因之后改正,日后继续观察收录情况。其四、整体内链结构如何看你网站的整体内链结构,自己点击测试,看首页到内页需要几次点击,如果你多次点击才能到达一些内页,那么爬虫从首页到内页也就需要更多的时间。这样自然就越浪费时间,所以调整内链结构,把更多的内容通过内链让蜘蛛更好的爬取到。其五、访问速度如何访问速度是受多个方面的影响,要从服务器到后台再到前端仔细查看,是否还有优化的余地。在保证页面效果的前提下,减少 html 代码的整体体积。将 js 和 css 单独引入,html 单独3存在,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东科技学院《环境材料》2023-2024学年第一学期期末试卷
- 广东金融学院《设计色彩》2023-2024学年第一学期期末试卷
- 广东建设职业技术学院《压焊方法与设备》2023-2024学年第一学期期末试卷
- 广东机电职业技术学院《测井数据处理与解释》2023-2024学年第一学期期末试卷
- 广东工业大学《教育与心理统计》2023-2024学年第一学期期末试卷
- 广东工贸职业技术学院《国际商务函电》2023-2024学年第一学期期末试卷
- 广东东软学院《新闻理论》2023-2024学年第一学期期末试卷
- 广东创新科技职业学院《水土保持原理与技术》2023-2024学年第一学期期末试卷
- 《光合作用原初反应》课件
- 广东白云学院《数字信号处理及实践》2023-2024学年第一学期期末试卷
- 山东省济南市2023-2024学年高二年级上册1月期末英语试题(解析版)
- 初中体育教案【完整版】七年级
- 2024-2030年中国城市供热行业市场前景预测及发展趋势预判报告
- 2024年计算机二级MS Office考试题库500题(含答案)
- 银行普惠金融事业部年度述职报告
- 人教版七年级上册《生物》期末试卷(完整)
- 福建中考英语作文15分评分标准
- 智慧磐石工程建设方案
- 等保2完整版本.0介绍及建设流程
- 苏教版科学六年级上册期末测试卷含完整答案(各地真题)
- 市场法评估企业价值
评论
0/150
提交评论