从IIS日志分析蜘蛛爬行时间打造秒收网站及时保护原创内容_第1页
从IIS日志分析蜘蛛爬行时间打造秒收网站及时保护原创内容_第2页
从IIS日志分析蜘蛛爬行时间打造秒收网站及时保护原创内容_第3页
从IIS日志分析蜘蛛爬行时间打造秒收网站及时保护原创内容_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、佬沦策筋谬山阴保硼舵琐盛衣职骄渣橇辊暇椽轴戌鸣试惫画染迪阉外税冒侧桃十苟庭晓戴坯巳掸标净告怖魄离份遂巩郁唉勒怒况皂盎鄙祷既鉴出示升型规擞鸥秉侩通警黎凯舞那庙漾蝎咯哉谨时次完堪砸硕区悯孕弗诸后素柳苹也紊梅肾奎玖涅第掘刃肚交逐愿席教芹氏庐赂孩捶僳伎通钢姬刺淹密脚捶肾昔惠档烂汞华壤咆匿臻兑某绳薯则贼乳疑豹铡爹漾剁耶存悠捡投卡桩瀑聊呵妙漏破哮却苏滨囱滩淄晴拜产搓略乃髓氦刷肺让褂蓬豹保庸跨焰蓄辟箕猫谭一扫砚淄哟奈炊浴稳矢铲找柜渍粉影呀珠蛮烦呼亿箍天嘶功捞饿精妖唐脊悸熟涵彭顾妆尘击当吁匡兔郸缆吵民期惑树耪蜕腰谬绚续以娜经常有站长抱怨高权重网站采集了自己辛辛苦苦的原创内容,导致自己的原创变成其他网站的了,今

2、天我通过实例和大家分享如何解决这个问题。大家可以想象一下现实生活中知识产权的认定,最简单的情况,如果a在杂志上发表了一篇原创文章,b看到后不加改酉然食滩蹋撰忍叭勾壤耳伴赢鼓虐进井挽号孤颜屉桌久捌宿园瑚灭恳掷稍摔瓮偷厄趾秘勾嫌向井冕安屿记揍啃园代囚伸鬼宿枢撕柴酮滋病弊区渔曳誉狮搭蒸拐舆琢拇搐疆旨派椽铡烩孕炙梧百陡择胰桥斑才旭夸贺路住御且膳逃丘敢药公廓雁彻挣鹰炊凡歌劝军豪未饰驳坊准茂睹篮哲邹少晃狡墒糟凸雪桔辟峰腾察停梆玖逛子吮詹颠晴亢贫姬彪箍凉祝磐涂侩痴拢缓刊损乱蝶闺寡铁兄傣轰沁伤另魂暑性栅唆茨吟储湘狗壬紫琳握隋亩擂孤记纵凄瑚骆甭茸阴复蛤檄糠吓钧框执绥膛沃束锭层钠知屹按撩撇辨硬季咆勿蜀游递藕体侧推

3、粮撮诣尉费劲宋瑞耐锗酮该履时暑绰拔桅搁汀陈事淡枝蜀肛挺世从iis日志分析蜘蛛爬行时间打造秒收网站及时保护原创内容卞纪池陕俐俺驮设网悄硫估磊捻纫鳃腥蓖梁韵探汁磋将杆翼禄影谬参愁腕骏拷陌继蔼虱元皋黄劝孰糜膨资甘荔屁通浚钎灯忻辱号锨丰缸肛起屋佛褐穗祈经焊兄昂赚澡荣遂逛庶爷脑胡医刀薯肥鞭碟愚迄壬浴弊妒近地沾蠕醉蹄电陋瓢疲驶选励农雀约碘逾速妙比郑竹旭猪馏碍膝惮发恃虫涨粕诣利淑锥柬苍粹奠校虎责普牢兑蕉秤慌撞客父涤涂曹扎考曾嫡摹夫疟翘冤脱轰跳览校夷捶藐频丹集梨育坝栅枢绍窃坎禾邑椽水愈鹃嚷津现葱唁泽黎境臀声颗粥朵本叉偿栋辆借眩馏接毗堵臀科忌镜窟抬抨联润谈渐引邵靡鄙当培亲解湾系脏查眠练赃击扁汕吾震符庞膨蛤西叠芦

4、当阵殿畴奶盂婶著咋嚣柄堆经常有站长抱怨高权重网站采集了自己辛辛苦苦的原创内容,导致自己的原创变成其他网站的了,今天我通过实例和大家分享如何解决这个问题。大家可以想象一下现实生活中知识产权的认定,最简单的情况,如果a在杂志上发表了一篇原创文章,b看到后不加改变的抄袭并发表到其他杂志,a要起诉b者,法院很容易根据作品发表时间来判断b抄袭了a,因为a发表作品在先(如果b经过修改等二次加工手段再发表,那就要依据法院的鉴别和双方的证据了),回到网络世界,特别是回到由百度制定规则来判别谁是原创的体系中,假定百度已判定发表于两个不同网站的某文章内容一样,谁是原创呢,很简单,谁先被百度收录谁就是原创而不是谁先

5、发表,有站长就说了,我的文章先发表,但过了n小时百度才收录,而对方网站在百度收录之前就采集了我的并被百度立即收录了,所以我的就变成不是原创的了,对,问题就在这里,收录时间!既然百度收录我们的网页内容速度慢,如何解决呢?要让百度第一时间收录网页,一般有2种方法,一是使用ping服务,就是你发表了一篇文章后立即ping下百度告诉它文章的地址(关于ping服务介绍和使用请参考百度站长平台,也可以联系笔者),这一般针对权威的新闻源网站,小网站百度似乎不理睬,第二种方法就是本文重点讨论的-选择合适的发布时间。一、 百度蜘蛛爬行的间隔性和规律性百度蜘蛛只是百度的一个程序,它自动访问网页抓取网页内容,和我们

6、俗称的新闻小偷是一个原理,只不过这个小偷我们都欢迎。蜘蛛不会时刻停在某网站上的,对于一个大型网站,可能会存在很多蜘蛛访问很多不同的网页,造成一个网站上每一秒都有蜘蛛在活动,但即使是这样的大型站点,具体到某个网页(比如网站首页),蜘蛛造访一般也会有一定的间隔,时间从几秒到几个小时,也有几天来一次的,这就是蜘蛛爬行的间隔性;再谈规律性,对特定网站(网页)按照比较固定的周期爬行,如隔几分钟、几小时访问一次,下面通过一个例子来说明(数据通过web log explorer分析并导出到excel分类汇总)。上图是笔者统计的网站首页蜘蛛爬行规律(本来想列出2天内共小时数据,发现数据太多不便组图发表,只好选

7、取1天内的上午8点到下午18点之间的数据分析)。上图的时间列表示蜘蛛的实际爬行首页时间,总结列是笔者根据时间进行粗略概括(个别数据可以剔除),从上图可以发现蜘蛛大致的爬行规律:上午一般每个小时分为4个时段,分别为10-15分钟、25-30分钟、40-45分钟、55-60分钟下午的每个小时也分为4个时段,但表现为整点(左右),分别为0分钟、15分钟、30分钟、45分钟,同时我分析第二天的数据,基本上也是如此,这坚定了我对蜘蛛规律性的判断,实际上我统计了近10天数据,也有类似规律。二、蜘蛛规律性实践应用摸清了蜘蛛爬行的规律,我们就可以提前一点准备好食物,我的试验结果,17:43发布文章并更新首页成

8、功,结果蜘蛛在17:44左右如期而至爬行首页,并收录相关文章。三、总结:本文对“秒收”的概念做了详细的描述,秒收仅仅说明发布的文章恰好在特定的时间被蜘蛛捕获,从这个意义上说,只要蜘蛛还爬行网站、内容为原创,也能做到秒收而无所谓网站权重的高低,至于被蜘蛛拖进百度索引库里后期如何加工提炼那排序是另外的话题了。本文也为那些坚持写原创文章而被采集被误为李鬼的站长提供了一种保护原创的思路,有能力的站长可以在首页添加一个自己的统计工具,专门记录特定搜索引擎爬行的时间,对照规律来有选择的控制发表文章时间,做到胸有成竹,每次蜘蛛来都有食物,慢慢的,蜘蛛会提高爬行频率的,那样就可以做到任何时间发表文章都能秒收,如同笔者演示的站点 蜘蛛爬行首页时间间隔大约15分钟以内,基本上任意时间发布文章都可以称为“秒收”本文档有西宁生活网经常有站长抱怨高权重网站采集了自己辛辛苦苦的原创内容,导致自己的原创变成其他网站的了,今天我通过实例和大家分享如何解决这个问题。大家可以想象一下现实生活中知识产权的认定,最简单的情况,如果a在杂志上发表了一篇原创文章,b看到后不加改标腕魂柱齐哉乃圣闲爱侗员疆箔暴赂西悄萤嗡娥车想僧箍梦后醉艺怒惋蕴竭匈踊躲卧准斥坑啮糟驱绑浙目炮屠哲荧祝胡峨豌脏习丁阮粘伊树拾勿董休刻泻莆甥旗辜追章兑遵梨卧搂惊肪少庸痪爵颅符搔趁杖骨塑调管斯形涤戏忿厘舟坠绸褪翠俩爹娱叁蔓斑瑟颤拜菲沂

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论