《数据采集技术与应用》课件-2.4 爬虫开发中遵守的法律和道德_第1页
《数据采集技术与应用》课件-2.4 爬虫开发中遵守的法律和道德_第2页
《数据采集技术与应用》课件-2.4 爬虫开发中遵守的法律和道德_第3页
《数据采集技术与应用》课件-2.4 爬虫开发中遵守的法律和道德_第4页
《数据采集技术与应用》课件-2.4 爬虫开发中遵守的法律和道德_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

爬虫开发中遵守的法律与道德数据采集技术与应用内容/contentRobots协议01爬虫开发中的法律和道德约束02总结与思考03Robots协议Robots协议又称爬虫协议,它是国际互联网界通行的道德规范,用于保护网站数据和敏感信息,确保网站用户的个人信息和隐私不受侵犯。为了让网络爬虫了解网站的访问范围,网站管理员通常会在网站的根目录下放置一个符合Robots协议的robots.txt文件,通过这个文件告知网络爬虫在抓取该网站时存在哪些限制,哪些网页是允许被抓取的,哪些网页是禁止被抓取的。Robots协议当网络爬虫访问网站时,应先检查该网站的根目录下是否存在robots.txt文件。若robots.txt文件不存在,则网络爬虫可访问该网站上所有被口令保护的页面;若robots.txt文件存在,则网络爬虫应按照该文件的内容确定访问网站的范围。Robots协议robots.txt文件中的内容有着一套通用的写作规范。下面以豆瓣网站根目录下的robots.txt文件为例,分析robots.txt文件的语法规则。Robots协议User-agent:用于指定网络爬虫的名称。若该选项的值为“*”,则说明robots.txt文件对任何网络爬虫均有效。带有“*”号的User-agent选项只能出现一次。例如,示例的第一条语句User-agent:*。Disallow:用于指定网络爬虫禁止访问的目录。若Disallow选项的内容为空,说明网站的任何内容都是被允许访问的。在robots.txt文件中,至少要有一个包含Disallow选项的语句。例如,Disallow:/subject_search禁止网络爬虫访问目录/subject_search。Robots协议Allow:用于指定网络爬虫允许访问的目录。例如,Allow:/ads.txt表示允许网络爬虫访问目录/ads.txt。Sitemap:用于告知网络爬虫网站地图的路径。例如,Sitemap:这两个路径都是网站地图,主要说明网站更新时间、更新频率、网址重要程度等信息。爬虫开发的法律和道德约束一些数据涉密或者具有很高的商业价值,私自爬取会触犯法律,面临被追究刑事责任的风险。《刑法》及《刑法修正案》、《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》肆意攻击服务器,使用爬虫技术破

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论