网络空间安全概论 实验7网络爬虫 针对知乎内容的爬虫程序_第1页
网络空间安全概论 实验7网络爬虫 针对知乎内容的爬虫程序_第2页
网络空间安全概论 实验7网络爬虫 针对知乎内容的爬虫程序_第3页
网络空间安全概论 实验7网络爬虫 针对知乎内容的爬虫程序_第4页
网络空间安全概论 实验7网络爬虫 针对知乎内容的爬虫程序_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国矿业大学计算机学院2018级本科生课程报告课程名称信息内容安全报告题目针对知乎内容的爬虫程序报告时间2021.7.6姓名周俊杰学号08182778任课教师曹天杰2020-2021(二)《信息内容安全》课程报告评分表序号毕业要求课程教学目标考查方式与考查点占比得分12.3目标1:掌握信息内容安全的基本概念、分类、原理和相关技术,能够根据课程基本知识对信息内容安全领域出现的问题进行归类、分析、并有初步分析和解决问题的能力。通过课堂讲授和课堂研讨掌握信息内容安全概念和理论知识。40%3.2目标2:掌握信息内容安全处理相关的理论、技术以及健全的评价体系,能够根据具体问题分析算法、设计算法、实现算法并能综合评价算法。24.3目标3:掌握信息内容安全的基础知识,针对具体问题和要求选择正确的技术路线,通过在实验环境中进行仿真实验并能根据算法特点进行攻击测试和综合性能评价,得到具有参考价值的结论。课程报告;实现有关信息内容安全的一个软件系统。分析和对比各项技术,选择相应的技术进行算法设计并在实验环境中进行仿真实验和性能评价,得到有效结论。60%总分100%评阅人:2021年7月10日报告摘要知乎为中文互联网高质量的问答社区和创作者聚集的原创内容平台,其丰富多彩的内容有许多参考价值。然而其内容无法直接批量获取和存储。此系统采用python语句针对知乎,以问题、回答、用户等不同类别为入口,批量爬取其所有内容并存储于本地,便于整体阅读参考。关键词:知乎;爬虫;python;

报告正文1.1系统框架流程1.2目录结构目录分为.idea文件脚本核心函数功能模块zhihu脚本入口GrandConcourse.py详细如图所示:2.内容摘要GrandConcourse.py这是脚本的启动入口.根据不同需求分为:特定用户的回答,用户的想法及文章,特定的文章,特定的回答,某一问题下的回答,某收藏夹内容将目标id填入相应的位置,并把不需要的目标id设为空('')点击运行即可启动运行脚本。脚本通过检测相应id是否为空,从而选择运行对应的模块,所以不需要的目标id一定要设置为空。在这里可以设置文件保存的本地路径zhihu是功能模块,所有要实现的功能(爬取专栏、文章等)都在这个模块下实现。实现的功能:article、collection、question、topic、user其中article实现了单篇文章或专栏的爬取,question实现了单个或所有回答的爬取,user实现了针对用户的所有文章和所有回答的爬取。这些模块之间并不是完全独立的,比如collection既有问答又有文章,在实现时使用了article模块的article和question模块的answer。本文件实现了Controller和evaluate,前者用于爬取控制,控制程序的停止、爬取目标的下一页等,后者用于计算回答的评分,根据评分决定一个问题的某个回答是否收录。评分由点赞数、回答日期、更新日期共同决定说明:这里实现了对单个回答或问题的所有回答的爬取,其中单个回答的爬取需要的是answer_id,而问题的所有回答需要的是question_id。通过相应的id发起网络请求,返回的json文件中包含的内容的主体,通过解析json文件获得文章的基本信息,生成一个msg对象,再将内容主体解析成BeautifulSoup对象,连同msg一起交给document下的有关类解析生成markdown文件。说明:document模块统一了文章、问答的markdown生成样式,两者的区别仅在于:文章类有背景大图,问答类有点赞数。这两个模块接收内容主体的基本信息和内容主体,解析基本信息并编译成文章头。内容主体由parse模块下的Text类解析成markdown形式并返回给这里的调用者。最后模块将文章头和主体合成一篇markdown文档,由外部提供保存路径保存到本地硬盘。对于回答的内容划分为各种基本类,如文字、图片、链接、视频等图示为视频类相关代码说明:Simple类是基类(接口),parse模块下的所有类都直接或间接继承了Simple类。凡是直接继承了Simple类的类都是属于基本元素类。既内容单一,不能再细分的元素。如图片类(figure)、视频类(Video)、代码类(Code),这些类都是可以直接解析成markdown元素的基本元素。Multilevel类是所用复合类型的基类,这个基类也继承了Simple类。比如说一个p标签就是一个Paragraph类,p标签可以含有a标签、b标签等,这些都属于是复合标签,也就是复合类型。理论上复合类型还可以相互嵌套,比较复杂,需要逐步向基本类型分解。根据基础api返回个人信息json文件,样例如下运行示例如选取话题

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论