网络空间安全概论 实验7网络爬虫 基于python爬取携程景点评论信息_第1页
网络空间安全概论 实验7网络爬虫 基于python爬取携程景点评论信息_第2页
网络空间安全概论 实验7网络爬虫 基于python爬取携程景点评论信息_第3页
网络空间安全概论 实验7网络爬虫 基于python爬取携程景点评论信息_第4页
网络空间安全概论 实验7网络爬虫 基于python爬取携程景点评论信息_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国矿业大学计算机学院2018级本科生课程报告课程名称信息内容安全报告题目基于python爬取携程景点评论信息报告时间2021.7.6姓名常雨晴学号08182924任课教师曹天杰2020-2021(二)《信息内容安全》课程报告评分表序号毕业要求课程教学目标考查方式与考查点占比得分12.3目标1:掌握信息内容安全的基本概念、分类、原理和相关技术,能够根据课程基本知识对信息内容安全领域出现的问题进行归类、分析、并有初步分析和解决问题的能力。通过课堂讲授和课堂研讨掌握信息内容安全概念和理论知识。40%3.2目标2:掌握信息内容安全处理相关的理论、技术以及健全的评价体系,能够根据具体问题分析算法、设计算法、实现算法并能综合评价算法。24.3目标3:掌握信息内容安全的基础知识,针对具体问题和要求选择正确的技术路线,通过在实验环境中进行仿真实验并能根据算法特点进行攻击测试和综合性能评价,得到具有参考价值的结论。课程报告;实现有关信息内容安全的一个软件系统。分析和对比各项技术,选择相应的技术进行算法设计并在实验环境中进行仿真实验和性能评价,得到有效结论。60%总分100%评阅人:2021年7月10日报告摘要如今,人类社会已经进入了大数据时代,数据成为了必不可少的部分,如何有效地提取并利用这些数据成为一个巨大的挑战。可见数据的获取非常重要,传统的通用搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性。因此如果市场上没有我们要的数据,那么就需要用爬虫来获得想要的数据。关键词:爬虫;可视化;词云;

报告正文1爬虫介绍1.1爬虫原理网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。在运行爬虫之前,我们要知道网页三大特征:1)网页都有自己唯一的URL(统一资源定位符)来进行定位。2)网页都使用HTML(超文本标记语言)来描述页面信息。3)网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据。因此,我们在设计一个爬虫时,首先确定要爬取的网页URL地址,接着通过HTTP/HTTPS协议来获取对于的HTML页面,提取HTML里面有用的数据,如果是有用的数据,那么就保存起来,如果是页面里有其他URL,那么就继续获取HTML页面知道爬取到有用的数据。1.2爬虫流程在本文中的爬虫运行流程基本如下:1)发起请求:通过HTTP库向目标站点发送一个Request,请求可以包含headers、data等信息,然后等待服务器响应。这个请求的过程就像我们打开浏览器,在浏览器地址栏输入网址,然后点击回车。这个过程其实就相当于浏览器作为一个浏览的客户端,向服务器端发送了一次请求。2)获取响应内容:如果服务器能正常响应,我们会得到一个Response,Response的内容便是所要获取的内容,类型可能有HTML、Json字符串,二进制数据等类型。这个过程就是服务器接收客户端的请求,进过解析发送给浏览器的网页HTML文件。3)解析内容:得到的内容可能是HTML,可以使用正则表达式,网页解析库进行解析。也可能是Json,可以直接转为Json对象解析。可能是二进制数据,可以做保存或者进一步处理。这一步相当于浏览器把服务器端的文件获取到本地,再进行解释并且展现出来。4)保存数据:保存的方式可以是把数据存为文本,也可以把数据保存到数据库,或者保存为特定的jpg,mp4等格式的文件。这就相当于我们在浏览网页时,下载了网页上的图片或者视频。首先观察携程网站,点击评论下一页后,对浏览器的链接没有影响,这说明数据是Ajax异步请求。F12查看评论区的具体代码。F5刷新,打开网页的审查因素,查看network的传输内容。request的方式为POST,我们可以采取最简单的post方法。我们对URL进行筛选,筛选关键词为“comment”,选择“方法”列值为“POST”的URL。在“请求”中找到payload,就此我们得到了请求伪造的参数。2实现细节2.1请求伪造1)伪造请求报文。2)模拟服务器访问。3)调用request包中的post方法。2.2数据筛选使用panda、json包中的函数筛选出id、景区名、用户名、评分、评论内容、评论时间。2.3数据存储把数据存储在lijiang.csv文件中。2.4数据可视化使用wordcloud、jieba、matplotlib包中的函数,去除停用词后,根据字符串出现概率绘制词云。2.5反爬虫措施1)1.user-agent使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论