北邮毕设答辩_网络爬虫设计及算法研究ppt课件_第1页
北邮毕设答辩_网络爬虫设计及算法研究ppt课件_第2页
北邮毕设答辩_网络爬虫设计及算法研究ppt课件_第3页
北邮毕设答辩_网络爬虫设计及算法研究ppt课件_第4页
北邮毕设答辩_网络爬虫设计及算法研究ppt课件_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1网络爬虫设计及相应算法研究网络爬虫设计及相应算法研究姓名:指导教师:2项目介绍项目介绍1完成内容完成内容4选题背景选题背景2主要工作主要工作3总结及展望总结及展望53 项目名称:项目名称: 网络爬虫设计及相应算法研究网络爬虫设计及相应算法研究 The Research and Design of Web Crawler 项目类别:项目类别:软件研究设计类软件研究设计类 项目来源:项目来源:科研项目科研项目项目简介项目简介14项目介绍项目介绍1完成内容完成内容4选题背景选题背景2主要工作主要工作3总结及展望总结及展望55 搜索引擎介绍: 互联网的迅速发展,使得网上信息越来越多,搜索引擎正是为了

2、解决在浩瀚的信息海洋中快速高效的寻找信息的问题。 搜索引擎是通过互联网搜索信息的重要途径,涉及到多个领域的理论和技术,具有很高的综合性和很强的挑战性。本课题研究的内容是搜索引擎的关键部分网络爬虫。选题背景选题背景26 网络爬虫介绍: 网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页、采集信息,这些网页信息用于建立索引从而为搜索引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。 选题背景选题背景27 网络爬虫的基本原理:1)从一个初始URL集合中挑选一个URL,下载该URL对应的页面; 2)解析该页面,从该页面中抽取出其

3、包含的URL集合,接下来将抽取的URL集合再添加到初始URL集合中; 3)重复前两个过程,直到爬虫达到某种停止标准为止。 选题背景选题背景28项目介绍项目介绍1完成结果完成结果4选题背景选题背景2主要工作主要工作3总结及展望总结及展望59 学习爬虫的基本技术学习爬虫的基本技术 网页抓取技术 网页去重技术 多线程技术 主要工作主要工作310网页抓取技术网页抓取技术宽度优先遍历算法和广度优先算法PageRank算法基于链接的搜索算法主要工作主要工作311网页去重技术网页去重技术 Bloom Filter 算法 错误率估计 最优哈希函数个数 位数组大小主要工作主要工作312多线程技术多线程技术 多线

4、程 半同步/半异步并发模式 多线程的问题主要工作主要工作313项目介绍项目介绍1完成结果完成结果4选题背景选题背景2主要工作主要工作3总结及展望总结及展望514设计实现爬虫系统,并对系统性能就以下两方面进行比较分析:在测试时间、最大连接数等基本参数相同的情况下,通过给爬虫系统设置不同的多线程数进行页面抓取,并对结果进行比较分析。在测试时间、请求线程数、页面抓取线程数等基本参数相同的情况下,通过改变爬虫系统的最大页面连接数进行页面抓取,并对结果进行比较分析。完成结果完成结果4151. 测试爬虫在测试时间、最大连接数等基本参数相同的情况下,采用单线程或多线程方式抓取页面的速度,结果如下表:2. 测

5、试爬虫系统在测试时间、请求线程数、页面抓取线程数等基本参数相同的情况下,采用不同的并行连接数抓取页面的速度,结果如下表:完成结果完成结果4161. 测试爬虫在测试时间、最大连接数等基本参数相同的情况下,采用单线程或多线程方式抓取页面得到的表格绘制曲线图如下:从图中可以看出,在多线程的情况下,爬虫系统的效率的确有所提高,但是提高的效果并不十分明显。而理论上,多线程的抓取效率应该是要明显高于单线程的,但是由于测试是在单CPU机器上进行的,所以效率的提高并不能很好的体现出来。完成结果完成结果4171.测试爬虫系统在测试时间、请求线程数、页面抓取线程数等基本参数相同的情况下,采用不同的并行连接数抓取页面得到的表格绘制曲线图如下:从图中可以看出,在其他条件相同的情况下,最大并行连接数对爬虫的爬取效率的影响比较大。当最大连接数从16变化到32时,抓取效率提高了将近1倍,之后又逐渐趋于平缓。这是因为系统的线程数限制了抓取效率。在相同的HTTP请求和页面抓取的线程数的条件下,在一定的范围内,最大连接数越高,爬虫效率也越高,当超过某一范围,爬虫的效率会趋于平稳。完成结果完成结果418项目介绍项目介绍1完成结果完成结果4选题背景选题背景2主要工作主要工作3总结及展望总结及展望519总结:总结:1、完成了爬虫系统的学习与设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论