网络爬虫(SQL数据库)_第1页
网络爬虫(SQL数据库)_第2页
网络爬虫(SQL数据库)_第3页
网络爬虫(SQL数据库)_第4页
网络爬虫(SQL数据库)_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络爬虫(SQL数据库)摘要:随着信息的不断膨胀,人们越来越离不开搜索引擎。通用搜索引擎如百度、Google给人们提供了很多便利,得到了极大的流行。但是随着人们需求的多样化,和对搜索结果质量的要求越来越高,通用搜索引擎在一些专门化的领域己经不能满足人们的要求,于是垂直搜索引擎就应运而生。尽管垂直搜索引擎很多技术与通用搜索引擎很类似,但是还是有很多自己独特的技术,和一些新的需要解决的问题,URL爬虫就是其中的一个重点需要解决的问题。关键词:搜索引擎,网络爬虫,URL提取目录第一章关于web检索URL相关问题1.1知识背景研究意义1.3国内外发展概况本章小结第二章知识背景2.1经济可行性2.2技术可行性2.3操作可行性2.4法律可行性本章小结第三章总体设计3.1系统设计原理3.1.1系统功能设计配上类与类之间的UML图3.2数据库设计数据库设计规则数据库概念结构3.2.4数据库实体关系模型还有实体关系图(ER图)3.2.4数据库逻辑结构详细设计3.3.1URL的提取第四章具体实现系统实现系统设计原理4.2功能模块设计本章小结第五章评价自己的毕业设计实现的目标5.2学到了哪些东西如果还有时间设计,今后你会添加哪些功能第六章关于软件测试6.1软件测试的目的和意义6.2软件测试的步骤软件测试的具体实现6.4软件测试结论6.5评价本章小结总结谢辞参考文献附录功能模块1、网络爬虫模块网络爬虫实际上是一个基于web的程序。它从一个初始的网页集出发,遍历Internet自动的采集网络信息。当爬虫打开某个HTML页面后,它会分析HTML标记结构来获取信息,并获取指向其它页面的超级链接,然后通过既定的搜索策略选择下一个要访问的站点。从理论上讲,如果为Spider指定个适当的初始文档集和个适当的网络搜索策略,它就可以遍历整个网络。它的性能在很大程度上影响了搜索引擎站点的规模。2、索引模块网络爬虫爬取的网页上的信息以固定的格式获取到本地后,索引建立程序对信息进行分析,针对页面中出现的关键词建立一种利于快速查找的数据结构,即索引,以供搜索引擎使用。搜索引擎在选择索引数据结构时通常考虑两个因素:紧凑的数据结构和高效的检索能力。由于搜索引擎在建立索引的时候是面对海量的信息,因此在考虑记录大小时要具体到字节中的位,这样才能达到一种比较合理科学性的空间膨胀比。合理的数据结构将使对关键词的检索更加迅速。通常有三种索引的建立基本技术:倒排文件、后缀数组和签名文件。倒排文件在当前大多数信息获取系统中得到应用,它对于关键词的搜索非常有效。后缀数组在短语查询中具有较快的速度,但是该结构在维护上相对比较麻烦。签名文档如今已被倒排索引技术替代。处理网页的过程主要包括这几部分:文档特征向量提取、网页筛选、相关度分析、文档分类和入库操作。以下是部分界面图,如图片不清,请直接点击图片,如需要看更详细的资料,请直接联系客服!用户交互程序墾vpg-www.bysjhomexom用户卍搜索般务器屮图1(双击并最大化图片,可看清晰图片)那www.bysjhome^om^ystrmCatalogut"De«t= 弱infillURLLinkso.—■■■^gfln.lws?5.Aevii那www.bysjhome^om^ystrmCatalogut"De«t= 弱infillURLLinkso.—■■■^gfln.lws?5.Aevii丁 ] |IW就]三UFunflEc-n*Li.list^oorJs-匕,二■舒 Mii.ni.fla.aa*T:i“图2(双击并最大化图片,可看清晰图片)則計T此是善九吟.站“r義取地点叩卍词為域龙之JT-字風毕设矽www.bysjhom?Tconi■■卜—略1iJlIY叩Im为序威名熬合判is记丁人阳.堆若为啟斥了字戦牛睜•臣ia下t曰盘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论