




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、DINGSHAN UNIVERSITY(设计)题目基于 Java 的网络爬虫算法的设计与实现院 ( 系 ):学院专业年级:工2011姓名王 磊学号111530218DINGSHAN UNIVERSITY(设计)题目基于 Java 的网络爬虫算法的设计与实现院 ( 系 ):学院专业年级:工2011姓名王 磊学号111530218指导教师:助教2015410性本人郑重: 本人所呈交的, 是在指导老师的指导下独立进行取得的成果。中凡他人已经或未的成果、数据、观点等,均已明确注明出处。除文中已经注明的内容外,不包含任何其他个人或集体已经或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体,均已
2、在文中以明确方式标明。本的由本人承担。作者签名:日期:性本人郑重: 本人所呈交的, 是在指导老师的指导下独立进行取得的成果。中凡他人已经或未的成果、数据、观点等,均已明确注明出处。除文中已经注明的内容外,不包含任何其他个人或集体已经或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式标明。本的由本人承担。作者签名:日期:关于使用的本人在指导老师指导下所完成的及相关的资料( 包括图纸、试验、原始数据、实物、带、设计手稿等 ,知识归属平顶山学院。 本人完全了解平顶山学院有关保存、 使用的规定, 同意学校保存或向国家有关部门或机构送交的纸质版和被查阅和借阅; 本人平顶山
3、学院可以将本的全部或部分内容编入有关数据库进行检索, 可以采用任何保存和汇编本相关成果, 定征得指导教师同意, 且第一署位为平顶山学院。 本人离校后使用或与该直接相关的学术或成果时, 第一署位仍然为平顶山学院。作者签名:日期:指导老师签名:日期:关于使用的本人在指导老师指导下所完成的及相关的资料( 包括图纸、试验、原始数据、实物、带、设计手稿等 ,知识归属平顶山学院。 本人完全了解平顶山学院有关保存、 使用的规定, 同意学校保存或向国家有关部门或机构送交的纸质版和被查阅和借阅; 本人平顶山学院可以将本的全部或部分内容编入有关数据库进行检索, 可以采用任何保存和汇编本相关成果, 定征得指导教师同
4、意, 且第一署位为平顶山学院。 本人离校后使用或与该直接相关的学术或成果时, 第一署位仍然为平顶山学院。作者签名:日期:指导老师签名:日期:Java摘要里HttpClinet 作为处理网络连接请求响应的一个Java摘要里HttpClinet 作为处理网络连接请求响应的一个在互联网上进行网页抓取程序,URLjava.lang.Runable:网络爬虫,多线程,URLThe Design and ionof TheJava-WebCrawlerAlong with the network information is the of exponential form, their needs, an
5、d their related information e one of themesThe Design and ionof TheJava-WebCrawlerAlong with the network information is the of exponential form, their needs, and their related information e one of themes of the times facing us today to get in quickly find information resource and the vast sea. Web c
6、rawler plays an important role in the network search, it can help people quickly find and fromdredsofmillionsofwebs the information you Web crawler algorithm based on Java is the application of algorithm, the multi-threading technology, the use of HttpClinet as a connection request response in ernet
7、 ge capture program, the function of the realization of a web page of URL according to the given initial, the crawler will be included in the overall structure of the sites web pages down, saved to the local hard disk in the specified directory. The general web Wge search is started from one or a pl
8、urality of the initial page, method strategy based on ernet, in order traversal of all nodes, meet the page from crawl. search algorithm is according to the distance from the selection algorithm, URL and search, which can improve ge from the recent URL, give priority to ed web crawler search to a gr
9、eat extent. thread technology is the use of erface to create multiple web crawler, to achieve a number of reptiles crawl ge in parallel at the time,thesynchronizationmechanismandpropertreatmentofimprovetheefficiencyoftheerthread,canThe crawler algorithm the average waiting time ge s, can effectively
10、 capture the required page, grab the results by local files can presentedinamoreclearway.Canmaketheinformationmoreeasilyfindcollectorsto meet their own needs information, and has good popularization value.Keywords: Web Crawler,Multi-threads,URL 绪网络爬虫技术的背景及意网络爬虫技术的应用现1主安2网络爬虫基本概念简绪网络爬虫技术的背景及意网络爬虫技术的应
11、用现1主安2网络爬虫基本概念简网络爬虫基本工作原网络爬虫主要组成部网络爬虫主流爬取策3网络爬虫的设网络爬虫的设计目最佳优先搜索算法详细设多线程技术详细设网络爬虫程序的结构流程设网络爬虫程序类图设4网络爬虫的实现与测4.1 网络爬虫整体算法实网络爬虫程序多线程的实网络爬虫程序测结束5.1 总5.2 展5录谢1,Goole 主1.1在网络中, 基于网络爬虫的搜索引擎研究与实现已非常普及。,Yahoo,baidu 1.21,Goole 主1.1在网络中, 基于网络爬虫的搜索引擎研究与实现已非常普及。,Yahoo,baidu 1.22013 1500 一定主要体现在 2013 1500 一定主要体现在
12、 web 1。LawrenceGiles16%页面,即使能够提取全部页面,2Goole 主本22.1 URL,视为图中一个节点指22.1 URL,视为图中一个节点指Excel2.2 URLURLURLURL(TODO)URL(Visited2.3 深度优先搜索4URLURLURLURLURL“URLURL。WebWeb爬。URL2.3 深度优先搜索4URLURLURLURLURL“URLURL。WebWeb爬。URL2-1。AHFDCEIB2-1 A2-1操队列中的元 ABCDEB C D F E I F 空A2-1 A2-1操队列中的元 ABCDEB C D F E I F 空A空2-1A2
13、-1A-B-C-D-E-F-I-HURLURL6URL(URL)URLURL是优先级队列(PriorityQueueURL(URL)URL2-1DBCAEFIH,A2-2操队列中的元空2-AA 2-AA DIHA空2-2A2-1A-D-B-C-E-F-I-H33.1Java的网络爬虫算法应用HttpClinet 作为处理网络连接请始的主页 URL,通过爬虫程序将33.1Java的网络爬虫算法应用HttpClinet 作为处理网络连接请始的主页 URL,通过爬虫程序将该(1) 宽度优先搜索会优先搜索距离初始URL 距离近的URL假如将的距离表示为1,那么距URL 远的那些URL 其距离自然变大。
14、优先搜索。如果将距离表示为深度,据研究结果如表3-1,分析足以显示其中之宽度优先遍历可以很好的支持多线程机制,这对于网络爬虫效率的提3-1 网页深网页个重要0123418523.2URLURLURL序列进行排序。URL 质URLURLURL。URLURLURL,URL,。URL进行判断。如果其已经进入队列中,则说明其已经取得不3.2URLURLURL序列进行排序。URL 质URLURLURL。URLURLURL,URL,。URL进行判断。如果其已经进入队列中,则说明其已经取得不URL,URL,URL。3-13.3s7轻的进程(light-wight爬去速度。文中实现的网络爬虫程序使用了 3.3
15、s7轻的进程(light-wight爬去速度。文中实现的网络爬虫程序使用了 JAVA 语言对多线程技术的支持来 承JAVA的线程类Thread另式是定义并发执行对象实现RunnableJava 语言类库中的Thread 类以及相关方法3.4递归方式的主URL 作为当前URLURL 参数,再一次调用爬虫程序本身,直到所分析的页URLURL 所调用的爬虫程序退出。递归的方式使程序的整体结URLURL无条件入队,URL 其所对应的页面,并将抽取出的且之前过的URL入队,入队的目的是使URL (URL3-23-4MyCrawler类3-53-4MyCrawler类3-5DownLoadFile实现从网
16、页中过滤 3-6HtmlParserToolLinkFilter3-7LinkQueue4MyEclipseJavaProject方式呈现出来,将实现不同功能的模块皆封4MyEclipseJavaProject方式呈现出来,将实现不同功能的模块皆封装成类。比如,其中 LinkQueue 类包含 Visited 和 TODO 两个数据结构的实(底层分别采用优先队列和集合的方式实现DownLoadFileHtmlParserTool类实现从网页中抽取超 。MyCrawler类实现网络爬虫爬取策略的主体。接口java.lang.Runable实现创建多个爬虫线程并行爬取。最后,本章实现网络爬虫程序的
17、运行,并测4.1MyCrawler4.1.1 LinkQueuevisitedUrlunVisitedUrlURLunVisitedUrlURLLinkQueuevisitedUrlunVisitedUrlURL,URL,URLunVisitedUrlDequeue()URLURLURL,visitedUrlUnaddvisitedUrl()URL4-14.2java.lang.Runable 的过程中,线程所要执行的代码被定义在 run()方法中。类库创建一个类实现 java.lang.Runable run()java.lang.Thread4.2java.lang.Runable 的过程
18、中,线程所要执行的代码被定义在 run()方法中。类库创建一个类实现 java.lang.Runable run()java.lang.Threadjava.lang.RunableMyThread.java4-5 4-5 4.34-elCore2DuoT575022.内存: 4-elCore2DuoT575022.内存: 硬盘: 网络:4-6 URL 的网络爬虫程序,抓取32 URL 不变、运行环境不变和网络环境保持平稳通畅(即网络率等各样参数基本保持不变)1、2、3、45个,32 4-74-7 从34-7 从35.2上传文件代码publicclassMyThreadimplementspu
19、blic上传文件代码publicclassMyThreadimplementspublicln(线程number);publicvoidMyCrawlercrawler=newMyCrawler(); crawler.crawling(new String hthereimport import ;importimport import import publicclassTestFrameextendsJFrameprivate sic final long serialVerUID=1L; private JPanel jContentPane = null;privateTextFiel
20、dtextField=null; private Button button = null;privateStringpublicicvoidmain(Stringargs)new*Thisisthedefault*ThisisthedefaultpublicTestFrame() Thismethodinitializes*returnprivate void initialize() this.setSize(300,200);Thismethodinitializes*returnprivateJPanelgetJContentPane() if (jContentPane = null) jContentPane=newtLayout(new jContentPane.add(getButton(),returnThismethodinitializes*returnif (textField = null) textField=newt
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 课题申报书课题进度表格
- 课题的项目申报书
- 翻译课题项目申报书范文
- 肿瘤护理课题申报书
- 出租喷涂车间合同范本
- 变更土地合同范本
- 红色文化产业课题申报书
- 内墙腻子合同范本
- 医学课题申报书意见
- 合同范本 工商
- 冬小麦种植技术及病虫害防治课件
- 金庸群侠传x最完整攻略(实用排版)
- 污水处理厂设备的维修与保养方案
- 专题13《竹里馆》课件(共28张ppt)
- 小城镇建设形考作业1-4
- GB/T 9846.4-2004胶合板第4部分:普通胶合板外观分等技术条件
- GB/T 17836-1999通用航空机场设备设施
- GB/T 13012-2008软磁材料直流磁性能的测量方法
- GB/T 12807-2021实验室玻璃仪器分度吸量管
- 2023年全国高中生物联赛竞赛试题和答案
- 男衬衫缝制工艺课件
评论
0/150
提交评论