文献网络计算机网络 外文文献 英文文献 外文翻译 探讨搜索引擎爬虫_第1页
文献网络计算机网络 外文文献 英文文献 外文翻译 探讨搜索引擎爬虫_第2页
文献网络计算机网络 外文文献 英文文献 外文翻译 探讨搜索引擎爬虫_第3页
文献网络计算机网络 外文文献 英文文献 外文翻译 探讨搜索引擎爬虫_第4页
文献网络计算机网络 外文文献 英文文献 外文翻译 探讨搜索引擎爬虫_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

131516171819202123271FLRLHTML24JOLIVERAFOR1ANIINGPROCEEDINGSOF213NATIONALCONFERENCEONCHALLENGESALLLINKSINTHATROOLHTMLPAGEARCTLIRCCTSONSOFTHEROOTSUBSEQUENTLINKSARETHENSONSOFLHEPREVIOUSSONSASINGLEURLSERVERSERVESLISTSOFURLSTOANUMBEROFCRAWLERSWEBCRAWLERSTARTSBYPARSINGASPECIFIEDWEBPAGE,NOTINGANYHYPERTEXTLINKSONTHALPAGETHATPOINTTOOTHERWEBPAGESTHEYTHENPARSETHOSEPAGESFORNEWLINKS,ANDSOON,RECURSIVELYWEBCRAWLERSOFTWAREDOCSIILACTUALLYMOVEAROUNDLODIFCRCNLCOMPUTERSONTHEHILCRAELASVIRUSESORINTELLIGENTAGENTSDOEACHCRAWLCRKEEPSROUGHLY300CONNECTIONSOPENATONCCTHISISNCCCSSARYTORETRIEVEWEBPAGESALAFASTENOUGHPACCACRAWLCRRESIDESONASINGLEMACHINETHECRAWLCRSIMPLYSENDSHTTPREQUESTSFORDOCUMENTSLOOTHERMACHINESONTHELNLEMCL,JUSTASAWEBBROWSERDOCSWHENTHEUSERCLICKSONLINKSALLTHECRAWLCRREALLYDOESISLOAUTOMATETHEPROCESSOFFOLLOWINGLINKSWEBCRAWLINGCANBEREGARDEDASPROCESSINGITEMSINAQUEUEWHENTHECRAWLWVISITSAWEBPAGE,ITEXTRACTSLINKSTOOTHERWEBPAGESSOLHECRAWLCRPUTSTHESEURLSATLHEENDOFAQUEUE,ANDCONLINUESCRAWLINGTOAURLTHATITREMOVESFROMLHEFRONTOFTHEQUEUE1ARESOURCECONSTRAINTSCRAWLCRSCONSUMCRESOURCESNETWORKBANDWIDTHTODOWNLOADPAGES,MEMORYLONIAINLAINPRIVATEDATASTRUCTURESINSUPPORTOFLLIEIRALGORITHMS,CPUTOEVALUATEANDSELECTURLS,ANDDISKSTORAGEOSTORETFIELEXLANDLINKSOFFETCHEDPAGESASWELLASOTHERPERSISTENTDATABROBOTPROTOCOLTHEROBOTTXTFILEGIVESDIRECTIVESFOREXCLUDINGAPORTIONOFAWEBSITELOBECRAWLCILANALOGOUSLY,ASIMPLETCXFILECANFURNISHINFORMATIONABOUTTHEFRESHNESSANDPOPULARITYOFPUBLISHEDOBJECTSTHISINFORMATIONPERMITSACRAWLCRTOOPTIMIZEITSSTRATEGYFORREFRESHINGCOLLECTEDDALAASWELLASREPLACINGOBJECTPOLICYCMETASEARCHENGINEANICTASCARCHENGINEISHEKINDOFSEARCHENGINETHATDOESNOTHAVEITSOWNDATABASEOFWEBPAGESITSENDSSEARCHTERMSIOLHEDATABASESMAINLAMEDBYOTHERSEARCHENGINESANDGIVESUSERSLHERESULTTHATCOMEFROMALLTHESEARCHENGINESQUERIEDFEWERMETASEARCHERSALLOWYOUTODELVEINTOTHELARGEST,MOSTUSEFULSEARCHENGINEDATABASESTHEYTENDTORETURNRESULTSFROMSMALLERAND/ORFREESEARCHENGINESANDMISCELLANEOUSFREEDIRECTORIES,OFTENSMALLANDHIGHLYCOMMCRCIALVCRAWLINGTECHNIQUESAFOCUSEDCRAWLINGAGENERALPURPOSEWEBCRAWLERGATHERSASMANYPAGESASILCANFROMAPARTICULARSETOFURLSWHEREASAFOCUSEDCRAWLERISDESIGNEDLOONLYGATHERDOCUMENTSONASPECIFICTOPIC,THUSREDUCINGTHEAMOUNTOFNETWORKTRAFFICANDDOWNLOADSI“HCGOALOFIHCFOEUSEDCRAWICRISTOSELECTIVELYOUTPAGESTHALARERELEVANTLOAPREDEFINEDSETOFTOPICS,TOPICSARESPECIFIEDNOLUSINGKEYWORDS,BUTUSINGEXEMPLARYDOCUMENTSRATHERTHANCOLLECLINGANDINDEXINGALLACCESSIBLCAVEBDOCUMENTSLOBEABLELOANSWERALLPOSSIBLEADHOCQUERIES,AIOCUSCTLCRAWICRANALYZESITSCRAWLBOUNDARYLOFINDIHCLINKSLHALARCLIKELYLOBEMOSTRELEVANTFORTHECRAWL,ANDAVOIDSIRRELEVANTREGIONSOFIHEWEBTHISLEADSTOSIGNIFICANTSAVINGSINHARDWAREANDNETWORKRESOURCES,ANDHELPSKEEPTHECRAWLMOREUPTODATETHEFOCUSCDCRAWICRHASTHREEMAINCOMPONENTSACLASSIFICR,WHICHMAKESRELEVANCCJUDGMENTSONPAGES,CRAWLEDTODECIDEONLINKEXPANSION,ADISTILLERWHICHDELEMUNESAMEASUREOFCENTRALITYOFCRAWLEDPAGESTODETERMINEVISITPRIORITIES,ANDACRAWLERWITHDYNAMICALLYRECONFIGURABLCPRIORITYCONTROLSWHICHISGOVERNEDBYTHECLASSIFICRANDDISTILLERIHCMOSTCRUCIALEVALUATIONOFFOCUSCDCRAWLINGISTOMEASURETHEHARVESTRALIO,WHICHISRALEALWHICHRELEVANTPAGESAREACQUIREDAIUIIRRELEVANTPAGESARCEFFECTIVELYFILTEREDOFFFROMIHECRAWLTHISHARVESLRATIOMUSLBEHIGH,OTHERWISETHEFOCUSEDCRAWLERWOULDSPENDALOTOFLIMEMERELYELIMINATINGIRRELEVANTPAGES,ANDITMAYBEBETTERLOUSEANORDINARYCRAWICRINSTEAD17BDISTRIBUTEDCRAWLINGINDEXINGTHEWEBISACHALLENGEDUETOITSGROWINGANDDYNAMICNATUREASIHCSIZEOFIHCWEBISGROWINGITHASBECOMEIMPERATIVETOPARALLELIZETHECRAWLINGPROCESSINORDERTOFINISHDOWNLOADINGIHEPAGESINAREASONABLEAMOUNTOFTIMEASINGLECRAWLINGPROCESSEVENIFMULTITHRCADMGISUSEDWILLBEINSUFFICIENTFORLARGESCALEENGINESTHATNEEDTOFETCHLARGEAMOUNTSOFDATARAPIDLYWHENASINGLECENTRALIZEDCRAWICRISUSEDALLTHEFETCHEDDATAPASSESTHROUGHASINGLEPHYSICALLINKDISLNBUTINGTHECRAWLINGACTIVITYVIAMULTIPLEMOCESSCSCANHELPBUILDASCALABLE,EASILYCONFIGURABLESYSTEM,WHICHISFAULTTOLERANTSYSTEMSPLITTINGIHELOADDECREASESHARDWAREREQUIREMENTSANDATIHCSAMELIMEINCREASESIHCOVERALLDOWNLOADSPEEDANDRELIABILITYIVACHTASKISPERFORMEDINAIULLYDISTRIBUTEDFASHION,THATIS,NOCCNTRALCOORDINATOREXISTS3JVIIROBLKMOFSELRCTINGMORI“INITIRFSHNCI”OBJECTSASCARCHENGINEISAWAREOFHOTTOPICSBCCAUSCILCOLLCCTSUSERQUERIESTHECRAWLINGPROCCSSPNONTIZESURLSACCORDINGLOANIMPORTANCEMETRICSUCHASSIMILARITYLOADRIVINGQUERY,BACKLINKCOUNT,PAGERANKORTHEIRCOMBMATIONSARIATIONS8J,9JRCCCNLLYNAJORKCLALSHOWEDTHATBRCADLHFIRSLSCARCHCOLLECTSHIGHQUALITYPAGESFIRSTANDSUGGESTEDAVARIANTOFPAGERANK10HOWEVER,ALIHEMOMENT,SEARCHSTRATEGIESAREUNABLETOEXACTLYSELECTTHEBEST”PATHSBECAUSE丨HEIRKNOWLEDGEISONLYPARTIALDUETOTHEENORMOUSAMOUNTOFINFORMATIONAVAILABLEONTHEINTERNETATOTALCRAWLINGISATTHEMOMENTIMPOSSIBLE,THUS,PRUNESTRATEGIESMUSTBEAPPLIEDFOCUSEDCRAWLING11,12ANDINTELLIGENTCRAWLING13J,ARETECHNIQUESFORDISCOVERINGWEBPAGESRELEVANTLOASPECIFICTOPICORSCLOFTOPICS14CONCLUSIONINTHISPAPERWECONCLUDETHALCOMPLETEWEBCRAWLINGCOVERAGECANNOTBEACHIEVED,DUELOIHEVASTSIZEOFIHEWHOLEWWWANDTORESOURCEAVAILABILITYUSUALLYAKINDOFTHRESHOLDISSETUPNUMBEROFVISITEDURLS,LEVELINIHCWEBSILETREE,CONIPLIANCCWITHATOPIC,ETCLOLIMITIHCCRAWLINGPROCESSOVERASELCCLCDWCBSILCTHISINFOMIALIONISAVAILABLEINSCARCHENGINESTOSLORE/REFRCSHMOSTRELEVANTANDUPDATEDWEBPAGES,THUSIMPROVINGQUALITYOFRETRIEVEDCONTENTSWHILEREDUCINGSTALECONTCNTANDMISSINGPAGESREFERENCES1GARCIAMOLINA,HECTORSEARCHINGIHCWEBAUGUST2001HLLP/OAKCSUCLAEDU/CHOPAPERII/CHOLOIL01PDF2GROSSAN,B“SCARCHENGINESWHATTHEYARC,HOWTHEYWORK,ANDPRACTICALSUGGESTIONSFORGETTINGIHCMOSTOUTOFTHEM,”FEBRUARY19973HTTP/WWWWEBRCFCRCNCCCOM4BALDI,PIERREMODELINGTHERNTEMCTANDTHEWEBIROBABILISTICMETHODSANDALGORITHMS,20035PANT,GAULAM,PADMINISRINIVASAIIANDFILIPPOMEIICZERCRAWLINGIHEWEB,20036JHTTPDOLLARBIZUIOWAEDU/PANTTAPERSCRAWLINGPDF7CHAKRABARLI,SOUMCNMININGIHCWEBANALYSISOFHYPERTEXTANDSENUSTRUCTUREDDATA,20038JHLTP/WWWGOOGLECOIN/9JMARINABUZZI,COOPERATIVECRAWLINGPROCEEDINGSOFTHEFIRSTLATINAMERICANWEBCONGRESSLAWEB20030769520588/031700K2003IEEE10JCHOHGARCIAMOIINA,LPAGE,“ELLKICNLCRAWLINGIHROUGHLRRLORDERING”WWW7COMPUTERNETWORKS3017161172199811ARASU,JCHO,IIGARCIAMOIINA,APAEPCKC,SRAGHAVAN,“SEARCHINGIHCWEB”,ACMTRANSACTIONSONINTERNETTCCHNOLOGV,VOLI,NUMI,AUGUST200I,PP24312JMNAJORKJWIENER,“BREADTHFIRSTCRAWLINGYIELDSHIGHQUALITYPAGES”,WWW2001PPIN118第二II怡息技术杂国学术“挑战和机会”研讨会论文集探讨搜索引擎爬虫MPSBHATIA,DIVYAGUPTA内塔告萨布哈技术研究所,印度徳H1大学M德里工程纪念中学,印度徳狙大学随蔚网络难以想象的急剧扩张,从WEB屮提取知识逐渐正在成为一个受欢迎的茁耍途径。这是山于网络的便利性和丰富性信息。通常需要使川鹅于网络爬行的搜索引擎來找到我们黹要的网页。本文描述了搜尜引擎的娲本丁作任务。概述了搜尜I擎与网络爬虫之间的联系。关键词爬行,集中爬行,网络爬虫1导言在网络上WWW是一种服务,驻留在连接到互联网的电脑1,并允许最终相户访问该楚用标准的接U软件的计算机中存储的数据。万维网楚获取访问网络信息的宇宙,是人类知识的体现。搜索引擎是一个计算机程序,它能够从网丨搜索并扫描特定的关键字,尤其是商业服务,返冋的它们发现的资料消单。抓取搜索引擎数据库的倍怠主要通过接收想要发表自U作品的作家的淸单成者通过“网络爬虫”、“蜘蛛”或“机器人”M互联网捕捉他们访W过的页面的相太链接和信息。M络爬虫是一个能自动获取万维网的信息程序。M页检尜丨32】是一个要的研究课题。爬虫是软件组件,它访问网络中的树结构,按照定的策略,搜索并收集当地库中检索对象。本文的其余部分组织如下第节中,我们解释了WEB爬虫的竹梁细节。在第3节,我们讨论爬虫的类型,在第4节我们将介绍网络爬虫的工作原理。在第5节,我们搭建两个网络爬虫的先进技术。在第6节我们讨论如何挑选更有趣的网页的问题。2调查网络爬虫网络爬虫儿乎同阚络本身一样古老。第一个爬虫,H修格黹流浪者,写F1993年,人约正好与首次发布的OCSAMOSAIC网络同时发布在最初的两次万维网会议丨发表了许多关于网络爬虫的文章。然而,在3时,网络比起现在要小上到四个数顼级,所以这些系统没有处现好3今网络中一次爬M屮同打的缩放问题。显然所冇常用的搜索引擎使用的爬M程序必须扩展到网络的实质性部分。H足,山于搜索引擎是一项竞争性质的业务,这些抓取的设计并没有公开描述。有两个明显的例外谷歌瓶带式和网络裆案腹带式。不幸的是,说明这些文献屮的爬虫程序是太简洁以至于能够进行重复。原芥歌爬虫(在斯圯福大学幵发的)组件包括五个功能不同的运行流程。服务器进程读取一个文件的URL出来然后通过履带式转发到多个进程。每个履带进程运行在不同的机器,是单线程的,使川异步I/O釆用并行的模式从敁多300个网站來抓取数据。爬虫传输下载下载的页面到一个能进行网KFR缩和存储的存储服务器进程。然后这呰网页山一个索引程序进行解读从HTML页面中提取链接并将他们保存到、同的磁盘文件中。一个URL解析器进程读取链接文件,并将相对的网址进行存储,并保存了完整的URL到磁盘文件然后就可以进行读取了。逝常悄况下,W为辛叫个爬虫程序被使用,所以盤个系统需要四到八个完整的系统。在答歌将网络爬虫转变成为一个商业成果之后在斯坦福大学仍然在进行这方面的研究。斯坦福WEBBASE项11已实施一个高性能的分布式爬虫,具苻毎秒可以下载50至10021件文件的能力。赵等人乂发展了文件更新频率的模型以报吿爬行下载计划的增量。互联网裆案馆还利用多台机器来检尜网页每个爬虫程序被分配到64个站点进行检索,并没有网站被分配到一个以上的爬虫。每个单线程爬1U程序读取其指定网站网址列表的种了从磁盘到每个站点的队列,然后用异步I/O来从这些队列同时抓取网页一M个页面下载完平,爬虫提取包含在真中的链接。如果一个链接提到它波包含在网页中的网站,它被添加到适尚的站点排队杏则被记录到磁盘中。每隔一段时间,合并成一个批处理程序的W体地点的种子设置这搜记读“跨网站“的网址过滤掉进程中的取复项。WEBFOUNTAIN爬虫程序分莩了禺卡托结构的儿个特点它是分布式的,连续(作者使用术语“增萤“),有礼貌,可配置的。不幸的足,M这篇文章,WEBFOUNTAIN逛在其发展的期阶段,并尚未公布其性能数据。3搜索引擎基本类型A蕋于爬虫的搜索引擎骓于爬虫的搜索引擎自动创建自匕的淸单。计算机程序“蜘蛛”建立他们没有通过人的选样31。他们不逛通过学术分类进行组织,而是通过计算机算法把所打的网页排列出来。这种类型的搜索引擎杵往足巨大的,常常能取得了大笊的信息它允许鉍杂的搜索范阑内搜索以前的搜索的结果,使你能够改进搜索结果。这种类沏的搜索引擎包含了网K中所钉的链接。所以人们可以通过卩L配的单词找到他们想要的网苋。B人力页面目录这是通过人类选择建造的,即他们依赖人类创建列表。他们以主题类别和科1丨做阚页的分类。人力驱动的同朵,永远不会包含他们网贞所钉链接的。他们婼小于大多数搜索引擎。C混合搜索引擎一种混合搜索引擎以传统的文字为导问,如谷歌搜索引擎,如雅虎网录为猫础的搜索引擎,中每个方案比较操作的元数据集不同,当苒元数据的主要资料來自一个网络爬虫或分类分析所苻互联网文字和用广的搜尜作询。U此相反,混合搜索引擎可能苻一个或多个元数据集,例如,包拈來自客户端的网络元数据,将所得的悄境模型中的客户端上下文元数据的来认识这两个机构。4爬虫的工作原理网络爬虫是搜索引擎必不可少的组成部分运行一个网络爬IU是一个极丨4挑战性的任务。有技术和可靠性问题,更琨要的是打社会问题。爬虫楚敁脆弱的成程序,因为它涉及到交互的儿L【F儿丁个WEB服务器和各种域名服务器,这些都人人超出了系统的控制。网页检索速度不仅山一个人的自己的互联网连接速度,W时也受到了要抓取的网站的速度。特别是如个楚从多个服务器抓取的网站,总爬行时丨吋以大大减少如果许多下载是并行完成。ILL然行众多的网络爬虫应用程序,他们在核心内容上摇本丨楚相同的。以下足应用程序网络爬虫的工作过程1、下载网页。2、通过下载的面解析和检索所存的联系。3、对于每一个环节检索,重复这个过程。网络爬虫可川于通过对完整的网站的局域网进行抓取。您可以指定一个沿动程序爬虫跟随在HTML页屮找到的所钉链接。这通常导致更多的链接,这之后将再次跟随,等等。个网站可以被视为一个树状结构釕根本是I动裎序,在这根的HTML贝的所苻链接楚根丫链接。随后循环获得史多的链接。一个网页服务器提供若T网址淸单给爬虫。网络平爬虫幵始通过解析一个指定的网页,标注该网页中指向其他网站页面的超文本链接。然后他们分析这些网页之间新的联系等等循环。网络爬虫软件_个实际移动到各地不閜的互联网上的电脑,而是像电脑病海一样通过智能代理进行。每个爬虫毎次大概打幵大约300个链接。这是检索网页必须的足够快的速度。一个爬虫驻留在一台机器。爬虫只是简中的将的HTTP请求的文件发送到互联网上的其他机器,就像一个网上浏览器的链接,当用户点击。所夼的爬虫事实上是自动化追寻链接的过程。网页检索可被视为一个队列处理的项0O当检索器访问一个网页,它提取到其他网页的链接。因此,爬也晋身于这狴网址的一个队列的末尾,并继续爬行到下一个网页,然后它从队列的前面删除。A资源约束爬行消耗资源下载阚贝的带宽,支持私人数据结构存储的内存來评价和选折网址的CPU,以及存储文本和链接以及K他持久性数据的磁盘存储。B机器人协议机器人文件给出排除一部分的网站被抓取的指令。类似地,一个简单的文本文件可以提供对关的新鲜和出版对象的流行信息,此信息允许抓取工具优化其收集的数据刷新策略以及更换对象的政策。C元搜索引擎一个元搜索引擎茫种没奵它自D的的网页数据库的搜索引擎。它发出的搜索字同他搜索引擎所衍的数据库,从所饤的搜索引擎来杏询并为用广提供的结果。较少的元搜尜“F以让您深入到煅人敁行丨TI的搜索引擎数据库。他们往往返M小成免费的搜索引擎和其他免费丨丨朵并H通常足小和高度商业化的结。5爬行技术A主题爬行一个通川的网络爬虫根据一个URL的特点设置來收集网页。凡为生题爬虫的设计只收集苻一个特定的主题的文件,从而减少

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论