201809网络爬虫系统-项目建设方案

上传人：s*** IP属地：天津上传时间：2022-10-02 格式：DOCX 页数：13 大小：155.96KB 积分：18 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、目录 TOC o 1-5 h z .对项目的理解-3 -背景-3-业务目标错误!未定义书签。应用感知目标-3- HYPERLINK l bookmark3 o Current Document .系统整体架构-3 - HYPERLINK l bookmark5 o Current Document 技术框架-3- HYPERLINK l bookmark7 o Current Document 数据架构-4- HYPERLINK l bookmark9 o Current Document 功能模块-5- HYPERLINK l bookmark11 o Current Document 功能

2、模块-5- HYPERLINK l bookmark13 o Current Document 应用部署架构-6- HYPERLINK l bookmark15 o Current Document 3,详细建设方案-7 - HYPERLINK l bookmark17 o Current Document 一站式大数据采集、存储、清洗、训练、导出-7- HYPERLINK l bookmark19 o Current Document 多租户管理-7-功能说明-7 -平台截图-8 - HYPERLINK l bookmark21 o Current Document 丰富的数据接口 -8-

3、HYPERLINK l bookmark23 o Current Document 平台高可用性-8- HYPERLINK l bookmark25 o Current Document 抓取高效性-8- HYPERLINK l bookmark27 o Current Document 高可扩展性-9- HYPERLINK l bookmark29 o Current Document 可视化爬虫界面-9- HYPERLINK l bookmark35 o Current Document 抓取过程-10- HYPERLINK l bookmark37 o Current Document

4、硬件配置方案-11-主机、存储资源-11 -软件资源-11 - HYPERLINK l bookmark39 o Current Document 资源估算-11存储-11 -CPU 与内存-12 -.系统安全与系统测试错误!未定义书签。系统管理以及系统安全措施错误!未定义书签。系统测试的方法和环境错误!未定义书签。.工程进度安排及项目实施人员资质错误！未定义书签。工程进度安排错误!未定义书签。项目支撑人员组成表错误!未定义书签。支撑人员相关证明材料错误!未定义书签。杨继营（项目负责人）错误!未定义书签。李筠错误!未定义书签。邹娟错误!未定义书签。邱文川错误!未定义书签。唐亮错误!未定义书签。

5、赵柏杰错误!未定义书签。53.7刘子悦错误!未定义书签。曹平错误!未定义书签。陈汉雄错误!未定义书签。陈一错误!未定义书签。付敏健错误!未定义书签。张福元错误!未定义书签。何州鹏错误!未定义书签。黄华金错误!未定义书签。黄习文错误!未定义书签。李佳错误!未定义书签。李威虎错误!未定义书签。刘起云错误!未定义书签。冼锡勇错误!未定义书签。杨锋错误!未定义书签。邹兴错误!未定义书签。.售后服务及质量保证措施、技术支持和保修等错误!未定义书签。培训错误!未定义书签。维护与升级错误!未定义书签。质量保证期内的服务错误!未定义书签。寿命期内维修服务错误!未定义书签。.人员培训计划、安排错误!未定义书签。

6、.分工界面及工作内容错误!未定义书签。技术支持错误!未定义书签。培训推广错误!未定义书签。售前阶段的配合服务错误!未定义书签。售中阶段的配合服务错误!未定义书签。售后阶段的配合服务错误!未定义书签。.技术承诺错误!未定义书签。知识产权错误!未定义书签。安全方案错误!未定义书签。电话技术支持服务错误!未定义书签。版本管理和软件补丁服务错误!未定义书签。技术资料服务错误!未定义书签。重要通讯保障服务错误!未定义书签。应急方案设计与预演服务错误!未定义书签。辅助故障定位服务错误!未定义书签。.相关案例错误!未定义书签。.对项目的理解背景持续推进企业信息化的全面深化改革，深入公司管理层、分公司及一线收

7、集问题和需求，围绕“快、准、简、稳、智”五个标准，贯彻“零不爽” IT运营服务理念，提出了大数据应用建设内容，承接集团全网集约营销活动，提升本地精准营销服务，开展大数据合作运营分析，提升财务、业务价值、人力和光网的精确管理能力，优化领导视窗，建立网运综合评价体系，建设爬虫能力，实现智慧化运营应用感知目标爬虫页面响应及内容加载在5秒内，内容展示响应速度时间小于5秒。爬虫配置，系统维护功能简单易用，80%用户可以在经过简单培训后结合使用手册，完成爬虫的开发和平台的维护。爬虫平均宕机运行时间W10小时/月。平均故障恢复时间W180分钟/次。爬虫可以自动根据爬虫节点的负载进行负载均衡处理，同

8、时当爬虫出现不可恢复的错误时，可以智能的选择其他节点进行重新运行，保证爬虫任务可以正确完成。.系统整体架构技术框架分布式爬虫框架采用Nutch。Nutch是一个开源Java实现的搜索引擎,它提供了我们运行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬虫。Nutch基于Lucene,类似Google的完整网络搜索引擎解决方案，基于Hadoop 的分布式处理模型保证了系统的性能，插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。总体上Nutch可以分为两部分：抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引，搜索程序则对反向索引搜索回答用户的请求。抓取

9、程序和搜索程序的接口是索引，两者都使用索引中的字段。抓取程序和搜索程序可以分别位于不同的机器上。数据架构抓取程序是被Nutch的抓取工具驱动的。这是一组工具，用来建立和维护几个不同的数据结构：web database、segments、the indexm种不同的数据结构：口 The web database （简称WebDB）：这是一个特殊存储数据结构，用来映像被抓取网站数据的结构和属性的集合。WebDB用来存储从抓取开始（包括重新抓取）的所有网站结构数据和属性。WebDB只是被抓取程序使用，搜索程序并不使用它。WebDB存储两种实体：页面和链接。页面表示网络上的一个网页，这个网

10、页的URL作为标示被索引，同时建立一个对网页内容的MD5哈希签名。跟网页相关的其它内容也被存储，包括：页面中的链接数量（外链接），页面抓取信息（在页面被重复抓取的情况下），还有表示页面级别的分数。链接表示从一个网页的链接到其它网页的链接。因此WebDB可以说是一个网络图，节点是页面，链接是边；口 Segment：这是网页的集合，并且它被索引。Segment的Fetchlist 是抓取程序使用的URL列表，它是从WebDB中生成的。Fetcher的输出数据是从Fetchlist中抓取的网页。Fetcher的输出数据先被反向索引，然后索引后的结果被存储在segment中。Segmen

11、t的生命周期是有限制的，当下一轮抓取开始后它就没有用了。因此删除超过指定时间期限的 segment是可以的。而且也可以节省不少磁盘空间。Segment的命名是日期加时间，反应出相应的存活周期；The index：索引库是反向索引所有系统中被抓取的页面，它并不直接从页面反向索引产生，而是合并很多小的segment的索引产生的。Nutch使用Lucene来建立索引，因此所有Lucene相关的工具API都用来建立索引库。需要说明的是 Lucene的segment的概念和Nutch的segment概念是完全不同的。Lucene的segment 是Lucene索引库的一部分，而Nutch的Seg

12、ment是WebDB中被抓取和索引的一部分。功能模块爬虫平台分精爬与通爬两大功能模块，以满足不同租户的数据采集需求，多租户的系统功能逻辑如下iTrfL.ll1MtlMil99MKVMiTrfL.ll1MtlMil99MKVM1、精爬租户登陆云爬虫管理平台，在线编辑爬虫脚本，云爬虫系统按计划编写的脚本规则爬取相应页面的指定部分（比如具体评论列表），并存入大数据平台、建立全文索引。2、通爬调用方调用由云爬虫系统提供的通爬接口，云爬虫系统实时根据策略（代理 IP等）爬取结果返回调用方，并存入由加邛平台、建立全文索引。功能模块爬虫平台的物理架构如下，按层次划分，主要分为接入层、采集层和持久层，

13、如下图所示：1、接入层接入层包含Web与接口。Web主机负责负载均衡分配任务，以及展示任务列表。在Web页面上，租户可以根据需要创建新的爬取任务。对于创建成功的爬取任务，可以通过Web页面查看其基本信息。REST API则负责对外提供爬虫能力接口。2、采集层采集层包含爬虫主机与消息队列主机。爬虫主机负责接收Web主机分配的任务，包括抓取网页并返回内容、对抓取的内容进行解析和结构化，以及将结构化的结果进行持久化。Redis作为消息队列，负责进行任务的分发。3、持久层通常网络爬虫抓取的数据量非常大，而存储大量的数据需要较大的存储空间，因此持久层采用了中国移动苏州研发中心自研的Hadoo

14、p平台产品。应用部署架构爬虫平台的应用部署架构如下，主要分为Web服务域和采集服务域。1、Web服务域提供给租户用来编写调试爬虫脚本，安装了WebUI、Scheduler等组件。2、采集服务域用来进行数据采集和结果返回，各Spider节点安装了Fetcher、Processor、 Result_Worker、Rest API、Selenium、PhantomJS等组件。.详细建设方案一站式大数据采集、存储、清洗、训练、导出从数据获取到处理、输出全站打通的，以一键自动发布到数据库/网站/微信公众号/邮箱等、导出到本地文件、或通过Webhook / GraphQL获取数据。多租户管理功能说明云爬虫

15、和互联网数据存储分析平台PaaS化，实现了多租户和租户间的资源隔离能力。平台截图云爬虫统一监控管理平台mm IanwIItFpiB.tlVjiWMIfinfi：KK”1 riiHPH 丰富的数据接口扩展了多种数据接口的读写能力，如关系型数据库Oracle、非关系型HBase、HDFS文件、ES以及流式消息接口 Kafka，以此来支持如精爬、通爬等不同的业务需求。平台高可用性云爬虫平台的所有爬取节点和数据存储分析节点均匀的分布在多台物理节点上，单台机器的宕机不会引起整个爬取进程的中断，这种分布式架构提升了系统整体的健壮性。抓取高效性单机模式下的网络爬虫效率不高，不能满足大规模的抓取任务需求，

16、云爬虫平台为爬虫租户分配多个爬取节点，通过读取共享任务池来共同执行抓取任务，每个爬取节点都可以看成是一个单机的网络爬虫，能大幅度的提高页面的抓取效率。高可扩展性支持静态爬取和动态渲染的主流网站数据爬取，如天猫、京东、大众点评、豆瓣等，能够根据当前爬虫任务量动态地调节爬虫节点数量，比起传统爬虫方式灵活性更强。同时，租户在编写脚本时自定义程度高，允许租户根据不同的爬取需求自定义爬取范围。可视化爬虫界面云爬虫平台为爬虫租户提供了一个可视化页面来编辑调试爬虫脚本，平台支持静态和动态渲染的主流网站爬取，同时能根据业务紧急程度动态调整各爬虫任务的优先级，并提供了一个爬取数据结果的页面导出功能，

17、方便样例数据查看，系统页面如下图所示：- Reiiib TatJe Num.uilCduhtidha*工通5EliteFiRpJiVrL 国Ml 口11他)出丫向用司10毋114 gigc： q电犯srB2I4Q4FD cr1电犯剧1云ftLW订餐：第鼻-云金上解1拿* B撞电魔窟蛊正他松:riEp isn Jqifi nwnjfcHffj.hlm时 27WQc i电赐ri电震(1云甲之上苒1车：# or*0之上藏1傩式集咤及助高力正所日iqi camglav 11101111=6221Hi删0CJ T申亚ST.cr1中乩刷云修工上百1案；事才蜜上菖1乖声传电投叫落泊正桐时BiRp ,m iq

18、ly| tJmipkTn3124的mocj ssar斤/乳惨M W加WHF激可技. 循王百可SM书写国疔日阚堆粉i，E r明斯干王7式可SH 料史-hfp Jilm 国别 sirvgh hlml.?hHj=hj,5Ci 64 BOOcs i身弭勒ror1屯史叼比电|也知赭如匕寸* 1耳-电，典离索止唐?(3-aeilzp fiifi Mi camiay Mm曰而京2驮 tDIOTcf i用赐r.飞则附加 (r1电可即上巾妾方称：芾巧*-腑英曰作苜3谟：嵬明星需正曲枳曲rirepjin 白刖 0HMim IMm忤乐i=18467欧）cf inML61&4674D电网的寻却也如：第*果谶出:用第

19、1鼻中霞*迪跟http加m Iqrri Bimpkh Frlml71?KiBG2 j5 找BKie吸幽,Cr1电视幽三宝三世1型现苴：不融算r三归世十里横诧再&二业电社剧富事回nflp/iFP 应用 snnj础 2$40c般现er也驯D kI电叫云修之上解1*1常？压面N上希1孑*震集更ffl高Ji!法力mip J而 EM Eg目 1 EEEm书321 tsooCf西现E/罐1伯加始1电懒云*之上网；季；第MTHZ-Wii潘坦爬卧高濡正题然lirep htn kqh*l cnmOki Frimr?Mdi=6S13 tXJ,割曲-烟总14金 (F二电靶圜国毛上壬 S5F常*片舌飞!于- 1铝*

20、史咏园-X：#正西网Si .py5pder AboardE三一E三一E。|三三B=抓取过程抓取是一个循环的过程，抓取工具从WebDB中生成了一个Fetchlist集合；抽取工具根据Fetchlist从网络上下载网页内容；工具程序根据抽取工具发现的新链接更新WebDB,然后再生成新的Fetchlist，周而复始。这个抓取循环在Nutch中经常指：generate/fetch/update 循环。一般来说同一域名下的URL链接会被合成到同一个Fetchlist。这样做的考虑是：当同时使用多个工具抓取的时候，不会产生重复抓取的现象。Nutch遵循Robots Exclusion Protocol,可以用robots.txt定义保护私有网页数据不被抓去。上面这个抓取工具的组合是Nutch的最外层的，也可以直接使用更底层的工具，自己组合这些底层工具的执行顺序达到同样的结果。这是Nutch的优势。具体工作过程如下：创建一个新的 WebDB (admin db -create)；把开始抓取的跟URL放入WebDb (inject)；从 WebDb 的新 segment 中生成 Fetchlist (generate)；根据Fetchlist列表抓取网页的内容(fetch)；-10 -根据抓取回来的网页链接URL更新WebDB

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

201809网络爬虫系统-项目建设方案

文档简介

温馨提示

最新文档

评论

相关文档