WEB数据采集系统_第1页
WEB数据采集系统_第2页
WEB数据采集系统_第3页
WEB数据采集系统_第4页
WEB数据采集系统_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、WE取据采集系统概述面对互联网海量的信息,政府机关、企事业单位和研究机构都迫切希望获取与自身工作相关的有价值信息,如何方便快捷地获取这些信息就变得至关重要了。如果采用原始的手工收集方式,费时费力且毫无效率,面对越来越多的信息资源,劳动强度和难度可想而知。因此,现代的政府和企业都迫切需要一种能够提供高质量和高效运作的信息采集解决方案。本系统针对不同行业用户的应用需求,以抓取互联网为目的,实现在用户自定义规则下,从互联网中抓取指定信息。抓取的信息可存入数据库或直接入库发送至指定栏目,实现网站信息及时更新和数据量提升,从而使得搜索引擎收录量提升,扩大企业信息宣传推广力度。.典型应用1. 政府机关实时

2、跟踪、采集与业务工作相关的信息来源。全面满足内部工作人员对互联网信息的全局观测需求。及时解决政务外网、政务内网的信息源问题,实现动态发布。快速解决政府主网站对各地级子网站的信息获取需求。全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。节约信息采集的人力、物力、时间,提高办公效率。2. 企业实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。提高企业整

3、体分析研究能力、市场快速反应能力,建立起以知识管理为核心的“竞争情报数据仓库”,是提高企业核心竞争力的神经中枢。3. 新闻媒体快速准确地自动采集数信息。支持每天对数万条新闻进行有效抓取。支持对所需内容的智能提取、审核。实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。系统构架工作过程描述采集的目的就是把对方网站上网页中的某块文字或者图片等资源下载到自己的站网上,这个过程需要做如下配置工作:下载网页配置,解析网页配置,修正结果配置,数据输出配置。如果数据符合自己要求,修正结果这步可省略。配置完毕后,把配置形成任务(任务以XML格式描述),采集系统按照任务的描述开始工作,最终把采集到的结果存

4、储到网站服务器上。工作流程图如下:采集任务定制(WS模式)(采里服务器In)采集服务罂管理进程数据处理逻辑图:四.系统功能根据用户事先配置好的规则(网页下载规则,网页解析规则等),进行数据采集,当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进行采集,然后更新到自己的数据库(或者别的存储方式),这个过程不再需要人工干涉。五.技术特点1. 支持多种网页编码格式,也可以人工设置编码格式。支持各国语言的网站。2. 支持图片,软件,音乐,视频,flash等多种格式资源的下载。3. 支持采集结果输出的多样性,可以使用不同输出插件进行输出,也可以自己开发输出插件。4. 采集配置分为三个部

5、分:网页爬虫配置,网页解析配置,采集任务配置。以上三者可以自由搭配,便于重复利用已设置完毕的配置。5. 可定制的数据解析和抽取。可以自由配置要采集的网络元数据,并可以对每个网络元数据自定义字段名。便于后续信息处理。6. 采集爬虫采用多任务、多数据源管理。7. 每个任务下可以指定多个采集入口网站。8. 采集条件设置,可以针对不同任务下的入口网站设置采集路径、重点页面、采集网址过滤等控制条件。控制条件采用正则表达式。9. 运行配置,采集运行过程中使用的爬虫名称、个数、数据更新频度等均可以由用户进行配置。10. 自动识别文本中的图片信息,并且自动下载到本地,并替换文本中的图片UR西本地URL11.

6、管理控制台可以监控采集过程的运行情况。六.系统优势1. 精确度高用户可以按照自身需要自行选择、设定监测的目标网站和特定信息源,实施24小时不间断监测和采集,信息动态始终处于掌握之中。系统支持将网页中的信息内容按日期、标题、作者、栏目进行提取,过滤网页中的无用信息。扩展抓取采集范围可以精确到特定网站、特定栏目、特定页面、特定区域。2. 易用性好系统参数设置简单,一次设置多次使用。设置过程直观、便捷。3. 灵活性强系统具有很强的灵活性,可按需选择目标站点,并根据形势的变化,随时更换目标站点。用户可直接到某一网站抓取用户想要的特定栏目下的信息,它仅仅要求用户设定特定的抓取条件,用户需要的内容就会自动

7、被抓取和保存下来,从而实现由用户上网找信息转变为信息自动流向用户的方式。4. 实施部署容易系统用户界面友好,抓取服务器在任意浏览器下运行,实施部署过程简单,即装即用。5. 采集内容全面适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网页采集内容的完整性在99%以上。6. 抓取速度快系统支持多线程处理技术,支持运行多条线程的同时抓取。可快速高效地对大大加快了信息的抓取速度,保证在同等单位时间内信息的抓取量成倍数增长。七.系统界面展示钏河采簸管If说明:、第一次使用本功超,谓修改荣初2:设造,、条第前谓瑁指采第项目,环式项目确定无误后再迸行渠策。慑作号航:管理苒页1涿加蒲项目1妾鹿耳

8、本设2i1分类设15分类显示:1通揉毋d疾目1sS法搽项目名称所属分类所闻专的状态上次荣集媒作F柏】啊一银行卡灾讯信用卡无指定专题V2013/5/1517:36:51复制幅气集热彳捌L易货网一一票据贴现第一RaiAa,工在一土M,出工力争复制洞指来第测试州页民回货孜无信专题V尚无记录除L易货网昉押贷款第一艮0伫*不在。*必,出工早复制编依系鬃刑讯刑rk民目货料无指正奇麴v尚无记录小l易集网一担保货数第一良区在廿工件o大昭z士工;*更制漏税采集罪讯1页民同为需无指定营拒V向无证录除L易贷网_企止贷款第一良门HHH小4土峪,出工力不B!制洞福条第测试州页民间货款无犯JE专题V尚无记录除L另货网-一

9、4车抵丽一工F*%,闺工蹿早复制瑁后果鬃利慎用K丰格的律灾苏无指正奇麴,尚无记录g页除L易货网一一二手生货猿第一工在O大的/上工反制强播采集列试1_天丰格次衣尢相定营旭V向尢吊玳除r魏炯一少球一车氧防居求无指定专题v尚无记录夏创娟年集测试删r易纲一菖押货款第一即蚓音无指定钿v尚无记录复制.萨丽用页除L易货同一一住店抵捧第一工及O安的Z士工m复制强揖采集利试HIr页医广抵抻女劣无指定专麴v6无记录像题快速茶京1EH照|孙闻采集管理说明:、第一次使用本功能,清修改采集基本设置;、采集前清漏揖采集项目,则试项目确定无误后再进行采箧。分类显示:I迭择分类操作导航:管理首页I添加新项目I采集基本设置I分

10、类设置管理导就:添加新主栏目分类管理编号栏目分类领管懿项操作150新同添加下级把目修改删除173卜信用卡添加下级栏目修改删除172I民间货款添加下栏目修改删除171卜车辆质押货款添加下级栏目瞰删除170卜房产抵押贷款添加下级拦目修改删除169银行货款添加下级栏目修改删除153HS用贷款添加下级栏目修改删除新闻采集管理说明:、第一次使用本功能,清修改采集基本设置;、采集前语埸辑采集项目,则i瑕目确定无误后再进行采集。操作导航:管理首页I添加新项目I采集基本设置分类设置管理导航:添加新主栏目采集系统历史记录管理管理导航:管理首页1成功记录1失败记录1失效记录历史记录-所有记录选择项目名称标题频道栏目来源结果入匠操作r和帆网一清行卡奥4月持卡人消费信心退期波动无指定频道信用卡点击送问成功2删除r和讯网一一银行卡奥多家银行调整信用卡积分广发

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论