资源大数据采集技术方案要点_第1页
资源大数据采集技术方案要点_第2页
资源大数据采集技术方案要点_第3页
资源大数据采集技术方案要点_第4页
资源大数据采集技术方案要点_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

文档文档资源数据采集技术方案公司名称20237O目录\l“_TOC_250011“第1局部概述 3\l“_TOC_250010“工程概况 3\l“_TOC_250009“系统建设目标 3\l“_TOC_250008“建设的原则 3\l“_TOC_250007“建设原则 3\l“_TOC_250006“参考资料和标准 5\l“_TOC_250005“第2局部系统总体框架与技术路线 5\l“_TOC_250004“系统应用架构 5\l“_TOC_250003“系统层次架构 6\l“_TOC_250002“关键技术与路线 6\l“_TOC_250001“第3局部系统设计标准 9\l“_TOC_250000“第4局部系统具体设计 91工程概况Internet已经进展成为当今世界上最大的信息库和全球范围内传播学问的主要渠道,还是企业竞争力的提升都越来越多地依靠对网上信息资源的利用。现在是信息时代,信息是一种重要的资源,它在人们的生活和工作中起着重要的作用。计算机和现代信息技术的快速进展,使Internet成为人们传递信息的一个重要的桥梁。网络了我们今后建设在线预订类旅游网重要的组成局部。Web大减轻用户的信息过载和信息迷失。系统建设目标游、购、娱等多方面的综合资讯信息、全方位的旅行信息和预订效劳的网站。Excel网信息自动采集的系统可以实现数据采集的高效化和自动化。建设的原则建设原则特点。因此,在进展工程建设的过程中,应当遵循以下原则:可扩大性增加一些的功能,你可以将开发的类和文件依据Bundle进展组织,然后直接扔到运行时环境下,这些功能就可以用了。因此系统不会受技术改造而重做出调整。创性软件的投资要考虑到今后的进展,不能使用落后的产品与技术,避开投资的铺张;在系统软件选型、开发技术上,到达国内外先进水平。标准性和标准性标准,符合国家有关标准标准的。低耦合性采集系统与其它系统彼此间相对独立sql同步或者基于txt/xml的数据交换,保证整体系统的低耦合性。高效性在底层的技术实现上承受java语言,跨平台,跨数据库,运行效率卓越。安全、稳定、准确、准时性技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期进展的需要。易操作和易维护原则整个系统易于维护,简洁操作,易学,易用,完全通过WEB维护的技术难度,也削减了人为隐患的发生。参考资料和标准主要参阅并依据以下一些参考资料及标准:《中国工程治理学问体系〔C-PMBO,2023.5GB/T1526-1989《信息处理数据流程图、程序流程图、系统流程图、程序网络图、系统资源图的文件编制符号及商定》GB/T8566-1995《信息技术软件生存期过程》GB/T8567-1988《计算机软件产品开发文件编制指南》GB/T9385-1988《计算机软件需求说明编制指南》GB/T13702-1992《计算机件分类与代码》GB/T11457-1995《软件工程术语》2网络信息资源采集系统是一套功能强大的网络信息资源开发利用与整合系统括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式供给应最终用户使用。系统应用架构采集应用效劳网络蜘蛛数据库数据分析数据解析 分组分析采集应用效劳网络蜘蛛数据库数据分析数据解析 分组分析网络蜘蛛互联网

资源公布系统客户端网络蜘蛛:依据指定规章抓取网站数据。数据分析:分析从网络蜘蛛来的数据,过滤掉我们不需要的信息。数据解析:依据指定资源格式(字段)的定义,进展数据库字段级别的解析。分组分析:依据不同的网络资源类型进展分类,并以多种存储方式进展存储。系统层次架构扫瞄器扫瞄器表现层网络资源采集网络资源采集数据转换数据导出数据公布网络恳求应用层采集监控数据分析消息通知登录验证数据处理任务打算常用脚本库认证码识别WEB效劳器应用效劳器标准接口其他支撑层关系数据文本文件数据图片视频数据数据层整个系统分为四层,分别为:数据层:数据层负责存储抓取来的各种信息及数据,这里面包括网页、文档、关系型数据、多媒体数据等。支撑层:支撑层供给了关键的硬、软件支撑系统,包括应用效劳器、WEB效劳器、标准接口等标准支撑系统。应用层:在应用层主要供给网络资源采集、数据转换、分析、处理、导出、公布、采集监控、消息通知、登录验证、任务打算、认证码识别等效劳。表现层:表现层通过扫瞄器等方式,为用户供给多样化的信息效劳。关键技术与路线为了充分满足本工程的建设:我们承受先进、主流、牢靠、有用、性价比好的三层架构体系,充分考虑今后纵向、横向扩张力量。承受构件化和面对对象技术,使系统具有敏捷的扩展性和良好的移植性。J2EE从软件层次上看,我们承受了典型的J2EE三层架构体系,即应用—支撑—数据三层。简洁地说,J2EE〔Java[tm]2PlatformEnterpriseEdition〕是一个标准中间件体系构造,码来表达应用的商业规律和表示规律,至于其他系统问题,如内存治理,多线程和垃圾收集等,都将由J2EEJ2EE已经被证明是一个稳定的、可扩展的、成熟的平台,在国内外拥有众多成功的应用实例。J2EE应用效劳器〔ApplicationServer〕承受目前国际最先进的开发理念、拥有很多适合基于Internet三层构造体系——最适合Internet环境,可以使系统有很强的可扩展性和可治理性。2EE它地方,可以提高开发速度,降低开发本钱。基于JAVA完全跨平台特性——与平台无关,适应Internet数厂商支持,用户可依据需要选择适宜的效劳器硬件和数据库。并且假设需要更换系统平台时,J2EE把J2EE三层架构软件体系引用到资源采集系统,将大大提高系统的可移植性、可伸缩性和可扩展性。XMLXMeXtensibleMarkupLanguag被称为“其次代Web大公司的支持。XML优良的数据存储格式可扩展性高度构造化便利的网络传输以XML据交换。我们将在本工程中主要以XML为存储方式,便利扩展和数据分析。WEB2.0Web2.0Web1.0〔2023〕的的一类互联网应用的统称,是一次从核心内容到外部应用的革命,是依据“六度分隔”(注:由美国哈佛大学社会心理学教授斯坦利就是说,最多通过六个人你就能够生疏任何一个生疏人。)、XML、AJAX等理论和技术实现的互联网一代模式。由Web1.0单纯通过网络扫瞄器扫瞄html网页模式向内容更丰富、联系性更强、工具性更强的Web2.0互联网模式的进展已经成为互联网的进展趋势。Web1.0到Web2.0由被动地接收互联网信息向主动制造网络信息迈进。运行机制上,由“ClientServer”向“WebServices应用向全面大量应用进展。承受创的Ajax技术,同等网络环境下,页面响应时间最高削减90%。系统集成APIXMLXML不同的应用程序之间,不同的操作系统之间,不同的数据库之间都可以交换数据。使用XML作为数据交换工具还可以解决异构数据库之间的集成。XMLXStreamJavaXML具体一个JavaXML34应用功能设计资源采集我们可以使用采集,对网络上的各种资源进展挖掘。采集工程:采集工作的具体设置文件,包含了要采集的资源链接。准确:依据指定资源格式(字段)的定义,进展数据库字段级别的采集。蜘蛛/爬虫:依据指定的文件匹配表达式,自动对指定网站的资源进展全面分析和采集。能包含以下字段:作者、标题、日期、内容等。自动把多个分页的内容合并到内容字段。可以为内容自动设置跟踪属性,自动猎取最终的内容。整个网站、每个链接甚至每个资源单独定义登录验证以满足具体需求。参数:这是模拟登录需要的参数,譬如用户名、密码等。/值,自动猎取登录参数的值。可以使用自定义的登录脚原来实现相应的登录认证。数据处理:脏字过滤:对符合国家规定的敏感字符的过滤,还可以自定义要过滤的字符,以确保采集到的内容符合相关法律法规。内容,您可以自行对各种垃圾内容进展过滤。Flash/Silverlight实际的文件(.FLV/MP3/.XAP等),您可以使用内容嗅探实现对这些实际内容的采集。关键字/标签(Tag内容的关键字/标签列表。文件格式批量转换:对大量文件的快速转换,转变图片或视频的大小/添加水印/Office系列文档转换为HTML,以多种方式修改编码互转,文本切分合并,网页文本互转,不良图片过滤,数据转换等。jpg、bmppng、gif、icljpeg等。压缩文档:抽取/转换/生成压缩文档,支持zip、rar等。Office文档支持:支持doc、docx、xls、xlsx、xml、pdf、rtf文本排版:段落智能修正、去掉干扰符、修正段落首尾空格、修正标点符号,支持txt,htm,eml。txt,htm,eml。不良图片过滤:识别并过滤不良图片,支持全部图片。件。快速下载:下载到本地磁盘。视频网站。通过多线程并行采集,加快采集速度。数据导出导出数据库:把采集后的数据导出到各大数据库/数据文件中。Excel、XML可以把文件导出到FTP。自定义导出脚本。资源信息公布采集后的数据:可以把采集后的数据,公布到指定网站或系统。网络恳求:可以自定义恳求,譬如网络投票等。任务打算可以指定采集、转换、导出、公布、恳求等各种任务定时执行。可启用多个线程来完成同一个采集任务。可自由设定采集网页数和暂停的时间,此功能主要解决采集过快而被屏闭或制止访问等问题。可以在采集当中随身暂停、启动或停顿任务。消息通知能够自动通过多种方式〔邮件、系统日志、系统声音等〕通知采集公布状况。在各种任务完成之后,如采集,公布,打算任务等。监控指定网站并在数据转变时。监控设置当网络资源更或采集到的资源信息时,通过各种通知方式,随时提示。脚本定义脚本是对各种功能的自定义扩展,支持JavaScript语言编写。时候,可以通过脚原来进展自定义的采集。公布脚本:可以针对特别的网站进展发送恳求。常用脚本:系统内置的常用的脚本,如对专用链的解释/编码、条形码的生成、敏感字符的过滤、中文分词/TagRSS等。认证码识别系统自动识别各种登录页面的认证码、验证码等。默生疏别:全自动识别各种常见的认证码

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论