![资源数据采集技术方案_第1页](http://file4.renrendoc.com/view/f1597b0bc981cb371357b97a776dcf7f/f1597b0bc981cb371357b97a776dcf7f1.gif)
![资源数据采集技术方案_第2页](http://file4.renrendoc.com/view/f1597b0bc981cb371357b97a776dcf7f/f1597b0bc981cb371357b97a776dcf7f2.gif)
![资源数据采集技术方案_第3页](http://file4.renrendoc.com/view/f1597b0bc981cb371357b97a776dcf7f/f1597b0bc981cb371357b97a776dcf7f3.gif)
![资源数据采集技术方案_第4页](http://file4.renrendoc.com/view/f1597b0bc981cb371357b97a776dcf7f/f1597b0bc981cb371357b97a776dcf7f4.gif)
![资源数据采集技术方案_第5页](http://file4.renrendoc.com/view/f1597b0bc981cb371357b97a776dcf7f/f1597b0bc981cb371357b97a776dcf7f5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
公司名称20227月名目1(3(3(3(4(4(52(5(6(6(73(94(91局部概述工程概况Internet已经进展成为当今世界上最大的信息库和全球范围内传播学问的主要渠道,站点遍布全球的巨大信息效劳网,为用户供给了一个极具价值的信息源。无论是个人的进展还是企业竞争力的提升都越来越多地依靠对网上信息资源的利用。现在是信息时代,信息是一种重要的资源,它在人们的生活和工作中起着重要的,Internet成为人们传递信息的一个重要的桥梁。网络的不断进展,伴随着大量信息的产生,如何在海量的信息源中查找搜集所需的信息资源成为了我们今后建设在线预订类旅游网重要的组成局部。因此,在当今高度信息化的社会里,信息的猎取和信息的准时性。而Web数据采集可以通过一系列方法,依据用户兴趣,自动搜取网上特定种类的信息,去除无关数据和垃圾数据,筛选虚假数据和迟滞数据,过滤重复数据。直接将信息依据用户的要求呈现给用户。可以大大减轻用户的信息过载和信息迷失。系统建设目标在线预订类旅游网是在线供给机票、酒店、旅游线路等旅游商品为主,涉及的网站。假设用户要搜集这一类网站的相关数据,通常的做法是人工扫瞄网站,查看最近更的信息。然后再将之复制粘贴到Excel文档或已有资源系统中。这种做法不仅费时费力,而且在查找的过程中可能还会遗漏,数据转移的过程中会出错。针对这种状况,在线预订类旅游网信息自动采集的系统可以实现数据采集的高效化和自动化。建设的原则建设原则多样化的特点。因此,在进展工程建设的过程中,应当遵循以下原则:可扩大性依据实际的要求,系统可被便利地载减和敏捷的扩展,使系统能适应变化和状况。可以实现模块级别的动态扩展,而且是运行时的。所谓运行时模块的动态扩展,,Bundle进展组织,然后直接扔到运行时环境下,这些功能就可以用了。因此系统不会受技术改造而重做出调整。创性软件的投资要考虑到今后的进展,不能使用落后的产品与技术,避开投资的铺张;在系统软件选型、开发技术上,到达国内外先进水平。标准性和标准性,应当全部遵循通用的国际或行业标准,符合国家有关标准标准的。低耦合性采集系统与其它系统彼此间相对独立,直接进展数据库入库、sql同步或者基于txt/xml的数据交换,保证整体系统的低耦合性。高效性java语言,跨平台,跨数据库,运行效率卓越。安全、稳定、准确、准时性承受先进的算法,承受多个子系统和工具组成一个安全、稳定、准确、准时的解决方案。方案在总体设计上遵循稳定、开放、可扩展、经济、安全的原则,从而,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符合长期进展的需要。易操作和易维护原则,简洁操作,易学,易用,WEB方式完成,降低维护的技术难度,也削减了人为隐患的发生。参考资料和标准主要参阅并依据以下一些参考资料及标准:(C-PMBOK,2022.5●GB/T1526-1989《信息处理数据流程图、程序流程图、系统流程图、程序网络图、系统资源图的文件编制符号及商定》●GB/T8566-1995《信息技术软件生存期过程》●GB/T8567-1988《计算机软件产品开发文件编制指南》●GB/T9385-1988《计算机软件需求说明编制指南》●GB/T13702-1992《计算机件分类与代码》●GB/T11457-1995《软件工程术语》2局部系统总体框架与技术路线网络信息资源采集系统是一套功能强大的网络信息资源开发利用与整合系统,,建立可再利用的信息效劳系统。能够从各种网络信息源,包括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类处理后,以多种形式供给应最终用户使用。系统应用架构网络蜘蛛:依据指定规章抓取网站数据。数据分析:分析从网络蜘蛛来的数据,过滤掉我们不需要的信息。数据解析:依据指定资源格式(字段的定义,进展数据库字段级别的解析。●分组分析:依据不同的网络资源类型进展分类,并以多种存储方式进展存储。系统层次架构整个系统分为四层,分别为:数据层:数据层负责存储抓取来的各种信息及数据,这里面包括网页、文档、关系型数据、多媒体数据等。支撑层:支撑层供给了关键的硬、软件支撑系统,包括应用效劳器、WEB效劳器、标准接口等标准支撑系统。应用层:在应用层主要供给网络资源采集、数据转换、分析、处理、导出、公布、采集监控、消息通知、登录验证、任务打算、认证码识别等效劳。表现层:表现层通过扫瞄器等方式,为用户供给多样化的信息效劳。关键技术与路线为了充分满足本工程的建设:我们承受先进、主流、牢靠、有用、性价比好的,充分考虑今后纵向、横向扩张力量。承受构件化和面对对象技术,使系统具有敏捷的扩展性和良好的移植性。J2EE标准体系从软件层次上看,J2EE三层架构体系,即应用—支撑—数据三层。简洁地说,J2EE(Java[tm]2PlatformEnterpriseEdition是一个标准中间件体系旨在简化和标准多层分布式应用系统的开发和部署,有了它,开发者只需要集中,至于其他系统问题,如内存治理,多线程,资源分布和垃圾收集等,J2EE自动完成。,在国内外拥有众多成功的应用实例。J2EE应用效劳器(ApplicationServer承受目前国际最先进的开发理Internet应用需求的特点:三层构造体系——Internet环境,可以使系统有很强的可扩展性和可管理性。面对对象、组件化设计——2EE是一种组件技术,已完成的模块能便利的移植到其它地方,可以提高开发速度,降低开发本钱。基于JAVA完全跨平台特性——与平台无关,Internet需要,并能得到大多数厂商支持,用户可依据需要选择适宜的效劳器硬件和数据库。并且假设需要更换系统平台时,J2EE也能便利的进展移植。J2EE三层架构软件体系引用到资源采集系统,将大大提高系统的可移植性、可伸缩性和可扩展性。XML技术XML(eXtensibleMarkupLanguage,可扩展标记语言,是当前最热门的网络技术之一,被称为“Web语言”、“下一代网络应用的基石”。自它被提出以来,几乎得到了业界全部大公司的支持。XML具有卓越的性能,它具有四大特点:优良的数据存储格式可扩展性高度构造化便利的网络传输以XML技术作为支持,为用户自定义应用界面和业务数据构造,并将其与底层,可实现分布式、异构应用系统之间的数据交换。XML为存储方式,便利扩展和数据分析。WEB2.0技术Web2.0,Web1.0(2022年以前的互联网模式的的一类互联网应用的统,是依据“六度分隔”(注:由美国哈佛大学社会心理学教授斯坦利·米尔格兰姆觉察的,你和任何一个生疏人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够生疏任何一个生疏人。、XML、AJAXWeb1.0单纯通过网络扫瞄器扫瞄html网页模式向内容更丰富、联系性更强、工具性更强的Web2.0互联网模式的进展已经成为互联网的进展趋势。Web1.0Web2.0的转变,具体的说,从模式上是单纯的“读”向“写”、“共同建设”进展;由被动地接收互联网信息向主动制造网络信息迈进。运行机制上,由“ClientServer”向“WebServices”转变;作者由程序员等专业人士向全部一般用户进展;应用“滑稽”Ajax技术,同等网络环境下,90%。APIXML文档构造在很多方面可以便利地反映对象的构造,这也是其适合面对对象的软件技术的一个关键点。使用XML对数据源的数据进展处理,它起着接口层或者封装的作用,这样不同的应用程序之间,不同的操作系统之间,不同的数据库之间都可以XML作为数据交换工具还可以解决异构数据库之间的集成。,我们将开发专用的数据接口,XML技术作为数据交换的页面描述标准。XML相互转换的工具。使用格外的简洁,并且可以自定义转换的过程,但是这个组件仅能做的就是这些最根本的工作,有了这个组件,我们可JavaXML之间问题了。3局部系统设计标准4局部系统具体设计应用功能设计资源采集我们可以使用采集,对网络上的各种资源进展挖掘。a采集工程:采集工作的具体设置文件,包含了要采集的资源链接。:依据指定资源格式(字段的定义,进展数据库字段级别的采集。蜘蛛/爬虫:依据指定的文件匹配表达式,自动对指定网站的资源进展全面分析和采集。b字段:各种资源的最小单位,譬如您要采集某个网站的多个帖子,那么每个帖子可能包含以下字段:作者、标题、日期、内容等。c链页:一些帖子在多页面里的,这种状况下您可以为帖子的内容字段设置链页属性,自动把多个分页的内容合并到内容字段。d追踪:一些资源是要从列表页面中,通过点击多个页面才显示的,这种状况下,您可以为内容自动设置跟踪属性,自动猎取最终的内容。e登录验证:一些资源网站需要您登录后才可以访问内容,这种状况下下,您可以为整个网站、每个链接甚至每个资源单独定义登录验证以满足具体需求。参数:这是模拟登录需要的参数,譬如用户名、密码等。,往往会承受一些动态参数/值,假设用固定的参数是无法满足登录需求的,这个时候,您可以使用采集工程来自动猎取登录参数的值。登录脚本:假设即便使用采集工程仍旧无法满足一些特别网站的登录需求,您可以使用自定义的登录脚原来实现相应的登录认证。f数据处理:脏字过滤:对符合国家规定的敏感字符的过滤,还可以自定义要过滤的字符,以确保采集到的内容符合相关法律法规。垃圾内容过滤:使用贝叶斯概率模型对已采集的内容自动分析判定是否为垃圾内容,您可以自行对各种垃圾内容进展过滤。内容嗅探:Flash/Silverlight播放器,会在页面加载之后才从后台猎取实等,您可以使用内容嗅探实现对这些实际内容的采集。关键字/标签(Tag自动分析:利用全文分词对采集的内容进展分析,自动猎取内容的关键字/标签列表。:对大量文件的快速转换,转变图片或视频的大小/添加水,抽取压缩文件,OfficeHTML,以多种方式修改文件名称和内容,修改图片文件属性,文本排版,文本混淆,文本简繁大小g图片jpg、bmp、png、gif、icl、jpeg等。hij压缩文档:抽取/转换/zip、rarOffice文档支持:支doc、docx、xls、xlsx、xml、pdf、rtftxt,htm,emlkl大小、行数或段落数剪切文本内容、和并内容,支持txt,htm,eml。不良图片过滤m数据转换:使用自定义脚本转换数据n1.链接分析:复制要下载各种资源(2.嗅探:复制视频地址或内容,全自动分析并下载视频,特有嗅探功能,支o4.1.2abcd导出数据库:把采集后的数据导出到各大数据库/Excel、XML等F
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年搪瓷制品相关日用品生产设备项目发展计划
- 餐饮行业食材供应风险免责协议
- 2025年南京货运从业资格证考试试题和答案解析
- 旅游商品销售合同
- 智慧农业种植管理系统平台构建
- 2025年北京货运从业资格证笔答题
- 国际贸易出口交易合同
- 2025年厦门下载货运从业资格证模拟考试
- 2025年数字模拟信号混合输出的智能化仪表合作协议书
- 2025年江西货运从业资格证考试题及答案解析大全
- DBJ50∕T-098-2019 城市绿化养护质量标准
- 自动化腹膜透析(APD)的临床应用课件
- 中国滑雪运动安全规范
- DG-TJ 08-2343-2020 大型物流建筑消防设计标准
- 学前儿童发展心理学(第3版-张永红)教学课件1754
- 2022牛排消费趋势报告
- TPM╲t4Step Manul(三星TPM绝密资料)
- 细菌群体感应系统及其应用课件
- 《农产品质量安全检测》PPT课件
- 司法鉴定程序通则(试行)
- 桥梁墩柱模板验收标准
评论
0/150
提交评论