![资源数据采集技术方案._第1页](http://file3.renrendoc.com/fileroot_temp3/2022-2/25/c97b1e88-8036-494f-95a7-216bf7608194/c97b1e88-8036-494f-95a7-216bf76081941.gif)
![资源数据采集技术方案._第2页](http://file3.renrendoc.com/fileroot_temp3/2022-2/25/c97b1e88-8036-494f-95a7-216bf7608194/c97b1e88-8036-494f-95a7-216bf76081942.gif)
![资源数据采集技术方案._第3页](http://file3.renrendoc.com/fileroot_temp3/2022-2/25/c97b1e88-8036-494f-95a7-216bf7608194/c97b1e88-8036-494f-95a7-216bf76081943.gif)
![资源数据采集技术方案._第4页](http://file3.renrendoc.com/fileroot_temp3/2022-2/25/c97b1e88-8036-494f-95a7-216bf7608194/c97b1e88-8036-494f-95a7-216bf76081944.gif)
![资源数据采集技术方案._第5页](http://file3.renrendoc.com/fileroot_temp3/2022-2/25/c97b1e88-8036-494f-95a7-216bf7608194/c97b1e88-8036-494f-95a7-216bf76081945.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、资源数据采集技术方案公司名称2011年7月二O年七月目录第1部分概述(31.1项目概况(31.2系统建设目标(31.3建设的原则(41.3.1建设原则(41.4参考资料和标准(5第2部分系统总体框架与技术路线(52.1系统应用架构(62.2系统层次架构(62.3关键技术与路线(7第3部分系统设计规范(9第4部分系统详细设计(9第1部分概述1.1项目概况In ternet已经发展成为当今世界上最大的信息库和全球范围内传播知识的主要 渠道,站点遍布全球的巨大信息服务网,为用户提供了一个极具价值的信息源。无论 是个人的发展还是企业竞争力的提升都越来越多地依赖对网上信息资源的利用。现在是信息时代,信息
2、是一种重要的资源,它在人们的生活和工作中起着重要的 作用。计算机和现代信息技术的迅速发展,使In ternet成为人们传递信息的一个重要 的桥梁。网络的不断发展,伴随着大量信息的产生,如何在海量的信息源中查找搜集 所需的信息资源成为了我们今后建设在线预订类旅游网重要的组成部分。因此,在当今高度信息化的社会里,信息的获取和信息的及时性。而 Web数据采 集可以通过一系列方法,依据用户兴趣,自动搜取网上特定种类的信息,去除无关数据 和垃圾数据,筛选虚假数据和迟滞数据,过滤重复数据。直接将信息按照用户的要求 呈现给用户。可以大大减轻用户的信息过载和信息迷失。1.2系统建设目标在线预订类旅游网是在线提
3、供机票、酒店、旅游线路等旅游商品为主,涉及食、住、行、游、购、娱等多方面的综合资讯信息、全方位的旅行信息和预订服务 的网站。如果用户要搜集这一类网站的相关数据,通常的做法是人工浏览网站,查看最近 更新的信息。然后再将之复制粘贴到 Exce I文档或已有资源系统中。这种做法不仅 费时费力,而且在查找的过程中可能还会遗漏,数据转移的过程中会出错。针对这种 情况,在线预订类旅游网信息自动采集的系统可以实现数据采集的高效化和自动 化。1.3建设的原则1.3.1建设原则由于在线预订类旅游网的数据采集涉及的方面多、数据量大、采集源数据结构 多样化的特点。因此,在进行项目建设的过程中,应该遵循以下原则可扩充
4、性根据实际的要求,系统可被方便地载减和灵活的扩展,使系统能适应变化和新情 况。可以实现模块级别的动态扩展,而且是运行时的。所谓运行时模块的动态扩展, 比如说你需要增加一些新的功能,你可以将新开发的类和文件按照 Bun die进行组织, 然后直接扔到运行时环境下,这些功能就可以用了。因此系统不会受技术改造而重 新做出调整。创新性软件的投资要考虑到今后的发展,不能使用落后的产品与技术,避免投资的浪费; 在系统软件选型、开发技术上,达到国内外先进水平。规范性和标准性整个设计方案从网络协议、操作系统到各个设计细节,应该全部遵循通用的国际或行业标准,符合国家有关标准规范的。低耦合性采集系统与其它系统彼此
5、间相对独立,直接进行数据库入库、sql同步或者基于 txt/xml的数据交换,保证整体系统的低耦合性。高效性在底层的技术实现上采用java语言,跨平台,跨数据库,运行效率卓越。安全、稳定、准确、及时性采用先进的算法,采用多个子系统和工具组成一个安全、稳定、准确、及时的 解决方案。方案在总体设计上遵循稳定、开放、可扩展、经济、安全的原则,从而使整个方案组成合理,技术先进,易于扩展,既能满足当前的业务数据处理要求,又能符 合长期发展的需要。易操作和易维护原则整个系统易于维护,容易操作,易学,易用,完全通过WEB方式完成,降低维护的技 术难度,也减少了人为隐患的发生。1.4参考资料和标准主要参阅并依
6、据以下一些参考资料及标准:中国项目管理知识体系(C-PMBOK,2001.5 GB/T 15261989信息处理数据流程图、程序流程图、系统流程图、程序网 络图、系统资源图的文件编制符号及约定 GB/T 85661995信息技术软件生存期过程 GB/T 85671988计算机软件产品开发文件编制指南 GB/T 93851988计算机软件需求说明编制指南 GB/T 137021992计算机件分类与代码 GB/T 114571995软件工程术语第2部分系统总体框架与技术路线网络信息资源采集系统是一套功能强大的网络信息资源开发利用与整合系统,可用于定制跟踪和监控互联网实时信息,建立可再利用的信息服务
7、系统。能够从各 种网络信息源,包括网页、BLOG、论坛等采集用户感兴趣的特定信息,经自动分类 处理后,以多种形式提供给最终用户使用。2.1系统应用架构littM网浏览器 网周 0./JL1=1客户端数据流控制流网络蜘蛛:按照指定规则抓取网站数据。数据分析:分析从网络蜘蛛来的数据,过滤掉我们不需要的信息。数据解析:根据指定资源格式(字段的定义,进行数据库字段级别的解析。分组分析:根据不同的网络资源类型进行分类,并以多种存储方式进行存储。2.2系统层次架构浏览器表现层整个系统分为四层,分别为:数据层:数据层负责存储抓取来的各种信息及数据,这里面包括网页、文档、 关系型数据、多媒体数据等。皮撑层:支
8、撑层提供了关键的硬、软件支撑系统,包括应用服务器、WEB服务 器、规范接口等规范支撑系统。应用层:在应用层主要提供网络资源采集、数据转换、分析、处理、导出、发 布、采集监控、消息通知、登录验证、任务计划、认证码识别等服务。表现层:表现层通过浏览器等方式,为用户提供多样化的信息服务。2.3关键技术与路线为了充分满足本项目的建设:我们采用先进、主流、可靠、实用、性价比好的 三层架构体系,充分考虑今后纵向、横向扩张能力。采用构件化和面向对象技术,使系统具有灵活的扩展性和良好的移植性。2.3.1 J2EE规范体系从软件层次上看,我们采用了典型的J2EE三层架构体系,即应用一支撑一数据三层。简单地说,J
9、2EE(Javatm 2 Platform Enterprise Edition是一个标准中间件体系 结构,旨在简化和规范多层分布式应用系统的开发和部署,有了它,开发者只需要集中 精力编写代码来表达应用的商业逻辑和表示逻辑,至于其他系统问题,如内存管理,多线程,资源分布和垃圾收集等,都将由J2EE自动完成。J2EE已经被证明是一个稳定的、可扩展的、成熟的平台 ,在国内外拥有众多成 功的应用实例。J2EE应用服务器(Application Server采用目前国际最先进的开发理 念、拥有许多适合基于In ternet应用需求的特点:三层结构体系一一最适合In ternet环境,可以使系统有很强的
10、可扩展性和可管 理性。面向对象、组件化设计一一2EE是一种组件技术,已完成的模块能方便的移植 到其它地方,可以提高开发速度,降低开发成本。基于JA V A完全跨平台特性与平台无关,适应In ternet需要,并能得到大多数厂商支持,用户可根据需要选择合适的服务器硬件和数据库。并且如果需要更系统平台时,J2EE也能方便的进行移植。把J2EE三层架构软件体系引用到资源采集系统,将大大提高系统的可移植性、可伸缩性和可扩展性。2.3.2 XML 技术XML(eXtensible Markup Language,可扩展标记语言,是当前最热门的网络技术之 一,被称为 第二代Web语言” 下一代网络应用的基
11、石”自它被提出以来,几乎得 到了业界所有大公司的支持。XML具有卓越的性能,它具有四大特点:优良的数据存储格式可扩展性高度结构化方便的网络传输以XML技术作为支持,为用户自定义应用界面和业务数据结构,并将其与底层 数据库定义格式、界面标准输入、输出的接口转换作了实现 ,可实现分布式、异构 应用系统之间的数据交换。我们将在本项目中主要以XML为存储方式,方便扩展和数据分析。2.3.3 WEB2.0 技术Web2.0是相对Web1.0(2003年以前的互联网模式的新的一类互联网应用的统 称,是一次从核心内容到外部应用的革命,是依据 六度分隔”注:由美国哈佛大学社会 心理学教授斯坦利米尔格兰姆发现的
12、,你和任何一个陌生人之间所间隔的人不会超 过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。、XML、AJAX等新理论和技术实现的互联网新一代模式。由Web1.0单纯通过网络浏览器浏览html网页模式向内容更丰富、联系性更强、工具性更强的Web2.0互联网模式的发展已经成为互联网新的发展趋势。 Web1.0到Web2.0的转变,具体的说,从模式上是 单纯的读”向写”共同建设”发展;由被动地接收互联网信息向主动创造网络信息迈进。运行机制上,由“ClientServer向“Web Service转专变;作者由程序员等专业人士向全部普通用户发展;应用 上由初级的 滑稽”的应用向全面大量应用
13、发展。采用创新的 Ajax技术,同等网络环 境下,页面响应时间最高减少90%。234系统集成APIXML文档结构在很多方面可以方便地反映对象的结构,这也是其适合面向对象 的软件技术的一个关键点。使用 XML对数据源的数据进行处理,它起着接口层或者 封装的作用,这样不同的应用程序之间,不同的操作系统之间,不同的数据库之间都可 以交换数据。使用XML作为数据交换工具还可以解决异构数据库之间的集成。对本项目中涉及到的数据采集、转换、分析、处理等问题,我们将开发专用的数据接口,采用XML技术作为数据交换的页面描述规范。XStream是一个Java和XML相互转换的工具。使用非常的简单,并且可以自定 义
14、转换的过程,但是这个组件仅能做的就是这些最基本的工作,有了这个组件,我们可 以不用考虑具体一个Java对象和XML之间问题了。第3部分系统设计规范第4部分系统详细设计4.1应用功能设计4.1.1资源采集我们可以使用采集,对网络上的各种资源进行挖掘。a采集工程:采集工作的详细设置文件,包含了要采集的资源链接。1精确:根据指定资源格式(字段的定义,进行数据库字段级别的采集。2. 蜘蛛/爬虫:根据指定的文件匹配表达式,自动对指定网站的资源进行全面分析和米集。b字段:各种资源的最小单位,譬如您要采集某个网站的多个帖子,那么每个帖子 可能包含以下字段:作者、标题、日期、内容等。c链页:一些帖子在多页面里
15、的,这种情况下您可以为帖子的内容字段设置链页 属性,自动把多个分页的内容合并到内容字段。d追踪:一些资源是要从列表页面中,通过点击多个页面才显示的,这种情况下,您 可以为内容自动设置跟踪属性,自动获取最终的内容。e登录验证:一些资源网站需要您登录后才可以访问内容,这种情况下下,您可以 为整个网站、每个链接甚至每个资源单独定义登录验证以满足具体需求。1. 参数:这是模拟登录需要的参数,譬如用户名、密码等。2. 登录采集工程:一些网站的登录认证相当复杂,往往会采用一些动态参数/值, 如果用固定的参数是无法满足登录需求的,这个时候,您可以使用采集工程来 自动获取登录参数的值。3. 登录脚本:如果即便
16、使用采集工程仍然无法满足一些特别网站的登录需求,您 可以使用自定义的登录脚本来实现相应的登录认证。f数据处理:1脏字过滤:对符合国家规定的敏感字符的过滤,还可以自定义要过滤的字符以确保采集到的内容符合相关法律法规。2.垃圾内容过滤:使用贝叶斯概率模型对已采集的内容自动分析判定是否为垃 圾内容,您可以自行对各种垃圾内容进行过滤。3内容嗅探:对于Flash/Silverlight播放器,会在页面加载之后才从后台获取实际的文件(.FLV/MP3/.XAP等,您可以使用内容嗅探实现对这些实际内容的采集。4关键字/标签(Tag自动分析:利用全文分词对采集的内容进行分析,自动获取内容的关键字/标签列表。5
17、文件格式批量转换:对大量文件的快速转换,改变图片或视频的大小/添加水印/改变格式,抽取压缩文件Office系列文档转换为HTML,以多种方式修改文件名称和内容,修改图片文件属性,文本排版,文本混淆,文本简繁大小写编码互转,文本切分合并,网页文本互转,不良图片过滤,数据转换等。g图片转换:改变图片大小和格式,添加水印,支持jpg、bmp、png、gif、icl、jpeg等。h i j压缩文档:抽取/转换/生成压缩文档,支持zip、rar等。Office文档支持:支 持doc、docx、xls、xlsx、xml、pdf、rtf等。文本排版:段落智能修正、去掉干扰 符、修正段落首尾空格、修正标点符号
18、,支持txt,htm,eml。k l文本切分合并:按大小、行数或段落数剪切文本内容、和并内容,支持txt,htm,eml。不良图片过滤:识别并过滤不良图片,支持所有图片。m数据转换:使用自定义脚本转换数据和文件,支持采集工程、各种数据库和各种文件。n快速下载:1.链接分析:复制要下载各种资源(如图片等的链接或网页内容,全自动分析并 下载到本地磁 盘。2.嗅探:复制视频地址或内容,全自动分析并下载视频,特有嗅探功能,支 持所有视频网站。o通过多线程并行采集,加快采集速度。4.1.2数据导出a b c d导出数据库:把采集后的数据导出到各大数据库 /数据文件中。以Excel、XML等 文件形式导出
19、。可以把文件导出到FTP。自定义导出脚本。4.1.3资源信息发布a b采集后的数据:可以把采集后的数据,发布到指定网站或系统。网络请求:可以自定义请求,譬如网络投票等。4.1.4任务计划可以指定采集、转换、导出、发布、请求等各种任务定时执 行。ab可启用多个线程来完成同一个采集任务。可自由设定采集网页数和暂停的时间,此功能主要解决采集过快而被屏闭或禁止访问等问题。c可以在采集当中随身暂停、启动或停止任务。4.1.5消息通知能够自动通过多种方式(邮件、系统 日志、系统声音等)通知采集发布情况。a b在各种任务完成之后,如采集,发布,计划任务等。监控指定网站并在数据改变时。4.1.6监控设置当网络资源更新 或采
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度新型养老服务机构代缴社保服务协议范本
- 2025年新能源发电设备定期检查与维护合同
- 2025年度智能车库租赁及车位租赁与停车资源共享协议
- 2025年度土地承包经营权流转纠纷调解合同模板
- 2025年茶叶种植基地生态保护与修复承包协议
- 2025年度离婚协议书格式规范与编制要求
- 秘书工作计划对企业目标的支持
- 班级跨学科活动的实施路径计划
- 社团活动资源共享方案计划
- 医院文化建设增效方案计划
- 高中研究性课题-------食品添加剂
- T∕CNFAGS 3-2021 三聚氰胺单位产品消耗限额
- 弟子规全文拼音版打印版
- 变电站设备验收管理标准规范
- 锅炉房危害告知卡
- 几种藏文输入法的键盘分布图
- NPI流程管理分解
- 物业公司财务部各岗位工作职责
- 航空器拆解适航管理解读
- ASTM-D3330剥离强度测试标准中文版
- 政务信息培训ppt课件
评论
0/150
提交评论