已阅读5页,还剩92页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 论文分析了企业级的数据接入环境的特点,以提供适用于该环境的数据接 入服务为系统目标,进行了从系统部署到功能体系、软件层次的分析与设计, 并由此构建了企业级数据接入平台的基本功能模型。在此理论基础卜,设汁# 实现了一个实用的企业级数据接入平台。 课题的最终成果为:设计并实现了一个企业级的数据接入平台。该模型所 提供的数据接入服务能够提供安全、可靠的接入服务,能够处理异构环境的数 据接入,具有良好的处理性能、功能可扩展性、规模可伸缩性,并且易于管理 和维护。 关键词:企业级数据接入平台,高性能,异构环境,可扩展性,可伸缩性 i i i a b s t r a c t k b s t ra c t t h e t o p i co ft h et h e s i si st or e s e a r c ha n dr e a l i z et h ee n t e r p r i s e l e v e la c c e p t m e n t p l a t f o r mf o r d a t a ( e d a p ) a c c o r d i n g t ot h e r e q u i r e m e n t s o f e n t e r p r i s e j e v e l a c c e p t m e n te n v i r o n m e n t f o rd a t a , t h et h e s i sa n a l y s ef r o mt h e d e p l o yf o rt h es y s t e mt ot h em e c h a n i c s ,a n d t o s o f t w a r el a y e r s a n ds oc o n s t r u c tt h ea r c h i t e c t u r eo fe d a p b a s e do nt h em o d e l , d e s i g n a n dr e a l i z eau t i l i t a r i a n e n t e r p r i s e _ l e v e la c c e p t m e n t p l a t f o r mf o rd a t a s y s t e m a n dd os o m e t h i n g st om a k e i tw o r kb e t t e r t h ea c h i e v e m e n t so ft h i sr e s e a r c hi n c l u d et h ed e s i g na n di m p l e m e n t a t i o no ft h e e d a pp r o t o t y p e t h es e r v i c eo fd a t a a c c e p t m e n tp r o v i d e db yt h ep r o t o t y p e i s s e c u r e ,r e l i a b l e ,a n ds u i t a b l ef o rd i v e r s ee n v i r o n m e n t i tc a nr u no i lh i g h p e r f o r m a n c e p r o v i d eg o o de x p a n s i b i l i t y ,a n db ea d m i n i s t r a t e da n du s e de a s i l y k e yw o r d s :e n t e r p r i s el e v e la c c e p t m e n t p l a t f o r m f o r d a t a ( e d a p ) h i g h p e r f o r m a n c e ,e x p a n s i b i l i t y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示谢意。 签名: 拯:i 远 日期:上m 牟年胆月形日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论 文的规定,有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后 签名: 日期:年月日 第一章 1 1 研究背景与意义 第一章引言 本课题来源于四川省科技厅2 0 0 3 重点科技攻关项目网络信息内容审计与 监控系统。 整个项目由网络数据采集分析器、网络数据接入平台、应用平台以及数据 中心组成,共同完成对i n t e m e t 上信息内容的监控、上传、管理和查询。主要用 户为国家安全部门或者有同类需求的单位公司等。 其中,提高大型分布式网络内容审计与监控系统体系的灵活性、可扩展性, 保证其运作的可靠性、高效性,关键是拥有一个适用于该环境的数据接入平台。 作者将这种大型分布式网络环境称为企业级的运行环境;将适用于该环境的数 据接入平台称为企业级数据接入平台( e n t e r p r i s er_levela c e e p t m e n tp l a t f o r mf o d a t a :e d a p ) 。本课题就是针对这种企业级数据接入平台,进行了从系统体系 结构到具体适用的系统模型的研究,并对其实现细节加以讨论。 在这种企业级的运行环境中,数据采集节点大量分散,负责从网络中采集 并根据指定的策略分析原始网络数据包。可以根据应用平台的要求,灵活地为 应用平台提供定制的数据来源。通过公网将采集到的数据上传给集中处置中心。 各个采集节点产生的大量采集数据信息、样本数据、以及各种图像、网页文件 等需要及时快速地传输到数据中心;同时,还需要处理后台数据中心随机下发 的规则或广播信息。 数据接入平台是将来源于采集节点的数据接入到后台数据中心的数据接入 通道,主要负责将来自各地数据采集分析器的采集数据通过i n t e r n e t 网络,安全、 可靠、高效地接入到数据中心,并保证接入的合法性,以及接入数据的格式标 准、有效性。 在这种企业级的数据接入环境中,由于参与传输工作的数据节点数目众多, 上传的数据量巨大、以及传输的阵发性等特点,对数据传输的效率、性能、可 靠性等方面提出了较高要求;由于处在从公网到局域网的交界线上,对安全性 也提出了特别的要求;同时要求系统具有良好的维护和管理机制。传统的接入 第一章 服务体系结构与数据传输工具已经无法胜任这种企业级接入环境的需求。 企业级数据接入平台是面向这种分布式环境的数据传输通道和管理平台, 完成对数据的安全接入、格式标准化、预定义的处理、以及上传、分流。 企业级数据接入平台从体系结构的设计到其核心程序的实现,为支持企业 级的数据接入服务进行了特别的考虑与定制,并提供完备的监视与调节机制, 以便改善系统运行级别,以提高其性能,具备良好的伸缩性和可扩展性。 该数据接入平台模型广泛适用于企业级别的分布采集一集中处理系统中,具 有重要的实用价值。 1 2 相关背景 下面将对目前常见的信息传输方式作一个简要的介绍与分析。 数据库复制方式 【8 】基于数据库的复制方式可分为实时复制、定时复制和存储转发复制,并且 在复制过程中,还有自动冲突检测和解决的手段,以保证数据一致性不受破坏。 实时复制的实质是实现主、备用系统的数据库的数据同步( 实时或者准实 时同步) ,即是将主用系统数据库操作l o g 实时或者周期性地复制到备用系统数 据库中执行,实现二者数据的一致性。远程数据库复制对主机的性能有一定影 响,可能增加对磁盘存储容量的需求( 包括对l o g 的存储) ,但系统运行恢复较 简单,在实时复制方式时数据一致性较好,所以对于一些对数据一致性要求较 高、数据修改更新较频繁的应用可采用基于数据库的容灾备份方案。利用这种 技术实现容灾的解决方案有o r a c l e 的d a t ag u a r d 和q u e s t 的s h a r e p l e x 。 目前业内实施比较多的是基于智能存储系统的远程数据复制技术。它是由 智能存储系统自身实现数据的远程复制和同步,即智能存储系统将对本系统中 的存储器i o 操作请求复制到远端的存储系统中并执行,保证数据的一致性。由 于这种方式下数据复制软件运行在存贮系统内,因此,较容易实现主中心和容 灾备份中心的操作系统、数据库、系统库和目录的实时拷贝维护能力,且不会 影响主中心主机系统的性能。如果在系统恢复场所具备了实时数据,那么就可 能做到在灾难发生的同时及时开始应用处理过程的恢复。 第一章 但这种方案也有开放性差( 不同厂家的存储设备系统一般不能配合使用) 、 对于主备中心之间的网络条件( 稳定性、带宽、链路空间距离) 要求较苛刻等 缺点。h p 的c a 、i b m 的p p r c 、e m c 的s r d f 以及h d s 的t r u e c o p y 技术都 用于实现基于智能存储系统的远程数据复制。 对分布式数据库来说,各个数据库之间的数据复制是分散进行的,无法进 行有效的系统管理和系统监控:对数据库的直接操作往往影响数据库的安全和 系统的安全。 - f t p 传输方式 f t p 是i n t e r n e t 上使用最广泛的应用之一。f t p 服务是以它所使用的文件传 输协议( f i l et r a n s f e rp r o t o c 0 1 ) 命名的。1 2 2 】目前i n t e r n e t 上几乎所有的计算机 系统上,都带有f t p 工具,用户通过它可以将文档从一台计算机上传到另外一 台计算机上。 任务是从一台计算机将文件传送到另一台计算机,它与这两台计算机所处 的位置、联接的方式、甚至是是否使用相同的操作系统无关。假设两台计算机 通过协议对话,并且能访问i n t e r n e t ,可以用邱命令来传输文件。每种操作系 统使用上有某一些细微差别,但是每种协议基本的命令结构是相同的。 f t p 的传输有两种方式:a s c i i 传输模式和二进制数据传输模式。 a s c i i 传输方式假定用户正在拷贝的文件包含的简单a s c i i 码文本,如果 在远程机器上运行的不是u n i x ,当文件传输时邱通常会自动地调整文件的内 容以便于把文件解释成另外那台计算机存储文本文件的格式。 当用户正在传输的文件包含的不是文本文件,可能是程序,数据库,字处 理文件或者压缩文件( 尽管字处理文件包含的大部分是文本,其中也包含有指 示页尺寸,字库等信息的非打印字符) ,则使用二进制传输模式。在二进制传输 模式中,保存文件的位序,以便原始和拷贝的是逐位一一对应的。即使目的地 机器上包含位序列的文件是没意义的。 f t p 传输方式是文件级的信息传输方式,目标是提高文件的共享性,提供 非直接使用远程计算机,使存储介质对用户透明和可靠高效地传送数据。 大多f t p 工具并不确保传输的可靠性、安全性,其通讯处理方式都较简单, 低层通讯的正确性、资源的有效利用和网络故障的处理应对、主机故障的处理 应对等缺乏很好的机制来加以保障。同时,f t p 工具结构简单,不便于进行应用 第一章 层的管理与定制,可扩展性较差,无法承载企业级大批量异构数据的传输。 但是由于其灵活方便,适用于应用层需求简单的小批量文件传输。 专用的信息传输产品 专用的信息传输产品如l n f o r m a t i c a p o w e r c h a n n e l ,可以进行文件层的信息传 输,并提供系统级别的安全管理、系统监控等服务。1 8 但是其信息传输是以批处理的方式进行的,无发满足一些实时性要求很高 的信息共享需求。 因此,利用专用的信息传输产品进行信息传输的模式只适合于那些实时性 要求不高、数据类型比较简单、大批量的文件传输。 消息传递中间层 消息是指一个用户可定义的数据结构,包括在应用间传递的数据。 消息中间件的工作主要是将信息以消息的方式在程序间传递来完成。它提 供了一个完整的处理环境,允许开发者及用户连接不同系统之间的数据和代码, 或采用一致的界面进行应用处理的互连。| l 圳 提供了一个高层应用接口,为不同系统提供操作核心。它屏蔽掉各种平台及 协议之间的特性,实现在不同平台之间通信,实现分布式系统中可靠的、高效 的、实时的跨平台数据传输,实现应用程序之问的协同。 消息中间件提供高端服务、多协议支持及其他系统管理服务,完成异构环 境中的通信平台,在不同的网络协议、不同的操作系统和不同的应用程序之间 提供可靠的和可恢复的( 当发生意外) 消息传送。 支持同步通信、提供基于消息队列存储转发机制的异步通信模式,应用并 不需要消息即时即刻传递到达对方。 消息中间件根据报文交换在应用之间建立连接。不必标准化报文格式,允 许使用不同的客户机,可以为整个企业提供数据通信。中间件确保把报文传送 到适当的目的地,并且只传送一次。 【2 4 m o m 提供基于消息的异步通信机制,因此m o ma p i 调用不会阻塞应用程 序,同时m o m 不会占用大量的网络带宽,可以跟踪事务,通过将事务存储在磁盘 第一章 上,可以恢复系统及网络故障。 消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内 存或磁盘上,队列存储消息直到它们被应用程序读走。通过消息队列,应用程序 可独立地执行一它们不需要知道彼此的位置、或在继续执行前不需要等待接收 程序接收此消息。 在分布式计算环境中,为了集成分布式应用,开发者需要对异构网络环境 下的分布式应用提供有效的通信手段。为了管理需要共享的信息,对应用提供 公共的信息交换机制是重要的。消息队列( m e s s a g e q u e u e ) 是构造分布式应用的 松耦合方法。 在构造分布式系统特别是松耦合的系统的时候,消息中间件( m o m ) 是 种很常见的构建模块。在采用m o m 的时候,松耦合的组件通过异步交换消息 的方式进行通信,消息管理层可以从应用代码中分离出来,m o m 系统通常为独 立的组件提供可靠的消息传递服务。将m o m 的消息传递系统和同步的远程过 程调用系统比如c o r b a 相对照,它的异步特性使它适于在将高度自治性的作为 设计目标的时候。同时,消息传递中间层提供了消息层的信息传输:提供数据 格式转换接口,实现实时的、基于事件的自动化的信息传输和共享;基于消息 的中件件架构使得系统具有极好的可扩展能力,因此适合于实时性要求较高的 应用系统内部,以及不同应用系统之间的信息转换和共享。 但是消息传递中间层也存在以下缺点:数据传输效率相对较低,难以承载 大量的数据传输:需要开发消息传递中间层与应用系统的数据读取接口,开发 量较大。 1 3 作者主要工作 本课题最终完成了对企业级数据接入平台的研究与设计,作者的主要工作 是企业级数据接入平台的分析、设计与实现工作。具体的工作包括: 令企业级数据接入平台体系结构的分析与设计; 夺企业级数据接入平台功能模型的分析与设计; 夺企业级数据接入平台模型的实现。 第一章 1 5 论文章节安排 本文主要介绍了对企业级数据接入平台的体系结构和功能模型的研究与设 计,以及该模型相关的设计与实现技术。 主要分为以下几个章节: 第一章阐述课题背景、研究意义、相关文献综述、论文所要解决的间题以 及论文的章节安排。 第二章对当前国内外分布式计算环境相关技术的研究现状进行了简要的分 析与介绍。从硬件体系结构上的角度,描述了三层体系结构和集群出现的必然 性:从软件体系的角度,描述了中间件和a g e n t 的适用性及其特点。这种发展趋 势对企业级数据接入平台的设计理念起到定的导向作用,相关的技术为平台 具体的设计与实现奠定了一定的理论基础。 第三章是对企业级数据接入平台体系结构的分析。包括对系统目标、系统 体系结构、以及系统的功能模型的研究。从系统目标角度分析了系统为适应企 业级的需求必须具备的功能特性;在体系结构概述部分分析了平台所处的软硬 件环境、在整体解决方案中的定位,从而导出平台系统内部的基本功能层次; 由此构建系统的体系结构,并对每个基本功能模块进行简要描述。 第四章是在上章e d a p 系统框架设计理论的基础上,对实用的企业级数据 接入平台系统的模型设计进行了讨论,从软件层次的角度,对该模型系统中的 各层的功能及相应的功能模块划分作了说明,对各功能组成模块及相互关系进 行了分析和阐述,设计了通信的数据格式,以及平台的外部接口等,详细论述 了模型的运行机制。 第五章在第三、四章构建的e d a p 系统功能模型的基础上,阐述了企业级 数据接入平台模型具体的设计和实现。该企业级数据接入平台模型中主要包括 数据接收端模块、接受端模块。本章将阐述其设计思想,处理流程,体系结构, 优化措施,各个组成模块的设计与实现等,最后描述实现中为提高系统性能的 优化措施。 第六章描述了对企业级数据接入平台的测试,介绍测试环境和测试策略, 并对测试结果进行分析。 第七章总结全文,并提出数据接入平台系统的改进意见和下步的工作。 第二章 第二章相关研究现状 本章对当前国内外分布式计算环境相关技术的研究现状进行了简要的分析 与介绍。从硬件体系结构上的角度,描述了三层体系结构和集群出现的必然性; 从软件体系的角度,描述了中间件和a g e n t 的适用性及其特点。这种发展趋势对 企业级数据接入平台的设计理念起到一定的导向作用,相关的技术为平台具体 的设计与实现奠定了一定的理论基础。 2 1 三层体系结构 一个企业级的数据接入平台在性能、安全性、扩展性等方面提出了较高的 需求,同时要求系统具有良好的维护和管理机制。 在二层体系模型中,后台组件与所有前台数据采集组件都保持连接。这些 连接如果要实现快速、安全和可靠的传送,需要后台组件独立支持可靠性和安 全性的代码。但是因为采集节点直接访问数据库,所有采集节点均访问数据库, 不利于安全控制,难以防止黑客的恶意攻击。同时,网络流量很大,易形成网 络瓶颈。随着前台组件不断添加到系统中,连接的数量将成指数级增加,会造 成数据库访问瓶颈及数据库连接数过多,影响数据库的响应速度,降低系统性 能。这使得异步消息传送和可伸缩性很难实现。另外,两层应用体系结构还有 维护、扩展方面的问题。【2 5 1 企业消息传送首选的解决方案是三层体系。相比之下,三层应用体系结构 显示以下优点。 优化了系统结构 将系统分为三层( 或多层) ,业务逻辑放在应用服务层,软件的维护集中在 应用服务层,客户端的维护就相对简单多了,有利于软件维护及系统管理。 提高了应用系统的安全性 将客户端与数据库隔离起来,客户端无权限直接访问数据库,有利于安全 管理,可有效防止恶意攻击。还可以利用中间层的安全管理特性进一步加强权 限控制管理。 第二章 便于业务逻辑更新 可以方便的在中间层更新业务逻辑,而不需要对客户端和后台数据中一t l , 作 任何改动,也不会造成原有系统资源浪费。 减少网络数据流量和提高数据库响应速度 两层应用体系结构中采集节点直接或通过存储过程访问数据库,会造成数 据库访问瓶颈及网络瓶颈,从而降低了整个系统的性能。 三层应用体系结构中,应用服务层的引入有效地解决了网络瓶颈和数据库 连接数过多引起数据库性能下降的问题。应用服务层往往有多台服务器,采用 负载均衡,可有效地解决采集节点访问服务层瓶颈。应用服务器与数据库服务 器可方便地采用宽带网连接,不会产生与数据库服务层网络瓶颈。 良好的扩展能力 若要提高系统性能、处理速度,可增加应用服务器,分担一部分应用服务 工作即可,而原来的应用服务器几乎可以不动。 提高系统性能 三层应用体系结构能更好地调整应用体系,还可利用中间层的特点来选择 路由、平衡负载,提高整个系统的性能。 2 2 中间件 中间件是处于操作系统与应用程序之间的软件,即分布式系统平台= 中间 件组+ 通信中间件:中间件= 管道+ 平台中间件是一个通道,保证应用中信息 的可靠传输( 通信中间件) :中间件是一座桥梁,使各应用构件间互通互连( 由中 间件完成屏蔽网络) :中间件是一个框架,使分布式应用完整集成( 许多中间件组 成一个框架) :中间件是一个平台,实现分布式应用的顺利部署1 2 6 | 随着企业的i t 环境越来越纷繁复杂,企业中可能会拥有多种操作系统、不 同的数据库、异构的网络环境以及数个应用等,那么如何把它们结合成一个有 机的协同工作整体,真正实现企业跨平台分布式应用昵? 中间件便是解决之道, 中间件以自身的复杂换取了企业应用的简捷。其主要功能是帮助用户灵活、高 效地开发和集成复杂的应用系统。它试图通过屏蔽各操作系统,网络和数据库 的低层细节,为分布式应用提供基础框架,疏通各种复杂的基础技术细节,使 第二章 企业的应用开发、部署与管理变得轻松和谐。田1 2 8 1 2 9 1 中间件具有如下特点: 易于集成中问件能无缝地连八应用开发环境中,应用程序可以很容易地 定位和共享中间件提供的应用逻辑和数据。 易于移植中间件使与平台有关的细节对于应用程序来说是透明的,因此 可以在不改变应用程序代码的情况下改换计算机底层硬件、操作系统或通信协 议。 易于扩展中问件实现的功能对应用程序来说是透明的,所以可以对局部 进行改进而不会影响到系统的其它部分。 高可靠性中间件应该是可靠的,需要提供接管和恢复功能,保证事务及关 键性业务不被丢失。 2 3 a g e n t 在i n t e m e t 这一目前最庞大的互联网络环境中,计算机软件体系结构和组织 结构的复杂性不断增加,传统的软件设计方法已经无法满足实际需要,分布式、 智能化才是今后软件发展的基本方向。软件分布式的目标是要将问题进行分解, 由多个实现了知识共享的软件模块或网络节点来共同完成问题求解,而智能化 的目标是要在智能主机之间实现智能行为的协调,两者的结合就产生了软件 a g e n t 的概念。【j 圳 软件a g e n t 具有以下特点: 自治性( a u t o n o m y ) 软件a g e m 在运行过程中不直接由人或其它主体控制, 它能在没有与环境相互作用的情况下自主执行任务,对自己的行为和内部状态 有一定的控制权。自治性是软件a g e n t 区别于普通软件程序的基本特征。 响应性( r e a c t i v i t y ) 软件a g e n t 能对来自环境的信息做出适当的响应,它 能感知所处的环境,并能通过自己的行为改变环境。 主动性( p r o a c t i v i t y ) 传统应用程序接受用户指令被动执行,而软件a g e n t 不仅能对环境变化做出反应,而且更重要的是能在特定情况下采取主动行为。 推理性( r e a s o n i n g ) 软件a g e n t 可根据已有的知识和经验,以理性的方式 进行推理。软件a g e n t 的智能由三个主要部件来完成,即内部知识库、自适应能 第二章 力以及基于知识库的推理能力。 角色( c h a r a c t e r ) 软件a g e n t 在社会活动中需要对安全、风险、诚信等因 素进行考虑。 通信合作协调( c o m m u n i c a t i o n c o o p e r a t i o n c o o r d i n a t i o n )这是在软件 a g e n t 群体中应该具有的社会属性。 目前的分布式计算主要采用远程过程调用、进程迁移、c s 结构等计算模型, 这些计算模型本身都存在一定的局限性,其中最明显的就是要求所有参与计算 的节点在进行交互时,都必须同时在网络中存在,如果某些所需资源暂时无法 访问到,则整个计算过程将失败。 移动a g e n t 的出现使得计算机之间的通信不再是一台主机调用位于另一台 主机上的服务,而是向其它计算机提供可执行的计算过程,通过网络传送的消 息也不再仅仅局限于数据,而是包含计算过程及其所处状态的计算实体。在移 动a b e n t 计算模型中,计算过程及其相应状态在接收方计算机中完全代表了发送 方的所有请求,因此在这种情况下网络的可靠性变得不再那么重要,这是因为: 移动a g e n t 无需消耗过多的网络带宽,它仅仅在移动时使用带宽; 移动a g e n t 在移动后将继续执行,即使此时已经失去了与创建者之间的网络 连接。 采用移动a g e n t 技术能够较大地减轻网络负载,目前的分布式系统通常过多 地依赖于网络通信协议,这些协议在完成任务的过程中需要进行多次交互,从 而很容易导致网络拥塞。 移动a g e m 可以封装一个完整的会话过程,然后自主移动到目的主机上去进 行本地交互。此外,当远程主机需要进行数据处理时,采用移动a g e n t 还可以避 免大量数据在网络上的传输,其基本思路是将计算移到数据上去进行,而不是 把数据移到计算中来。 移动a g e n t 技术给分布式系统的设计、实现和维护都带来了新的活力,它有 着许多传统分布式计算模型无法比拟的优势: 移动a g e n t 能较大地减轻网络上的数据流量 通过将服务请求a g e m 移动到目标主机,使得移动a g e n t 可以直接访问该主 机上的资源,与源主机问的交互变少,避免了大量数据在网络中的传输,从而 降低了整个系统对网络带宽的依赖,缩短了通信时延,提高了服务质量。 1 0 第二章 移动a g e n t 能以异步的方式自主运行 可以将要完成的任务封装到移动a g e n t 中,并通过网络将其派遣出去,然后 就可以断开源主机与目标主机之间的连接。此后,移动a g e n t 就独立于生成它的 进程,并可异步自主操作了。源主机可以在随后适当的时候再与目标主机连接 并接收计算结果。这对今后移动设备或移动用户来说尤其有用,因为目前移动 设备上的计算皆依赖于昂贵而脆弱的网络连接,它要求在移动设备和固定网络 之间建立持续的连接,这种要求无论从经济角度和技术角度来讲都是不十分理 想的。 移动a g e n t 具有较强的应变能力 移动a g e n t 能够感知其运行环境,并对环境变化作出适当的反应,它可以根 据服务器和网络的负载动态决定移动目标,有利于负载均衡。此外,移动a g e n t 的智能路由还减少了用户在浏览或搜寻时所做的判断。 移动a g e n t 有利于并行处理 移动a g e n t 在进行任务处理时可以动态创建多个a g e n t 并行工作,提高效率 并降低作业的响应时间。多移动a g e n t 拥有在网络主机之间动态合理分布自身的 独特能力,能够按一定规则来维持解决某个特定问题的最优配置。 移动a g e n t 具有天然的异构性 分布式网络计算平台往往是异构的,而移动a g e n t 通常独立于特定的软硬件 环境,仅仅依赖于其运行环境,所以移动a g e n t 是进行无缝系统集成的最优条件。 移动a g e n t 具有很强的健壮性和容错能力 移动a g e n t 具有对非预期状态和事件的应变能力,这使得构建健壮和容错性 好的分布式系统变得相对容易,当一台主机关闭时,所有正在该主机上运行的 移动a g e n t 会得到警告,并有充足的时间移动到另一台主机上并继续运行。 总之,在网络逐步走向一体化的时代,移动a g e n t 技术较之于传统的分布式 技术有着非常明显的优势。 2 4 集群 随着用硬件和软件方法实现高可伸缩、高可用网络服务的需求不断增长, 第二章 这种需求可以归结以下几点:【】9 】 可伸缩性( s c a l a b i l i t y ) ,当服务的负载增长时,系统能被扩展来满足需求, 且不降低服务质量。 高可用性( a v a i l a b i l i t y ) ,尽管部分硬件和软件会发生故障,整个系统的 服务必须是每天2 4 小时每星期7 天可用的。 可管理性( m a n a g e a b i l i t y ) ,整个系统可能在物理上很大,但应该容易管 理。 价格有效性( c o s t e f f e c t i v e n e s s ) ,整个系统实现是经济的、易支付的。 对称多处理( s y m m e t r i cm u l t i p r o c e s s o r ,简称s m p ) 是由多个对称的处理 器、和通过总线共享的内存和i 0 部件所组成的计算机系统。s m p 是一种低并 行度的结构,是我们通常所说的”紧耦合多处理系统”,它的可扩展能力有限,但 s m p 的优点是单一系统映像( s i n g l es y s t e mi m a g e ) ,有共享的内存和i o ,易编 程。 由于s m p 的可扩展能力有限,s m p 服务器显然不能满足高可伸缩、高可用 网络服务中的负载处理能力不断增长需求。随着负载不断增长,会导致服务器 不断地升级。这种服务器升级有下列不足:一是升级过程繁琐,机器切换会使 服务暂时中断,并造成原有计算资源的浪费;二是越往高端的服务器,所花费 的代价越大:三是s m p 服务器是单一故障点( s i n g l ep o i n to ff a i l u r e ) ,一旦该 服务器或应用软件失效,会导致整个服务的中断。 通过高性能网络或局域网互联的服务器集群正成为实现高可伸缩的、高可 用网络服务的有效结构。这种松耦合结构的服务器集群系统有下列优点: 性能 网络服务的工作负载通常是大量相互独立的任务,通过一组服务器分而治 之,可以获得很高的整体性能。 性能,价格比 组成集群系统的p c 服务器或r i s c 服务器和标准网络设备因为大规模生产 降低成本,价格低,具有最高的性能价格比。若整体性能随着结点数的增长而 接近线性增加,该系统的性能价格比接近于p c 服务器。所以,这种松耦合结 构比紧耦合的多处理器系统具有更好的性能价格比。 可伸缩性 集群系统中的结点数目可以增长到几千个,乃至上万个,其伸缩性远超过 第二章 单台超级计算机。 高可用性 在硬件和软件上都有冗余,通过检测软硬件的故障,将故障屏蔽,由存活 结点提供服务,可实现高可用性。 当然,用服务器集群系统实现可伸缩网络服务也存在很多挑战性的工作: 透明性( t r a n s p a r e n c y ) 如何高效地使得由多个独立计算机组成的松藕合的集群系统构成一个虚拟 服务器;客户端应用程序与集群系统交互时,就像与一台高性能、高可用的服 务器交互一样,客户端无须作任何修改。部分服务器的切入和切出不会中断服 务,这对用户也是透明的。 性能( p e r f o r m a n c e ) 性能要接近线性加速,这需要设计很好的软硬件的体系结构,消除系统可 能存在的瓶颈。将负载较均衡地调度到各台服务器上。 高可用性( a v a i l a b i l i t y ) 需要设计和实现很好的系统资源和故障的监测和处理系统。当发现一个模 块失败时,要这模块上提供的服务迁移到其他模块上。在理想状况下,这种迁 移是即时的、自动的。 可管理性( m a u a g e a b i l i t y ) 要使集群系统变得易管理,就像管理一个单一映像系统一样。在理想状况 下,软硬件模块的插入能做到即插即用( p l u g & p l a y ) 。 可编程性( p r o g r a m m a b i l i t y ) 在集群系统上,容易开发应用程序。 2 5 x m l 集成异构数据 x m l 技术简介【3 4 j i 圳 x m l 是由s g m l ( s t a n d a r d g e n e r a l i z e dm a r k u p ,标准化通用标记语言) 发展 而来,是s g m l 的一个简化子集,它以一种开放的自我描述方式定义数据结构,在 描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关系。因此,目 前正在迅速成为网络资料交换的标准。以x m l 为基础的新一代w w w 环境是 第二章 直接面对w e b 数据的,不仅可以很好地兼容原有的w e b 应用,而且可以更好地实 现w e b 中的信息共享与交换。x m l 的主要特点如下:| l 9 】 可扩展性。允许各个组织、个人建立适合自己需要的置标集合,可以根据需 求参数化和语义化相应的数据。 结构性。数据存储格式不受显示格式的制约。一般包括三个要素:数据、结 构以及显示方式。x m l 使用d t d ( 文档类型定义) 规定一套关于标记符号的语 法、语义规则,比较准确地描述文本资料的内容、含义、结构、特征和关系等信 息( 称为元资料) ,而把资料的外观表现形式交给样式表( 如c s s ,x s l ,d s s s l 等) 处理,这样就把资料的内容和其表现形式合理地隔开,从而大大提高x m l 资料的 可理解性、可交换性和重用性。 平台独立性。x m l 文档是纯文本,独立于平台和应用。因此,运用x m l 可 以有效的解决新旧系统、不同应用系统之间或者不同数据源之间的数据共享与 交互问题。 x m l 表达数据单元 x m 乙是一种简单的可扩展标记语言,可进行不同数据格式之问的互操作, 它可以统一数据格式,方便地实现不同应用之间的数据交换。x m l 现已成为大 多数数据交换领域的主导技术,诸如信息发布、多媒体信息传播以及电子商务等。 xm l 应用的广泛性取决于这种语言的简单性和强大的操作传统数据的能力。 同时xml 还可方便地表示结构化的数据。将xm l 引进数据接入平台,正是基 于它的这种互操作性和表示能力。 xm l 的一大优点是它对结构化数据的表示能力。x ml 文档包含了若干 结点,是基本的树状结构,结点又包含了子结点或有关信息,因此可以表达较为复 杂的逻辑语义。利用x m l 来定义数据单元是基于在采集节点、后台数据中心、 以及接入平台之间统一数据格式的需要,它可以表达逻辑意义丰富的数据单元, 并且还可以在不同平台之间相互理解。 x m l 集成异构数据 鉴于x m l 具有很强的数据格式表示能力,可以用来统一数据单元的格式。 通过x m l 统一数据单元格式只需处理x m l 文档。利用x m l 来定义数据格 式对数据单元的描述要比以前简单得多。 x m l 能够描述不规则数据,能够从不同的来源集成数据,可以将多个应用程 第二章 序所生成的不同格式表达的同类数据表示成为相同x m l 格式的数据。因 此,把x m l 作为集成层的数据描述工具和转换工具,通过x m l ,可以集成和统一 来自不同或异质数据源的信息。 针对所有数据源数据模式进行抽取,它将各应用系统数据库中的不同数据表 示形式统一成一致的数据视图。 如何实现对各个数据源的集成存取,包括两个方面:一个是将下发给各种 数据源的数据转换成数据源可以识别的格式;另一个是将各数据源上传的数据 转换成集成模式的表示形式。 xml 文档利用dtd ( docum enttypedefinition ) 可以对应任一消息,dtd 给出了标签文档元素及其层次结构的声明,同时还可 以给出元素附加信息的属性声明。dtd 可以确定在x m l 实例中要设计什么 标签对于不同的消息类型必须有相应的dtd 。x m l 中的d t d 声明可以写 在任何地方,一旦dtd 声明已编写,x m l 消息便依据dtd 声明,在处理时被 检测。 d t d 指定:可以在文档中存在的元素、那些元素可以具有的属性、在元素 内部元素的层次结构以及元素在整个文档中出现的顺序。 虽然d t d 不是必需的,但它们确实带来方便。d t d 适合三个基本用途。它 能: 对标记编制文档 加强标记参数内部的一致性 使x m l 语法分析器能够确认文档 如果不对x m l 文档进行d t d 定义,文档就无法由x m l 语法分析器进行确 认。 w 3 c 提供了对操作x m l 文档的程序接口支持,即do m 。do m 可以确保 对结构化的x m l 文档进行方便的存取。 x m l 解析 d o m 文档是以层次结构组织的节点或信息片断的集合。这个层次结构允许 开发人员在树中导航仪寻找特定信息。分析该结构通常需要加载整个文档和构 造层次结构,然后才能做任何工作。由于它是基于信息层次的,因而d o m 被认 为是基于树或基于对象的。 第二= 章 对于特别大的文档,解析和加载整个文档可能很慢且很耗资源,因此 使用其他手段来处理这样的数据会更好。这些基于事件的模型,比如s i m p l e a p i f o rx m l ( s a x ) ,适用于处理数据流,即随着数据的流动而依次处理数据。 d o m 通常要求将表示文档每个部分的对象都放入内存中。因为这些对象占 用内存的总合可能会多达文档本身所占用内存的1 0 倍( 或更多) ,因此d o m 在处理太文档时的效率很低。s a x 逐位遍历文档树并发送出与当前节点相应的 事件。这意味着s a x 可以抛弃暂时不在范围中的文档部分,这使得它更高效。 x m l 文件的基本组成部分包括: x m l 声明:基本的声明 将这个文件定义为x m l 文 档。在声明中指定一种字符编码的情况并不鲜见,如下所示。通过这种方式, 不管该x m l 文件使用的语言或字符编码是什么,只要解析器理解特定的编码, 它就能够正确地读取该x m l 文件。 d o c t y p e 声明:x m l 是人机之间交换信息的便利手段,但是要使它能够顺 利地工作,必须要有一个公共的词汇表。可选的d o c t y p e 声明可用于指定一个 应该用来与此文件做比较的文档,以确保不会产生任何混淆或丢失信息( 例如, 丢失一个u s e r i d 或错误拼写某个元素名称) 。以这种方式处理过的文档称为有 效的文档。成功的有效性检查并不是x m l 所必需的,后面的例子实际上从文档 中省略了d o c t y p e 声明。 数据本身:x m l 文档中的数据必须包含在单个根元素内。要使x m l 文档得 到处理,它必须是格式良好的( w e l l 一f o r m e d ) 。 第三章 第三章e d a p 的框架结构研究 本章将对企业级数据接入平台体系结构的分析。包括对系统目标、系统体 系结构、以及系统的功能模型的研究。从系统目标角度分析了系统为适应企业 级的需求必须具备的功能特性;在体系结构概述部分分析了平台所处的软硬件 环境、在整体解决方案中的定位,从而导出平台系统内部的基本功能层次;由 此构建系统的体系结构,并对每个基本功能模块进行简要描述。e d a p 系统框架 的建立,将用于指导实用的e d a p 系统体系结构设计以及具体实现,因此是本 项目的理论分析部分。 3 1企业级数据接入环境 在某些分布式计算模式环境中,分散的计算节点采集产生大量数据,需要 及时送到数据中心;同时接受数据中心的动态配置。对采集数据的安全、可靠、 高效的接入,是系统的重点,因此这里将其称为数据接入环境,将这种计算节 点称为数据采集节点。常见的大型复杂的分布式网络数据接入环境具有以下特 点: 系统规模庞大,覆盖了多个有数据传输需求的分支机构,数据采集节点 数目众多,大量分散。 系统内传输的数据量巨大、传输具有阵发性特点。 系统内的传输数据非常敏感,需要有完备的安全保障机制。一般来说, 来自各地数据采集节点的数据需要通过i n t e m e t 网络,安全、可靠、高效地接入 到数据中心。 系统内的传输数据来源复杂,数据采集节点可能由于版本的差异上传格 式迥异的数据,其所在的计算机种类繁杂,软硬件平台难以统一,涉及到多种 u m x 和w i n d o w s 操作系统,因此必须提供跨平台的传输服务。 系统的网络环境复杂,既有高速的d d n 线路,也有低速的拨号网络,还 第三章 有延迟较大的卫星线路,具有动态、开放、异构等特点,整体上不可靠、不可 预期、路由复杂,在某些地方甚至具有低带宽、高延迟的特点。 这里将这种大型复杂的分布式网络数据接入环境称为企业级的数据接入环 境:将适用于该环境的数据接入平台称为企业级数据接入平( e n t e r p r i s el e v e l a c c e p t m e n t p l a t f o r mf o rd a t a :e d a p ) 。 在企业级的数据接入环境中,数据采集节点大量分散,负责从网络中采集 数据。各个采集节点产生的大量采集数据信息、样本数据、以及各种图像、网 页文件等需要及时快速地通过公网传输到数据中心;同时,还需要处理后台数 据中心随机下发的规则或广播信息。 数据接入平台是将来源于采集节点的数据接入到后台数据中心的数据接入 通道,主要负责将来自各地数据采集分析器的采集数据通过i n t e m e t 网络,安全、 可靠、高效地接入到数据中心,并保证接入的合法性,以及接入数据的格式标 准、有效性。 在企业级的数据接入环境中,由于参与传输的数据节点数目众多,上传的 数据量巨大、以及传输的阵发性等特点,对数据传输的效率、性能、可靠性等 方面提出了较高要求;由于处在从公网到局域网的交界线上,对安全性也提出 了特别的要求 同时要求系统具有良好的可维护性和管理机制。 3 2 系统目标分析 为了提供企业级数据接入环境中的数据接入功能,要求企业级数据接入平 台稳定可靠、具有良好的可扩展性和相当好的处理性能、并且易于管理和维护, 可以轻松实现节点间的数据信息可靠、安全、高效的传输。 下面对以下几点系统目标逐一分析: l 、处理性能 通常,对消息接入服务来说,性能是将消息从生成方传送到接受方时的速 度和效率的- - t o o 衡量。一般有以下几个不同的性能方面。 连接负荷;系统所能支持的消息生成方、消息使用方或并行连接的数量。 消息吞吐量:每秒钟能通过消息传送系统抽取的消息数或消息字节数。 延迟:特定消息从消息生成方传送到消息使用方所需的时间。 第三章 稳定性:保证系统当采集节点接入数量激增、数据流量跌宕变化、负荷 加重等各种情况下都能平稳运行。( 传输模块的连接管理、线程池、数据缓存, 集群) : 效率:消息的传送效率,这是一种与使用的计算资源相关的消息吞吐量 的衡量。 这些不同的性能方面总
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 钢制门招标文件的简明和易懂性
- 清洁合同物业保洁
- 池河镇七年级历史下册 第三单元 明清时期:统一多民族国家的巩固与发展 第20课 清朝君主专制的强化教案 新人教版
- 2024年九年级语文上册 第四单元 诗词诵读《水调歌头》教案 鄂教版
- 八年级英语上册 Unit 5 My Future Lesson 26 What Will I Be教案 (新版)冀教版
- 2024年学年八年级道德与法治下册 第二单元 理解权利义务教案 新人教版
- 江苏省江阴市高中生物 第三章 细胞的基本结构 3.1 细胞膜-系统的边界教案 新人教版必修1
- 钻孔机租赁合同(2篇)
- 租车退车合同(2篇)
- 苏教版音乐课件
- 2025届重庆市七校联盟数学高二上期末学业水平测试试题含解析
- 2024-2025学年初中信息技术(信息科技)七年级上册苏科版(2023)教学设计合集
- 2024年6月高考真题浙江卷化学试题(解析版)
- 2024-2025学年高一上学期期中考试动员主题班会课件
- 部编人教版三年级道德与法治上册:期末测试卷(含答案)
- 学校深化解放思想大讨论活动实施方案
- 卓越绩效模式标准-全国质量奖评奖标准
- 2024年保密知识教育考试试题试卷附答案(突破训练)
- 2024-2030年中国香氛香薰市场供需前景及未来销售格局分析研究报告
- 四年级上册劳动《垃圾分类宣传员》课件
- 山东省潍坊市2025届高三上学期开学调研检测语文试题 含解析
评论
0/150
提交评论