开题报告数据交换平台数据交换节点集群研究_第1页
开题报告数据交换平台数据交换节点集群研究_第2页
开题报告数据交换平台数据交换节点集群研究_第3页
开题报告数据交换平台数据交换节点集群研究_第4页
开题报告数据交换平台数据交换节点集群研究_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、研究生学位论文开题报告报告题目数据交换平台中数据交换节点集群研究与实现学生姓名朱蕾学号 2011e8015070012指导教师叶丹职称副研究员学位类别工学硕士学科专业计算机软件与理论研究方向网络分布式计算与软件工程培养单位软件研究所填表日期2013年6月20日研究生院制填表说明1. 本表内容须真实、完整、准确。2. “学位类别"名称填写:哲学博士、教育学博士、理学博士、工学博士、农学 博士、医学博士、管理学博士,哲学硕士、经济学硕士、法学硕士、教育学 硕士、文学硕士、理学硕士、工学硕士、农学硕士、医学硕士、管理学硕士 等。3. “学科专业”名称填写:“二级学科"全称。目录1

2、. 选题的背景及意义42. 国内外本学科领域的发展现状与趋势62数据交换相关工作62.1.1数据交换技术62.1.2数据交换平台产品82.2集群技术112.2.1集群分类112.2.2集群框架12223负载均衡技术133. 课题主要研究内容、预期冃标143课题研究内容143.1.1集群管理143.1.2负载均衡143.1.3失效恢复153.1.4集群监控163.2课题预期目标174. 拟采用的研究方法、技术路线、实验方案及其可行性分析174研究方法174.2技术路线174.3实验方案184.4可行性分析185. 已有科研基础与所需的科研条件186研究工作计划与进度安排19参考文献201 选题的

3、背景及意义随着信息技术应用的快速深入,金业信息化水平不断提高,大屮型金业和机 构纷纷建立起庞大而复杂的信息系统,这些信息系统的建设通常具有阶段性和分 布性的特点,导致了 “信息孤岛”的存在和数据不一致等问题;此外,企业中分 布的数据、信息和知识通常具有独立性和异构性,降低了信息的利用效率,很难 实现企业商务智能的要求。随着金业对系统整合需求的持续增强,越来越多的企 业在重视应用集成的同时,将数据集成作为重要支撑技术之一|1|。数据集成(dnta integration)是将不同來源、格式的数据在逻辑上或物理上 集 成共享,是通用的数据整合、数据同步、数据迁移的解决方案。目前三种主要的数 据集成

4、方法包括联邦数据库、数据仓库和数据集成中间件系统。其中,数据集成中 间件提供了一种轻量级的数据集成方案,是目前比较流行的数据集成方法。在这些 数据集成方法屮,etl即跨操作系统、跨数据源的数据抽取(extract)转换 (transform)和装载(load)是一项极其重要的技术,它从分布式杲构的数据源(包扌舌数 据库、应用系统、文件以及web服务等)中抽取数据,并按照一定的规则 进行 转换,最终加载到目标数据源中,从而解决数据一致性与信息集成化问题,实现 数据、信息和知识的共享和集成。数据交换平台基于统一的中间件平台,通过提供客户接入端软件和前置交换 节点部署在应用系统上,用统一的方式实现各

5、系统间不同结构和格式的数据的相 互交换。数据交换平台是一个分布式系统,曲分布在广域网中各机构、组织的局 域网内的数据交换节点组成,如图11所示。图1-1数据交换平台结构图一个数据交换节点包含数据传输、数据 etl、监控、路由等子系统,对应一 个或多个数据源。一个数据交换平台厲于一 或若干个公司、组织。一个机构或 组织的某一个分支拥有一个数据交换节点,每一个数据交换节点位于公司或组织的 一个分支的局域网内,和该机构或组织的其他分支,以及其他机构和组织的进行数 据交换。一个数据交换平台的各个数据交换节点是强连通的。不同的数据交换节点 之间可以进行数据交换。数据交换节点要采取集群的形式,原因如下:1

6、高性能需求。数据交换平台的并发处理较大、数据量大。一个公司或组 织通常会有一个中心。当数据向中心的数据交换节点汇总时,受网络带宽、 机器cpu处理能力、内存、程序处理的极限等因素影响,中心的负载 会很大。单机模式会出现机器死机、程序崩溃、处理速度低于要求等一系 列问题。采取集群的方式可以大大捉高数据交换节点的处理能力。2.高可用性需求。数据交换的吋间具有不确定性,数据交换节点需耍保持 7x24的连续不断的运行。在单机的情况下,一旦机器出现故障,需要 人工干预程序的运行,把未完成的任务重新完成。采用集群的方式,一台 机器的故障不会影响数据交换节点的正常运行,保证了系统的高可用性。 而r,工作人员

7、只需将故障机器替换或重启,重新安装或运行程序,不需 要关注任务的执行状况,大大降低了管理成本和系统整体效率。oncedi2.0 (open network computing environment data integration)是中科 院软件所软件工程技术屮心自主开发的数据集成屮间件,实现了基于屮间件技术 的数据集成方案。提供了跨平台、跨数据源的异构数据集成。oncedi2.0不仅实 现了跨数据源的数据抽取、转换和加载,而且支持复杂网络环境下的数据高效、 安全传输,因此能够有效支持广域网环境卜的企业信息系统z间的数据的迁移、 交换和同步。di3.0是在di2.0基础上,增加了控制中心,便

8、于任务的管理。然 而di3.0存在一些问题:1 .不能适应复朵、不稳定的网络状况,广域网范围内可 用性斧。2.数据交换节点采取单机模式,由于带宽、cpu等资源限制,数据汇总 的节点、或热点交换节点性能会出现瓶颈。3.数据交换节点釆取单机模式,可 靠性斧。一旦机器出现故障,整个数据交换节点就不能继续工作了。4.基于c/s 结构。5不能灵活配置数据交换的路由。软件工程技术屮心正在构建oncedeep 数据交换平台,解决上述问题。木课题主要解决问题2、3,即研究如何根据数据交换的特点,构建oncedeep数 据交换平台的数据交换节点集群,满足数据汇总节点或热交换节点的高可靠性、高 性能需求。2.国内

9、外本学科领域的发展现状与趋势2.1数据交换相关工作2.1.1数据交换技术为了实现异构系统间的数据交换与共享,工业和学术界捉出了各种解决方案, 总结起来可以分为以下四种:基于点对点的应用接口、数据转移工具、使用联邦数 据库和基于统一的中间件形式。基于点对点的应用接口点对点的应用系统数据交换的出发点很简单,当两个系统之间需要相互协作时, 为这两个系统开发相应的连接组件(adapter)将二者互联,如图2-1 o图22点对点应用接口结构任何一个系统的升级或改动都将影响到其它与z相关的应用系统的修改;同时当一个新的应用系统需要纳入整个应用集成体系时整个工作变得非常复杂。数据转移工具很多数据库系统的管理

10、系统都提供了将外部文件屮的数据存入到数据库的 工具。常见的有oracle导入导出工具2、sql server的dts3工具等。使用 上述的工具的确可以完成一些数据交换的任务,这些工具冇一个很大的缺点就是 仅仅提供口己的dbms访问异构数据库的机制,通用性不好;它只解决了对关 系数据库小数据共享的问题,没有涉及到其他数据(例如文件系统小的文件、业 务中的消息)。联邦数据库联邦数据库|4, 5是分布式数据集成系统的一种特殊形式,它是多个互相协 作的自治数据库的集合。根据组织方式的不同,它分为紧耦合和松耦合的两利j 在紧耦合的联邦数据库屮,管理和操作针对整个联邦,i佃在松耦合的联邦数据库 中,组件数

11、据库有某种程度的管理独立性。在联邦数据库中,根据用户的需求可 以构建多个联邦模式,每个联邦模式仅覆盖有限的局部模式,与使用统一的全局 模式相比,降低了模式构建的复杂性。联邦数据库将各个应用系统屮的异构数据 库联合在一起,对外提供一个统一的数据访问模式。基于统一的中间件模型数据交换中间件是在各应用间起到桥梁作用的平台,如图22所示,它实际 上起到了一个application hub的作用,它提供克服传统点对点缺点,釆用了enterprise service bus (esb企业服务总线)的模块架构6。esb的前身是eai(enterprise application integration,企业

12、应用集成)。企业服务总线(esb)的 出现改变了传统的软件架构,可以提供比传统中间件产品更为廉价的解决方案,同 时它还可以消除不同应用之间的技术差异,让不同的应用服务器协调运作,实现 了不同服务之间的通信与整合。图22数据交换中间件结构模型数据交换平台就是这样一类中间件,它通过提供客户接入端软件部署在应用系 统上,根据事先达成的协议,用统一的方式实现各系统间不同结构和格式的数据的 相互转换,并由协调引擎协调各个业务系统间进行数据传输和消息通信。这种方 式实现了数据抽取、数据清洗、转换,数据路由、数据可靠传输和存储等工作,在 保证了业务系统的冇效协同的同时,又能保证各应用系统的相互独立性和低耦合

13、性, 从整体上提高了系统运作效率和安全性。2.1.2数据交换平台产品目前数据交换平台在电力、物流、政务、医疗等众多领域得到了广泛的应用。在工 业界,国内外很多厂商都提出了自己的数据交换平台解决方案。例如国外的ibm message broker+webspheremq 数据交换平台解决方案、chainbuilder 基 丁* chainbuilder connect的数据交换平台解决方案、talend,国内的英创思数据交换 平台、中科软数据交换平台、金蝶数据交换平台、中科院软件所软件工程技术中心 的 oncedi3.0 等。ibm的数据交换平台方案使用ibm公司的websphere mq和me

14、ssage broker 通讯中间件。webspheremq采用异步的消息机制在不同的服务器节点之间保 证可靠的信息传递服务。message broker位于数据交换平台的核心,如图23, 它提供了基于application hub的通讯连接和应用整合方式,起到一个交通和通 讯枢纽的作用,能够冇效地捉供数据路由、加工处理和格式转换等功能。图 2-3 message broker 通信结构ibm的解决方案中,数据汇总的中心使用高性能的服务器,服务器进行双 机热备份,运行message brokero英他数据交换节点使用pc机,安装websphere mq server, mq server之间可

15、以通过自身的群集功能,实现负载均衡。这个解 决方案的缺点在于,数据汇总的中心使用高性能服务器造价会很高,如果中心使 用普通pc机上,message broker的性能会形成整个系统的瓶颈。chainbuilder connect 是一个遵从 java business integration (jbi, java 业务集 成)的esb平台,是面向服务架构(soa)的企业服务总线(esb)的产品实现。 chainbuilder connect的 etl设计工貝是一组口定义的 eclipse插件。由 chainbuilder connect构建数据交换的平台,各组织机构的前置机(数据交换的 基础部

16、分,设立在各交换部门内部,存放由提供方业务系统提供的数据和接收方 业务系统接收的数据)作为交换节点,构成数据交换体系8。图2-4基于chainbui ider connect的数据交换'卜台炎仇方点mev可伟业务库cm builder connect救据交換中mkfl乞牧方费男豪険数据交换中心捉供数据的采集分发服务,实现交换节点z间的数据的映射转换 和路由功能。系统整体应用架构如下图:kxm心隸ivlm9t:图2-5基于chainbuiider connect的数据交换平台应用架构此解决方案中,数据交换中心没有采取集群的方式,可靠性和性能面临很大挑 战。中科软数据交换平台由企业服务器总

17、线、数据交换处理部件(包括适配器和桥 接子系统)、运行支撑环境、规则库、管理组件(包括管理服务器和管理工具)等组 成9。采用“一次抽取,并发路由”的机制减轻对数据源如数据库的压力,同吋也提高处理的性能,但数据交换节点不支持集群。金蝶数据交换平台使用apusic esb、apusic javaee应用服务器、apusic pusic消息中间件,提供面向soa的基础架构。数据交换将从分支业务系统中前置 交换数据库获取数据封装成统一的数据模型方式发送到中心,在中心完成数据清洗、 汇总等操作写入到数据中心的统一数据库10。分支运行apusic esb client,中心 运行apusic esb se

18、rver。apusic esb server木身没有集群机制,只能通过将 运彳亍 server的服务器进行双机热备份来保证系统的可靠性。oncedi2.0 (open network computing environment data integration)是彳斗 院软件所软件工程技术屮心自主开发的数据集成屮间件,实现了基于屮间件技术 的数据集成方案。提供了跨平台、跨数据源的异构数据集成。使用oncemq, oncefiletrans中间件,保证了数据的口j靠传输,使用oncedi中间件实现数据的 etl功能。di3.0在di2.0基础一上,增加了控制中心,便于任务的管理。而di3.0存

19、在一些问题:1.不能适应复杂、不稳定的网络状况,广域网范围内可用性差。2. 数据交换节点采取单机模式,由于带宽、cpu等资源限制,数据汇总的节点、或 热点交换节点性能会出现瓶颈。3.数据交换节点采取单机模式,可靠性差。一旦 机器出现故障,整个数据交换节点就不能继续工作了。4.基于c/s结构。5.不能 灵活配置数据交换的路由。软件工程技术屮心正在构建oncedeep数据交换平台, 解决上述问题。其中,数据交换节点采取单机模式,可靠性可性能较差,是一个重 点要解决的问题。综上,现有的数据交换平台产品屮,绝大部分产品的数据交换节点不支持集 群模式。为了满足数据交换平台系统高性能、高可靠性的需求,根据

20、数据交换平 台的特点,将数据交换节点集群化,是一个趋势。本课题专注于将oncedeep数 据交换平台的数据交换节点改造成集群模式。2.2集群技术集群是这样一种技术:它将多个系统连接到一起,使多台服务器能够像一台 机器那样工作或者看起来好像一台机器。采用集群系统通常是为了提高系统的稳 定性和网络中心的数据处理能力及服务能力。2.2.1集群分类集群计算机按功能和结构可以分成以下儿类:高可用性集群、负载均衡集群、 高性能计算集群、网格计算11。高可用性集群-般是指当集群屮有某个节点失效的情况下,其上的任务会自动转移到其他正常的节点上。述指可以将集群屮的某节点进行离线维护再上线, 该过程并不影响整个集

21、群的运行12。高可用性集群有三种工作方式。主从方式:主机工作,备机处于监控准备状 况;当主机宕机时,备机接管主机的一切工作,待主机恢复正常后,按使用者的设定以自动或手动方式将服务切 换到主机上运行,数据的一致性通过共享存储系统解决。双机双工方式(互备互援):两台主机同时运行各口的服务工作且相互监测情 况,当任一台主机宕机时,另一台主机立即接管它的一切工作,保证工作实时, 应用服务系统的关键数据存放在共享存储系统屮。集群工作方式(多服务器互备方式):多台主机一起工作,各自运行一个或几 个服务,各为服务定义一个或多个备用主机,当某个主机故障时,运行在其上的 服务就可以被其它主机接管。负载均衡集群运

22、行时,一般通过一个或者多个前端负载均衡器,将工作负载 分发到后端的一组服务器上,从而达到整个系统的高性能和高可用性。但是整个 系统小负载均衡调度器将是最大的瓶颈,所以对后台实际服务器的支持数量将会 由主负载均衡调度器本身的性能来决定。节点的高可用性是通过负载均衡调度器通过不断监视节点的状态以及节点 上的应用程序的运行状态來实现,当发现节点已经失效时,负载均衡调度器可以 重新配置系统并且将工作负载交给那些运行正常的节点来完成。高性能计算集群采用将计算任务分配到集群的不同计算节点而提高计算能 力,因而主耍应用在科学计算领域。比较流行的hpc采用linux操作系统和其 它一些免费软件来完成并行运算。

23、在科学计算领域屮,人们开始把注意力投向通 过普通pc机或工作站的集群来代替昂贵的超级计算机。网格计算或网格集群是一种与集群计算非常相关的技术。网格计算是针对冇 许多独立作业的工作任务作优化,在计算过程中作业间无需共享数据。网格主要 服务于管理在独立执行工作的计算机间的作业分配。资源如存储可以被所有结点 共享,但作业的中间结果不会影响在其他网格结点上作业的进展。2.2.2集群框架因为数据交换平台oncedeep是使用java开发的程序,所以本文关注了儿个 开源的java集群框架。shoal是glassfish的群集子项目,支持容错及分布式状态缓存。很好的抽象 了集群的两个最重要功能:群集节点管理

24、和共享状态数据。而且,这一切是作为 一个类库来捉供,可以嵌入到任意的java应用屮。集群的目标无外仲缩性与高 可靠性,实现无外load balancer与failover,而shoal对这两点实现提供了很好 的支持13。openrds是一个java的集群框架,使得基于分布式系统的应用易于开发和 管理。tenacotta是一个jvm级的开源群集框架,提供:http session复制,分布 式缓存,pojo群集,跨越群集的jvm來实现分布式应用程序协调。采用代码 注入的方式,所以不需耍对原程序进行修改|14。223负载均衡技术集群的负载均衡策略是提高集群整体性能的关键,其h的是根据处理机的性能

25、来分配与其相称的任务,以最小化应用程序的执行时间。该策略将用户的请求按照 一定的算法分发到集群的某个节点服务器上以实现对用户请求的并行处理,最大 限度地利用各节点的处理能力,实现集群系统的负载均衡,提高集群系统的整体性 能。负载均衡算法设计的好坏直接决定了集群在负载均衡器上的表现,不好的设 计算法会导致集群的负载失衡。有些简单平衡方法可以独立使用,有些则必须和 其它方法组合使用。一个好的负载均衡算法一般只在某些特殊的应用环境下才能 发挥最大效用15。负载均衡算法分为静态负载均衡算法和动态负载均衡算法。静态负载均衡算 法包括轮转法、散列法、最少连接数法、最快响应法等。动态负载均衡算法包括 加权轮

26、转、加权最少连接数法、服务类型等。述冇更多更复杂的负载均衡技术,如具备内容感知能力的网络负载均衡技术、 web应用服务器自适应负载平衡技术等。3课题主要研究内容、预期目标3.1课题研究内容节 作点工节 紛点备节 作点工节 作点工节 作点工数据交换节点集群图3-1 oncedeep数据交换节点集群结构数据交换节点集群出主节点、备份节点、工作节点构成。主节点负责监控、调度、 失效任务的恢复等功能;备份节点与主节点保持热备份,当主节点故障时切换到 备份节点;工作节点执行具体的数据传输、数据etl等工作。主节点和备份节点 同吋也可以作为工作节点。数据交换节点集群需要解决的问题3.1.1集群管理当要提高

27、集群处理能力时,要加入新的机器;当某台机器出现无法恢复的故障 时,机器退出集群。集群要有一个主节点,保存其他各个节点的状态信息,管理机 器加入和退出节点。集群要具有一定的动态扩展能力。当主节点出现故障时,主节点的任务要能够自动切换到其他正常运行的节点。 即至少冇一个备用节点,热备份主节点的数 ,当系统检测到主节点故障时,能 够自动启用备用节点作为主节点,同时选出其他备份节点。3.1.2负载均衡数据交换节点需耍进行的工作有:数据发送和接收 数据etl元数据管理、 路由配置、消息管理、监控、日志。其屮数据发送和接收、数据etl对带宽、 内存、cpu的等资源的使用率比较高。在分部的数据交换节点向总部

28、的数据交 换节点进行数据汇总的场景下,总部的数据交换节点需耍处理大量的数据接收和 数据etl工作,如何设计一个负载均衡算法,能将这些工作合理地分配给每一 个机器,使数据交换节点的呑吐量、效率达到最优,是一个重要研究问题。常用的负载均衡算法有:轮询算法、hash散列算法、最少链接算法、最快 链接算法、观察模式、预测模式等。数据交换节点具有一些特点,使得单独使用 某一种算法不能达到较好的效果。例如,不同的数据交换任务需要的资源、完成 的吋间不同,所以轮询法、hash散列算法、最少连接数法不能合理分配资源。 学术界已经提出了一些更复杂,可以囊括更多因素的算法,如基于多参数的负载 均衡算法、基丁内容请

29、求的负载均衡算法、基于遗传算法的负载均衡算法、基于 动态反馈的负载均衡算法、自适应负载算法、具备内容感知能力的网络负载均衡 技术等。但以上算法各具特点,不一定能适应数据交换节点的应用特点,而且算 法需要调整一些参数。总z,已冇的负载均衡算法不能直接应用丁数据交换节点 集群,需要进行设计、测试和调优,确定最适合数据交换节点集群的负载均衡算 法。3.1.3失效恢复为保证系统的容错性,需要对失效的任务进行恢复,使得不论岀现任务故障 都能保证任务自动恢复,正确完成。设计合适的失效恢复策略,针对不同的失效 类型采取合适的恢复方式,保证以最快的速度、最低的资源消耗恢复或迁移中断 的任务,是一个重要研究内容

30、。首先要识别任务失效的类型,以及失效时任务所处的状态、数据的状态。不 同的任务失效类型、不同的状态、不同的数据情况,需要的任务恢复方式是不同 的。任务有数据发送和接收、数据etl、消息管理、元数据管理、路由配置、监 控、fi志管理等类型,不同任务有不同的流程和特点,要根据这些特点设计恢复 策略。下面以数据接收为例。数据接收的流程是:发送端使用数据交换平台渠道适 配器将数据发送到接收端后,接收端列出所有收到的数据,用户创建接收任务, 接收任务部署到接收端的di服务器上,di执行接收任务的命令将数据保存到h 的数据源。在上述过程中,若出现硬件故障,则将整个任务迁移到其他机器。即 用负载均衡算法选出

31、一台合适的机器,通知数据发送端将数据重新发送给这个正 常运行的机器。若岀现非硬件故障,但在一定时间内程序无法重启或响应,也通 知数据发送端将数据重新发送给另一个正常运行的机器。因为这两种方式需要重 新执行任务,消耗的资源和等待时间相对较长,所以尽量避免上面两种恢复方法。 当出现其他故障吋,重新启动程序,让程序从故障前的吋间点开始继续向下执行。 渠道接收数据过程程序故障时,因为渠道冇断点续传的功能,程序启动后可以从 断点开始接收;用户创建接收任务过程出错吋,程序重启后从用户创建接收任务 开始进行;接收任务部署到接收端的di服务器过程程序故障时,程序重启后从 部署阶段开始进行,不再需要用户重新创建

32、任务;di服务器将数据保存到目的 数据源过程程序故障时,重启程序后程序可以将未保存的数据进行保存,不需要 重新保存已经保存的数据。类似地,在数据发送、数据etl过程中出现故障时,也需要根据任务执行 的流程,设计每一步出现故障吋合适的恢复方法。而元数据管理、路由配置、监控、日志管理这些工作消耗的资源较少,执行 步骤简单,毎一次执行所需的时间也较短,而且基本只在主节点运行,所以恢复 策略和对简单。只需将主节点的信息,在其他节点进行热备份,当主节点出现故 障吋,切换到热备份的机器,启动主节点管理程序即可。为方便用户管理,以上故障类型监测判断、程序启动、任务切换等工作,均 rh系统自动咒成。监控系统需

33、要收集计算资源在执行过程中的信息,通过这些信息来了解被监 视系统的运行状态,对系统进行配置和管理,从而保证系统正常和高效运行。对于数据交换节点集群的监控,监控对象主要包描系统状态和性能、数据接 收发送和etl运行时的状态和行为、元数拯和路由信息。监控得到的重要数拯 指标应该被存储下来,以进行一段时间内的统计和分析。集群小的每个节点上,运行一个监控进程,对本节点的系统状态和性能、数 据接收发送和etl运行时的状态和行为进行监控。集群的主节点收集各个节点 的监控信息,进行汇总,对外提供该集群统一的状态信息。主节点根据各个节点的监控信息,提供集群管理、失效恢复、负载均衡服务。 主节点还需耍对元数据、

34、路由信息进行监控管理。当该数据交换节点的元数据、 路由信息发生变化时,主节点要通知其他数据交换节点;当其他数据交换节点的 元数据、路曲信息发生变化时,主节点收到通知后要通知本集群内的其他机器。至少有一个备份节点,监视主节点的运行状态。当主节点宕机时,能自动接 替主节点的工作。系统状态和性能监控方面,主要监控以下数据:cpu占用率、内存使用、 虚拟内存使用、缺页屮断数、线程数、磁盘i/oo数据接收发送方面,主要监控 一下数据:总发送/接收数据量、已发送/接收数据量、未发送/接收数据量、数 据发送/接收平均速度、发送/接收瞬时速度、运行状态(新建、就绪、正在执行、 挂起、错误等)。etl方面,由于

35、执行期间需要与服务器、数据源、数据转换组 件、数据传输信道等众多组件进行交互,其执行情况与运行环境密切相关,因此, 为了能够更加准确地反映etl过程的运行情况,需耍从更细的粒度上收集etl 过程运行吋的行为信息,如任务调度情况、连接服务器和数据源情况、抽取或加 载数据效率、进行数据转换、数据传输进度等。3.2课题预期目标一、构建一个具有高可用性、高吞吐率、高性能、容错性强、扩展性好、部 署快捷方便的oncedeep数据交换节点集群。二、设计适合数据交换平台应用场景的负载均衡算法,写一篇论文。三、对 研究和实现过程屮遇到的难点和解决方式进行总结,写一篇论文。4. 拟釆用的研究方法、技术路线、实验

36、方案 及其可行性分析4.1研究方法本课题拟采用的方法是文献研究法、实验对比法。一、学习已冇的研究成果, 选择岀适合本课题应用特点的研究成果。可以通过查找文献、查相关技术报告和用户手册来完成。二、试用和对比已有的相关工 具。将笫一步中查找到的相关产品进行试用,详细了解它的功能和实现过程。对于能够利用的模块予以改进和利用,节省开发 的工作量三、实验测试性能和功能。对集群的性能进行测试,找出瓶颈,对需要改进 处进行改进。4.2技术路线利用开源框架实现集群目询已冇一些成熟的集群开源框架。可以利用合适的 框架,基于口前已有的oncedeep单机程序,在最小的代码改动下实现集群。木 课题拟采用负载均衡集群

37、方案。对集群的管理,参考开源工具zookeepero zookeeper分布式服务框架是apache hadoop的一个子项口,它主要是用来解决 分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、 集群管理、分布式应用配置项的管理等。zookeeper采用paxos算法,能够保持 系统数据的强一致性。负载均衡方面,参考开源工具apache camek haproxy。集群监控方而,参 考宁静的工作“分布式数据集成监视系统的设计与实现”。因为数据交换平台 oncedeep是使用java开发的程序,所以可以利用已有的开源java集群框架,如shoal集群框架、openrds集

38、群框架。terracotta集群框 架是jvm级的,可能将一个数据传输/etl任务分配到不同的机器上 不适合数 据交换平台的应用场景。4.3实验方案一、试用已有工具二、集群构建完成后,采用不同请求频率、不同数量的数 据交换请求对集群进行测试,得到集群的吞吐量、响应时间信息。三、模拟机器故障、程序崩溃等 情况,统计在出错情况下数据的准确性和任务执行情况,得到集群的容错能力信息。四、调整集群的负载均衡算法或某些模 块,测试集群的性能等信息,进行比较,选择最恰当的方案。4.4可行性分析数据交换平台的基本功能已经实现。本研究只需专注交换节点集群方面的工 作。在集群方面,口前已经有很多成熟的研究和工作,

39、开源工具也很多。可以参 考这些工具的实现。5. 已有科研基础与所需的科研条件小组科研基础方而:罗后启师兄的工作“基于hdfs的数据交换平台设计与 实现”对数据交换平台集群有启发。宁静师姐的工作“分布式数据集成监视系统 的设计与实现”可监控di、服务器性能等信息,在此基础上改动,可用于监控 数据交换平台节点。谭红星等的工作“数据集成技术研究及数据集成屮间件产品 a2e-di的研制”,己经完成了数据交换节点数据集成方面的工作。李松领、时俊 玲已经完成了数据交换平台路由、数据交换等工作。上述工作已经完成数据交换平台最基本的功能。木研究将在上述成果的基础 上,专注于集群方面的研究和开发。个人科研基础方

40、面:本人完成了研究生课程分布式操作系统、网络分布式计 算等课程,对集群理论方面有一定基础。研二期间参与小组的开发任务,具备相 应的工程开发能力。科研条件:1 需要下载文献。软件所购买的数据库可满足此需求。2.需要下 载相关工具进行调研。工具基本都是开源的,可从web±免费获得。3.需要至少 3台pc集,进行集群的实验。实验室有pc机可供使用,也可以采用虚拟机的 方式。科研条件能够满足木课题需求。6 研究工作计划与进度安排2013年5 w-2013年6月20收集相关资料、完成初期调研和开题报告2013年6月20-2013年7月20 h试用相关工具,研究难点,捉出具体解决 方案。2013年7月20 e1-2013年10月20实现集群2013年10月20 fi-2013年11月20日实验。对节点性能、可靠性等进行测 试,设计和改进负载均衡算法2013年11刀20 0-2013年1刀30日改进集群、提炼出集群管理工具。2013年2月1-201

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论