科学工作流系统Keler及其应用发展数据资源提升服_第1页
科学工作流系统Keler及其应用发展数据资源提升服_第2页
科学工作流系统Keler及其应用发展数据资源提升服_第3页
科学工作流系统Keler及其应用发展数据资源提升服_第4页
科学工作流系统Keler及其应用发展数据资源提升服_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

科学工作流kepler及其应用周园春、林小光、程洁黄刚、王鹏飞、屈侠2008-10-28背景工作流概述科学工作流系统简介Kepler系统及其应用基于Web的科学工作流目录背景海量科学数据数字化技术和无处不在的网络发展推动了数据的收集、产生、共享、与分析。科学数据规模越来越庞大,科学实验过程也越来越复杂。科学与工程研究日益成为数据密集型的工作。背景超级计算环境与观察实验、理论分析鼎足而立的科学计算已成为e-Science的核心。现今很多交叉和前沿学科的研究越来越需要高性能计算,如大气科学计算、生命科学计算、湍流计算、分子模拟等。由于这些研究所需的数据资源和计算资源非常庞大,目前各研究机构很难为这些科研需求提供足够的资源,导致了很多研究无法往前推进。背景科学密集型实验迭代的科学数据处理流程源数据获取Web服务、SRB、FTP、HTTP数据输入数据预处理数据运算数据分析数据挖掘结果输出结果数据集可视化图片等背景动态的科学逻辑处理过程虽然数据密集型科学问题的求解过程也遵循一定的基本流程,但是整个过程中的诸多细节却是动态的、不确定的,科学实验流程的定义往往是不完整的,在执行过程中也需要根据实验流程的运行态势做出动态修改。工作流概述商业工作流工作流的概念起源于办公自动化领域。它所关注的问题是处理过程的自动化,它根据一系列定义的规则,把文档、信息或任务在参与者之间传递,以达到某种目的。工作流管理联盟(WfMC)对工作流的定义:一类能够完全或者部分自动执行的经营过程,根据一系列过程规则、文档、信息或任务能够在不同的执行者之间传递、执行。工作流概述商业工作流经营过程的一个计算机实现。工作流管理软件(WfMS)是一个软件系统。用以完成工作流的定义和管理,并按照在计算机中预先定义好的工作流逻辑推进工作流实例的执行。运行在一个或多个工作流引擎上。与工作流执行者交互,推进工作流实例的执行,并监控工作流的运行状态。工作流概述科学工作流2O世纪9O年代,随着问题求解环境(PSE)在科学研究活动中的应用,科学工作流和科学工作流管理被引入到科学问题求解环境中。科学工作流就是采用工作流的思想,用来描述和控制科学实验和过程的执行,它是面向e-Science,服务于科学家,使得科学家能够更容易的分析和管理科学数据。工作流概述科学工作流科学工作流是获取科学数据(包括传感器数据、医学影像、卫星图像、仿真输出、各类观测数据等等),并对所获取到的数据执行复杂分析的灵活的工具。目的在于组合一个广阔领域的应用程序,从实验的设计、执行、监控到归档,以及使得实验数据重用等的管理和分析流水线化。工作流流概述述科学工工作流流Streaming/pipelinedexecutionHighlydata-centricCompute-intensiveAnalysis-intensiveVisualization-intensiveInterconnectionbetweenmultipletools工作流流概述述商业工工作流流VS.科科学工工作流流科学工工作流流面向向数据据量,,以数数据驱驱动商业工工作流流面向向控制制流,,事务务驱动动actornamedata(state)portsInputdataparametersOutputdataWhatflowsthroughanobjectisstreamsofdatacallreturnclassnamedatamethodsWhatflowsthroughanobjectissequentialcontrol科学工工作流流系统统介绍绍国际上上比较较成熟熟的科科学工工作流流系统统:学术领领域的的:KeplerTavernaTriana商业性性质的的:DiscoveryNetPipeline-PilotLabView科学工工作流流系统统介绍绍KeplerOpen-Source,Java圣地亚亚哥超超算中中心地学、、生物物信息息学、、化学学等科学工工作流流系统统介绍绍TavernaOpen-source,JavaOMII-UK生物信信息学学科学工工作流流系统统介绍绍TrianaOpen-Source,JavaCardiffUniversity,UK信号、、文本本、图图片处处理科学工工作流流系统统介绍绍商业性性质科科学工工作流流科学工工作流流系统统介绍绍国内相相关研研究现现状目前,,国内内在科科学工工作流流领域域的研研究尚尚处于于起步步阶段段。许多具具体领领域的的研究究机构构已经经开始始着手手使用用国际际上成成熟的的科学学工作作流系系统((如Kepler等等)进进行涉涉及科科学数数据处处理的的大规规模复复杂科科学实实验。。一些大大学及及研究究所也也开始始对科科学工工作流流系统统进行行了针针对性性研究究,比比如武武汉大大学软软件工工程国国家重重点实实验室室、南南京大大学计计算机机软件件新技技术国国家重重点实实验室室等。。Kepler系系统Kepler允允许科科学家家设计计科学学工作作流,,并使使用基基于网网格的的分布布式计计算方方法执执行这这些工工作流流。Kepler是是用于于科学学数据据分析析与建建模的的软件件应用用程序序。Kepler使使用一一个可可视化化展现现(科科学工工作流流模型型,用用以展展示离离散分分析和和建模模组件件之间间的数数据流流),,使得得创建建可执执行模模型的的过程程简单单化。。Kepler系系统Kepler用用户即即使没没有计计算机机科学学背景景,也也可以以使用用标准准组件件来生生成工工作流流,或或者修修改现现有的的工作作流模模型以以满足足需要要。Kepler集集成了了一些些通用用数据据分析析及可可视化化软件件,如如Matlab、R等,,为领领域科科学家家提供供了方方便。。高级用用户也也能从从Kepler提供供的大大量优优良特特性获获益,,特别别是当当使用用一个个方便便理解解地以以及容容易分分享的的方式式呈现现一个个复杂杂程序序和分分析。。Kepler系系统Kepler构构建于于另一一个开开源可可视化化建模模系统统PtolemyII之之上,,为科科学家家提供供了一一个方方便易易用的的工作作平台台。Kepler是是一个个用户户友好好的程程序,,允许许科学学家通通过简简单地地拖拉拉、连连接一一些特特定的的组件件,建建立满满足条条件的的科学学工作作流,,而不不用手手工整整合大大量的的软件件程序序,也也不用用借助助于计计算机机程序序员的的协助助。Kepler系系统Ptolemy系统统由UCBerkeley大学学开发发,用用于研研究并并发、、实时时以及及嵌入入式系系统的的建模模、仿仿真和和设计计。Kepler系系统很很好地地继承承和发发展了了Ptolemy面面向角角色建建模的的特性性,并并加入入了大大量新新特性性,用用于支支持科科学工工作流流。主主要体体现在在对科科学数数据的的获取取、处处理。。Kepler系系统术语角色(actor)):执执行一一系列列复杂杂操作作的组组件,,是SWF中处处理科科学数数据的的实体体。参数(parameter)):角角色可可配置置的值值。端口(port)::角色色间供供相互互连接接的通通道,,有输输入端端口和和输出出端口口。连接(relation)::用于于连接接角色色的端端口,,是数数据传传递的的通道道。Kepler系系统DirectorActorActorActorPortPortTheDirectorcontrolsthesequenceofactorexecution.Eachactortakesdataonitsinputports,processesthatdata,andsendresultsitsoutputports.ComponentTabWorkflowDisplayPanelSearchableComponentListAnactor‘‘fires’,placingtheresultingdatainacontainercalleda‘‘token’.Thedatatokenthenflowsfromtheoutputporttotheinputportofconnectedactors.DataTokenDataTokenBeginworkflowexecutionbuttonActorstransforminputtokensintooutputdatatokenswhichthengetpassedtothenextactorundercontrolofthedirector.Kepler系系统在用Kepler/PtolemyII构构建的的科学学工作作流中中,独独立处处理具具体任任务的的组件件实体体被称称为““actor””。“actor””之间间通信信的接接口是是“port””,有有inputport和outputport两种种。actor使用“parameter”来配置置和定制相相关的行为为。actor之间通过过“channel”相互连连接。Kepler系统类型定义良良好的面向向角色工作作流模型Defineaworkflow:W=<A,D,ΣΣ,M,Φ>A:asetofActorsD:asetofconnectionsΣ:i/o-signatureofWM:adirector(modelofcomputation)Φ:asetofconstraintsKepler系统“director”指定了了模型执行行的语义,,定义了actor如何执行行,以及相相互之间如如何通信。。用户定制制好的工作作流模型,,包括一个个特定领域域的“director”,,以及至少少一个“actor”。工作作流执行的的时候,““director”控制数数据在“actor”中的流流动,按照照定制好的的流程,调调度部署每每个“actor””的迭代执执行。Kepler系统在Kepler/PtolemyII系统中,,定制好的的科学工作作流模型以以XML文文件形式存存储,该XML文件件满足MoML(ModelingMarkupLanguage))XML模模式要求。。MoML使使用DTD(文档类类型定义))定义。Kepler系统ContributorsforKepler基于web的科学工工作流系统统该系统拟提提供给用户户(具体领领域研究人人员)一个个基于web的简单单易用的工工具,用于于对数据密密集型科学学实验的全全过程。该该方案使用用Web服服务、SRB、FTP等多种种方式获取取研究所需需要的科学学数据,并并通过实现现在web浏览器上上的VML/SVG可视化操操作界面,,定制满足足需求的工工作流实例例,提交给给后台Kepler/PtolemyII工作作流引擎服服务器,经经过对所获获取的数据据调用科学学数据专有有的处理软软件(包括括NCL、、Matlab、CDO等))进行分析析计算,最最终得到所所需要的可可视化结果果或是将结结果数据反反馈给用户户。基于工作流流的科学数数据分析平平台分布式数据分布式数据算法模型个性化的Web空间1)数据分析流程可视化定制2)数据和算法的管理…模型选择数据资源定位工作流的计算数据和模型的结合计算结果返回应用结果流程定制模型和数据管理根据结果评价不断迭代科研人员模型管理数据管理基于web的科学工工作流系统统体系架构图图数据资源层层完成对物理理资源及分分布式资源源(大规模模科学数据据,如IPCC、NCAR等等)的存取取。算法模型库库简单算法::加、减、、乘、除等等复杂操作::统计、聚聚类分析等等高性能计算算环境基于web的科学工工作流系统统工作流引擎擎及中间件件层提供一个稳稳定的工作作流引擎,,并支持持资源、引引擎、web等之间间的通信。。使用Kepler::管理actor的分分类信息;;处理工作流流实例的运运行;动态添加算算法模型((actor)。基于web的科学工工作流系统统Web接口口层提供给用户户一个设计计良好、方方便易用的的接口,以以组装、查查看、执行行、管理工工作流实例例。提供给用于于一个一站站式服务的的web环环境,从数数据资源获获取、结果果数据反馈馈、用户信信息管理、、及其它服服务。使用Ajax等web技术开开发。基于web的科学工工作流系统统数据Datamanager输入reader运算operator分析Scianalyzer输出outputer可视化visualizeStoragesearchNCL,NCOCDO,MATLABNCL,NCOCDO,MATLABNCL,AVSMATLABNCL,MATLAB基于web的科学工工作流系统统对实验自动动化流程提提供了以下下支持:读写数据rapidprototypingexperimentcomputingsystems隐藏了资源源之间整合合的细节管理一个实实验的整个个生命周期期Thanks!9、静夜四无无邻,荒居居旧业贫。。。12月-2212月-22Sunday,December25,202210、雨中黄叶叶树,灯下下白头人。。。19:33:4719:33:4719:3312/25/20227:33:47PM11、以我独沈久久,愧君相见见频。。12月-2219:33:4719:33Dec-2225-Dec-2212、故人江海别别,几度隔山山川。。19:33:4719:33:4719:33Sunday,December25,202213、乍见见翻疑疑梦,,相悲悲各问问年。。。12月月-2212月月-2219:33:4719:33:47December25,202214、他乡乡生白白发,,旧国国见青青山。。。25十十二二月20227:33:47下下午19:33:4712月月-2215、比比不不了了得得就就不不比比,,得得不不到到的的就就不不要要。。。。。十二二月月227:33下下午午12月月-2219:33December25,202216、行行动动出出成成果果,,工工作作出出财财富富。。。。2022/12/2519:33:4719:33:4725December202217、做做前前,,能能够够环环视视四四周周;;做做时时,,你你只只能能或或者者最最好好沿沿着着以以脚脚为为起起点点的的射射线线向向前前。。。。7:33:47下下午午7:33下下午午19:33:4712月月-229、没有失失败,只只有暂时时停止成成功!。。12月-2212月-22Sunday,December25,202210、很多事事情努力力了未必必有结果果,但是是不努力力却什么么改变也也没有。。。19:33:4719:33:4719:3312/25/20227:33:47PM11、成功功就是是日复复一日日那一一点点点小小小努力力的积积累。。。12月月-2219:33:4719:33Dec-2225-Dec-2212、世间间成事事,不不求其其绝对对圆满满,留留一份份不足足,可可得无无限完完美。。。19:33:4719:33:4719:33Sunday,December25,202213、不知香积积寺,数里里入云峰。。。12月-2212月-2219:33:4719:33:47December25,202214、意志坚强强的人能把把世界放在在手中像泥泥块一样任任意揉捏。。25十二二月20227:33:47下下午19:33:4712月-2215、楚楚塞塞三三湘湘接接,,荆荆门门九九派派通通。。。。。十二二月月227:33下下午午12月月-2219:33December25,202216、少少年年十十五五二二十十时时,,步步行行夺夺得得胡胡马马骑骑。。。。2022/12/2519:33:4719:33:4725December202217、空空山山新新雨雨后后,,天天气气晚晚来来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论