集群并行文件系统介绍课件_第1页
集群并行文件系统介绍课件_第2页
集群并行文件系统介绍课件_第3页
集群并行文件系统介绍课件_第4页
集群并行文件系统介绍课件_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ASIPP集群系统介绍

报告人:朱应飞导师:罗家融研究员2019年12月21日1ASIPP集群系统介绍报告人:朱应飞2019年12ASIPP报告主要内容文件系统介绍集群文件系统常用集群文件系统Lustre介绍2ASIPP报告主要内容文件系统介绍2ASIPP集群的软件体系机构:操作系统:任何计算机系统的软件基础并行开发库:用于集群中进程通信的软件库作业管理:调度作业并管理集群系统的资源系统管理:管理和监控整个集群系统开发环境:开发和调试高效能应用的开发工具标准应用:一些标准的高性能应用如CFD客户应用:客户特别定制的应用一、集群软件体系机构3ASIPP集群的软件体系机构:一、集群软件体系机构3ASIPP操作系统:并不是每种操作系统都适合集群系统

单任务操作系统:CPU同时只处理任务队列中的一个任务多任务操作系统:基于分时技术的多任务操作系统

多CPU多任务操作系统:在某个时间点上,多个进程同时运行 a)多CPU多任务操作系统+线程

b)多CPU多任务操作系统+消息传递我们的集群使用多CPU多任务操作系统+消息传递平台。它由SMP和PC服务器组成,以Linux为操作系统,以MPI或PVM这种消息传递方式作为通信方法

二、集群操作系统4ASIPP操作系统:并不是每种操作系统都适合集群系统二、集ASIPP文件系统是操作系统的重要组成部分,用于存储程序和数据如何在各节点间高效、一致和简捷的实现数据共享是集群系统对文件系统提出的挑战

3.1、分布式文件系统:相当于本地文件系统,有如下特点:网络透明:对远程和本地的文件访问可以通过相同的系统调用完成位置透明:文件的全路径无需和文件存储的服务绑定,服务器的名称或地址并 不是文件路径的一部分位置独立:正是由于服务器的名称或地址并不是文件路径的一部分,所以文件 存储的位置的改变并不会导致文件的路径改变

分布式文件系统可以使集群的节点间简捷地实现共享。但是为了提供性能,分布式文件系统通常需要使用本地的缓存,它很难保证数据在集群系统范围的一致性。而且往往分布式文件系统中只有一份数据,所以很容易发生单点失效。三、集群文件系统5ASIPP文件系统是操作系统的重要组成部分,用于存储程序和数ASIPP3.2、并行文件系统建立在共享磁盘上的并行文件系统可以克服分布式文件系统的这些缺点通过使用在节点共享的存储设备,并行文件系统具有很多优点:高可用性:克服了分布式文件系统中那种服务器端的单点失效的缺点,提高了 文件系统的可用性负载均衡:有多个访问点,彼此可以协调负载可扩展性:容易扩展容量和访问的带宽

三、集群文件系统6ASIPP3.2、并行文件系统三、集群文件系统6ASIPP3.3、集群中的数据共享形式集群中使用的数据共享的方法常见的有:rsync是建立在本地文件系统之上NFS和Inteemezzo属于分布式文件系统(确切的说,NFS只是网络文件系统)GFS属于并行文件系统Backend-database则属于不同于文件共享的另一种形式的共享。三、集群文件系统7ASIPP3.3、集群中的数据共享形式三、集群文件系统7ASIPPrsync是一种简单的文件共享实现方式集群中的每个节点都有一份数据复本,复本间使用rsync进行同步因为节点需要的数据就在本地,所以这种方法具有很高的可用性,不会出现单点失效现象适用环境:需要共享的数据量很小,而且很少更新三、集群文件系统rsync方式适用于静态网页和小的FTP站点8ASIPPrsync是一种简单的文件共享实现方式三、集群文件ASIPP存储节点通过NFS将自己本地的文件输出,其他节点则把存储节点输出的文件系统mount到本地文件系统NFS方式的存在两个很大的缺点:性能差:因为所有的文件访问都必须经过网络和NFS服务器,所以在访问流量比较大的情况下,网络带宽和NFS服务器都会成为系统的瓶颈。单点失效:如果NFS服务器的系统失效或者网络失效都会使得其他节点无法得到数据,从而使整个集群系统瘫痪。

三、集群文件系统NFS方式适合于共享访问数据量不大的小型集群系统9ASIPP存储节点通过NFS将自己本地的文件输出,其他节点则ASIPPGFS(GlobalFileSystem)实现了存储设备的网络共享GFS的主要优点在于:高可用性:一个GFS客户失效,数据还可以通过其他GFS客户访问扩展性:不需要中心服务器,很容易扩展存储容量和访问带宽

GFS可以将物理上分离的存储设备虚拟为一个存储而且能平衡访问负载GFS实现了文件锁和实时文件系统三、集群文件系统10ASIPPGFS(GlobalFileSystem)实现ASIPPIntermezzo实现了一个分布式的文件系统它采用C/S模式,服务器拥有权威的数据,客户节点仅有本地缓冲的版本,通过普通的网络进行同步Intermezzo支持断开连接下文件操作,在下次恢复连接时,它会集成本地的改动到服务器上Intermezzo拥有象GFS一样的可用性和可扩展性。但它无法保证数据的实时一致性

三、集群文件系统11ASIPPIntermezzo实现了一个分布式的文件系统三、ASIPP基于后端数据库的共享是完全不同于文件共享的方式后端数据库系统解决了数据的一致性、性能、可用性和可扩展性问题但是数据库的访问方法要比文件访问复杂的多

三、集群文件系统12ASIPP基于后端数据库的共享是完全不同于文件共享的方式三、ASIPP目前我们集群上用的是Linux自带的NFS(NetworkFileSystem)文件系统,而不是并行文件系统所谓并行文件系统,是指应用于多机环境的网络文件系统,单个文件的数据采用分条等形式存放于不同的I/O节点之上,支持多机多个进程的并发存取,同时支持元数据和数据的分布存放,并提供单一的目录空间实现一个完整的并行文件系统,需要实现如下两个方面:实现单一的文件映像,并行文件存放在盘阵上的具体分布情况对于用户来说是透明的,并行文件系统在用户看来是一完整的树型结构,在调用时只要给出文件名即可采用条和分区技术,支持一个文件数据在多个磁盘之上和多个进程之间的分布,即多个进程并发读写多个磁盘上的数据四、常见并行文件系统13ASIPP目前我们集群上用的是Linux自带的NFS(NetASIPP常见并行文件系统有:GPFSIBM的产品,是开源的PVFS是开源的Lustre是ClusterFileSystem公司的产品,是开源的GFS(RedHat)、IBRIX是商业软件四、常见并行文件系统14ASIPP常见并行文件系统有:四、常见并行文件系统14ASIPP5.1、GPFS通用并行文件系统GPFS是IBM共享文件系统,起源于IBMSP系统上使用的虚拟共享磁盘技术(VSD)作为这项技术的核心,GPFS是一个并行的磁盘文件系统,它保证在资源组内的所有节点可以并行访问整个文件系统,而且针对此文件系统的服务操作,可以同时安全地在使用此文件系统的多个节点上实现GPFS允许客户共享文件,这些文件分布在不同节点的不同硬盘上,提供许多标转的UNIX文件系统接口,允许应用不需修改或者重新编辑就可以在其上运行GPFS也支持UNIX文件系统的工具,即:用户可以像使用普通文件系统一样使用基于GPFS的文件系统,唯一不同的在于管理GPFS文件系统的命令GPFS提供的文件系统操作服务可以支持并行应用和串行应用,它允许任何节点(属于同一个节点组)上的并行应用同时访问同一个文件或者不同的文件五、开源并行文件系统15ASIPP5.1、GPFS通用并行文件系统五、开源并行文ASIPP5.1.1GPFS文件系统优点:提高系统性能:允许在同一nodeset内的多进程或者应用使用标准文件系统调用,同时访问(并发读写)同一个文件,通过将nodeset内读写操作分布到多个磁盘上,大大增加了文件系统的带宽,通过整个系统的负载均衡避免了某个磁盘过大的读写数据一致性:允许任意节点通过各自独立的路径到达同一个文件。即使节点无法正常工作,GPFS也可以找到其它的路径数据安全性:一种日志文件系统,为不同节点建立各自独立的日志。日志种记录metadata的分布,一旦节点发生故障后,可以保证快速恢复数据系统可扩展性:系统资源可以动态调整,可以在文件系统挂载情况下添加或者删除硬盘。可以在不重新启动GPFS服务情况下添加新节点管理简单方便:自动在各个节点间同步配置文件和文件系统信息,而且在同一个nodeset内,对GPFS的管理可以在任一个节点上进行五、开源并行文件系统16ASIPP5.1.1GPFS文件系统优点:五、开源并行文ASIPP5.1.2、GPFS系统架构五、开源并行文件系统GPFS系统架构如左图所示:GPFSkernelmoduleextension

PortabilityLayermodule

RSCTdaemon

GPFSdaemonGPFSkernelmoduleextension(mmfs)核心扩展模块提供与Linux核心中VFS(虚拟文件系统)的接口

GPFSdaemon(mmfsd)

GPFS守护进程是GPFS文件系统的核心进程,多线程进程,负责与其它节点的GPFS守护进程通信,来保证数据的一致性17ASIPP5.1.2、GPFS系统架构五、开源并行文件系ASIPP5.2、PVFS并行虚拟文件系统PVFS为Linux集群提供了高性能和可扩展行的并行文件系统

PVFS提供重要的4个功能:一致性的访问名字空间支持现存的系统访问方式数据分布在集群节点不同机器不同的硬盘上为应用程序提供高性能的数据访问方式

五、开源并行文件系统18ASIPP五、开源并行文件系统18ASIPPPVFS逻辑结构视图PVFS使用了三种类型的节点:管理节点(mgr):运行元数据服务器,处理所有的文件元数据(元数据是描述文件信息的文件)I/O节点(iod):运行I/O服务器,存储文件系统的文件数据,负责数据的存储和检索计算节点:处理应用访问,利用libpvfs这一客户端的I/O库,从底层访问PVFS服务器I/O节点计算节点则一个集群的节点可以提供其中的一种功能,也可以同时提供其中的两种或者全部三种功能五、开源并行文件系统19ASIPPPVFS逻辑结构视图PVFS使用了三种类型的节点ASIPPPVFS的运行机理如左图所示:当打开、关闭、创建或删除一个文件时,计算节点上的一个应用通过libpvfs直接与元数据服务器通信在管理节点定位到一个文件之后,它向这个应用返回文件的位置,然后使用libpvfs直接联系相应的I/O节点进行读写操作,不必与元数据服务器通信,从而大大提高了访问效率

五、开源并行文件系统20ASIPPPVFS的运行机理如左图所示:五、开源并行文件系统ASIPP5.3、Lustre集群文件系统Lustre集群文件系统(CFS)是一种新兴的集群文件系统软件,显著提高了I/O速度,降低企业购买存储设备的成本集群文件系统已经在大学、实验室和超级计算研究中心等得到广泛应用,而且慢慢进入通用商业计算领域开源的Lustre技术由美国能源部开发,惠普公司提供商业支持,惠普公司发布了可扩展文件系统(ScalableFileShare)第2版,此产品是去年年底推出,包含一台服务器和一个软件包,使用Lustre技术来分布集群内的存储服务SFS(ScalableFileShare)系统允许集群里的Linux节点能以高达每秒35GB的速度读取数据,而且允许高达512TB的总存储容量五、开源并行文件系统21ASIPP5.3、Lustre集群文件系统五、开源并行文件系ASIPP五、Lustre集群文件系统(CFS)Lustre是基于Linux平台的一个可扩展的集群文件系统,它使用基于对象的(存储)设备管理,用来替代以往的磁盘块管理方法Lustre系统的组件主要有三部分构成:MDS元数据服务器OSS目标存储服务器Lustre客户端22ASIPP五、Lustre集群文件系统(CFS)LustrASIPP谢谢!汇报结束!23ASIPP谢谢!汇报结束!23ASIPP集群系统介绍

报告人:朱应飞导师:罗家融研究员2019年12月21日24ASIPP集群系统介绍报告人:朱应飞2019年12ASIPP报告主要内容文件系统介绍集群文件系统常用集群文件系统Lustre介绍25ASIPP报告主要内容文件系统介绍2ASIPP集群的软件体系机构:操作系统:任何计算机系统的软件基础并行开发库:用于集群中进程通信的软件库作业管理:调度作业并管理集群系统的资源系统管理:管理和监控整个集群系统开发环境:开发和调试高效能应用的开发工具标准应用:一些标准的高性能应用如CFD客户应用:客户特别定制的应用一、集群软件体系机构26ASIPP集群的软件体系机构:一、集群软件体系机构3ASIPP操作系统:并不是每种操作系统都适合集群系统

单任务操作系统:CPU同时只处理任务队列中的一个任务多任务操作系统:基于分时技术的多任务操作系统

多CPU多任务操作系统:在某个时间点上,多个进程同时运行 a)多CPU多任务操作系统+线程

b)多CPU多任务操作系统+消息传递我们的集群使用多CPU多任务操作系统+消息传递平台。它由SMP和PC服务器组成,以Linux为操作系统,以MPI或PVM这种消息传递方式作为通信方法

二、集群操作系统27ASIPP操作系统:并不是每种操作系统都适合集群系统二、集ASIPP文件系统是操作系统的重要组成部分,用于存储程序和数据如何在各节点间高效、一致和简捷的实现数据共享是集群系统对文件系统提出的挑战

3.1、分布式文件系统:相当于本地文件系统,有如下特点:网络透明:对远程和本地的文件访问可以通过相同的系统调用完成位置透明:文件的全路径无需和文件存储的服务绑定,服务器的名称或地址并 不是文件路径的一部分位置独立:正是由于服务器的名称或地址并不是文件路径的一部分,所以文件 存储的位置的改变并不会导致文件的路径改变

分布式文件系统可以使集群的节点间简捷地实现共享。但是为了提供性能,分布式文件系统通常需要使用本地的缓存,它很难保证数据在集群系统范围的一致性。而且往往分布式文件系统中只有一份数据,所以很容易发生单点失效。三、集群文件系统28ASIPP文件系统是操作系统的重要组成部分,用于存储程序和数ASIPP3.2、并行文件系统建立在共享磁盘上的并行文件系统可以克服分布式文件系统的这些缺点通过使用在节点共享的存储设备,并行文件系统具有很多优点:高可用性:克服了分布式文件系统中那种服务器端的单点失效的缺点,提高了 文件系统的可用性负载均衡:有多个访问点,彼此可以协调负载可扩展性:容易扩展容量和访问的带宽

三、集群文件系统29ASIPP3.2、并行文件系统三、集群文件系统6ASIPP3.3、集群中的数据共享形式集群中使用的数据共享的方法常见的有:rsync是建立在本地文件系统之上NFS和Inteemezzo属于分布式文件系统(确切的说,NFS只是网络文件系统)GFS属于并行文件系统Backend-database则属于不同于文件共享的另一种形式的共享。三、集群文件系统30ASIPP3.3、集群中的数据共享形式三、集群文件系统7ASIPPrsync是一种简单的文件共享实现方式集群中的每个节点都有一份数据复本,复本间使用rsync进行同步因为节点需要的数据就在本地,所以这种方法具有很高的可用性,不会出现单点失效现象适用环境:需要共享的数据量很小,而且很少更新三、集群文件系统rsync方式适用于静态网页和小的FTP站点31ASIPPrsync是一种简单的文件共享实现方式三、集群文件ASIPP存储节点通过NFS将自己本地的文件输出,其他节点则把存储节点输出的文件系统mount到本地文件系统NFS方式的存在两个很大的缺点:性能差:因为所有的文件访问都必须经过网络和NFS服务器,所以在访问流量比较大的情况下,网络带宽和NFS服务器都会成为系统的瓶颈。单点失效:如果NFS服务器的系统失效或者网络失效都会使得其他节点无法得到数据,从而使整个集群系统瘫痪。

三、集群文件系统NFS方式适合于共享访问数据量不大的小型集群系统32ASIPP存储节点通过NFS将自己本地的文件输出,其他节点则ASIPPGFS(GlobalFileSystem)实现了存储设备的网络共享GFS的主要优点在于:高可用性:一个GFS客户失效,数据还可以通过其他GFS客户访问扩展性:不需要中心服务器,很容易扩展存储容量和访问带宽

GFS可以将物理上分离的存储设备虚拟为一个存储而且能平衡访问负载GFS实现了文件锁和实时文件系统三、集群文件系统33ASIPPGFS(GlobalFileSystem)实现ASIPPIntermezzo实现了一个分布式的文件系统它采用C/S模式,服务器拥有权威的数据,客户节点仅有本地缓冲的版本,通过普通的网络进行同步Intermezzo支持断开连接下文件操作,在下次恢复连接时,它会集成本地的改动到服务器上Intermezzo拥有象GFS一样的可用性和可扩展性。但它无法保证数据的实时一致性

三、集群文件系统34ASIPPIntermezzo实现了一个分布式的文件系统三、ASIPP基于后端数据库的共享是完全不同于文件共享的方式后端数据库系统解决了数据的一致性、性能、可用性和可扩展性问题但是数据库的访问方法要比文件访问复杂的多

三、集群文件系统35ASIPP基于后端数据库的共享是完全不同于文件共享的方式三、ASIPP目前我们集群上用的是Linux自带的NFS(NetworkFileSystem)文件系统,而不是并行文件系统所谓并行文件系统,是指应用于多机环境的网络文件系统,单个文件的数据采用分条等形式存放于不同的I/O节点之上,支持多机多个进程的并发存取,同时支持元数据和数据的分布存放,并提供单一的目录空间实现一个完整的并行文件系统,需要实现如下两个方面:实现单一的文件映像,并行文件存放在盘阵上的具体分布情况对于用户来说是透明的,并行文件系统在用户看来是一完整的树型结构,在调用时只要给出文件名即可采用条和分区技术,支持一个文件数据在多个磁盘之上和多个进程之间的分布,即多个进程并发读写多个磁盘上的数据四、常见并行文件系统36ASIPP目前我们集群上用的是Linux自带的NFS(NetASIPP常见并行文件系统有:GPFSIBM的产品,是开源的PVFS是开源的Lustre是ClusterFileSystem公司的产品,是开源的GFS(RedHat)、IBRIX是商业软件四、常见并行文件系统37ASIPP常见并行文件系统有:四、常见并行文件系统14ASIPP5.1、GPFS通用并行文件系统GPFS是IBM共享文件系统,起源于IBMSP系统上使用的虚拟共享磁盘技术(VSD)作为这项技术的核心,GPFS是一个并行的磁盘文件系统,它保证在资源组内的所有节点可以并行访问整个文件系统,而且针对此文件系统的服务操作,可以同时安全地在使用此文件系统的多个节点上实现GPFS允许客户共享文件,这些文件分布在不同节点的不同硬盘上,提供许多标转的UNIX文件系统接口,允许应用不需修改或者重新编辑就可以在其上运行GPFS也支持UNIX文件系统的工具,即:用户可以像使用普通文件系统一样使用基于GPFS的文件系统,唯一不同的在于管理GPFS文件系统的命令GPFS提供的文件系统操作服务可以支持并行应用和串行应用,它允许任何节点(属于同一个节点组)上的并行应用同时访问同一个文件或者不同的文件五、开源并行文件系统38ASIPP5.1、GPFS通用并行文件系统五、开源并行文ASIPP5.1.1GPFS文件系统优点:提高系统性能:允许在同一nodeset内的多进程或者应用使用标准文件系统调用,同时访问(并发读写)同一个文件,通过将nodeset内读写操作分布到多个磁盘上,大大增加了文件系统的带宽,通过整个系统的负载均衡避免了某个磁盘过大的读写数据一致性:允许任意节点通过各自独立的路径到达同一个文件。即使节点无法正常工作,GPFS也可以找到其它的路径数据安全性:一种日志文件系统,为不同节点建立各自独立的日志。日志种记录metadata的分布,一旦节点发生故障后,可以保证快速恢复数据系统可扩展性:系统资源可以动态调整,可以在文件系统挂载情况下添加或者删除硬盘。可以在不重新启动GPFS服务情况下添加新节点管理简单方便:自动在各个节点间同步配置文件和文件系统信息,而且在同一个nodeset内,对GPFS的管理可以在任一个节点上进行五、开源并行文件系统39ASIPP5.1.1GPFS文件系统优点:五、开源并行文ASIPP5.1.2、GPFS系统架构五、开源并行文件系统GPFS系统架构如左图所示:GPFSkernelmoduleextension

PortabilityLayermodule

RSCTdaemon

GPFSdaemonGPFSkernelmoduleextension(mmfs)核心扩展模块提供与Linux核心中VFS(虚拟文件系统)的接口

GPFSdaemon(mmfsd)

GPFS守护进程是GPFS文件系统的核心进程,多线程进程,负责与其它节点的GPFS守护进程通信,来保证数据的一致性40ASIPP5.1.2、GPFS系统架构五、开源并行文件系ASIPP5.2、PVFS并行虚拟文件系统PVFS为Linux集群提供了高性能和可扩展行的并行文件系统

PVFS提供重要的4个功能:一致性的访问名字空间支持现存的系统访问方式数据分布在集群节点不同机器不同的硬盘上为应用程序提供高性能的数据访问方式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论