基因测序数据处理平台高性能解决方案_第1页
基因测序数据处理平台高性能解决方案_第2页
基因测序数据处理平台高性能解决方案_第3页
基因测序数据处理平台高性能解决方案_第4页
基因测序数据处理平台高性能解决方案_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基因测序数据处理平台高性能方案C o r p o r a t e P r o f I l e 2 0 1 4C O N T E N T S背景介绍数据处理需求平台建设方案典型案例存储需求量大测序仪原始数据预处理数据最终结果数据处理集群预处理服务器12345流程复杂Raw dataClean dataHi-quality SAM/BAMReferenceSNPIndelPAVSVCoverageSAM/BAMpedigreephenotypeLD and HaplotypeBreeding patternSNP Breeding valueGenome sizeSNP diversityFunc

2、tion AnnotationSNVdatGenome annotationNGSQTtoolkitsoapdenovoBWAsamtoolsHaploviewsamtoolspindel流程复杂NGSQTtoolkitSoapdenovo/velvet/SGA/ALLPATHS-LGSNAP,Glimmer,genscanRepeatmastLTR_findBlast,genewisemummer,blastClean dataClean dataDraft genomeGenome SizeRepbaseGenenr/nt,swiss-protein,TrEMBL,KEGG,GO,inte

3、rproTEGene annotationi-ADHoResimilar BlockSynteny BlockRaw data软件众多SOAPdenovo,Velvet,CAP3,ABySS,ALLPATHS-LG,ARACHNE,MIRA,SSAKE,etc.基因组拼接Trinity,SOAPdenovo-Trans,CD-HIT,MIRA,etc.转录组拼接BLAST,FASTA,HMMER,MUMmer,MUSCLE,ClustalW,SOAP,MAQ,Corona,BWA,Bowtie,etc.序列比对tRNAscan,Snoscan,miRanda,Rfam_scan,Interpr

4、oScan、MEME/MAST,Mdscan,etc.基因组注释GLEAN,Glimmer,GeneMark,AUGUSTUS,GENSCAN,TwinScan,etc.基因预测Phylip,MEGA,nj_tree,Structure,PAUP,etc.进化分析Joinmap,Onemap,Haploview,MapQTL,Germline,phase,etc.连锁,LD,QTLRepeatMasker,Trf,etc.重复序列识别应用特征- BWA基本上只做整型计算单节点有线性加速比对内存带宽有一定要求对存储带宽有需求应用特征- SOAPdenovo计算基本为整形计算,会有很少量的向量运算

5、。大部分时间只能使用单核进行计算,扩展性能不好对内存大小和内存带宽有较高的需求对网络带宽有一定需求,这部分需求主要用来请求存储数据需求总结计算量大部分应用需要大内存的节点数据访问量巨大,对存储性能、容量要求高开源软件众多,安装复杂部分应用的工作流程较为复杂,自动化较低C o r p o r a t e P r o f I l e 2 0 1 4C O N T E N T S背景介绍数据处理需求平台建设方案典型案例整体解决方案机房基础设施:机房、机柜、配电、空调等通用计算节点胖节点计算网络存储系统监控管理网络网络安全集群功能节点HPC基础软件环境集群监控管理软件作业调度软件应用Web Porta

6、lHPC应用:测序仪数据处理软件、云计算平台基础设施层硬件资源层基础软件层应用软件层计算主力-双路刀片产品定位:聚焦大型数据中心应用适用于高性能计算应用;满足教育、云计算、政府等 关键用户需求等应用TC3600机箱10U/10片计算节点Intel Romley-EP双路,AMD Opteron 双路,AMD Opteron 四路;高速网络刀箱支持:1*QDR Infiniband交换模块,可对外提供18个40Gbps的Infiniband接口;千兆网络2 *千兆交换模块或1 *千兆交换+1 *直通模块FC2*8Gb FC交换模块I/O扩展10*IO刀片扩展模块,可以支持最多可支持10 块标准P

7、CI-E卡 和20块硬盘管理提供CMM模块管理功能,支持IPMI和KVM over IP,提供基于web界面的嵌入式管理软件散热支持4组灵动智能散热模组供电2+2或3+1高效热插拔冗余电源,单体电源效率达85%以上外形10U刀片式服务器全球首款支持SSI标准刀片系统计算主力-双路刀片产品定位:适用于大型数据中心应用聚焦高性能计算应用;满足教育、科研、云计算 政府等关键用户需求等应用TC4600机箱5U/10片计算节点Intel 双路(支持E5-2600系列处理器)高速网络刀箱对外可提供最高速10个56Gbs FDR Infiniband接口,满足56Gb/s全线速连接需求千兆网络2 *千兆交换

8、模块或1 *千兆交换+1 *直通模块或1*千兆交换模块(2*万兆端口+6千兆口)管理提供CMM模块管理功能,支持IPMI和KVM over IP,提供基于web界面的嵌入式管理软件散热支持4组灵动智能散热模组供电可配置 4个热插拔2000W 交流电源模块,可提供N+1,N+N电源冗余配置;单体电源效率达90%以上外形5U刀片式服务器高性价比&高密度完美组合刀片系统大内存节点 单机更高的核心数,可扩展至48-80核心,提供更高的单机性能,对于共享存储并行程序提供更大的扩展性内存插槽数多,可提供单机1TB内存容量,甚至更大8块以上的本地硬盘扩展能力,提供更高的本地存储性能和更大的本地存储空间更大的

9、空间,丰富的插槽,可以适合插入各种类型的外插卡,提供更为灵活的配置和扩展1 单机性能高2 内存容量更大3 更高的IO4 丰富的扩展能力I980-G10I840-G10/I840-G25大内存节点I980-G10最大单机120个物理核心;采用intel E7-8800 V2系列处理器;性能卓越16个PCIe 3.0扩展,支持热插拔;128根内存插槽;16个热插拔硬盘位:扩展能力强50余项稳定性设计, 关键部件全部实现冗余;冗余多路径设计,支持硬件分区;液晶监控屏实时监控硬件状态;所有关键部件支持热插拔,“秒”级维护;稳定可靠存储系统设计高性能易扩展高可靠数据分布化简易管理自动负载均衡ParaSt

10、or200并行存储系统如何解决HPC集群全局共享存储的性能和扩展性问题?分布式并行存储系统性能:多个IO通道,提高聚合带宽针对IO密集应用,条带化提高单流IO性能扩展性:元数据和数据分离,消除瓶颈自动负载均衡,容量和性能线性增长在线扩容,不中断应用高可靠性:多活冗余的元数据控制冗余的数据网络,数据多副本或N+M校验无单点故障、保障数据安全性价比:使用通用、廉价设备构建高可靠的存储系统分级存储,区分冷热数据,优化成本Parastor200并行存储系统数据控制器数据控制器数据控制器索引控制器索引控制器索引控制器索引控制器数据控制器数据控制器数据控制器管理控制器管理控制器客户端管理网归档数据迁移并发

11、读写并发读写并发读写数据迁移元数据读写Parastor200高性能并行集群架构设计满足高并发IO需求条带优化提供高单流IO带宽聚合带宽=数据控制器带宽线性叠加,随容量线性增长全Active索引集群提升海量小文件处理能力2.5GBps2.5GBps2.5GBps2.5GBps2.5GBps2.5GBps以太网交换机1以太网交换机2索引控制器索引控制器/home/appl/data/web/important_big_spreadsheet.xls/home/appl/data/web/big_architecture_drawing.ppt/home/appl/data/web/unstruct

12、ured_big_video.mpg/home/appl/data/web/home/appl/data/web/important_big_spreadsheet.xls/home/appl/data/web/big_architecture_drawing.ppt/home/appl/data/web/unstructured_big_video.mpg 逻辑层0123456789101101234567891011abcdefghijklabcdefghijklABCDEFGHIJKLABCDEFGHIJKL02ABC全冗余架构设计 物理层1Parastor200-高可靠相比传统RAID

13、优势重建无人值守数据重建无人值守。如,深夜磁盘出现故障,传统RAID要立即人工更换磁盘,而ParaStor只要有剩余空间就可以进行数据重建更快重建速度数据重建并发进行,1TB数据半小时内重建完成意外断电保护UPS管理节点关闭服务机柜断电防止全系统掉电后数据丢失ParaStor系统UPS监控与存储系统自我保护联动全系统数据检查数据服务器元数据服务器元数据服务器数据服务器数据服务器数据服务器数据服务器数据服务器.哪些文件不一致,哪些文件损坏,是否有垃圾?Parastor200易扩展LAN123412341234数据控制器数据控制器数据控制器初始状态并行数据I/O数据控制器数据控制器数据控制器123

14、412341234数据控制器数据控制器数据控制器扩展后并行数据I/O增加数据控制器按策略自动数据迁移Parastor200易管理系统管理系统监控网络拓扑网络系统需求分析管理网管理网主要用于系统管理、作业提交,IPMI访问等功能。管理网对系统性能要求较低,一般来说千兆即可满足需求。管理网是系统级节点,可靠性能要求较高。计算网计算网络主要用于计算过程中各计算节点之间的高速网络通讯,计算网络的选择主要依赖于应用对网络的需求。存储网存储网络主要用于计算节点、管理节点等客户端节点与IO节点或者并行存储系统之间的数据访问。存储网络具有客户端数量多,向服务端汇聚的访问特点,可选择客户端千兆,服务端万兆的以太

15、网方案。网络系统集群管理软件全新的扁平化设计界面清晰简洁精心组织的功能流程更加易用符合用户习惯集群管理软件-功能特色系统功能全面集群管理软件-集群管理用户管理支持进行本地OS用户和基于第三方的集中OS用户管理,适合多种场景;对多用户同时进行操作时,可进行事物控制 多种系统部署方式支持基于操作系统镜像和光盘镜像的部署方式支持用户自定义内核部署系统 快速配置集群实现集群一键优化配置可选择针对性的配置选项,比如一键配置系统服务等重要文件自动由管理节点向计算节点同步集中的带外管理多节点支持通过IPMI方式远程开关机,可提前预定义不同角色服务器开关机顺序等策略通过IPMI实现集中iKVM,轻松管理集群传

16、统集群管理模式费时费力,运维人员压力大集群管理优化以减轻运维人员工作复杂工作为目标,减少出错可能,持续提升系统稳定性安装 OS配置网络配置用户安装软件配置应用远程管理集群管理软件-集群监控性能热图,更灵活、更直观,支持多指标切换作业热图,作业分布及资源使用一目了然集群管理软件-集群监控所见即所得,方便易用集群管理软件-集群监控刀箱/整机柜监控,3D技术,还原真实Gridview系统监控界面集群管理软件-一键配置集群让集群更加易用易管理集群管理软件-应用安装集成常用高性能软件作业调度系统管理员的需求?丰富的调度策略,提高资源利用率异构资源的调度用户的充值、计费管理商业软件license调度作业抢

17、占、资源预留作业关联关系、作业流控制批量作业支持及调度性能使用用户的期望?简单易用,避免命令行操作,针对应用的Web封装,应用参数方便关联选择方便查看权限和余额,可以在线申请错误检查:资源是否超限?输入文件检查作业状态变更通知、作业运行状态追踪,作业输出方便查看VNC可视化交互式作业提交Gridview作业调度系统Gridview ClusQuota生物云计算平台生物云计算平台集群计算系统数据存储系统用户层服务层接口层基础层用户管理软件管理数据管理资源配置群组管理流程管理任务管理业务逻辑处理数据存储与访问Web服务提供消息传递数据管理Web Service计算任务Web Service用量统计

18、Web ServiceJson规范定义消息描述,HTTP协议传递消息生物云计算平台资源管理可在线配置系统资源,包括计算机集群系统、存储系统、配额管理、群组管理、权限管理等。软件配置可在线配置生物信息应用软件或程序,部署个人开发的软件或程序,并可实现私有化或公有化设置。流程定制可在线配置生物信息数据处理流程,即可配置个人开发的数据分析程,并可实现私有化或公有化设置。数据管理可在线进行数据归类管理、设置数据访问权限、数据发布与共享。作业提交在线提交计算任务,可指定参与计算的CPU数量。任务监控 在线监控作业运行情况,实时掌握任务的进行进度,并给出每个作业的详细运行状态及运行报告。生物云计算平台创建

19、应用程序审核应用程序通过系统自动生成应用程序界面在线使用应用程序用户系统管理员传统数据中心能耗组成Source: EYP Mission Critical Facilities Inc. New YorkData Center Power ConsumptionPUE (Power Usage Effectiveness)的简写,是评价数据中心能源效率的指标,是数据中心消耗的所有能源与IT负载使用的能源之比PUE = 数据中心总设备能耗/IT设备能耗,PUE是一个比率,基准是2,越接近1表明能效水平越好数据中心效率评价基础设施 冷热通道隔离,气流组织有序 就近精确送风,循环风阻小,风机功耗低

20、水平送风,解决机柜垂直面温度梯度 提高空调送风温度,降低制冷功耗 针对设备制冷,无需过度冷却房间机房级Room Level机柜排级Row Level机柜级Rack Level机柜冷池级 Pool Level从“冷库”到“冰箱”转变 解决高密度制冷瓶颈 提高空调冷量利用率 降低空调系统自身功耗计算中心机房制冷模式的发展传统的机房级 Room Level传统第三代数据中心机房:精密空调+地板下送风方式2013 IDC数据 国内此种建设模式占总数的58.6%机柜池级 Pool Level地板下送风空调+冷/热池封闭 或 行间空调+冷/热池封闭 两种方式占机房总比例21%,并逐年增加机柜排级Row L

21、evel行间空调+冷热通道完全隔离的全封闭机柜占机房比例18%,并逐年增加机房制冷模式选型分析初期建设成本 + 运维成本设备运转时间机房级PUE2.0单柜5-10kW冷池级/机柜排级PUE 1.6,单柜30kW系统规模考量计算密度考量持续运维成本初期建设成本提高制冷效率,降低PUE的途径改善气流组织,冷热通道分离水平送风、就近精确制冷自然冷却技术CloudBASE机柜排解决方案型号C1000C3000制冷量30KW30KW制冷方式直膨型冷冻水型风量6000m3/h6000m3/h送风方式行间布置,水平送风前后门工艺封闭门宽600mm600mm高2000mm2000mm深1200mm1200mm

22、适用范围单柜15-30KW高密度机房C1000/C3000行间水平送风气流组织CloudBASE C1000/C3000机柜排级CloudBASE池级解决方案CloudBASE C4000池级型号C4000FC4000W制冷量30KW30KW制冷方式直膨型冷冻水型流量6m3/h水温1015度送风方式行间布置,水平送风前后门工艺网孔门配合冷通道封闭形成冷池宽600mm600mm高2000mm2000mm深1200mm1200mm自重250kg340kg适用范围单机柜10-25KW中高密度机房方案拓扑图C o r p o r a t e P r o f I l e 2 0 1 4C O N T E

23、 N T S背景介绍数据处理需求平台建设方案典型案例典型案例计算采用TC3600 双路AMD刀片,四路AMD大内存节点;网络采用万兆上联方案;典型案例计算采用TC3600 双路Intel刀片,四路Intel大内存节点;网络采用QDR;存储采用Parastor200并行文件系统典型案例计算采用TC4600 双路Intel刀片;网络采用FDR;存储采用Parastor200并行文件系统案例列表用户单位主要应用主要配置安装时间北京基因组研究所基因测序TC3600(CB65-G),A840-G10,I640-G152013.11遗传与发育研究所基因测序TC3600(CB62-G20),I840r-GP,Parastor2002013.10计生委科学技术研究所基因测序A8

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论