高能物理数据处理与高性能计算应用_第1页
高能物理数据处理与高性能计算应用_第2页
高能物理数据处理与高性能计算应用_第3页
高能物理数据处理与高性能计算应用_第4页
高能物理数据处理与高性能计算应用_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、高能物理数据处理与高性能计算应用高能物理计算挑战2高能物理的目标探索物质微观结构、宇宙起源等自然规律、新物理寻找为什么物质有质量?标准模型不能 解释W,Z玻色子为什么有质量为什么宇宙中观测到的物质只有理论预言的4%?反物质在哪里?为什么自然 界的正反物质是不对称的?宇宙大爆炸刚发生时的物质 形态是什么样的?3高能物理科学研究物质结构组成(理论)夸克、轻子、玻色子强力、弱力、电磁力、万有引力粒子加速器(装置)粒子物理研究的重要手段之一BEPCII,LHC,CEPC等等探测器 (实验)探测各类粒子,用于科学研究BESIII, JUNO, LHAASO,ATLAS, CMS 数据分析(科学发现)暗物

2、质/暗能量宇宙起源高能物理研究三大前沿能量前沿大型强子对撞机(LHC)及其探测器(ATLAS, Alice、CMS, LHCb)的物理实验为代表精度前沿中微子实验(美国DUNE, 中国大亚湾、 江门中微子实验等),muon反常磁矩测 量等宇宙前沿宇宙线测量,宇宙起源和演化、暗物质暗能量等5CERN的大型强子对撞机LHCHiggs, SUSY,Strings, Dark Matter,.6LHC数据与存储2016: 49.4 PB LHC raw data/58 PB all experiments/73 PB total200 PB on Disk3.3 Bil files400GB/s di

3、sk IO300 PB on tape totally7中国高能物理实验、北京正负电子对撞机BECPII已经积累近10PB大亚湾中微子实验200TB/年已经积累1PB以上数据江门中微子实验JUNO地下500米实验大厅2020年运行,每年将产生2PB数据高海拔宇宙线实验LHAASO位于四川稻城海子山,海拔4400米2018年开始部分运行,建成后每年将产生6PB数据HXMT(“慧眼”卫星)、CSNS(中国散裂中子源)HEPS(高能同步辐射光源)等等8高性能计算和大数据处理高能物理科学研究能否成功依赖于计算技术的发展实验采集到的数据需要强大的计算系统对其进行分析处理物理模拟及理论计算需要强大的高性能

4、计算支撑不同的数据处理任务采用不同的计算模式粒子加速器和探测器的计算机模拟设计:计算密集型粒子探测器观测到的海量科学数据的分析处理:数据密集型高能物理理论研究中的高强度的科学计算:计算密集型例如格点量子色动力学(格点QCD)和计算宇宙学9美国高能物理HPC计算现状和未来需求计算任务当前计算量(核小时/年)2025年需求(核小时/年)当前存储(磁盘)2025年存储(磁盘)2025年网络加速器建模10M-100M10G-100G计算宇宙学100M-1G100G-1000G10PB100PB300Gb/s格点QCD1G100G-1000G1PB10PB理论物理1M-10M100M-1G宇宙前沿10M

5、-100M1G-10G1PB10-100PB能量前沿100M10G-100G1PB100PB300Gb/s强度前沿10M100M-1G1PB10-100PB300Gb/sSource: /abs/1603.09303到2025年,高能物理前沿研究所需的计算量将比目前提高2个数量级 需要数千万甚至上亿个CPU核10高能物理计算的技术演变为应对大数据,计算技术一直在不断的演化发展可扩展性,高可靠性,大规模,高性能,易用性,20年前: 本地集群Beowulf cluster、存储区域网络、局域网15年前, 广域网上的分布式计算网格计算、 分布式存储系统、广域网数据传输10年前,云计算与大数据技术虚拟

6、化、云计算、Map-Reduce,NoSQL、BigTable、现阶段,新技术融合发展高性能计算、网格计算、云计算、志愿计算、大数据、人工智能、 11国际高能物理网格WLCGApril 2017:63 MoUs167 sites; 42 countriesCPU:5.2 M HepSpec06今天最快CPU: 50万核实际上超过70万核(有些CPU使用超过5年)存储:985PBDisk: 395 PBTape: 590 PBIan Bird WLCG201712国内(高能所)WLCG站点1,600 CPU核,640TB磁盘存储空间(另有15000CPU核, 16PB存储用 于本地使用)到欧洲和

7、北美10Gb/s网络带宽被评为国际Leadership网格站点站点运行水平名列前茅每年提供超过1000万CPU小时的计 算服务每年完成超过550万个计算作业每年与欧洲及北美之间的数据交换超 过3PB高能所站点为Higgs粒子的发现做出了贡献13计算资源全面整合ARC CECondorDiracATLAS PanDA/BESGrid系 统高能物理应用系统分布式资源调度分布式IT资源BoincScGrid ERACNICCondor ClusterIHEPOpenstack CloudCERNDesktop Grid CASHOME超算集群云计算志愿计算资源调度14高能物理高性能应用软件15国内外

8、高能物理软件研究现状大规模并行计算已成为高能物理领域的迫切需求格点量子色动力学(QCD)、高能量前沿、高精度前沿等有巨大计算需求大规模并行计算是提高计算效率、满足计算需求的重要手段面临着巨大的挑战系统协同、密集型通信、海量数据访问与管理等国内外都非常重视高能物理领域的软件研发美国为例,高能物理研究一直是受到重点支持的高性能科学计算应用领域我国国家重点研发计划“高性能计算专项”支持了高能物理高性能应用项目国际高能物理软件联盟HSF: HEP Software FoundationIRIS-HEP: Institute for Research and Innovation in Software

9、 for HighEnergy Physics,2018年启动,美国NSF资助2500万美元国内外超级计算机发展迅速美国:Mira, Edison, Titan, Cori, Theta, Trinity, Summit, Sierra, 中国:银河、天河、神威、曙光、16高能物理高性能应用软件研制国家重点研发计划“高性能计算”重点专项“面向高能物理领域科学发现的高性能应用软件系统研制”高能所、中山大学、中科院网络中心、浙大、北航等基于国产超级计算机,研制一套高能物理高性能应用软件系统,支持我 国的高能物理科学研究重点针对高能物理前沿应用与科研院所用户进行应用推广超级计算环境高能物理高性能 应

10、用软件系统公共库与工具格点QCD物理模拟分波分析前沿应用(QCD、BES)应用推广科研用户(中科院、北大)17格点QCD概览描述强相互作用的正确理论是量子色动力学(QCD)格点QCD是从第一原理出发研究QCD非微扰性质的方法格点QCD 数值模拟计算是耗费计算资源最多的科研领域之一格点QCD是与高能物理实验和理论 研究并列的第三分支格点QCD对强相互作用研究、标准 模型精确检验和新物理寻找等有十分 重要的理论意义高能物理实验研究也急需格点QCD进行理论配合研究。渐进自由中国的大科学装置BEPCII/BESIII的夸克禁闭18高性能计算在格点QCD中的应用N L3 TPl , Al ,l 8 4

11、N;i ,i ,i 12N; *i ,*i ,i 12NM U :12N 12N (matrix)QU M U M U QCD拉氏量产生QCD物质的状态(组态)物理观测量的统计平均大规模数值模拟(Monte Carlo重点抽样 )数据分析,得到最终物理结果算法特点:利用Monte Carlo数值求解近 邻相互作用的多自由度体系的 统计问题计算过程:计算密集型,高并行度高可扩展性,计算量大计算规模:L3T 1283256可以划分为84 的子格子131072核并行19格点QCD面临的问题格点QCD研究等物理模拟计算高度依赖于超级计算能力格点QCD现有万核的并行计算仅能支持48484896的格点规模

12、,目前难以进行与北京谱仪BESIII实验密切相关的物理问题研究项目目标256256256512大小的格点规模(200万核并行)在格 点划分、国产超算平台支撑、计算效率等方面提出较大的挑战QCD一直是HPC重点应用,于1988,1998,2006年三次获得戈登贝尔奖格点规模计算规模48484896万核256256256512200万核更接近物理实际,处于国际领先地位现状目标20软件研发与移植基于国家超算无锡中心的神威“太湖之光” ,采用40,960枚神威SW26010型片上异构处理器;兼顾天河二号国产GPDSP协处理器采用MPI进程与athread线程二级并行方案D-slash是费米子矩阵乘向量

13、计算,是最常用的基本函数,也是消耗绝 大部分计算资源的主要函数,先使用MPI实现基于主核或CPU的进程并 行,再使用athread或OpenMP实现在从核或协处理器上的并行计算以GPUPWA软件为基础,基于OpenACC重新开发似然函数的异构计算部分,实现在GPU和国产协处理器上的数据并行21关键技术问题问题1:“太湖之光”主从核结构的使用效率格点QCD中稀疏矩阵乘向量运算的高效并行实现重点解决“太湖之光”芯片组中从核上有限的缓存和格点QCD的内部自由度众多之间的矛盾问题2:海量密集型高能物理数据高性能访问海量的数据访问导致I/O瓶颈问题,并行计算效率降低传统的数据存储和访问效率低问题3:超大

14、规模并行计算中求解线性系统的算法研究舍入误差和临界慢化、Mutligrid 算法和Domain Decomposition算法应 用22QCD在太湖之光上的移植单主核单核组多核组(MPI)主要代码框架从核的Dslash操作从核的若干Krylov子空间求解算法主核MPI通信主核的并行文件读写与数据调度全局规约参数化Dslash自动代码生成器LQCD二维示意图四维格点的二维展开请关注10月19日分会报告:基于申威众核处理器的格点量子色动力学并行加速计算方法23优化效果单主核版本与单核组从核版 本运行时间对比:版本时间(s)加速比单主核3.31165单核组从核0.02单主核版本与从核优化MPI 版本

15、运行时间对比:版本时间(s)加速比单主核57.7325.43MPI2.27目前的从核优化策略取得了良好 的效果,从核优化版本相较单主 核版本的加速比达到了165倍在从核优化的基础上,将程序扩 展到16个核组上,相应的单主核 版本程序的数据量也增大16倍。 运行时间有所提升,加速比达 25.4324主要工作贡献通过分析LQCD的应用特征及数值特征,首次在神威平台上实现了成功移植及运行通过使用向量化、指令流水线、寄存器通讯机制等手段在申威26010处 理器上实现了异构众核并行,并实现了不错的加速比在实现从核阵列并行化的基础上,进一步使用MPI实现了多核组连并运 行,以此实现了一定的并行规模下一步将

16、使用stencil技术,增大数据量,进一步发掘LDM与寄存器通讯 机制的功能,以更加充分地利用从核阵列的并行计算能力,提高运行效 率;进一步消除MPI通讯的瓶颈阻碍,以期进一步扩大并行规模,充分挖掘 神威平台的整体计算能力25QCD在天河三号原型机上的运行测试用例格子大小不变,TxLxLxL固定,变化单个cpu核上子格子大小每个节点使用32个飞腾处理器核心,共测试到3456个节点,共110592个CPU核心不同节点数对应963192格子上总的计算能力保持稳定(左)对应963192格子,总的计算能力随节点数基本呈线性增长(右)26强子物理分波分析软件分波分析软件是强子谱学、特别是寻找和研究新型强

17、子的关键工具,采用GPU/MIC异构计算技术解决大量拟合计算瓶颈完成基于OpenAcc的分波分析软件的初步实现完善基于OpenCL的GPUPWA分波分析软件,形成相关文档;在曙光E级 原型机上成功运行单节点运行显示曙光原型机比高能所现有服务器(AMD HD7950或 NvidiaK80)的性能提高7-8倍PWA OpenAcc version:/ihepbox/index.php/s/MVwdCG7uRHgKKka PWA OpenCL version:/ihepbox/index.php/s/ARxr7cMTK7WZQGC/projects/gpupwa27高能物理高性能计算软件集成方案抽象高能物理应用的工作流和应用逻辑,实现统一跨超算平台软件集成;整合密集计算与数据分析,关注用户资源管理、作业管理与数据分析展示;基于高层、统一和较完

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论