版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、高能物理科学大数据应用系统主要内容高能物理实验与数据处理需求高能物理计算平台基于大数据技术的事例管理系统高能物理数据处理过程PP探测器产生事例数据获取原始数据重建数据数据重建物理结果数据分析诺贝尔奖只需要三步,就可以获得诺贝尔奖加速器与探测器计算环境与数据处理e+e-全球最大的粒子加速器 加速器 探测器周长27公里地下100米Atlas探测器重量7000余吨直径25米,长46米1亿路电子学信号3000公里的缆线3000物理学家LHC: 数据挑战在线 40M Hz collisions 1PB/sec离线数据 30PB per year 全球分布处理过滤判选中国高能物理实验北京正负电子对撞机BE
2、CPII已经积累5PB大亚湾中微子实验200TB/年已经积累1PB以上数据江门中微子实验地下500米实验大厅2019年运行,每年将产生2PB数据高海拔宇宙线实验LHAASO位于四川稻城海子山,海拔4400米2018年开始部分运行,每年将产生2PB数据其它:HXMT(卫星)、CSNS、北方光源等等高能物理实验计算大数据:多次测量的随机过程(多次独立实验)随机变量空间很大:产生的末态粒子极其丰富;精确测量需要大样本:大数据大计算:末态的模式复杂(随机变量)物理图像还原非常复杂:图像处理、模式识别技术;参数估计:拟合及误差估计;等等高能物理领域在快速步入EB级的大数据时代数据分析挑战:海底捞针9 个
3、数量级的差别所有物理过程 HIGGS粒子稀有事例和巨量本底的混杂Run 1: six million billion proton-proton collisions (6千万亿)Higgs: 400 events15,000,000,000,000 : 1 (15万亿)比黄金还贵的上帝粒子:1000亿RMB的投入找到 170站点 42国家 600,000 CPU 320 PB disk 300 PB tape 10,000 用户 150 虚拟组织 每天运行上百万作业全球每秒交换10GB数据Beijing-LCG2计算集群或网格的不足CPU资源利用率不足物理服务器年平均利用率不足60%遗留程序
4、与操作系统不匹配调度不灵活运维成本高引入虚拟化和云计算基于云计算的虚拟集群按需分配资源,提高资源利用率实现资源整合,共享不同实验/组织的计算资源满足峰值需求VM Node Manager:可从外部控制虚拟机执行作业的软件VM Node Manager Server:服务器端,包括一个持久化存储的后台数据库,获取及更新虚拟机状态的接口VM Node Agent:可自动升级的,内置于虚拟机的客户端,作业执行环境检查,Condor_startd打开与关闭,及其他操作提交作业VCondor, VPBSVMQuota申请资源资源池状态当前可用资源lhaaso分配算法资源预留juno启停虚拟机作业排队IH
5、EPCloud(CERNCloud, EC2, Aliyun, )CERN CloudCERN Cloud是世界最大的虚拟集群之一基于Openstack构建,2013年开始运行统一管理两个数据中心(日内瓦与布达佩斯)规模:7000多台物理机,20多万颗CPU核,2万多台虚拟机平均10秒钟创建/删除一个虚拟机CERN团队获得Openstack巴黎峰会SuperUser大奖IHEPCloud2014年11月上线服务基于OpenStack构建,1700台虚拟机面向用户的自助服务IaaS服务,个人虚拟机虚拟计算集群,动态资源调度基于物理作业动态启动和注销虚拟机针对作业调度适配的image,一个作业一台
6、虚拟机灵活的网络架构 任意虚拟机可以调度到任意物理服务器,接入任意网络基于用户的记账系统和资源互换 开发的用户虚拟计算资源使用记账系统基于“积分”的用户资源提供和消费机制基于大数据技术的事例管理系统数据处理过程事例:一次粒子对撞或者一次粒子间的相互作用粒子物理研究的基本对象探测器记录事例,产生原始数据以二进制格式记录的探测器信号由计算机产生模拟实验的蒙特卡罗模拟数据,数字化事例重建读出Raw/MC Raw数据,处理后产生相关物理信息,如动量、对撞顶点等;数据分析由上千个属性组成的DST Event文件,提供物理学家进行分析,并最后产生物理结果事例管理事例包含了一次物理过程,相互独立不同的实验装
7、置,事例大小不一样从KB到GB不等不同的实验,收集的事例数量不同BESIII: 十亿级大亚湾中微子:百亿级江门中微子:千亿级LHC:万亿级事例结构描述事例的组成事例组织文件存储:自定义结构数据库:RDBMS/面向对象/NOSQL半结构化存储:ROOT Rene Brun 27ROOT file structure事例的行存储Ntuple RWNE1(x1,y1,z1,t1)E2(x2,y2,z2,t2)E3(x3,y3,z3,t3)事例属性1属性2属性3属性4E1x1y1z1t1E2x2y2z2t2E3x3y3z3t3事例的列存储Ntuple CWN示例E1(x1,y1,z1,t1)E2(x2
8、,y2,z2,t2)E3(x3,y3,z3,t3)事例E1E2E3属性1x1x2x3属性2y1y2y3属性3z1z2z3举例:BES事例分析在典型的BES数据分析中感兴趣的事例:O(1/1000)典型的事例大小:O(100) kB列式访问A_1B_1X_1A_2B_2X_2A_nB_nX_n访问所有列A的数据根据A_i的结果选择性访问列B的数据根据B_j的结果选择性访问列C的数据选择性访问列C的数据按行访问:需要读取所有数据列式访问列 : 事例属性行:事例造成较大的IO开销建立事例索引TAG: 事例的元数据举例: run 号、事例总数、径迹数带电不带点径迹数、 不带电径迹数、好的光子数、k-介
9、子数、可见光能量定义等每个事例均建立一个TAG (相对较小, 是重建后数据DST的1/400)访问TAG时不需要打开DST文件仅仅访问选中的DST events使用TAG的初步评测筛选条件:好的光子数,即2nGam 10过滤掉85%保留了全部的目标数据采用Hbase中存放Tag信息的方式,运行时间节省45%技术框架传统方式:基于文件的数据管理事例文件事例文件基于文件的事例过滤和筛选基于文件的事例读取与分析基于单域的事例文件管理新方法:基于文件和NoSQL数据索引的融合数据管理事例文件事例文件基于数据库的事例过滤和筛选基于事例的并行处理跨域的事例数据管理事例特征抽取事例索引、检索、缓存万亿级事例
10、数据库万亿级事例数据库索引技术KeyValueMain-IndexFirst Sub IndexSecond Sub IndexInverted IndexClustered DataCompressedTimeCategoryProperty-IDProperty-ValueDetailed Data20120211笔记本尺寸13寸20120211笔记本定位商务思路构建复合索引实现ROOT文件格式中“事例” 和“对象”的表达及组合查询利用冗余数据加速查询性能,如聚簇技术等将聚合计算下推到服务器端完成,如count、avg、sum、groupby、orderby等优化索引的检索技术,如优化行键
11、合并等淘宝网“数据魔方”产品支持百亿级记录的实时统计查询。基于HBase采用TCPV索引结构(Time Category -Property-Value)支持多属性组合式查询面向ROOT格式文件的多维特征索引结构利用NoSQL数据库在结构和功能上的特点,在两级索引结构中引入倒排索引思想,支持多维特征组合的区间查询能力在通过统计事例数据的访问频次,可以将高访频的事例数据以聚簇的方式直接存储在复合索引中,从而减少索引和事例数据文件之间的I/O开销分布式NoSQL数据库服务端聚合查询与统计分布式NoSQL数据库扩展: 索引构建和存储、聚合计算和查询Region Server 1: Data Stor
12、ageIndex+DataData Aggregation查询引擎服务器高能物理数据分析类应用HTTP协议Region Server 2: Data StorageIndex+DataData AggregationRegion Server 3: Data StorageIndex+DataData Aggregation查询请求结果返回查询结果缓存sumcountavgorderbygroupbyRegion Server N: Data StorageIndex+DataData Aggregation服务器端聚合计算算子聚合计算下推可以消除查询引擎的瓶颈,有效降低查询延迟利用局部性原理通过数据缓存的方式可以进一步提高查询性能跨域的事例数据访问事例数据文件(PB-EB)事例索引(10亿-万亿)存储网关中心站点缓存服务事例访问接口CPUCPU远程站点广域网Streami
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 职业学院学生晚出、晚归、不归管理办法
- 2025年度绿色生态园承建及景观装修合作协议3篇
- 2024年计件工作制职工聘用协议版B版
- 2025年度电商平台短信催收合作协议范本3篇
- 2024年版公司员工通勤巴士租赁协议版B版
- 2024年赡养老年人义务合同示例一
- 人教版小学六年级数学上册第二单元《位置与方向(二)》及练习五课件
- 中国特色社会主义理论与实践研究(湖大简答题)
- 学校传染病和突发公共卫生事件处理流程图
- 2024年检验类之临床医学检验技术(师)通关试题库(有答案)
- 2024版第三方代付协议模板
- 育婴师服务合同协议书(2024版)
- 情侣分手经济协议书范本
- 心理健康教育国内外研究现状
- 伟大的《红楼梦》智慧树知到期末考试答案章节答案2024年北京大学
- 广州社会保险退款申请表
- 2024年知识竞赛-竞彩知识笔试参考题库含答案
- 高效协同-培训课件
- 20XX年市场洞察模板
- 2023-2024学年《Web开发基础》试卷及答案解析
- 标准化考场方案
评论
0/150
提交评论