




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、高能物理云计算应用,提纲,云计算与高能物理需求 IHEPCloud项目及虚拟计算 未来展望,云计算-定义,其定义众说纷纭 美国NIST(美国国家标准与技术研究所):云计算是一种模型,它可以实现随时随地,便捷地,随需应变地从可配置计算资源共享池中获取所需的资源(例如,网络、服务器、存储、应用、及服务),资源能够快速供应并释放,使管理资源的工作量和与服务提供商的交互减小到最低限度。 五个特点 随需应变的自助服务;无处不在的网络访问;资源共享池;快速而灵活;计量付费服务 三种服务模型 软件即服务SaaS;平台即服务PaaS;基础设施即服务IaaS 四种部署模型 私有云(Private cloud);
2、社区云(Community cloud);公共云(Public cloud);混合云(Hybrid cloud),云计算服务模式,IaaS基础设施作为服务 Amazon S3/EC2 IBM BlueCloud 阿里云,PaaS平台作为服务 Google AppEngine Microsoft Azure Sina AppEngine,SaaS软件作为服务 Google App Microsoft Live SalesForce SaaS,典型的高能物理计算集群架构,计算资源由各个实验组购买 划分为很多计算队列,计算资源使用统计(示例),2016.5.29-6.4,总体情况,排队,总体41%,
3、2016.5.29-6.4,使用特点,有的队列大量排队,有的队列空闲 每个队列的使用均存在高低的波动 不同队列之间的使用高峰时间不同 总体资源使用同时出现大量排队和资源利用率不高的问题 在示例中,排队有时高达1万作业,但是仍然存在5000左右的CPU核空闲,存在的问题,队列使用控制 不允许其它人或其它组使用 个人权限限制 每个人最多只能运行具体数目的作业,提交太多,不允许运行 操作系统等运行环境不兼容 不同实验组之间不能互相运行作业 不支持抢占,资源回收慢,引入虚拟化和云计算,虚拟计算集群,在物理机和RMS(资源管理系统,比如PBS)之间构造虚拟层 将物理机虚拟化,形成多个虚拟机 将RMS安装
4、在虚拟机上,对用户完全透明 按照作业量动态扩展或者收缩计算队列的资源 减少运维工作量,提高资源利用率,RMS,Virtualized RMS nodes,Dedicated SGE working physical nodes,VMM,VMM,VMM,VMM,Openstack,Physical machines,Virtual machines,WLCG Grid,CERN Cloud,CERN Cloud是世界最大的虚拟集群之一 基于Openstack构建,2013年开始运行 统一管理两个数据中心(日内瓦与布达佩斯) 规模:5800物理机,15.5万颗CPU核,18000虚拟机 2016年
5、还将扩充资源,全部资源都将虚拟化 根据集群任务动态创建或删除虚拟机 平均10秒钟创建/删除一个虚拟机 CERN团队获得Openstack 2015年巴黎峰会SuperUser大奖,数据来源:HEPiX 2016 Spring,IHEPCloud,2014年11月上线服务 面向用户的自助服务 IaaS服务,个人虚拟机 虚拟计算集群,动态资源调度 基于物理作业动态启动和注销虚拟机 针对作业调度适配的image,一个作业一台虚拟机 灵活的网络架构 任意虚拟机可以调度到任意物理服务器,接入任意网络 基于用户的记账系统和资源互换 开发的用户虚拟计算资源使用记账系统 基于“积分”的用户资源提供和消费机制,
6、个人云计算,个人测试机,拥有完全权限 几分钟之内拥有一台完全可控的机器 拥有root权限 虚拟登录节点 与登录节点环境完全相同 不受物理登录节点(lxslcXXX)资源限制) 不受其它用户影响 只能用AFS账号登录 没有root访问权限 在线自助申请,无需审批 ,OpenStack,Dashboard,CEPH,NetworkDB,Dirac,Virtual Cluster,API,LDAP,UMT (IHEP EMAIL),API,interactive,Push info.,Get info.,Storage path,DNS,API,Backend storage,Configurati
7、on management,Register Puppet,Get VM info.,Register DNS,Register Nagios,Log Analysis,Host Monitor,Service monitor,authentication,UMT (CAS CLOUD),Interoperation,Architecture,虚拟集群计算中间件:VPManager(Virtual resource Pool Manager),Openstack 1,VM Quota,Interface (Socket),API,VCondor,VPBS,Virtual Job Schedul
8、er,BES,CEPC,JUNO,LHAASO,Application,Openstack 2,VM Node Manager Server,Accounting Table,NETDB,Get Quota Info,VM Pool,Create/Delete VM,VM Node Agent,Get VM Status, Decide to be deleted,image,Image Mngt.,NMS/DNS/,资源份额管理,设置不同的计算队列,制定不同的虚拟队列 针对不同的应用开发不同的负载检查程序,比如VPBS, Vcondor,将来可以扩展到其它应用,比如Web集群等 每个队列由最
9、大值、最小值、预留等份额管理,提交 作业,作业队列(JUNO, LHAASO等),VCondor,VMQuota,LHAASO排队100JUNO排队80,申请资源,Openstack,策略,资源 状态,LHAASO:可用50JUNO:可用40,虚拟机性能测试(1),BES模拟作业 相同数量的作业运行物理机和虚拟机上,每个虚拟机一个作业. 分别测试不同的虚拟机数量(物理机24个核):1,12,24 测试环境 虚拟机:1CPU cores,2GB memory 物理机:24CPU cores,16GB memory 测试结果 1个作业:虚拟机损耗 3% 24个作业:虚拟机损耗2%,虚拟机性能测试(
10、2),BES重建作业 相同数量的作业运行物理机和虚拟机上,每个虚拟机一个作业. 分别测试不同的虚拟机数量(物理机24个核):1,12,24 测试环境 虚拟机: 1CPU cores,2GB memory 物理机: 24CPU cores,16GB memory 测试结果 1作业:虚拟机损耗 3% 24作业:虚拟机16%,资源状况,Openstack 1: 主要面向个人用户,21个计算节点,336个物理核,464个虚核 已经使用362个 Openstack 2: 主要面向虚拟集群,28个计算节点,672个物理核,1个虚核对应一个物理核 支持LHAASO, JUNO, BES, CEPC加速器设计
11、等 LHAASO: 410 JUNO: 100 BES:100 CEPC: 50 存储与备份 个人虚拟机不提供额外的存储和备份,可考虑IHEPBox 登录节点和计算集群使用公共存储, /afs, /besfs, /ybjgfs, /eos等,运行情况,LHAASO (2016年1月起,4万多个作业,48万CPU小时 ,作业效率92.6%),JUNO (2016年4月起,6万多个作业,5万CPU小时,作业效率84.8%,与物理机运行效率接近),最小值,VCondor动态调度效果,LHAASO根据作业排队增加/减少虚拟机,作业排队,自动增加虚拟机,而后排队减少,虚拟计算集群规划,Physical
12、Machines,BES,JUNO,LHAASO,Virtual Machines,BES,Resource Scheduler,Job Queues,JUNO,LHAASO,Other,ACCOUNTING,PBS,各个实验的物理机虚拟化,构成统一共享资源池,按需按策略使用,各实验组资源互换计划,基础 计算资源使用,有忙有闲 精细记账,知道我使用了别人多少资源,别人使用我多少资源 快速动态调度资源,实时响应作业变化 支持作业抢占,满足高优先级作业优先运行 目标 空闲时,各实验组向外贡献资源 紧急时,实验组可以使用比自己更多的资源 如愿意付费,可以自动代理使用商业云 实验组优先使用自己的资源
13、使用方式不变,完全透明 倡议 基本技术已具备,希望各实验组考虑加入这一计划,可以从少量资源共享开始!,中国高能物理云计算社区,目标与各实验组资源共享一样 资源共享、使用更多资源、等等 技术上与网格侧重点不同 构造跨站点的统一系统映像 广域网上的使用方式与本地相同 跨站点/商业云资源自动组成资源池,由后台操作 美国OSG已经运行10多年,使用HTCondor作为中间件,具有丰富的经验,SiteA,SiteB,BUSY,亚马逊,阿里云,,商业云,自动转移作业,HTCondor分布式资源管理,HTCondor CE (HTCondor、PBS、Slurm),condor_startd,condor_startd,计算节点(HTCondor),防火墙边界,HTCondor CE (HTCondor、PBS、Slurm),condor_startd,pbs_mom,Condor Sched,Condor Central Manager,Condor Central M
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国锂电池电推剪行业市场全景分析及前景机遇研判报告
- 2024年度浙江省二级造价工程师之建设工程造价管理基础知识能力测试试卷B卷附答案
- 肢体残疾人日活动实施纲要
- 中班健康领域体育活动说课稿设计
- 汽机调速系统培训
- 国债期货业务培训课件
- 母婴产后护理培训课件
- 安全教育体系构建与实践
- 【江苏省期末真题汇编】核心考点:诗词曲鉴赏 语文八年级下册统编版(含解析)
- 右半结肠癌护理
- 2024年天津市应急管理局招聘行政执法专职技术检查员笔试真题
- 2025年养老护理员职业考试试题及答案
- 揭阳惠来县纪委监委等部门属下事业单位招聘笔试真题2024
- 春苏教版六年级数学总复习30课时教学设计
- 党课课件含讲稿:以作风建设新成效激发干事创业新作为
- 西安美术学院《舞台编导艺术》2023-2024学年第二学期期末试卷
- 城投公司工程管理制度
- 2025全国农业(水产)行业职业技能大赛(水生物病害防治员)选拔赛试题库(含答案)
- 油浸式变压器 电抗器 检修规范标准
- 2025年中国膨润土猫砂项目投资可行性研究报告
- 职业技术学院2024级智能机器人技术专业人才培养方案
评论
0/150
提交评论