基于自主计算的集群管理软件的设计和实现.ppt_第1页
基于自主计算的集群管理软件的设计和实现.ppt_第2页
基于自主计算的集群管理软件的设计和实现.ppt_第3页
基于自主计算的集群管理软件的设计和实现.ppt_第4页
基于自主计算的集群管理软件的设计和实现.ppt_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2021/1/31,a,1,基于自主计算的集群管理软件的设计和实现,作者:李云春、张德生、李强,2008年10月29日,2021/1/31,a,2,报告内容,研究背景 主要研究内容 ACMS体系结构和功能模块实现 ACMS事件通知机制 节点代理的自配置机制 中间汇集节点的自恢复机制 工作总结和展望,2021/1/31,a,3,概述,课题来源 北航校园网格建设中对集群计算环境的管理需求 十一五863计划信息技术领域重大项目:高效能计算机系统研制及关键技术研究 2007AA01A127 研究背景 集群占据了我国高性能产品和应用的90%份额 集群管理日趋复杂 北航校园网格目前采用ganglia集群监

2、测软件,无法满足需求 平均故障恢复时间较长,自主计算研究计算系统的自管理问题,为集群系统管理提供了一种新的思路,2021/1/31,a,4,自主计算,IBM于2001年提出自主计算的概念 思想起源于人体的植物神经系统 其动机是试图通过“技术管理技术” 自主计算系统具有的属性 自动修复 自动优化 自我保护 自动配置,2021/1/31,a,5,集群管理的国内外相关研究,Ganglia 树状分层式结构,可扩展 没有解决非叶子节点层的容错,易造成单点故障 Supermon 基于linux集群的分布式监控 不能动态添加节点 Hawkeye 可以定制资源监测模块,适用多平台系统 客户端工具还不完善 国内

3、曙光公司的DCMM集群监控系统 面向曙光服务器集群,软硬件结合,研究现状: 1、国外起步较早,国内相对滞后 2、大多侧重集群的监测 3、缺乏自主管理能力,2021/1/31,a,6,报告内容,概述 主要内容 ACMS体系结构和功能模块实现 ACMS事件通知机制 节点代理的自配置机制 中间汇集节点的自恢复机制 工作总结和展望,2021/1/31,a,7,消息通信机制,命令通道,事件通知机制,ACMS自主管理模型,管理策略,集群资源,分析,传感器,效应器,消息通信机制,决策,监视,执行,事件信息模型,IBM自主计算框架没有解决具体实现问题: 1、管理策略 2、事件信息模型 3、组件之间的消息通信机

4、制,2021/1/31,a,8,ACMS体系结构,JNDI连接,资源监视泵,中间汇集组件,动态发现,管理服务,资源探针,节点代理服务,分析决策引擎,监视组件,资源中介,执行组件,数据库,事件模型,数据库组件,管理服务器,WEB用户界面,监测视图,性能曲线,负载预测,自主管理,事件通知机制,中间汇集节点,域内节点,域内节点,应用层,管理服务层,代理服务层,域内节点,2021/1/31,a,9,节点代理服务的功能模块实现,MBean Server,CPU,Memory,Disk,Network,OS,Tomcat,管理服务组件,资源监视泵,节点动态发现,中间汇集组件,资源探针组件,各组件设计为标准

5、MBean组件,利用Jmx的动态类装载服务mlet服务实现远程URL路径的动态注册和加载,资源探针注册为资源监视泵中线程实例,中间汇集组件收集域内节点的监视泵的事件消息,节点动态发现组件实现节点自配置,运行时可管理 可扩展,2021/1/31,a,10,ACMS体系结构,JNDI连接,资源监视泵,中间汇集组件,动态发现,管理服务,资源探针,节点代理服务,分析决策引擎,监视组件,资源中介,数据库组件,数据库,事件模型,执行组件,管理服务器,WEB用户界面,监测视图,性能曲线,负载预测,自主管理,事件通知机制,中间汇集节点,域内节点,域内节点,域内节点,管理服务层,2021/1/31,a,11,管

6、理服务器的功能模块实现,资源中介,事件监听,节点连接器,访问接口,监视模块,消息中间件,事件解析器,连接器,分析决策引擎,数据库模块,执行模块,消息中间件,Java规则引擎,分析处理单元,连接器,规则文件,消息中间件,数据库ORM,消息中间件,执行器,事件信息模型,访问接口,数据库,Web界面,节点代理,自主管理控制环路,2021/1/31,a,12,基于规则的策略决策,决策的问题 依据当前的状态,决定采取什么样的动作 传统的控制理论建立数学模型 计算机系统管理复杂性很难建立建立精确的数学模型 基于规则的控制 将规则表示为产生式规则 产生式规则一般形式 IF(条件1) and (条件2) an

7、dand (条件m) THEN(动作1)and (动作2)and and (动作n) 规则引擎 基于规则的专家系统的推理引擎 试探性规则 正向推理和反向推理,2021/1/31,a,13,分析决策引擎,管理服务器模块的核心组件,通过java规则引擎实现基于规则的自主管理控制 五种管理级别 采用Drools的规则语言定义规则 cpu_alarm_ra.isActive() CpuMonitorHelper.isOverThreshold(cpu, 80) CpuMonitorHelper.cpuMetricAlarm(cpu);,监视、警告、报警、建议、操作,2021/1/31,a,14,报告内

8、容,课题来源及研究背景 主要研究内容 ACMS体系结构和功能模块实现 ACMS事件通知机制 节点代理的自配置机制 中间汇集节点的自恢复机制 工作总结和展望,2021/1/31,a,15,ACMS事件通知机制,节点代理服务发送的事件通知消息统称为事件消息 监测事件消息 心跳事件消息 操作事件消息 事件消息格式采用XML格式描述 采用压缩减少网络流量 基于JMX Notification通知模型的两层事件监听机制,方便扩展 体现以事件通知为中心的设计原则,2021/1/31,a,16,事件通知机制(续一,监视泵,中间汇集组件,资源中介,监听,监听,资源中介的事件监听,2021/1/31,a,17,

9、事件通知机制(续二,2.5 ok restart restarted the Tomcat instance of clustertrue,2021/1/31,a,18,报告内容,课题来源及研究背景 主要研究内容 ACMS体系结构和功能模块实现 ACMS事件通知机制 节点代理的自配置机制 中间汇集节点的自恢复机制 工作总结和展望,2021/1/31,a,19,节点代理的自配置,需要解决的问题 中间汇集节点需要知道域内节点的JMX/RMI连接地址 手工配置方式无法实现节点动态加入,并且在节点数量很大时,效率极为低下 节点代理的自配置机制 基于UDP组播的节点动态发现机制 心跳计数机制 组播报文格

10、式定义,标记字段 “jmxrmi,中间汇集节点的主机IP地址,中间汇集节点的监听响应端口,2021/1/31,a,20,节点代理的自配置(续一,监视线程,响应线程,中间汇集组件,资源监视泵,加入新节点,发现新节点,返回JMXServiceURL,心跳检测,监听事件,请求线程,建立连接,动态发现组件,动态发现机制,心跳计数机制,2021/1/31,a,21,报告内容,课题来源及研究背景 主要研究内容 ACMS体系结构和功能模块实现 ACMS事件通知机制 节点代理的自配置机制 中间汇集节点的自恢复机制 工作总结和展望,2021/1/31,a,22,中间汇集节点的自恢复,需要解决的问题 解决中间汇集

11、节点的单点故障问题 Ganglia没有解决中间汇集节点的单点故障 基本思想 当发现某个域中间汇集节点失效时,管理服务器根据负载预测选举算法从域内节点中选出一个节点作为替代中间汇集节点 优点 实现了局部域范围内的自恢复,不会增加其他中间汇集节点的负担,2021/1/31,a,23,中间汇集节点的自恢复(续一,负载预测选举算法 根据单指数平滑时间序列预测模型,对过去T时间内的节点综合负载进行预测,选取负载预测值最小的节点作为替代中间汇集节点 采用linux系统的平均负载作为综合负载的估计值 负载评估计算公式,基本思想: 最近的负载观测值赋予较高的权值,较早的观测值赋予相对较低的权值,权值呈几何级数

12、递减,使得最近的观测值对将来的负载预测作用更大,2021/1/31,a,24,中间汇集节点的自恢复(续二,单指数平滑预测公式 实现的关键平滑参数 的优化 单指数平滑预测的精确性和拟合程度与平滑参数的取值有很大的关系,平滑参数的选取应该满足最小均方误差(MSE)的原则 采用黄金分割查找法进行优化查找,在 的初始不确定参数区间(0,1中不断迭代缩小参数的取值范围,最终获得一个满足容忍度 的最佳平滑参数值,2021/1/31,a,25,中间汇集节点的自恢复(续三,第一步:初始化不确定参数区间,第二步:如果当前参数区间的长度在容忍度范围内则返回,否则计算黄金分割点,第三步:比较两个分割点的预测模型的均

13、方误差,重新划分分割点,继续第二步,2021/1/31,a,26,中间汇集节点的自恢复(续四,管理服务器,中间汇集节点,域内节点1,域内节点2,域内节点n,2.确认中间汇集节点失效,健康探测,心跳事件,数据库,获取负载数据,返回历史数据集,3.计算负载预测值,选举最小预测值的节点,4.启动替代中间汇集节点,5. 替代中间汇集节点建立监听,启动、监听,监听,事件通知,事件通知,2021/1/31,a,27,实验性能评估,节点代理程序占用系统资源,实验结果: 域内节点和中间汇集节点的代理服务程序 占用CPU资源差别不大,平均占用0.3%的CPU资源; 内存利用率相差较大,普通域内节点占用3.5%,中间汇集节点占用6.6,2021/1/31,a,28,论文总结,提出了一种基于规则的集群自主管理体系结构,并设计和实现了节点代理服务和管理服务器的功能结构 设计并实现了一种“推”模式的可扩展的基于中间汇集节点的事件通知机制 设计并实现了节点代理的自配置机制 设计并实现了一种基于负载预测选举算法的中间汇集节点自恢复机制,2021/1/31,a,29,下一步工作,分析决策引擎的实现中,事件信息模型通过简单的测量量实现,未来需要利用人工智能的一些方法建立系统组件间的依赖性模型用于系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论