昆仑云平台运维流程_第1页
昆仑云平台运维流程_第2页
昆仑云平台运维流程_第3页
昆仑云平台运维流程_第4页
昆仑云平台运维流程_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录

一、云平台物理设备的运维................................................2

1.上线之前的准条工作..................................................2

2.云平台的监控告警....................................................2

3.故障处理流程........................................................4

4.平台报表............................................................4

二、针对云平台上面云主机的运维流程.....................................5

1.云主机的操作........................................................5

2.网络................................................................5

3.硬盘问题............................................................5

4.镜像问题............................................................6

5.云主机故障处理流程图................................................6

巴特云运维流程

巴特云运维流程主要分为两部分,1.针对云平台物理设备的运维。2.针对云平台

上面的云主机的运维

一、云平台物理设备的运维

1.上线之前的准备工作

1.1首先是进行网络的规划,规划好业务网段、管理网段、以及远程管理卡

的网段,业务网段主要用来云平台的Manage、Private>Storage>Public;管

理网段主要用来管理人员用来远程ssh登录平台,这里我们通常使用PXE网络来

作为管理网段,远程管理卡的网段主要是用来管理人员远程通过远程管理卡来管

理物理服务器,可以让我们配置raid、配置BIOS配置电源等。

1.2.角色的规划,对服务器的角色进行规划,确定需要几台控制节点,控制

节点跟mongdb是否进行分离,确定有多少计算节点跟存储节点,计算节点跟存

储节点是否分离。

1.3.日志的切割及处理,鉴于云平台会产生大量的日志信息,我们需要制定

一个定期切割云平台E志并将口志删除的时间,以此来保证控制节点的硬盘容量

不会慢。

1.4.做一定的安全措施,如防火墙iptables的访问控制,关闭不必要的对外

网络端口,以避免被攻击。

1.5.数据的备份,对■重要数据进行定期的备份,例如MySQL。保证数据丢失

后,能够恢复。

2.云平台的监控告警

运维首先要做的就是防患于未然,将故障扼杀在摇篮之中,而不是坐等事情

发生了才来处埋,所以对于巴特女平台的监控将是平台上线后首先要做的,

而告警将让运维人员及时知道问题,快速的定位问题。所以制定一套合理有

效的监控告警方案尤为重要,我们需要确定监控哪些对象,设定阈值,合理

规划告警信息及告警方式,当告警发生后的处理顺序。

2.1监控对象

a.服务器监控,主要监控服务器如:CPU负教、内存使用率、磁盘使用率、

登陆用户数、进程状态、网卡状态等。

b.应用程序监控,针对云平台各个模块进行监控,主要监控各个模块的服务

状态,吞吐量和响应时间,因为不同应用需要监控的对象不同,这里不一

一列举。

c.数据库监控,只所以把数据库监控单独列出来,足以说明它的重要性,

般监控数据库状态,数据库表或者表空间的使用情况,是否有死锁,错误

日志,性能信息等等。

d.网络监控,主要监控当前的网络状况,网络流量等。

2.2.监控的结果

a.监控到的结果是成功或者失败,如Ping不通服务器、访问云平台

出错、连接不到Socket,服务down掉,类似这种故障是最优先的

告警,运维人员在收到此类告警应该第一时间进行处理.,保证云平

台的可用性。

b.监控到的结果超过我们制定的阈值,例如云平台的网络进出口流量,

平台存储的使用情况、平台计算节点CPU、内存的使用情况超过我

们设定的阈值的时候,那么运维人员在收到此类告警的时候也应该

第一时间介入,查看并分析原因,制定完整的解决方案。

2.3.定义告警的标准内容信息

当服务器或应用发生故障时告警信息内容非常多,如告警运行业务名

称、服务器IP、监控的线路、监控的服务错误级别、出错信息、发生时

间等。预先定义告警内容及标准使收到的告警内容具有规范性及可读性。

告警内容的准确性能使运维人员很清晰的知道问题发生在什么地方,例如

存储不可用,那么有可能是因为osddown掉了也有可能硬盘坏掉了,如

果告警信息能清楚的告诉运维人员那么这将帮助运维人员快速定位问题

以便快速解决问题,节省排查时间。

2.4.设置告警方式

告警的方式很重要,合理的告警信息它能及时的通知运维人员平台所

遇到的故障,能让运维人员第•时间获悉平台问题,而不足等用户来告诉

需要进行扩容,也方便运维人员从中了解到平台的安全隐患,及时的处理问

题,避免故障的发生。

二、针对云平台上面云主机的运维流程

这里我们所讲的针对云主机的运维指的是不因为云平台故障所导致的云主机无

法正常使用的运维工作。而是针对云主机的操作、网络、硬盘问题、镜像问题的

运维。

1.云主机的操作

鉴于我们的平台提供多种模块、例如数据库、Sahara,伸缩、负载均衡、安

全组、对象存储等,针对于这些模块来说用户可能不是很清楚,这就需要我

们运维人员能够编写好思路清晰的管理员手册及用户手册,同时运维人员也

需要对各个模块有深入的了解,当用户遇到问题的时候可以快速的为用户提

供咨询。

2.网络

用户经常会反馈网络延时,经常出现连接后掉线的状况,那么这时候我

们应该首先查看云主机到vrouter之间的网络是否出现延迟,如果云主机到

vrouter之间出现廷迟那么就可以通过抓包的手段来查看是否用户的私有网

络中存在着问题。如果云主机到vrouter之间的网络状况正常,那么就应该

测试vrouter到达物理防火墙之间的网络是否有延时,如果有那么我们需要

排查物理网络的问题。例如云平台中某台云主机遭受攻击,那么有可能产生

大流量将公网带宽全部占据,导致流量神堵。当然如果是这方面出现问题的

话那么我们应当在对物理机的监控中收到网络流量异常的告警。如果

vrouter到达物理防火墙之间的流量是正常的,那么我就应该检查用户客户

端到我们云平台物理防火墙之间的网络是否正常。如果是这一层面的话,那

么一般情况下我们将问题反馈给机房,同时也让用户检测一下自身客户端的

网络状况是否正常。当然网络异常也有可能是网络节点的CPU使用率过高导

致CPL•对于网卡的网络流量处理延时导致的。当然如果是这方面的问题,根

据我们对于云平台物理机的监控选项应该也是能够及时发现的。

如果用户反馈网络无法正常使用,那么我们首先确定物理网络是否正常。

然后再来排查用户到vrouter之间的网络是否正常,平台网络ovs有流表功

能,该流表配置不当可能导致用户的网络无法正常使用。

3.硬盘问题

用户的服务对于硬盘的读写速度变慢,针对于此类问题我们首先确定存储网

络是否正常,如果某台存储节点的存储网络或者该网络接口有问题的话,那么是

会导致网络性能下降导致硬盘的读写下降的。如果不是网络问题,那么运维人员

就需要查看ceph的性能是否正常,是否因为ceph的读写性能下降导致的。如果

是因为ceph性能下降导致的,那么运维人员就应该对ceph进行相应的处理。但

是如果排除了云平台的问题,那么就可以考虑从用户的服务入手。

4.镜像问题

镜像的问题可能引起用户创建云主机无法获取IP地址、注入密码、获取主机

名等,如果是linux镜像遇到此类问题,可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论