![运维工作心得体会_第1页](http://file4.renrendoc.com/view/b237ef2f356e83885abe83c79041055e/b237ef2f356e83885abe83c79041055e1.gif)
![运维工作心得体会_第2页](http://file4.renrendoc.com/view/b237ef2f356e83885abe83c79041055e/b237ef2f356e83885abe83c79041055e2.gif)
![运维工作心得体会_第3页](http://file4.renrendoc.com/view/b237ef2f356e83885abe83c79041055e/b237ef2f356e83885abe83c79041055e3.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第 PAGE19 页 共 NUMPAGES19 页运维工作心得体会运维工作心得总结运维工作直接关系到应用系统运行的正常稳定,但运维工作纷繁复杂,正规化、系统化相对比较弱,如何改变这种现状?从众多的运维工作者的成功失败中进行经验总结,并提升为运维规则,是提高运维水平,保障应用系统正常稳定运行的有效途径。笔者通过自己的多年运维经验,总结出以下必须遵守的基本运维规则,可以大大减少缺乏经验的运维人员因为自身失误导致系统出故障的可能性。一、系统变更、升级应先在同样的环境测试通过,执行前应有经过验证的回退预案运维是一门经验的学科、是一门试错的学科。没有做过的东西、总是会给你出意想不到的难题,因此变更前,一
2、定要在相同或者相似运行环境下进行测试,通过后才能在正式环境下执行变更。同时应准备好变更失败的回退预案,比如,做好系统备份、数据库备份、配置备份,固化变更前的运行现场,让变更有回头的机会。二、对破坏性的操作要先确认符合预定方案,然后谨慎执行什么是破坏性的操作? 比如:对MSSQLServer,执行update操作,因为不需要mit,所以特别容易忽视也特别危险,还有delete、drop等操作更不用说。对 Oracle 而言:truncate table_name、delete table_name、drop table_name,这些语句执行起来轻松简单也惬意极了、但记住!即便数据可被回滚、代价
3、也是非常大!对 Linu_ 而言,rm -r 所有当前及其子目录的所有数据都将被删除。经历过这种故障的人、大多会给 rm 上个别名 A liasrm=rm -i 同理、cp 和 mv 也可以有同样的选项:aliascp=cp -i alias mv=mv -i 对window而言,shift+del文件或者目录 对任何系统而言,无备份直接修改文件等三、备份并验证备份的有效性不管是硬件还是软件总有意外崩溃的时候,怎么办?备份!备份的学问很大、按照不同的维度可以分:冷备和热备、实时和非实时、物理和逻辑、全备增量备。备份有了、可以高忱无忧了吗?不行!尚须验证备份的有效性。一个总有那么几次、备份无法保
4、证 100% 恢复,简单的验证就是找个空库恢复出来。四、对生产环境永保敬畏之心这是避免应用系统发生故障的一条铁规,也是被开发、运维人员容易忽视的地方。要坚决杜绝直接在生产环境做开发、测试和bug修复,这些操作只能在开发和测试环境做,否则一旦出事,将欲哭无泪。五、交接和休假最容易出故障接手别人的工作要一而再,再而三的确认变更方案,请教人并不见得就是能力不行的表现; 休假前最好各种可以做好的事情,最好能够准备一份文档,指明在什么情况下怎么做和联系哪些人; 在别人放假的时候接手工作,“能拖则拖”,实在需要执行:必须不厌其烦的跟原系统管理人员确认各个操作细节。 六、一定要有监控手段和报警措施运维人员赖
5、于生存的工具就是报警和监控。报警可以让你及时知道系统出现了什么异常、以便及时跟进、把故障扼杀于摇篮; 监控可以让你了解系统的历史性能信息、以历为鉴、可以知兴替、早做优化。 报警和监控是衣宽带水的好兄弟、相铺相成、互相促进。七、使用自动切换技术需谨慎为了保障数据库安全,往往会使用HA或者RAC之类的技术,但是这类技术能否真正在关键时刻起作用,则是需要经过反复验证和确认的。并不是按照文档要求做好了就够的,很多意外因素或者系统因素会导致自动切换技术并不能如期发挥作用。如果到事后才发现这一点,将悔之晚矣。八、要有偏执狂的精神,方案要检查,检查,再检查有这么一个人: 他在做一个变更的时候,会先提前一两周
6、发送邮件并电话手机通知相关人 在测试机上写好脚本,召集大家 review 操作步骤和脚本 测试完成以后拷贝到生产环境 登录对应机器,“打开,关闭,打开,关闭”该脚本 跟相关人员再次确认执行的操作,顺序,时间点,可能的影响和回滚是否都准备好了 执行前还要退出这个机器,然后再登录进去,“打开,关闭”脚本 最后才在后台运行脚本,同时在另外一个窗口登录着,随时ps和查看结果输出期间姿势端正,呼吸急促而均匀,眼神凝重。操作的人不觉得累,倒是一边观摩的人很累。九、简单即是美我们总是面临各种诱惑:新的系统架构,新的更智能的命令和工具,最新的硬件平台,功能更全的HA软件.你可以在线下安装,测试,怎么做都行。但
7、是如果想要在生产环境下使用起来、请三思!能够使用系统内置命令的话,就不用考虑其他要专门下载安装的软件了 脚本本身就能完成的功能,就没有必要专门找一个功能丰富的软件来做 Linu_本身自带的字符界面比那些复杂的图形界面要简洁方便 如果能做到坚持这九条铁规,你的应用系统就能长久稳定运行了。第四期网络运维培训心得体会随着网络时代的到来,网络学习为我们提供了新的人生起点,迎来了新的教育方式,让我们随时随地不受地区、时间与空间的限制,能够快捷、方便地接受更多的新的知识,寻找到适合我们自己的教育教学方法。在网络学习中我与同行们互相交流,互相学习,在互动中我学到了一些粗浅的网络知识,从不知怎样建立博客、怎样
8、进入博客到怎样发表文章等。老师们的答疑解惑让我在学习上信心百倍,更使我的学习进步很快,教育教学工作有了动力和努力的方向。是网络学习让我体味到了人生从来未有过的快乐与欣喜。网络就象一个强大的磁场,深深地吸引着我,影响着我。使我把它融入我教学工作之中。利用网络教学有助于构建新型的教学模式,真正对教育教学起到全方位的变革作用。20_年11月24日我参加了鄂尔多斯市信息办组织的第四期网络运维培训。本次培训,我受益良多,现总结心得如下:本次培训是有包头科技学院的老师以及工程师给我们讲授的,在他们崭新的图书馆电子教室里,刘老师首先强调了“智力储备”。在新的信息技术快速发展的时代,提前储备了足够的知识,就占
9、领了技术的前沿,这是我今后努力的方向。赵老师讲得精简干练,但让我认识到要有作为就要有目标,有思路,有方法,要有管理方案。翟老师语重心长的告诉我们,我们要作为一名管理者,而不是维修工,更让我们的工作有了主体方向。 曾记得开幕的第一天特别的开心,我们学员们做到属于自己的桌子上,由包头科技大学的刘老师致开幕词,刘老师精美的语速,富有风趣的讲解,带来了一阵阵热恋的掌声,刘老师强调了学习的时间安排,上午讲解的老师,以及下午讲解的老师,晚上实验课的老师等等,可想而之老师们对我们学习的认真,对我们学习的上心,我们也下定决心尽自己的最大努力在这仅有的十天中,把我们学习的知识学好,学通,以便日后回到自己的岗位学
10、以致用。接下来工程师为我们着重讲解了操作系统、应用软件等相关知识。Win7系统要留够50GB的空间,尽量使用纯净版系统进行安装,惭愧的说,我日常用的系统都是Ghost版本,里面总是或多或少有一些广告软件等等,往往给系统的稳定性带来不良后果。这是今后应该注意的地方了,由于自己是首次接受这么大规模的培训,由于工程师的语言过快,思路过于敏捷,使得我很难跟的上,学起来也是非常的吃力,有一点力不从心的感觉,信好工程师老师从我们僵硬的脸上看出了我们的不懂,他有从新的细细的讲解,直到我们听明白,听懂得为止。像这样的老师我只能说是非常非常的敬业,认真。还学到了一个很有用的dos命令:ipcongfig /al
11、l d:ip.t_t这个命令用来备份维修机的IP地址十分方便,要记住,要常用。对于电脑故障的排查,工程师介绍了计算机系统故障的判断思路和方法:1、先软件后硬件。2、先电后负载。3、先表面后里面。4、先外设后主机。5、先一般故障后特殊故障。6、先公共性故障后局部性故障。7、先主要性故障后次要性故障。这些方法十分有助于我理清思路,找到真正的故障所在,能有效的提高工作效率。工程师还重点介绍了Ghost这个工具软件的使用。尤其是Ghost E_plorer 这个小软件的运用是我以前较少使用的。经过学习我了解到:它是一款可以对ghost生成的映像文件进行解压、查看以及编辑程序,利用他可以非常简单的对 G
12、HOST 映像文件进行编辑,可以按自己的意愿向映像文件里添加、删除文件,也可以将需要的文件提取出来。这样,以后再维修无法开机的电脑时就能为老师们最大限度的保留数据了。关于网络管理工作,还属包头科技大学的赵老师,讲得深入浅出,Ipconfig 命令,Netstat,Nslookup 命令还有用于检查路由tracert 命令等都十分的实用。他还通过分析p 一些网络故障实例教会我们一些更实际的运用。还给我们讲解了城域网网络分析p 系统的功能和使用方法。路由器交换机的配置,以及IP地址的分类,子网掩码的计算划分,城域网的建设以及在讲授的过程中不乏讲解他自己的一些学习经历,谋财之道等等知识。网络为我们提
13、供了丰富的教学情景,它淡化了课堂与“真实世界”之间的距离,扩展了教师的学习空间,在真正意义上实现了教师与真实世界的接触与联系。语文课堂上,课前我们可以到网络上搜索资料(包括文本、图片等),课上再把搜集到的大量资料与伙伴交流共享。在这样的学习情境中,教师可以积极主动去探求知识,保持最旺盛的求知欲望,对资料的搜集、整理与分析p 为学生批判性思维与创造性思维的培养搭建平台,有利于建构新型的教学模式。网络学习有利于教师共同探究问题,网上交流等活动,使业余生活趣味化,其核心是要发挥教师学习的主动性、积极性,网络的学习能够给予教师一个自主学习的空间。参加网络学习,对于我们一线教师来说,绝不是为了一时的兴趣
14、,更不是为了完成任务或是赶时髦、装门面。而是要通过知识的积淀,充实自己、完善自己。铺设一条使自己成为一名合格教师的人生之路。达拉特旗第二期张伟 时间:20_年12月11日360公司运维心得分享在很多“外人”的眼中,运维工程师的工作不过是搬机器、调网络、装软件、处理故障、724小时值班,简单而又枯燥至极。但事实并非如此,运维工作涵盖很多技术领域,运维工程师要掌握硬件、软件、操作系统、开发等多方面的知识,核心目标是为亿万用户使用的产品保驾护航。当今互联网行业的发展日新月异,新技术层出不穷。为了适应发展趋势,运维工程师只有提升技术能力才能更好地完成艰巨的运维任务,必须要对传统运维发出自我挑战。在36
15、0,运维团队由基础运维团队、网络运维团队和应用运维团队三部分组成。我们将运维从技术支持领域升级,进行产品化改进,核心目标是为了降低运维成本、缩短研发周期、让产品试错更廉价。理想很丰满,现实很骨感,从最初服务少量项目、几十台服务器,发展到大量具有数亿用户的项目,我们也在不断摸索,在试错中成长。在这个过程中,我们经历了两次重要的升级。 第一次升级:运维工具化运维工作中有很多琐碎的、重复的事情,初期我们只有两个IDC,服务器数量有限,项目数量也较少,靠纯手工劳作还可以应付。但随着时间的推移,项目暴增,随之IDC和服务器的数量也成倍增长,同时360各项目都是小团队在做, 开发风格不同、习惯各异,但极致
16、要求响应速度,如果运维工作按照之前方式进行,很难满足需求。大势所趋,我们必须进行工具化升级,将重复的事情自动化。在工具化过程中,我们秉着低成本、拿来即用的原则,借鉴业界成型的方案,同时将精力用在对开软件的研究中,有开工具就绝不自己凭空创造。初期,我们只围绕开软件做周边脚本开发,不动核心代码,在实践中总结经验。例如,在最基础的部署软件环境中,我们基于YUM搭建了自己的包管理系统,将常用软件打包, 同时根据项目做成模板,这样无论是初始安装还是扩容都能在分分钟完成。配置文件管理利用Puppet完成,服务器批量操控依赖SaltStack。就这样 我们的运维兵器谱在不断地丰富。另外,运维工作离不开监控报
17、警,这是一件让无数运维人苦不堪言的事情。而会休息才会工作,监控体系必须优化。我们的监控大概分为系统级、应用级、项目逻辑和用户体验四部分。系统级主要监控硬件和网络等;应用级主要监控常用软件的健康状况;项目逻辑监控主要模拟用户行为探测项目功能点是否运行正常;用户体验监控主要联动博睿和基调等第三方监控一起优化用户体验。我们用过的工具很多,开工具有Nagios、Cacti、Ganglia、Zabbi_等,同时自己也开发了一些针对项目场景的监控工具,但万变不离其宗,都是围绕上述几个维度进行监控,然后再进行分级预警和报警。为了减少报警骚扰,我们分级处理,将报警分为邮件预警、短信报警和疯狂短信报警。以磁盘空
18、间监控为例:每天下午6点,统计 磁盘使用率超过80%的机器,发出邮件预警,下班前解决;在预警的基础上,超过85%触发短信报警;超过90%就要持续报警,避免事故的发生。此外,随着 服务器数量的增多,硬件故障在所难免,架构设计需要考虑高可用方案,冗余范围内的服务器故障会以邮件预警的方式发出,避免对运维工程师的骚扰。有了监控工具和分级机制,还需要有好的制度。为了大部分人可以安心休息,我们每天有专人负责处理常规报警,遇到无法解决的问题才要求他人协助。第二天的负责 人要针对第一天的报警找出根本原因,并尽力解决,因为如果无法根治,困扰将持续发生。所谓线上无小事,实际工作中复杂场景引发的问题数不胜数,所以可
19、以宽 容第一次错误,但不能接受同样问题发生第二次,要不断地总结和完善。工具化是运维的必经之路,是向更高层发展的基础,面对运维这样复杂的学科,这样一个极其磨炼人意志的工种,运维工程师需要用聪明的方式解决复杂的问题,节省时间,去做更有意义的事情。第二次升级:运维产品化我刚提出运维产品化时,有朋友开玩笑说,你做后端运维吃苦受罪这么多年,看着产品经理吃香的喝辣的,羡慕嫉妒也想转行做产品吧。也有人说,你是在偷换概念,不就是做自动化运维平台嘛。其实提出这个概念,一方面是于有了足够的工具化积累;另一方面是想换一种思路做运维,培养产品观,站在用户的角度思考问题, 让处于后端的运维工程师主动挖掘需求,围绕运维做
20、更多的探索,提升团队技术能力,解决海量用户带来的问题。 有了这个想法,就需要将无形的技术转变为有形的产品形态,同时要赋予它好的寓意。我们的产品取名为HULK绿巨人,意在让小伙伴们借助巨人的肩膀成长,轻点鼠标,运筹帷幄。想到做这个平台,于对实际工作需求的观察。产品经理有了创新点之后,开发工程师就想以最快的速度上线,但又会很痛苦,因为产品就好比宝塔明珠,塔基需要一 层层地盖。而开发工程师是与运维工程师合作最紧密的兄弟,“兄弟有难得拔刀相助”,因此我们明确了开发工程师就是运维平台的用户,运维工程师在平台的建设 中扮演了多重角色,是建设者也是使用者,但目标是为用户解决问题,让我们的用户有极致的用户体验
21、。 基于这些想法,我们勾画出了宏伟蓝图,提供一个塔基,第一层提供核心基础服务,如Web、RDB、NoSQL等;第二层提供通用基础服务,构造一个完美的平台,让开发工程师受益。但勾画的平台功 能大而全,需求都是我们替用户假想的,这样做的后果就是进展缓慢,但做出的功能没人用。我们在失败中反思,意识到需求还得从日常工作中去挖掘,平台上每个功能模块都必须解决用户的痛点。互联网精神唯快不破,要围绕“快”找痛点。早期开发和运维的合作中,更多的是邮件、IM及当面沟通,跨团队的沟通成本是第 一个痛点。初期平台建设中,我们从加速流程开始进行摸索,以“需求任务流”为核心,将通用需求规范流程,统一需求提交页面,同时尽
22、量为用户提供选项,而不是随意填写,尽量减少沟通成本,同时为完全自动化打好基础。由于完整的自动化流程开发成本比较高,初期我们还“投机取巧”,用户提交需求以后,只是把格式 化的邮件发送给运维工程师。运维工程师使用半自动化工具干活,完成后再通过平台任务流告知用户结果,手工操作的部分是隐藏在平台后面的,用户不得而知。就 用这种方式,我们的平台积累了不少用户和口碑。之后我们将日常需求分层、分类:主机类包括主机申请、账号授权、软件部署等;Web类包括配置文件管理、域名管理等;DB类包括建库、建表、SQL审核、授权等。再攻克技术难点将一个个需求实现完全自动化,点点鼠标解决问题。关于需求任务流,还有个小插曲,
23、标准的任务流由提交、审核、驳回/通过组成。但这个流程太死板,例如用户提交的一个需求,在审核的过程中有待商榷,运维工程师会和开发工程师 沟通,最终达成一致意见即可,而如果按标准流程需要驳回再提交。为了让用户少一次操作,我们增加了管理员可编译功能。有些同事反对这样做,觉得不符合常 理。不过有时候常理是需要结合实际场景打破的,就为了让用户使用更简单。近期为了进一步提升项目试错阶段的速度,我们在平台上推出了一个新功能:“项目孵化器”。以典型的Web业务为例,以往,申请Web Server、账号、数据库实例、负载均衡等是提给运维最基本的需求,每一步都是时间成本。使用“项目孵化器”可以最大限度解决这个痛点
24、,只需在平台上进 行两个步骤:第一步填写业务名称,预估峰值QPS;第二步选用MySQL、MongoDB、Redis等相关数据库资。两步之后,Web Server、数据库实例等所需资会瞬间展示在用户面前,同时包管理、配置文件管理、代码发布系统、监控系统等配套辅助功能随之开通。与之前的模式相比,效率和规范化都有明显提高。说起来很神奇,但实现理念很简单,我们提炼日常项目中的通用方案,构建资池,在项目发展初期最小量匹配资。在孵化器的设计阶段,我们听到了很多不同的声音。例如,让用户填信息不够全面,架构太简单不满足全部需求,诸如此类问题,让人头痛欲裂。经过过往项目 分析p 及用户调研,发现项目尚处于试错阶段,快速试错是首要需求。至于项目发展中衍生出来的需求,可以再用平台扩展功能去解决。 当利用孵化器建立一个试错项目之后,用户进入平台想看见什么?展现形式如何?还能做什么?这些问题随之而来。众所周知,项目中的关联关系是个复杂的问题,解决不好,就像一盘散沙无法联动。为了解决此问题,首先我们确定平台各功能模块以项目名为主键,将项目的域名、负载均衡、Web Server、数据库、通用基础服务等相关联。项目后期各功能模块的扩容可以借助关联关系自动化完成。例如增加一台Web Server,即可自动部署软件环境,完成相关节点授权、上传代码、测试上线。展现形式上我们借鉴社交网站的实现方案,以“我的项目”为中心
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 足球场地租赁协议2025年标准版
- 2025年停车场安全策划与运营策略协议
- 2025年度股权合伙协议策划案
- 2025年公共服务提升工程联合建设协议
- 2025年会议场地租用年协议
- 2025年临时搬运工服务协议标准格式
- 2025年上海住宅交易合同范本
- 2025年创业项目股权退出协议范本
- 2025年修订委托加工承揽合同
- 2025年拉萨货车从业资格证考试答案
- T-BJCC 1003-2024 首店、首发活动、首发中心界定标准
- 《海洋自然保护区》课件
- 2024年云南机场集团飞机维修服务分公司招聘笔试参考题库含答案解析
- 外科手术及护理常规
- 北师大版五年级数学下册教材分析解读课件完整版
- 苏少版小学一年级下册综合实践活动单元备课
- 学校开学教师安全培训
- 出口潜力分析报告
- 晋升的述职报告
- 微信视频号运营技巧攻略详解全套
- 2023CSCO非小细胞肺癌诊疗指南解读
评论
0/150
提交评论