运维思路课件_第1页
运维思路课件_第2页
运维思路课件_第3页
运维思路课件_第4页
运维思路课件_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

运维职责什么是运维?运维职责互联网运维工作始终以服务为中心,以保证产品的稳定、安全、高效运行为目标•指产品向用户提供服务的可用性、准确性、完整性,访问速度及用户体验符合产品的设计与预期稳定•指产品运行在安全,可控的状态下,包括用户访问安全,抵御恶意攻击,网络故障,数据安全等抗风险能力符合产品的服务要求安全•指系统运营的效率、以较小的资源投入带来最大的用户价值,如单机负载、资源利用率、数据传输效率、更新周期等高效运维职责运维的工作有哪些?运维工作系统运维

IDC、网络、CDN和基础设施(lvs,ntp,dns等)建设、资产管理平台和服务器采购、安装、上架和维修应用运维

日常业务运维工作,参与服务变更、监控、容灾和数据备份,每日服务排查,故障应急处理以及常规运维工具开发 工作DBA

负责数据库设计、优化,以及类SRE的变更、监控、数据备份和报警处理工作。还负责数据库管理平台、中间件开 发以及数据库安全工作运维研发

运维平台开发工作,如监控、服务管理等各种运维自动化系统/平台。运维安全

安全体系加固,入侵检测,安全事件处理,常规安全扫描,渗透测试应用运维 系统运维DBA运维研发运维安全网络IDC安全内核CDN虚拟化资产管理、采购运维部测试部运维工作NSRDNSQANSOPECOMRD

ECOMQAECOMOPPSRDPSQAPSOPINFRDINFQAINFOPDBAOPED(运维平台研发)

OPTC(运维技术委员会)

系统部SYSTC(系统技术委员会)运维工作——应用运维1设计评审参与RD发起的产品设计评审,从线上部署和运维的角度提出评审意见。服务变更编制或审核上线步骤、回滚方案确认是否可以触发变更及变更效果是否符合预期紧急情况下控制回滚服务管理掌握所负责的服务及服务间关联关系、服务各种资源能够发现服务上的缺陷,能及时通报并推进解决理解运维相关文档,及时更新运维相关文档。机器管理熟悉服务器资源状况,机房分布情况,不出现机器遗漏或丢失的情况合理使用服务器资源,根据不同服务的需求,安排不同配置的服务器,不浪费机器资源保证服务器正常运行,对服务器硬件添加或变更来解决资源不足问题例行检查理解例行检查列表的内容、检查项的含义以及可能引发的问题按照例行检查表,定期检查系统状态,发现异常立即通报并推进解决定期检查线上服务模块,排除可疑进程,发现问题及时通报理解监控和统计报表的各项含义,每天定时检查报表,发现异常立即通报并推进解决制定服务例行检查要点和方法,部署执行并不断完善,避免检查的盲点运维工作——应用运维2预案管理确定服务所需的各项监控、系统指标的阀值或境界点,以及出现该情况后处理预案建立和更新服务预案文档,并跟据日常故障情况不断补充完善,提高预案完备性能够制定和评审各类预案,安排预案的演练,提高可执行性数据备份按线上数据备份规范来进行数据备份工作保证数据备份可用性和完整性制定数据备份策略,根据备份要求及时变更定期完成数据恢复性测试监控与统计执行监控配置,并完善监控内容,提高报警准确度完成服务的各种监控、运维报表开发,并不断完善故障处理熟悉服务日常故障处理方法和预案执行要点对已知线上故障能按流程进行通报并按预案执行及时处理并回复相关的服务报警信息能透彻分析报警原因,并推动报警问题解决能发现服务隐患,总结处理方法和提出预案改进建议某公司人机比例2005年

497 11 452006年

1158 21 552007年

3000 42 712008年

4196 82 51550706050403020109080

0服务器数人数人均服务器350030002500200015001000 50045004000服务器数与人数的比值

45

服务器数增长曲线

71人数增长曲线

5107年人数的增幅没赶上服务器的增幅,这年大家更累了运维压力依赖人的手工操作是当前运维的主流方式虽然有工具、系统,但是分散、零乱,无法产生规模信息关联方式简单,信息挖掘基本靠人,无法进行大信息量处理与分析,信息孤岛林立重复性工作较多,效率较低,实时性不高人工失误率无法消除,几乎成为“系统误差”HOW?服务体系

集合角度Association思维角度Thinking规则角度

Rules

运维体系Architecture动作流程规范标准命令工具系统平台想法概念理念理论依赖人不依赖人体力密集型脑力密集型G1原始时代G2农耕时代G3工业时代

现状G4高科时代服务平台OUTLINE运维标准资源管理监控告警服务变更容灾预案运维安全运维效率11UU

运维标准标准化是服务可运维的基础,也是实现自动化的必要条件 基础设施

服务器标准化套餐,均衡型、高IO、高CPU..

机柜使用标准 布线标准 标签和二维码IP使用标准环境

操作系统版本统一centos/redhat…系统参数初始化标准部署路径,/home/work?/opt?生产环境账号,root?work?主机命名规范jx-cp-se00.jxsd-im-mq01.bj?

agent部署和升级标准应用

日志输出和切分的规范./run.shstart/stop/restart/status应用启停接口端口使用依赖标准45U313131311UUUUUUUUU1U3U83U83U83U8ILOTOR111112121UUUUUUUUUOUTLINE运维标准资源管理监控告警服务变更容灾预案运维安全运维效率报废资源管理

机器交付 新采购

机器故障服务管理,以树的形式将硬件资产、应用服务、人和权限等多维度信息关联

产品线->服务->模块 机器<->模块 模块<->进程 服务<->监控模板 机器<->人 产品线<->域名 模块<->状态、路径、版本

…资产管理

系统运维服务管理

应用运维资源管理OUTLINE运维标准资源管理监控告警服务变更容灾预案运维安全运维效率监控告警价值通过各个层面的报警,快速的定位和发现故障能够监控的数据展示,反应业务的容量和性能能够清楚的通过数据来量化业务运行状态监控分类机器监控CPU内存磁盘IO网卡流量存活性网络设备服务监控进程端口语义访问质量监控告警主动监控程序在运行时,主动反馈自身运行状态的计数器参考,很简单的方式上报stathat.ez_post_count(‘',‘nginxqps9',300)监控告警域名监控从全国多个节点监控域名的可用性同时提供访问质量监控前期可以采用监控宝等第三方监控服务访问质量JS检测URL多地域监控页面优化采用基调等第三方服务进行监控,阿里测等进行页面分析监控告警分布式跟踪系统GoogledapperTwitterzipkin淘宝鹰眼监控告警报警合并66%报警分级告警依然太多,避免重要短信被淹没梳理告警,划分为5个级别,P0~P4OUTLINE运维标准资源管理监控告警服务变更容灾预案运维安全运维效率服务变更服务变更

adserver | |---bin ||---adserver ||---conf||---adserver.conf||---data||---data1||---data2||---log||---adserver.log||---adserver.log.2012121910||---adserver.log.2012121909||---script||---run.shadserver.conf

ip_0_0: ip_0_1: ip_1_0: ip_1_1: Data_index:0/1服务变更手工操作forxin`seq0010`dosshjx-cp-se$x.jx‘dosomething’done批量操作lh系列工具lhjx-cp-se-*获取列表lhckjx-cp-se-*‘dosomething’lhscpjx-cp-se-*local_服务变更WEB操作标准程序启停方式标准化,统一的run.sh接口,支持start、stop、restart、healthcheck….服务部署路径的标准化,避免繁琐的配置变更前备份方式的标准化,路径、命名规则、备份方式……服务通过服务树进行管理,可以方便的进行筛选,部署一批同类型的服务所有机器上都一个负责具体命令执行和反馈的agent功能选择需要部署的服务树节点,提供筛选功能选择服务本次变更的版本,因为之前已经在服务树上把服务和SVN关系进行了绑定只能在线上已运行服务的基础上,做增量上线,替换每次需要升级的bin,不影响data、conf、log提供一个web化的配置文件编辑器,每次发起部署任务前,先把线上每台机器的配置文件拉回本地进行批量编辑因为之前做了服务启停标准,所以只需要配置stop,start,还是restart等命令执行顺序即可可以设置暂停点,如部署完第一台服务器后暂停,运维人员观察确认后再批量执行支持与监控系统联动,在部署该服务器时,暂停该服务器上对应的服务监控,部署完成后调用healthcheck和开启监控,如果发现问题则暂停批量任务。服务变更WEB操作问题配置变更复杂情况或极简情况前置、后置动作依赖关系数据依赖外挂型部署系统服务变更动态调度机器IDC单机下限存活性动态调配任务优先级并发度资源使用数据准备预算组内任务端口唯一任务ID全局唯一taskidclusteriduserididc组合支持supervise功能定时任务根据预算组资源,运行时部署服务变更任务整体发布,可随意迁移.app任务包含数据依赖描述文件数据和任务分离,固定存放通过注册+订阅的方式,dataid全局唯一不建议本地存储,云存储配置实例配置由同一的策略中心管理,包括上下游连接上下游依赖通过全局唯一url定位仅定位,由调度保证实例可用日志不建议本地存储,远程写日志流式传输,实时分析监控单独的监控输出,基础监控链接lib输出html文件,可抓取、可展现服务变更

资源调度和隔离:调度服务在机器及更细粒度的部 署运行

机器管理:机器统一备机管理,记录机器的属性、 状态

资源定位:采用pub/sub的方式,管理与服务与机 器的对应关系,解耦服务之间查询的问题,降低由于 上下游IP配置等导致的运维复杂度

全量上线:降低上线操作和环境搭建的复杂度, 动作一致,实现模块全量的上线全量上线资源定位机器管理资源调度和隔离服务变更

灰度发布

统一接入层(FE)

UISRV1SRV2

UISRV1SRV2

UISRV1SRV2

UISRV1SRV2

线上基准环境灰度环境1,2,3服务器管理故障单停机中

offline

下线单

online对外提供服务机器初始化完成业务环境初始化完成业务环境搭建完成

Noservice problem

服务下线自助服务服务器重启&netoops密码查询自助装机机器改名服务器管理服务器管理业务部署–结构PAAS机器管理CloudControllerROUTERDEAServicesAESIRODINFRIGGATHORAUTOBUILDReleaseServer备份监控安全自动部署–AESIR

WEBBuildServerAPPSERVERfriggathorODIN ……APPSERVERfriggathor监控系统 服务树全量部署•行为统一•快速回滚多环境和多配置•配置模板•配置继承部署依赖•系统依赖•模块依赖关联周边系统•监控、备份•服务TAG多模块联合部署•集群部署•顺序部署 服务状态管理自动部署-功能

发布包结构Passport-agent |-release |-target

|-deploy |-config.template.yml |-init.yml |-模板目录

|-dch.conf.erb自动部署–标准

程序、数据分离/home/work/passport-agent |-bin |-conf/data/passport-agent |-log |-dict自动部署-WEB自动部署-WEBcluster: name:dch version: env:production jobs:[dch,abc,aaa,…](可多个模块)dch: host:[3] user:work version:93043 path:/home/work/passport-dch pkg_url:

db_passwd:xxxx backup_key:68e7012d5bdca6eaceeb2682e4b20a96 mon_value:mon.template.ymlAbc:…自动部署–配置

Cluster.yml

THOR解析

cluster.yml

同步文件到

base_dir

个性配置项替换(zk、db_passwd) 通知frigga启动程 序

Config.template.ymlbase: basedir:"$<path>” user:"$<user>" mod_name:"$<name>"#apprunningcontrolmod_start:"${basedir}/bin/run.sh"mod_stop:"${basedir}/bin/stop.sh"production: zookeeper_host:staging: zookeeper_host:

Init.ymlDch: type:file name:${basedir}/conf/dch.conf source:template("dch.conf.erb")

db_password:"$<db_passwd>"monitor:type:monname:${basedir}/conf/mon.confsource:template("mon.conf.erb")

to_email:backup:type:backupname:${basedir}/conf/backup.confsource:template("backup.conf.erb")自动部署–配置自动部署–命令行Odin.rb–fcluster.ymlThor–fcluster.yml自动部署–管理自动部署–管理规范要求-发布规范统一版本标识•让部署在流程和管理上有序统一目录结构规范•抽象部署动作的并保持简单的基础统一打包格式tgz•简化传输、校验、属主和权限保持统一启停接口•简化部署动作,降低接入代价包是完整的,不存在包外信息•部署幂等,回滚=redeploy发布规范封装本地构建部署工具规范要求-自动发布

本地开发

本地部署本地测试各种自动化 测试 部署到测试 机Jenkinsbuildbuild

SCMbuilddeployonlineonlineonlinerelease规范要求–系统环境统一系统内核、发行版、初始环境编译环境解释器系统Lib关键配置依赖命令行BC规范要求-Runtime依赖Runtimepackage管理,与servicepackage用等同方式Runtimepackage的路径,固定or路径无关?部署时需要的权限可能和应用服务不同一台server上多个应用,使用不同的runtimeor共用runtime?

ServeicePackageA

RuntimePackageB RuntimePackageCAdeploy B CC规范要求-解耦关联配置AABBBABABBBBNaming service资源未来-资源隔离

CPU

MEMORYDISKQUOTA DISKIO NETIO IP PORT PATH节省硬件资源,约

15%容易动态调整资源

虚拟化

KVM

容器

LXC资源隔离更彻 底未来-服务无感上游容错naming优雅重启动态筛选、调度筛选器物理分布

资源网络分布CMDB动态资源 数据库创建容器 调度器OUTLINE运维标准资源管理监控告警服务变更容灾预案运维安全运维效率容灾预案SMARTDNS+同城负载SmartDNS用户请求

LVSnginx中间层

主库

LVSnginx中间层

从库容灾预案数据备份备份级别备份时间备份介质数据恢复测试容灾预案预案管理预案文档单机故障网络故障IDC故障…定期预案演练OUTLINE运维标准资源管理监控告警服务变更容灾预案运维安全运维效率运维安全

定期安全扫描

WEB应用扫描 系统漏洞及弱口令扫描

操作系统安全加固 账号安全

Relay跳板机隔离办公网和IDC的直接访问 门神系统进行账号统一管理、授权,动静态密码

应用防护

Web应用防火墙 文件完成性校验

Webshell扫描安全渗透测试白盒代码扫描服务器服务器服务器办公网

Relay跳板机门神认证服务器

IDCOUTLINE运维标准资源管理监控告警服务变更容灾预案运维安全运维效率轻微故障一般故障

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论