




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
IT运维工作交流2021.7交流内容用ITIL指导运维工作中心机房运维介绍应急体系与演练2021年技术故障总结营业部运维工作建议用ITIL指导运维工作IT运维的困惑目标是什么?为什么老是出错?什么问题都要电脑人员负责。无过便是功,功在哪里?价值在哪里?应该怎么做?自创道路?不用自己杀开一条血路,借用别人现成的经验:--ITIL〔最正确实践〕什么是ITILITIL信息技术根底设施库--InformationTechnologyInfrastructureLibrary的缩写;20世纪80年代末期,英国商务部发布开展历史ITSM1986~1999基于职能ITILV21999~2006基于流程-ISO20000认证ITILV32004~2007基于效劳生命周期什么是IT效劳V2:由IT效劳提供商支持的、利用一组IT和非IT的资源,以让客户感觉协调一致的方式,满足客户的一种或多种需求的可用系统或功能。V3:IT效劳提供者提供一个或更多客户的一种效劳。IT效劳基于使用IT并且支持客户企业流程。IT效劳是从人员、流程和技术的结合,且应订定效劳等级协议。ITIL带来的好处更加以客户为中心,同时在效劳质量上的协商一致改进了双方的关系。可以对效劳质量、可用性、可靠性和效劳本钱进行更好的管理。改进业务部门与IT部门的沟通。IT部门形成了一个更为明晰的架构,从而变得更为有效率和更为关注公司目标。IT部门更加对其负责的根底架构和效劳实施控制,同时变更也的更易于管理组成10个流程和1项职能效劳提供:事故管理、问题管理、配置管理、变更管理、发布管理效劳交付:效劳级别管理、IT效劳财务管理、能力管理、IT效劳持续性管理、可用性管理。效劳台ITILV2-效劳提供ITILV2-效劳交付效劳级别管理为签订效劳级别协议〔SLA〕而进行的方案、协商、监控和报告以及签订效劳级别协议后对效劳绩效的评价等一系列活动所组成的一个效劳管理流程。旨在确保组织所需的IT效劳质量在本钱合理的范围内得以维持并逐渐提高。意义:IT效劳目标、业务底线、妥协我们现在:没有书面的效劳台效劳台效劳台是IT部门和IT效劳用户之间的单一联系点。效劳台的主要目标是协调客户〔用户〕和IT部门之间的联系,为IT效劳运作提供支持,从而提高客户的满意度。我们现在:电脑经理就是效劳台,没有做好:1、首接处理率2、分类问题,形成异常报告、需求3、跟踪与结束事件与需求4、实现简单IT请求〔效劳请求〕5、客户满意度事故管理事故〔事件〕管理负责记录、归类和安排专家处理事故并监督整个处理过程直至事故得到解决和终止。事故管理的目的是在尽可能最小地影响客户和用户业务的情况下使IT系统恢复到效劳级别协议所定义的效劳级别。我们现在:异常报告、应急处理配置管理配置管理是识别和确认系统的配置项,记录和报告配置项状态和变更请求,检验配置项的正确性和完整性等活动构成的过程,其目的是提供IT根底架构的逻辑模型,支持其它效劳管理流程特别是变更管理和发布管理的运作。配置库:软件、硬件、机房、版本、流程、文档;问题库;知识库我们现在:BBS;台账与技术资料,涉及硬件、软件、机房、布线、UPS变更管理变更管理的目标是确保在变更实施过程中使用标准的方法和步骤,尽快地实施变更,以将由变更所导致的业务中断对业务的影响减小到最低。只为得到一个变更许可。变更=风险我们现在:电脑工作联系单、工作手册、中心机房工单
发布管理发布管理是指对经过测试后导入实际应用的新增或修改后的配置项进行分发和宣传的管理流程。发布管理以前又称为软件控制与分发,它由变更管理流程控制。我们现在:软件变更:电脑工作联系单硬件变更:设备投入运行〔新买、换或下线〕,各种制度与工作手册机房:机房建设或改造--工作手册IT效劳持续性管理IT效劳持续性管理是指确保发生灾难后有足够的技术、财务和管理资源来确保IT效劳持续性的管理流程。IT效劳持续性管理关注的焦点是在发生效劳故障后仍然能够提供预定级别的IT效劳,从而支持组织的业务持续运作的能力。指标:MTTR平均修复时间我们现在:应急预案、演练与操作能力管理能力管理是在本钱和业务需求的双重约束下,通过配置合理的效劳能力使组织IT资源发挥最大效能的效劳管理流程。对系统性能的掌握对业务量的掌握与估计我们现在:机房巡检、设备更换、配置优化、异常报告可用性管理可用性管理是通过分析用户和业务方的可用性需求并据以优化和设计IT根底架构的可用性,从而确保以合理的本钱满足不断增长的可用性需求的管理流程。指标:MTBF平均无故障时间,串行、并行的计算可靠性:MTBSI平均系统事故间隔我们现在:架构、检查、保养、强制更换各个流程的关系学习与培训ITILFoundationV2与V32-2.5天培训,考试1小时,机考与书面考〔40个单项选择〕V2可选中英文,V3只有英语V2实用,但现在只有学V3了学习资料:?中国IT效劳管理指南?ISO20000近期公司争取认证取得ITILFoundation证书,民兵变正规军中心机房运维介绍中心机房运维特色标准操作加强检查严控变更强化应急机房环境独立监控〔实时〕加强检查加强检查7*24小时检查,1小时/次加强检查日志与记录查了不记=没查!书面〔仅外高桥26页/天〕机房总管复核与检查每天形成机房日报〔电子化〕严控变更监控与操作别离严控变更指令与操作别离—工单日常操作表日常检查表机房日志保操间录像录音,KVM全回溯双岗操作--四班二运转,交易时段白班加强值班小组:4人,8:00-22:00严控变更机房出入审批手续全程陪同强化应急应急方案制定版本管理XLS简单易行易维护预设应急时间强化应急应急演练:每三个月一次方案与记录每月一次培训检查热备系统总结与提高强化应急应急操作:判断先重启〔应用、DB、主机〕再执行应急预案—恢复功能为主查找问题根源举一反三根据类似问题最终形成故障总结报告应急体系与演练公司级应急预案?重大突发事件应急预案?目的、范围、处理原那么、应急组织、应急处置、处置要求等应急指挥部—总裁技术分中心—信息平安办公室业务分中心—经纪总部公关安保后勤分中心—办公室应急组织体系公关安保后勤技术分中心应急预案应急方案业务分中心应急预案应急方案应急预案应急方案应急指挥部总裁应急预案应急指挥部启动对外报告?行业应急预案?报告规定详细,个人总结了5点:集中交易一断就要报〔总公司〕;其它系统〔包括营业部〕断30分钟要报;故障未解决,每30分钟报一次;重大故障2小时、一般故障12小时后报总结;营业部报告辖区证监局与交易所别忘记,网络犯罪要报公安。技术分中心应急预案应急预案组成?技术应急指挥分中心突发事件应急处置预案??中心机房应急方案?+?中心机房应急流程??营业部信息系统应急标准??技术分中心应急联系手册?技术故障分级I级〔特别重大〕交易类:交易>2小时,盘后作业>8小时非交易类:对外效劳>8小时,对内效劳>24小时Ⅱ级〔重大〕交易类:交易>30分钟,盘后作业>4小时非交易类:对外效劳>4小时,对内效劳>8小时Ⅲ级〔较大〕、交易类:交易>10分钟(30%),盘后作业>2小时非交易类:对外效劳>1小时,对内效劳>2小时Ⅳ级〔一般〕交易类:盘后作业>1小时非交易类:对外效劳>15分钟,对内效劳>30分钟V级〔轻微〕交易在盘中发生故障但预计不对公司业务造成影响,或在非开盘时间发生故障;I-III级应急流程中心机房应急一线应急小组〔值班组〕星期组长组员一张浩潘敏翌、王飞、陆海宏二徐继峰王鼎、方函、房远胜三潘敏翌施承志、王飞、叶磊四王鼎徐继峰、方函、陆海宏五施承志潘敏翌、王飞、房远胜中心机房应急二线应急小组1、现场指挥:主岗:陆中兵,备岗:邵斌。2、组长:〔指定〕张浩、潘敏翌、王飞、田勇。3、组员:序组别主岗备岗分工1交易张浩施承志分析诊断交易核心方面情况(含应用相关PC硬件、OS与DB),提出建议应急方案,执行应急指令。2外围潘敏翌徐继峰分析诊断外围核心方面情况(含应用相关PC硬件、OS与DB),提出建议应急方案,执行应急指令。3OA王飞方函分析诊断网站、管理系统方面情况(含应用相关PC硬件、OS与DB),提出建议应急方案,执行应急指令。4网络与系统田勇陆海宏房远胜叶磊、喻建、由菘丞分析诊断网络与系统(含所有应用以下层面,包括网络、数据库、操作系统、硬件与环境等)方面情况,提出建议应急方案,执行应急指令。5业务杨旻张加嵘收集故障对业务的影响面、影响程度,提出业务应急方案,执行应急指令。6报告金涛张维跟随现场指挥,用专用应急电话(一个自用,一个给总指挥),向三个分中心报告,并记录应急事件,对应急操作进行计时,应急方案实施超时提醒现场指挥。应急策略应急原那么—业务恢复应急策略:原因定位的故障原因不明的故障应急方案失效或超时交易系统切换策略灾备机房切换策略应急位置中心机房应急流程操作定型报告规程快速定位:二分钟速查〔关键系统〕?中心机房应急预案?--113个故障点的应对措施技术应急演练—中心机房每个周二收盘16:00-18:00每次进行1次流程+10左右技术故障三至四个月完成一轮应急演练.09年按方案进行290个故障点的常规演练(三轮),8次修订应急方案2021年上半所完成一轮技术应急演练—重大演练2021年春节交易系统应急演练2021年3月16日上海证监局应急演练检查2021年6月26日全行业应急演练技术应急演练—营业部每周四17:30组织各营业部进行通讯线路应急演练09年参测率95%每年二次分片组织各营业部进行集中演练2009年全部完成地面备份线路双向卫星备份链路网上投票线路大宗交易线路UPS所有应用系统备机其它技术应急演练—营业部问题:只有技术演练,没有流程演练角色分工不明〔发现、报告、判断、批准、执行、总结〕事后书面总结不详〔时间、操作人、结果〕缺乏改进与提高技术应急演练—修订完善定期应急演练修订应急计划应急方案需要不断修订完善,每次技术变更都要重新审视应急方案应急演练的事后总结分析,是发现应急方案漏洞的重要手段,绝不能轻视定期开展应急演练,尽可能熟练操作、熟悉环境过程,平时多流汗、战时少流血.2021年故障总结故障数量II级:2次Ⅲ级:22次Ⅳ级、V级:700多个。分布新意系统有7次故障集中交易系统5次;Itrade系统4次;短信平台2次邮件1次深交所的深圳通平台与报盘程序各1次其它2次。原因软件问题:10次,是由于软件BUG引发的技术故障,其中我公司软件BUG8次,交易所软件2次。设置问题:4次,其中3次是应用参数设置问题,1次是操作系统参数设置问题。用户操作不当:3次,分别是业务部门联网测试不力、清算中心新意数据批量发送时机不当与个别总部滥发邮件。误操作:2次,11月6日14:30-57开放式基金不能委托是机房操作员误操作;11月19日至12月7日一些客户收不到短信是研究所人员误删除短信群组。硬件故障:1次,1月12日Itrade故障是由于DS8300存贮光纤通道卡故障引发的。内部管理不当:1次,10月8日新意重启工作未落实到位,是电脑中心技术保障部内部工作安排不当。技术方案考虑不周:1次故障解剖20210330trans1故障经验教训总结
依靠自己,加强责任意识,转变工作作风,确保平安运行。平时多花功夫,用好权利,履行职责熟练掌握系统制定好应急预案用好自己的权利以恢复业务为第一要务,事中处理运维仍是主角营业部运维工作建议工作关键点意识交易与行情通路异常与需求管理应急预案与演练电脑经理的意识
责任重大:“信息技术是证券期货行业各机构的生存根底和核心竞争力〞运行主体、责任主体、应急主体不出故障是硬道理!自己的命自己掌握!职业生涯要关注交易与行情通路要点:行情源按要求配-londcd主备有序地面行情网络风暴第三网平安交易与行情通路要点:连公司主备有序防火墙E通异常与需求管理一个接口,及时响应与处理问题对问题分类效劳请求—培训、解释、安装异常—异常报告需求—需求报告注意跟踪与结束所提报告满意度调查很重要工作目标—
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电子测量仪器软件算法分析与设计考核试卷
- 电信企业文化建设与品牌塑造考核试卷
- 气动元件的绿色制造技术考核试卷
- 碱性溶液的化学分析考核试卷
- 油气仓储与能源科技创新发展战略考核试卷
- 2025年-吉林省安全员-C证考试题库
- 2025年-天津建筑安全员C证考试(专职安全员)题库附答案
- 浙江卷-2025届高考生物学全真模拟卷(有解析)
- 2025年江西省安全员C证考试(专职安全员)题库附答案
- 2025年-福建省建筑安全员知识题库及答案
- 智能仓储管理实战手册
- 中考英语时态专项练习题(附答案)
- 提高住院病历完成及时性持续改进(PDCA)
- 气门摇臂轴支座的机械加工工艺及夹具设计毕业设计
- 企业职工代表任命协议书
- 地下管线测绘及数据处理
- 附件1:中国联通动环监控系统B接口技术规范(V3.0)
- 卫生院B超、心电图室危急值报告制度及流程
- 医疗器械经营公司-年度培训计划表
- 校园青年志愿者培训(服务礼仪讲解)
- 教练员教学质量信誉考核表
评论
0/150
提交评论