




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、企业IT建设最佳实践分享提纲企业OCC运维指挥中心介绍内部网络安全管理介绍高可靠园区网络的最佳实践EMAN系统介绍因此,一个好的网络支撑体系必须具备: Flexible 灵活性Available 可用性Reliable 可靠性Manageable 可管理性Scaleable 可扩展性一个聚合的网络基础架构则应该支持:QoS以及最小的网络延迟Multicast多播与我们的用户一样,网络运维管理面临着同样的挑战多用途易于运维与管理丰富的功能总体拥有成本性能企业在安全运营方面的状况few are really readyOnly 13% of organizations today are prep
2、ared for a major disruption in workforce operationsHighly Available Infrastructure10% 的企业有所准备Failure of server, host, app, softwareWorkforce disruptionSources: Society for Information Management,Gartner High Availability Networking: Toward Zero Downtime 9/200270% 的企业有所准备13% 的企业有所准备Downtime 给企业带来的损失D
3、irect Revenue LossCompensatory paymentsLost future revenueBilling lossesInvestment revenue lossesRevenue RecognitionCash FlowLost discounts(accounts payable)Payment guaranteesCredit ratingStock priceNumber of employees affected x hours outx burdened hourly rateTemporary employeesEquipment rentalOver
4、time costsTravel expensesCustomersSuppliersFinancial marketsBusiness PartnersCareers lostSource: Gartner High Availability Networking: Toward Zero Downtime 9/2002设备和网络硬件故障软件故障链路故障电源/环境故障资源利用问题运营流程不完善的变更管理没有故障的技术责任人网络设计问题缺乏标准和统一性 (软硬件和配置)没有故障管理/缺少灾难恢复计划文档管理人员培训Telco/Circuit35%Human error31%Power fail
5、ure14%Device failure12%Other8%Sources:* Gartner 2001* Yankee Group 2004软件应用40%运维处理 40%网络20%Sources of Network Downtime *Common Causes of Enterprise Network Downtime *666666网络为何会中断? Looking at the exposureSource:Cisco Field & Support Engineers 2004您的网络能达到 99.99% 的可靠性吗?存在单点故障 (edge card, edge router,
6、single trunk)存在因硬件和软件升级会带来的中断时间重起和切换的时间较长没有经过测试可立即使用的备件因为缺乏故障判断troubleshooting手册和相应而造成中断时间的延长机房环境存在问题假如您的网络存在下列问题,将很难达到4个9的可靠性那么 99.999% 的可靠性呢?冗余切换的错误可能性较高出现双重故障的可能性较高 核心网络当线路或设备出现故障时路由重计算的时间较长过于依赖手工操作没有标准的可重复的流程管理假如您的网络存在下列任何问题,都将无法达到5个9的可靠性提高可用性可用性AMean Timeto RepairMTTRMean TimeBetween FailureMTB
7、F高可用的 IP 网络的特点可用性 网络达到 5个 9甚至更高的可用性性能 网络可以无缝地路由流量以避免拥塞和瓶颈业务连续性 网络可以显著地减轻灾难的影响以保证业务的连续性不受影响应用的支持 网络支持所有关键应用的端到端传送适应性 网络能适应故障并且不需要为支持新的应用而重新设计安全运营的保障:网络安全和网络管理高安全性的网络网络监控和管理工具高标准的网络优化服务安全运营的基础:可靠的基础设施高可靠的网络设备和技术特性高可用性的网络设计统一模块化的体系结构安全运营的核心:IT管理和运营流程IT管理体系配置管理、变更管理、问题管理安全运营的重要组成什么是最佳实践经验?实现可重复的, 一致的, 可
8、衡量的流程变更管理网络上的增加、减少和变更新应用和新技术缺乏强制缺乏软件升级的管理配置管理程序不统一未经测试的配置Cut and paste 问题问题管理被动型与主动型缺乏根本原因分析故障分析方法混乱什么是配置管理? 有效的流程和工具的组合设备配置的一致性地址管理和域名管理软件版本控制密码管理和认证布线和命名习惯网络结构文档 配置版本控制系统配置升级流程 设备管理清单 设备环境管理 为什么配置管理如此重要? 案例: 包括1800台设备的大型网络影响: 在1800设备中只有1100台可以被网管系统自动发现问题: 缺乏标准、流程背景: 大型的缺乏管理的网络,运营费用高,且有安全隐患30 多个不同的
9、 IOS 和 CatOS 版本各种不同的 SNMP 配置缺乏一致的访问口令和统一的配置缺乏流程, 规范和文档在和第三方咨询公司的协同下,花费两年时间解决了上述问题建立配置管理流程的建议创建集中存放的配置模版实施访问控制加强标准性监控变更和统一性为配置/IOS/CatOS 等的变更提供标准的测试什么是问题管理? 有效的流程和工具的整合 流程运营的概念管理系统的配置和运维网络文档故障判断排除的方法和程序故障的升级流程通知和报警的程序理解规范和流程运营指标意外问题报告分析 工具 网络体系架构 故障信息采集 意外情况的阀值指标 远程网络监控 意外问题报告的生成 事件纪录和归档 事件补救措施 针对故障的
10、沟通 自动化 系统的整合和集成为什么问题管理如此重要? 案例: 数据中心的崩溃影响: 客户只因一个事件就没能实现5-9的目标问题: 没有应急处理流程背景: 具备高冗余设计的一个全国性数据中心网络运营中心的技术人员陷入慌乱状态重起了大量设备修改了配置未对变更作相应的纪录和归档在事件发生4小时后联系 Cisco TAC缺乏用于分析问题的相应的事件信息在分析出根本原因前,另外两个数据中心也经历了同样的问题建立问题管理流程的一些建议灵活可靠的管理系统知识管理/文档的储存故障判断排除手册定义升级处理流程员工能力/第三方合约建立成功的模型什么是变更管理?变更管理提供变更的相关原因变更请求的批准流程分配风险
11、级别(根据风险级别进行测试)定义变更窗口紧急恢复流程为什么变更管理如此重要?: 案例: 美国某主要保险公司某地方工程师在工作时间进行一个将企业网络联入互联网的项目 - Had internet router up locally with the carrier from a layer 2 prospective- Connected router to enterprise network from a layer2 prospective-Was working on adding IP routing and was having issues with static routing-
12、 Added multiple routes throughoutnetwork devices to get traffic to the internet router- Did not documentwhat changes were made or where he had made changes to routing- Finally realizedthat no users in any of the WAN or campus locationscouldget to the data center- Complete network down for 24 hours (
13、until Cisco SE went on-site) and all employees had to go home for the day.Cost of downtime in the millions of dollars 结果: 20,000 客户在营业时间长达 4个小时断线根本原因:default routes blackholing traffic in multiple locations. 建立变更管理流程的一些建议考虑并计划所有的变更确保变更是必要的评估变更的风险尽量地减少风险提供给失败的变更变更的测试衡量变更的成功加强授权的变更国际上成功实现网络安全运营的企业最佳实践
14、建立一致的、标准的、可重复的流程有能力利用指标来:了解故障的原因判断问题的范围改进流程衡量变更的有效性改进组织的效率向主动的管理和运营发展最佳实践的例子分级技术支持全天候(7X24)的网络运维中心支持呼叫的应答,启动事故单和获取所有的相关信息监控网管系统执行基本的故障隔离和恢复程序文档纪录并对疑难问题升级到二线支持通过电话会议等工具与多方面的支持人员协作以确保问题的解决确保事故单的关闭在必要的情况给服务商或厂商根据SLA开Case给二线支持人员提供相关的文档并对网络文档及时更新以确保其准确性与服务对象和其他相关部门的沟通以确定变更实施时间生成多种参数报告,包括Syslog报告、事故单日报、周报
15、、月报,提交给相应的支持部门一线支持人员的职责:最佳实践的例子分级技术支持给网络运行支持团队的技术支持和领导日常运行维护工作的管理辨别流程的有效性以确保团队的日常操作是遵循标准流程的管理事故的升级,协调北部和厂商资源,确保事故可以基于SLA得以解决涉及故障的解决等变更问题时,向管理层申报并通知相关部门和服务对象变更时间判断日常运行维护团队的培训需求,建立相应的培训计划分析参数报告,发现升级优化等网络改造需求与二线网络支持队伍、变更管理队伍和设计团队紧密协作熟悉运行维护中使用的网络管理和故障管理工具确保值班表的准确实施确保所有一级和二级故障的故障原因能被准确定位 一线支持团队经理的职责最佳实践的
16、例子分级技术支持对于管理的网络范围内出现的事故,在事故发生的全程作为负责人/责任人,直到事故关闭故障分析和判断(Trouble Shooting)主动故障管理的日常分析提交网络优化方案,并确保优化方案的实施日常事故单的分析和总结,提出预防措施确保故障预防方案的实施给网络一线支持队伍提供知识的传递和分享,帮助一线队伍提高技术水平,加深对网络的理解变更方案的详细审核和测试,确保变更能成功达到预定目的,并确保在规定时间内完成变更的实施关闭变更单,给出变更的简要总结变更后检查和确认网络文档已经被准确及时地更新熟悉灾难恢复的流程和操作程序,并能搞成功实施提交流程自动化方案,开发Scripts对一级和二级
17、故障提供故障分析二线支持人员的职责:最佳实践的例子分级技术支持对于所有的一级和二级故障为二线支持人员提供直接和及时的支持在进行关键和重大的网络变更时与二线支持团队共同进行方案的审核测试和验证协同变更管理团队进行变更的审批确保所有的变更在实施前开出主动分析网络性能数据和网络流量趋势,主动进行网络能力的规划对网络设备上使用的软件版本(如IOS)进行测试、分析,实现有效的版本管理全局配置模板的设计与厂商紧密合作,通过学习、测试等及时掌握和验证新技术分析新技术的作用,组织对相关部门的网络新技术介绍从执行全网规划、优化全网的角度调查研究新技术和新设备准备和执行网络升级的计划与安全检查和信息安全团队协作以
18、确保建设安全的网络,消除网络存在的安全隐患对长期存在问题的分析和研究制定解决方案网络的规划、设计、关键性实施,运维培训和运维优化三线支持人员的职责:提纲企业OCC运维指挥中心介绍内部网络安全介绍高可靠园区网络的最佳实践EMAN系统介绍CAPNet 支持着全球67各国家,430各网络节点的38,000+个员工的业务运作支撑在分布在圣何塞、RTP、阿姆斯特丹和悉尼的4个生产数据中心统一的基于IP的架构使得数据、语音、视频的聚合网络易于构建、升级与管理CAPNet的备份策略包括节点、设备和线路的多个层面AT&T是在全球首选且主要的电信运营商,其他运营商包括C&W,Equant等欧洲地区采用基于MPL
19、S VPN的OC12连接7600和7200分别支持大型和小型的广域网络美国地区广域网整个美国的WAN以OC12和OC48作为骨干线路每个WAN节点通过多条T1线路,或者DS3备有T1备份来与最近的Hub节点连接2002年之前,采用hub-and-spoke的方式,但由于点对点应用(如:视频、Unified Messaging、e-Learning)的逐渐增多,要求优化WAN的构建方式整个架构的优化设计使得任何两个WAN节点之间都能选择最短的路径,最少的延迟,以及QoS的实现。这对于音频与视频的应用十分关键。几乎每个WAN节点采用完全相同的设计。3845路由器能支持从几个到200个的网络用户。这
20、样既简化的网络的设计与维护,同时又使未来的扩展变得简单。改造前改造后线路成本增加了4%带宽提升了368%圣荷塞总部的园区网总共有50+风格类似的办公建筑分布在美国圣荷塞San Jose总部;这些建筑囊括了的桌面办公、研发、实验室、数据中心等诸多功能;园区网的规模大致如下:900+交换机200+路由器800+无线AP25000+ IP电话18000+用户9 数据中心2003年的第二季度,在有不间断UPS和发电机所支持的区域内,网络的可用度曾一度达到99.99853%!采用标准的园区网设计模式Server FarmDistributionCoreAccessDistributionAccessWA
21、NInternet6500s for Desktop, 3550s for Lab Switch高可靠的网络基础架构AutoSecure, Warm Reload, Control Plane Policing, NSF/SSO, Switch Cluster, Config Rollback, Fault Containment 设备级的保障Routing protocol enhancements, Spanning-Tree enhancements, EtherChannel, MPLS TE, GLBP/HSRP, MLPPP, DDR, Resilient Packet Ring
22、网络级的保障总部园区网达到5个9高可用性问题: Ciscos IT LAN evolved over time硬件和软件不标准统一 (12K,5K,6K,7500)管理和运维流程不顺畅计划外的故障影响到可靠性设计和实施不尽一致解决之道: 共同努力以达到 5 个9的可用性衡量可用性分阶段判断并定位问题目前达到5个9 (99.997% adjusted)Availability5 99.9994 99.993 99.9园区网如何衡量可用性我们采用衡量 客户体验 的方式我们采用接入层交换机的可用时间来估量客户的可用时间我们每隔15-20秒对每台接入层交换机作两次 ping ,假如得到响应则认为设备的
23、状态是 “up”, 否则这一间断将计入设备可用性指标对应于raw availability初步指标,我们使用adjusted调整后的指标 vs. raw availability 减去所有计划内的网络中断 (客户已经得到预先通知的)达到 3 个 9353535 2003, Cisco Systems, Inc. All rights reserved.Presentation_IDAvailability3 99.9实现计划确定并解决 3 9 的问题改进 网络设计、流程和基础设施Availability3 99.93 9问题 问题领域Topology problemsDesignIncompl
24、ete reportsMeasurement / reportingPreventable outagesProblem managementChange collisions Change managementDelays in restoring serviceInfrastructure设计和标准问题: Campus sites using different topologies for each building/clusterNo access to devices during network outageInefficient address space usage resul
25、ting in large routing tables and longer times to converge network解决之道: Follow a hierarchical model core, distribution, and access Implement out-of-band network with console servers for all devicesSummarize subnets reducing number of routing table entries resulting in fast routing convergence Availab
26、ility3 99.9流程和基础架构问题: Incomplete reportingPreventable outagesChange collisionsDelays in restoring service解决之道: Measurement and reporting raw and adjusted availability % + monthly/quarterly/annual reports including top 5 planned and unplanned outagesRoot cause analysis identify causes + fix + documen
27、t + preventChange requests allow user notification for planned outages and assist problem resolution and measurementInfrastructure improvements Outage alerts, UPS for critical equipment, redundancy, emergency spares, out-of-band managementAvailability3 99.9393939 2003, Cisco Systems, Inc. All rights
28、 reserved.Presentation_IDAvailability4 99.99达到 4 个 9确定并解决 4 9 的问题改进 网络设计、流程和基础设施实现计划4 9问题 问题领域Patchwork design H/W & S/WHW/SW standardizationIncident responseProblem managementRedundancy checking Change managementDelays in restoring serviceInfrastructureAvailability4 99.99设计、流程和基础架构问题: Patchwork of
29、different hardware, and OS versions Troubleshooting skills and focusRedundancy oversightsDelays in restoring service解决之道: Standardize on 6500s in all three layers for campus, 7200s for WAN aggregation, 3640/3745 for WAN edge, 3550 for remote office switchStandardize on IOS/CatOS version per platform
30、Troubleshooting drills on IT lab networks; operations command center for problem managementManual testing of redundancy during planned outages; scripts verify each device has two paths back to the coreInfrastructure improvements All devices on UPS, critical devices on a generator, availability integ
31、rated with change managementAvailability4 99.99达到 5 个 9424242 2003, Cisco Systems, Inc. All rights reserved.Presentation_IDAvailability5 99.999实现计划5 9问题 问题领域Combined test / production networksDesignInconsistent auditing and inspectionConfiguration managementTroubleshooting overlapProblem managementD
32、elays in restoring powerInfrastructure确定并解决 5 9 的问题改进 网络设计、流程和基础设施Availability5 99.999设计、流程和基础架构问题: Testing occurring on production systemsLacked automated configuration auditing and manual inspection processTroubleshooting overlap between TAC and ITDelays in restoring service解决之道: Separate networks
33、 for production and test Switch auditing process ensures standard configurations:Router audit tool (RAT) adapted for switches Manual equipment inspections during all change managementsIT focus on problem prevention, TAC handles troubleshooting Backup generator for data centers and backbonesAvailabil
34、ity5 99.999最后的 “运营最佳实践”Paranoia努力达到 “5个9” 的过程极富挑战性Cisco IT 不断地自我设问:What was availability yesterday?Why?这是一种极具压力的生活方式我们在招聘时会提前警告那些应征的人们Availability5 99.999所有关键节点之间以及到关键节点的连接都有线路级、节点级和设备级的备份统一的网络设计模板与软/硬件的标准配置IOS版本的严格选用与控制7x24的网络与设备监控 EMAN与电信运营商以及与内部IT之间执行严格的服务级协议SLA标准化的网络故障级别与响应机制网络实现高可用度的关键在于提纲企业OCC
35、运维指挥中心介绍内部网络安全介绍高可靠园区网络的最佳实践EMAN系统介绍IT 全球运作部IT全球运作部与IT应用和服务供应部一起管理IT生产环境,以便:所有分布各地的IT部门都能按可升级性的稳定方法来操作协调和交流进行的变更监控和管理可用性和事件分析问题的根源并找到永久性修复方法测量和报告服务水平这样做的优点是:IT 和企业客户能够随时了解变化降低计划外停机的次数、成本和影响高效运作及统一的客户体验像业务部门那样运作IT并衡量IT的业绩资料来源: IT 服务管理, ITIMF有限公司, ISBN 0952470608业务驱动的设计理念自顶向下的设计理念与标准的网络架构模板的网络设计委员会负责制
36、订内部各种不同用途、类型和规模的网络架构模板 (Network Template Architecture),其成员由总部 IT 部门的高级网络设计专家,核心网络产品部门的代表,区域 IT 部门的资深网络设计工程师,和内部独立的信息安全管理小组的安全设计工程师组成;根据所部署(新建、改造或升级)网络的地点、用途和规模,由的 IT 部门严格按照所对应的网络架构模板进行详细网络设计,在得到网络设计委员会的批准后,进行具体的实施;网络架构模板着重根据内部对应的网络服务级协议的标准通过各种冗余设计来实现网络的高可靠性和高承受力;在网络实施的同时,在的企业资源管理平台 - EMAN中进行相应的设备配置登
37、记,并立即对其实施实时运行监控和管理。运维管理体系的遵循对内部 IT、电信运营商和服务外包商实施严格的服务级协议管理,并要求服务外包商(如桌面系统技术支持)严格遵守内部的服务支持流程,并使用的服务支持平台系统;在全球的五个技术支持中心(即服务平台)执行统一的服务级协议和服务支持流程(事件、故障、变更、配置和版本管理,等),使用相同的服务平台和网管平台;通过网络基线定义,对所有企业资源配置管理数据库中的网络和系统设备及应用,在假设分析和风险评估的基础上,定义了故障和服务级别;InfoSec作为在独立于IT的信息安全管理部门,将对任何的新系统的开发或者现有系统的升级进行安全检查和审计。位于圣何塞总
38、部的数据中心加州圣荷塞数据中心是全球四个生产数据中心之一。它支持着的内网、ERP系统、数据存储、IP电话,以及其他各类面向员工的网上应用与数据库系统;总占地面积1,326平方米,其中包括了IT运营指挥中心(OCC)、1999年初建的数据中心、2001年的扩建部分,以及其它办公场地;OCC的职责包括:解决任何对与业务持续产生影响的基础设施问题跟踪和反应全球4个生产数据中心与41个工程数据中心的P1/P2级故障监控8000+个P1/P2级主机及设备、374个P1级应用,以及500+个P2级应用利用EMAN对10,000+网络和主机进行24小时不间断的监控得益于的分级技术支持体系,圣何塞OCC的员工
39、人数为14名,沟通、协调与文档纪录是他们的主要工作。支持响应机制的执行由运行指挥中心 (OCC,Operations Command Center) 和技术支持中心 (TRC,Technical Response Center) 作为一级技术响应/支持,IT 运维部门作为二级技术支持,厂商作为三级技术支持的技术支持分级体系;OCC负责网络和系统类的1、2级故障事件的响应、处理调度、进程管理、记录和关闭;由TRC负责3-6级服务申请的响应、处理、进程管理、记录和关闭; 技术支持中心也可以根据服务申请的类别分配给 IT 运维部门的值班工程师处理;IT 运维部门也根据事件级别的不同分为两个层次:资深
40、设计工程师负责1、2级事件的分析和处理,需要7天x 24小时值班响应;普通工程师负责其余服务申请和事件的处理,根据服务级协议的规定,这些工程师只需要在正常工作时间内完成处理即可;建立了完备的故障处理知识库,以及与配置管理数据库相对应的值班责任人/组制,使得服务申请的分配可以明确、迅速的完成;在1、2级故障和变更处理过程当中,运行指挥中心只负责对服务申请的响应和调度,具体分析和处理由 IT 运维部门的值班工程师完成。为保证值班工程师集中精力、及时解决问题,所有的进程记录和审批工作由运行指挥中心负责完成。支持响应机制的执行(续)故障级别和相应的服务级协议故障级别响应时间解决时间 P1 (pls c
41、all) 立即响应2 小时 P2 (pls call)2 小时4 小时 P3 (prefer call)4 小时24 小时 P4 (case)电话确认48 小时 P5 (case)电话确认5 天 P6 (case)电话确认自定义时间环境分类4个业务数据中心集中管理:面向员工的内部网、业务应用和服务互联网 应用和服务灾难恢复、开发、测试和布局EMEA 地区应用和服务41 个工程数据中心分布在11个国家,横跨十个时区计划排列环境的优先顺序3200 个一级应用和系统8800 个二级应用和系统 - 分成 -业务系统环境客户支持C企业资源规划员工生产效率应用和服务IT 开发工程环境IT全球运作部和运作指
42、挥中心认为,IT环境包括:计划问题管理的目标快速有效地解决问题排列资源和响应的优先顺序,首先解决最严重的问题尽量减少重复性问题的发生提高支持人员的生产率提供管理信息资料来源: IT 服务管理, ITIMF有限公司, ISBN 0952470608计划问题管理流程投入使用验收事故管理事故后回顾长期修复计划服务水平协议24 x 7 运作模式指挥中心详细的根源分析解决方案分析分类企业监控器专家审核错误控制优先排序影响严重性分析找出技术问题变更请求支持文档事件信息找出规程问题审核和签收应用监控器二级和专家支持解决方法短期修复报告报告报告报告计划投入使用验收 Cisco Systems, Interna
43、l Use Only 步骤说明1基础设施交接2EMAN 应用管理:注册3确定应用的优先等级和SLA4托管决策Hosting Decisions5EMAN 应用管理:监控介绍6SCM: 评估7厂商联系信息8SCM: 支持从开发到推广的整个流程9EMAN 应用管理:监控配置10维护和备份规划11支持准备:联盟/挽救和GTRC12职责调整配置13批处理14支持准备:小组成员15投入使用16EMAN 可用性目标和指标投入使用验收事故管理事故回顾长期修复计划使用“生产前检查表”,保证能够在业务要求的水平支持应用。必须在开发周期的早期制订工作程序,因为它将影响到进入生产的其他重要决策。事故管理的事故管理流
44、程 事件管理小组主要负责IT事件短期修复:监控、报警、事件恢复对1级和2级系统进行可用性监控专家和技术支持属于默认支持不太严重的问题由内部Help Desk (TRC)解决分级响应根据优先等级(潜在影响)执行不同的响应根据严重程度(实际影响)决定提升时间适用于所有IT机构和服务供应商应用、数据库、网络、服务器、电信商/服务供应商投入使用验收事故管理事故回顾长期修复计划运作指挥中心设计设计 一个可用性与最关键的IT应用或系统相当的 运作指挥中心(OCC) 。物理位置和需求可控环境比较安静,灯光可调,供热方式灵活提供容错型冗余电源必须为最关键的情况留出空间,应允许根据流程的变化重组空间。逻辑位置和
45、需求也很重要在网络和基础设施中建立可靠的供应点在所有系统中设计高容错性投入使用验收事故管理事故回顾长期修复设计逻辑容错如果想了解IT运作指挥中心的IT电话解决方案,请访问:/en/US/about/ciscoitatwork/case_studies/ipcommunications_dl5.html投入使用验收事故管理事故回顾长期修复设计 IT 全球运维指挥中心圣何塞可控环境,灵活,可扩展运维指挥中心设计圣何塞安全室(第12号大楼)的尺寸大约为10 x 20 米可以容纳12位分析家空余空间用于危机情况下的管理和协调房间后面的观察区用于客户管理人员简报中心(EBC)访问两公里外的备用房间采用了
46、类似的布置,但没有EBC区 班加罗尔 (Bangalore)安全室的尺寸大约为 7 x 10 米可以容纳6位分析家需要扩展(2005年5月)三公里外的备用房间采用了类似的布置投入使用验收事故管理事故回顾长期修复设计事故管理小组圣何塞 OCC的工作时间为6am-6pm PT,班加罗尔的工作时间为 6pm-6am PT按业务需求聘用员工,每个职位或247“座位”需要5-6人人才及技能最重要,与之相比,其它都是次要的的OCC: 注重人员的交流和流程技能、自信心和面对危机的决断能力“2级”NOC:包括技术知识和技能投入使用验收事故管理事故回顾长期修复实施政策支持制订统一支持和执行的强有力的业务政策和流
47、程例如: 事件管理团队对所有参与者都抱有强烈的期望投入使用验收事故管理事故回顾长期修复实施记录规则:“未记录就视同不存在”这一点已成为一种标准和规范的要求生产验收事件管理事后回顾永久修复实施工具监控(企业监控器,用于批处理报警的 HP OpenView )案件处理(Remedy,专用于处理 P1/P2 信息)支持文档( 值班日历,名录)通信(电子传呼、电子邮件和Web服务)对依赖运营命令中心(OCC)的服务,需要有换行的解决方案。为所有可能发生的事件建立人工流程。投入使用验收事故管理事故回顾长期修复实施应用和系统监控实施投入使用验收事故管理事故回顾长期修复事故管理 的步骤用24 x 7 的模式
48、监控所有P1和P2事件. 12000个应用/设备被监控, 每季度约8500,000批工作量所有P1事件以24 x 7模式升级处理,所有P2个案按工作时段处理,每季度处理2250个案多数事件都应立即恢复,2 小时内解决 属P1 SLA的案件(一级服务协议), 4 小时内解决 P2 SLA (2级服务个案).事故对业务的影响按“严重”等级记录. 约有99.5%的事故对业务没有大的影响针对类别、优先顺序和严重程度有目的地进行交流。事故信息会用于今后的错误根源分析、步骤改进、和报告中投入使用验收事故管理事故回顾长期修复实施问题管理程序实施所有1级和2级事件都应作错误根源分析和长期修复计划在五个工作日内
49、建立错误根源分析文档在五个工作日内建立永久修复文档长期修复计划的实施与变更管理相连对于所有对业务影响较大的问题,都应作正式的事故分析投入使用验收事故管理事故回顾长期修复掌控问题管理部门内进行检察深入、详细的审核IT管理层执行每日运作审核执行季度运作审核,将进度与期望进行比较运作投入使用验收事故管理事故回顾长期修复并制作主要管理指标图!报告 - IT P1/P2 案例统计运作发展及维护在运作过程中改进和完善是逐步的!每年有20项程序变动保持流程和步骤的灵活性,使之能满足新的业务要求和机会定期检查所有设施和系统。 每个季度,OCC小组必须去一次备用命令中心,并实习全套步骤定期测试所有步骤、情况和紧
50、急措施:如,危机演习。运作IT 全球运作和持续改进改进并集成流程和数据服务数据集成服务水平管理容量管理连续性管理可用性管理财务管理发布管理服务供应配置管理变更管理支持中心,服务请求问题与事故管理服务支持资料来源: ITIL 和 ITSM运作外部和在线参考官方 ITIL web 站点是 www.itil.co.uk。许多公司都提供支持ITIL模式的应用及咨询。以下是一些供应商的网址:“IT运营概述”和“IT数据中心导览”两篇文章中详细讨论了的IT全球运作、运作命令中心和数据中心实践。欢迎访问Cisco ITWork:/en/US/about/ciscoitatwork/index.html“IT
51、运营概述”的网址为:/en/US/about/ciscoitatwork/white_papers/datacenter_dl1.html“IT数据中心导览”的网址为: /en/US/about/ciscoitatwork/white_papers/datacenter_dl13.html提纲企业OCC运维指挥中心介绍内部网络安全管理介绍高可靠园区网络的最佳实践EMAN系统介绍安全对于的重要性电子商务36,000 正式员工 + 18,000 合同员工Ciscos 信息资产 & 客户信息长达10年积累下的信息技术带来的生产力提高11 个 Internet 出口 主要出口: SJ, RTP, Am
52、sterdam, Sydney, Tokyo35 个与Internet 连接的实验室全球1000+ 实验室 (500+ 在 San Jose)210+业务和支持开发伙伴110+ 个应用服务提供商ASP300 个办公室分布在100多个国家这些资产会受到什么样的威胁按信息安全威胁对造成的影响,将威胁分为:中断直接影响生产率外部中断源(如:分布式拒绝服务DDoS)内部中断源(如:病毒爆发)意外性中断源(如:设备配置错误)损失直接导致公司价值受挫随机的信息窃取(如:无意闯入机密信息存储)有目的的信息窃取(如:商业间谍、恶意的前雇员)意外的损失(如:无人操作的计算机屏幕上显示的重要信息、掉在地上的重要传
53、真)中断 与 损失内部信息安全部门InfoSec的历史内部安全在1997年以前被严重忽略,1997年时只有1-3个负责安全的人员1998年夏季,建立了信息安全部门(InfoSec),并在内部作了SPA结果显示存在显著的安全隐患引起审计委员会的兴趣1999年五月,InfoSec在全球共有8名员工1999年十月,意外事件凸现了InfoSec的重要性2000年十月,InfoSec的团队达到了40人,并继续保持一定的增长InfoSec的目标和首要任务首要任务保护品牌保护的电子商务保护的信息资产和客户信息管理信息和计算资产的 保密性、完整性和可用性面临的风险,以使的效益最大化安全策略的指导思想“将安全看
54、作一套综合的作用,我们明白实现安全、强健的网络环境的必要性。我们的目标是通过综合的网络安全解决方案,在使工作效率最大化的同时实现风险的最小化。 John Chambers“Those who would sacrifice essential liberties for a little temporary safety deserve neither liberty nor safety. “ Benjamin Franklin的信息安全组织(InfoSec)直接汇报至公司的CIO,并同时对审计委员会、运营委员会和安全委员会负责约翰.钱伯斯(CEO)CIOInfoSec总监架构与设计安全技术
55、架构设计制定与维护安全策略安全制度合作伙伴的连接审查安全产品开发审查安全运作7x24支持防火墙/IDS事故处理应用和系统的安全支持安全事件管理收购审查安全服务实验室安全PKI风险评估电子邮件与病毒安全循检宣传与沟通审计委员会运营委员会安全委员会InfoSec的任务目标:通过对的信息与计算机资产的保密性、完整性和有效性的潜在风险的有效管理,最大程度地提高的生产能力和盈利能力。的信息安全管理策略:部署、管控和遵循信息技术制度流程行为意识部署架构遵循规范管控执行集成的安全控制多层次深度防御信息安全制度信息安全流程安全意识安全/事故行为的奖励/惩处“与的产品开发部门之间,就的信息安全需求保持不断的沟通
56、(CoC)”“业务的运作不能间断,必须保证运作过程是安全的”“理解并不断平衡各种潜在的风险”“信息安全策略与业务策略是紧密相关的”管理安全安全政策 安全组织 风险评估 安全流程 安全审计/绩效应用安全权限管理 身份认证 密钥管理, 内存管理访问控制 入侵检测 网络联通性/可用性 安全扫描系统安全数据安全数据加密 数据备份 病毒防护网络安全物理安全灾难恢复 系统冗余 线程管理 办公场地环境安全与监控 人员出入管理组织/人事数据/信息业务/应用环境/设施将信息安全管理划分为6个层面依据的业务战略与安全风险评估的结果,InfoSec制定了信息安全的管理重心 信息安全的管理重心保护的品牌保护的电子商务
57、网站保护的信息资产和客户信息为什么:品牌是公司的标识,是最重要的资产。如何做:与公司法律部门一起,最大范围的搜索对品牌的盗用或滥用,并寻求相应补救措施。为什么:约95%的销售和采购订单是在网上发生的。如何做:组成跨功能的团队,制定专职人员,关注网站及相关资源的安全。7x24的监控,对任何应用与基础架构的更改进行严格控制。为什么:信息资产和客户信息是业务发展的关键资产,且相对其他资产(固定资产)来说,更容易受到损失。如何做:专职的队伍进行信息资产分类、识别和防范风险信息分级制度最大范围的搜索信息资产是否被盗用为了确保信息安全的管理重心得以有效的落实,InfoSec确定了相应的优先任务信息安全的优
58、先任务信息安全意识 认证与授权机制主机(各类服务器、PC终端)安全应用安全 实验室安全移动安全保护的品牌保护的电子商务网站保护的信息资产和客户信息InfoSec每年对已制定的信息安全制度和执行结果进行审查制度流程Applications 应用数据加密规则应用服务外包数据库登录设置数据库执行环境应用程序项目安全源代码保护自动转发规则垃圾邮件控制可接受的行为规则账户存取规则收购评估审计制度信息分级安全病毒防护密码保护风险评估实验室病毒防护内部/DMZ实验室安全外网安全路由器与交换机安全服务器安全无线安全拨号接入远程接入VPN网络模拟线路与ISDN线路安全DMZ设备DMZ应用服务器DMZ网站权限Re
59、mote Access 远程接入DMZ 非军事区域Email 电子邮件General Policies 一般制度Lab Policies 实验室Networking 网络Telephony 电话通讯行为意识信息安全可以从简单的行为意识开始在,5个首要的信息安全须知:安全是每个人的责任将信息分级制度应用到所有文档不要将含有公司机密的电子邮件转发到外部邮箱了解与自己相关的信息安全制度保护自己的物理与虚拟工作环境Where to start:养成好的密码使用习惯健壮的密码设置使用网络密码设置工具使用公司推荐的密码管理软件行为意识在信息安全行为意识的宣传和培养上开展的一系列工作目的:提高全球对信息安全
60、的意识的总裁兼CEO约翰.钱伯斯宣布了信息安全推广活动的开始InfoSec使用专职的宣传和沟通人员利用尽可能多有的渠道和载体进行推广,包括:网站、墙贴、桌饰、PowerPoint、视频点拨、行李及文件包、磁贴、电子邮件、光盘初期的推广内容包括:一般安全意识、密码保护、无证尾随者、社会工程学进阶的推广内容包括:主机安全、数据保护、资料销毁、传真和白板的使用、员工身份卡信息安全的产品和技术部署包括信息技术防火墙入侵监测DDoS防护远程访问互联网与合作伙伴网络审计与风险评估PKI以的桌面信息安全为例信息技术问题:感染病毒的员工笔记本接入公司网络恶意的网站通过员工PC攻击网络非标准程序的安装目标:保护
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河北2025年河北省眼科医院高层次人才引进23人笔试历年参考题库附带答案详解-1
- 北京2025年首都医科大学附属北京地坛医院招聘笔试历年参考题库附带答案详解-1
- 车险知识详解
- 转正大会会议流程
- 酒店餐厅卫生培训
- 2022届山东省青岛地区高二下学期期中考试化学试题(含解析)
- 轨道交通统计培训
- 初中数学比赛课件
- 课程思政示范课程展示
- 物业设施设备能效优化与节能降耗方案
- 临床超声引导下中等长度导管置管临床实践
- 初中女生性教育课件
- 2024年度混凝土生产成本控制与绩效评估合同3篇
- 2024年安徽财贸职业学院单招职业技能测试题库汇编
- 2024版房屋市政工程生产安全重大事故隐患判定标准内容解读
- 酒店项目运营管理方案
- 医院培训课件:《黄帝内针临床运用》
- 陶瓷厂安全生产培训
- 风湿免疫性疾病-2
- 高中生物(人教2019版必修2)全册教材知识深挖(学生版+解析版)
- 贸易安全内部培训教材
评论
0/150
提交评论