




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
深信服超融合HCI产品技术白皮书密级:公开文档版本01(2022-08-29)深信服超融合HCI技术白皮书产品版本HCI6.8.1文档版本1.0发布日期2023.02.13深信服科技股份有限公司版权声明版权所有©深信服科技股份有限公司2022。保留一切权利(包括但不限于修订、最终解释权)。除非深信服科技股份有限公司(以下简称“深信服公司”)另行声明或授权,否则本文件及本文件的相关内容所包含或涉及的文字、图像、图片、照片、音频、视频、图表、色彩、版面设计等的所有知识产权(包括但不限于版权、商标权、专利权、商业秘密等)及相关权利,均归深信服公司或其关联公司所有。未经深信服公司书面许可,任何人不得擅自对本文件及其内容进行使用(包括但不限于复制、转载、摘编、修改、或以其他方式展示、传播等)。特别提示您购买的产品、服务或特性等应受深信服科技股份有限公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,深信服科技股份有限公司对本文档内容不做任何明示或默示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新,如有变更,恕不另行通知。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保,深信服科技股份有限公司不对本文档中的遗漏、变更及错误所导致的损失和损害承担任何责任。联系我们售前咨询热线:400-806-6868售后服务热线:400-630-6430(中国大陆)深信服科技官网:
文档说明本文档是深信服超融合HCI产品介绍材料,包括产品架构、主要功能、典型应用场景等介绍,旨在帮助一线销售、售前、技术支持等人员了解产品,达成熟悉产品和应用场景的效果。修订记录修订记录累积了每次文档更新的说明。最新版本的文档包含以前所有文档版本的更新内容。日期文档版本备注2023-02-13V1.0符号说明在本文中可能出现下列标志,它们所代表的含义如下。图形文字使用原则危险若用户忽略危险标志,可能会因误操作发生危害人身安全、环境安全等严重后果。警告该标志后的注释需给予格外的关注,不当的操作可能会给人身造成伤害。小心若用户忽略警告标志,可能会因误操作发生严重事故(如损坏设备)或人身伤害。注意提醒操作中应注意的事项,不当的操作可能会导致设置无法生效、数据丢失或者设备损坏。。说明对操作内容的描述进行必要的补充和说明。在本文中会出现图形界面格式,它们所代表的含义如下。文字描述代替符号举例窗口名、菜单名等方括号“[]”弹出[新建用户]窗口。选择[系统设置/接口配置]。按钮名、键名尖括号“<>”单击<确定>按钮。目录1. 产品概述 91.1. 超融合介绍 91.2. 深信服超融合演进 102. 客户价值 113. 超融合整体架构设计 123.1. 架构设计原理 123.1.1. 分层设计 123.1.2. 组件解耦和服务化 133.1.3. 服务云原生容器化 153.2. 功能架构设计 153.3. VDI和HCI融合架构 163.3.1. 融合部署场景 173.3.2. 桌面即服务(DaaS)场景 183.4. 产品兼容性 194. 超融合关键技术 204.1. 计算虚拟化aSV 204.1.1. 技术概述 204.1.2. 功能/特性架构图 264.1.3. 资源管理 274.1.4. 数据保护 374.1.5. 故障预防与处理 514.1.6. 性能优化 614.1.7. 业务部署 654.2. 存储虚拟化aSAN 784.2.1. 技术概述 784.2.2. aSAN产品架构 784.2.3. 数据存储流程 814.2.4. 高性能 824.2.5. 高可靠 984.2.6. 智能运维 1264.2.7. 存储高级特性 1344.2.8. 延伸集群 1444.3. 网络虚拟化aNET 1504.3.1. 技术概述 1504.3.2. aNET架构设计 1514.3.3. 多集群大二层网络 1634.3.4. 网络部署能力 1644.3.5. 虚拟网元设备 1804.3.6. 网络流量转发功能 1834.3.7. 网络可视化 1954.3.8. 流量镜像 1964.3.9. 网络运维功能 1984.4. 安全虚拟化aSEC 2034.4.1. 技术概述 2034.4.2. 安全防护架构 2044.4.3. 云安全中心(内建安全) 2074.4.4. NFV组件 2144.4.5. 东西向分布式防火墙 2214.5. 超融合管理 2234.5.1. 超融合管理概述 2234.5.2. 集群管理 2244.5.3. 运维管理 2284.5.4. 集群升级 2344.5.5. 平台管理安全 2374.5.6. 开放性支持 2454.6. 灾备技术架构 2464.6.1. 容灾方案总述 2474.6.2. 容灾流程 2484.6.3. 业务可靠性分级 2534.6.4. 容灾技术特性 2554.6.5. 云备份 2594.6.6. 异构灾备 2614.7. 云管平台SCP 2625. 信创架构关键技术 2645.1. ARM和X86同架构 2645.2. 产品性能增强 2655.2.1. 网络亲和调度优化 2655.2.2. 内存读缓存 2665.2.3. CPU调度负载均衡优化 2675.2.4. 网卡队列和中断绑定优化 2685.2.5. PAT优化 2695.3. 产品可靠性增强 2705.3.1. 通用IO处理增强 2705.3.2. 文件系统优化增强 2715.3.3. 内核核心模块增强 2725.3.4. 增强型功能合入 2735.3.5. 外设驱动适配增强 2755.4. 平滑升级能力 2765.4.1. C86架构平滑升级 2766. 超融合解决方案 2796.1. 业务场景解决方案概述 2796.2. 信创国产化解决方案 2796.2.1. 业务场景与挑战 2796.2.2. 解决方案架构 2806.2.3. 客户价值 2816.3. 数据中心解决方案 2826.3.1. 业务场景与挑战 2826.3.2. 解决方案架构及优势 2826.3.3. 客户价值 2846.4. 容灾解决方案 2846.4.1. 业务场景与挑战 2846.4.2. 解决方案架构及优势 2856.4.3. 客户价值 2866.5. 数据库管理解决方案 2866.5.1. 业务场景与挑战 2866.5.2. 解决方案架构及优势 2876.5.3. 客户价值 2886.6. 虚拟化替换解决方案 2896.6.1. 业务场景与挑战 2896.6.2. 解决方案架构 2906.6.3. 客户价值 2916.7. GPU场景解决方案 2926.7.1. 业务场景与挑战 2926.7.2. 解决方案架构及优势 2926.7.3. 客户价值 2936.8. VDI场景解决方案 2946.8.1. 业务场景与挑战 2946.8.2. 解决方案架构及优势 2956.8.3. 客户价值 2967. 附录:缩略语与名词 297产品概述超融合介绍在传统IT环境下,应用和资源是紧耦合的,使得底层架构缺乏弹性,业务转型带来业务数量增加、用户数量快速递增,IT资源无法快速灵活的随之增长;业务部署缓慢,传统数据中心整体架构复杂、设备种类多,新业务从方案设计、集成部署到最终的运营上线,需要长则数月的时间;运维管理困难也是一直存在的挑战,数据中心设备繁杂、品牌不一,使得IT部门很难对基础设施执行统一监控和管理;当前IT资源的利用率普遍较低,多数设备资源利用率不足20%,除部分数据中心应用了计算虚拟化,存储、网络、安全仍采用物理设备部署,导致建设成本高昂。最重要的是,IT部门将大部分精力投入到基础架构的维护中,而无法过多的关注信息化和业务结合的创新,失去了在业务转型过程中的核心价值。深信服紧密围绕客户价值需求,推出超融合解决方案,首先在基础架构层面,我们以超融合管理和分布式存储等软件能力为核心,实现了只用通用的X86服务器和二三层交换机,通过完全软件定义的方式实现云基础架构;进一步的,我们为业界首家构建了云内建安全的能力,实现了业务上线即安全。在管理层面,我们通过云管平台实现底层云基础架构和上层应用的紧密融合。因此,深信服超融合解决方案是数据中心基础设施简易交付、高效运维、向云化演进的最佳路径。深信服超融合云平台产品架构包括虚拟化产品、超融合HCI、云管理平台SCP,其中超融合产品由计算虚拟化aSV、存储虚拟化aSAN、网络虚拟化aNET、安全虚拟化aSEC组成,云管理平台搭建在超融合平台之上,承载多HCI集群的管理运维工作,并具有可靠中心、安全中心、监控中心、纳管第三方资源等高级运维功能。深信服超融合不断围绕稳定可靠、性能卓越、安全有效和智能便捷四个方面打造产品,能够承载用户数字化转型过程中的各种类型业务,可满足不同客户数据中心建设和管理需求。随着信息技术应用创新产业的不断发展和推进,越来越多的客户在构建自主可控的IT基础设施,深信服超融合作为面向下一代数据中心的软件定义基础架构,从一开始就立足自主研发,打造全栈自主可控的超融合架构。通过软件定义的方式实现ARM和C86架构的资源池化,提供计算、存储、网络和云内安全等资源,提高了资源的利用率与灵活性。兼容飞腾/鲲鹏/海光等8款国产CPU,与50多家国产服务器/数据库/中间件/应用系统厂商进行广泛适配与方案开发,打造完善的信创生态。深信服超融合演进超融合系统正在成为多云世界的“支柱”,与混合云的需求保持一致。现代融合解决方案允许组织利用标准化、软件定义和高度自动化的数据中心基础设施。超融合是无缝多云世界的“本地支柱”,存储、网络和计算的基础设施孤岛已不能满足云时代和数字化转型的需求。深信服正着力打造线上线下一朵云,产品演进将沿着以下路径进行:云端智能大脑:通过AI智能预测潜在隐患,对于发现的严重风险自动推送工单给深信服认证工程师,深信服认证工程师根据云端智能大脑的处置建议进行处置。后续还会往自动巡检和调优的方向进行演进。线下到线上容灾(DRaaS):将本地数据中心的业务容灾到线上托管云上,避免本地数据中心出现灾难时导致业务长时间中断甚至数据丢失。DRaaS最短可实现秒级RPO,同时支持不停机容灾演练等。业务混合部署:打造业务混合部署,将弹性业务上云,实现本地高可靠,云上高保障。同时云上提供完备的安全和等保服务,保障客户业务的安全合规。同构融合云:向同构融合云演进,对于线上线下资源统一管理,统一安全策略,真正实现线上线下一朵云。图1.2SEQ图\*ARABIC\s11超融合演进过程客户价值稳定可靠当超融合承载了越来越多的核心业务,超融合平台的稳定可靠变得尤为重要。深信服超融合平台从多个维度构建整体的稳定可靠。首先云管理平台及超融合集群本身基于分布式架构构建以保证在单节点故障的情况下云管理平台的稳定;其次,针对不可避免的硬件静默错误云管理平台通过完善的监测与屏蔽机制保障业务不受其影响;再次,云管理平台可以提供灾备能力,以及基于灾备能力的灾备管理功能。性能卓越随着超融合被越来越多的用于承载核心业务系统,对超融合的性能要求越来越高。深信服超融合的高性能设计覆盖计算、存储、网络、管理多个维度。以分布式存储为例,自研的存储引擎经过8年的性能调优积累大量的技术,如IO条带化/IO本地化/IO无锁流水线/跨NUMA智能调度等,3节通用服务器+NVMeSDD可达百万IOPS的存储能力,数据库承载场景性能超越业内分布式存储30%以上,媲美高端存储阵列。安全有效 安全已成为继计算、网络、存储之后的第四大基础设施。深信服为业内首家构建云平台内建安全能力,通过内建安全可以实现业务上线即安全,避免复杂的安全管理或由于失误导致的安全风险。而且内建安全具备“上帝视角”,可以清晰的感知流量走向和业务间的安全关系,安全效果更好。智能便捷深信服超融合的智能便捷,不是仅优化某一个功能,而是面向客户平台管理的整个流程做到省心便捷。深信服超融合提供全生命周期的省心便捷能力,从业务迁移到超融合、业务上线配置、业务运行监控可视化、各类故障排障、平滑扩容的全业务流程提供优化机制,减轻客户覆盖,提高管理效率。同时深信服超融合提供云端智能大脑,帮助用户快速发现风险并及时处置,降低风险对客户业务的影响。自主可信通过深信服自主研发打造的基于ARM和X86超融合架构,帮忙客户构建全栈自主可信的数据中心IT基础设施。利用深信服全面构筑的从CPU、操作系统、到数据库、中间件、行业应用等丰富信创生态,帮助客户建设自主可信的业务数字化承载平台。超融合整体架构设计云计算以其服务化、平台化的理念获得了越来越多客户的青睐,对数据本地化有严格要求的客户会选择私有云模式建设云平台,要求支持大型规模的资源池,兼容管理传统IT硬件以及原有虚拟化资源,以及支持开放接口对接客户现有的管理运维系统,对高可靠性和容灾要求也非常高。同时公有云的云服务模式可以大幅减少客户IT运维成本,用户的IT基础设施托付给云服务厂商负责,用户可以更多的聚焦在业务创新和研发上,云服务资源支持灵活、快速、按需扩展,支持质量更优的带宽接入,并且能够更加方便的获得各类高阶服务如数据库、数据分析、平台即服务、以及人工智能服务等。深信服超融合架构全面拥抱云战略,支持中大规模的云资源池建设,从2台节点到数百台节点灵活扩展,支持全局性的资源管理和高级服务如HA、容灾等等;同时,以同一套成熟架构支持深信服托管云-云服务模式,支持客户以自助服务的模式在云上快速构建基础设施以及建立高安全基线平台,统一架构支持混合云架构演进,并且随着各类高阶服务的增强,不断助力客户的数字化转型。架构设计原理分层设计在设计“软件定义数据中心”时,可以将数据中心的架构分为几个层次,分层设计的好处在于每一层的服务和架构,虽然依赖于下一层的设施,但是均是以共同或业界标准接口来交互,因此可以做到依赖却又独立。这种“松耦合”的IT架构,在更新迭代上可以更加弹性,也避免因为技术更新,而造成必须摒弃所有设备,重复投资。同时也可以将资源集中成为资源池,服务集中成为服务平台,有效避免传统分散化架构所导致的数据、资源、服务无法有效共享、效率低下的问题。因此,在构建软件定义数据中心时,为了能满足上层类型多样化的应用,以及中间平台服务层的稳定可靠需求,基础设施层的选择至关重要。深信服超融合从架构上分为三层,分层架构示意图如下:图3.11超融合演进过程物理硬件层:包括计算、存储、网络设备,一体机、外置设备等等。虚拟化层:包括计算虚拟化aSV、存储虚拟化aSAN、网络虚拟化aNET、安全虚拟化aSEC。资源服务层:包括虚机、存储卷、网络单元等虚拟化资源的生命周期管理。 后续章节将对计算虚拟化aSV、存储虚拟化aSAN、网络虚拟化aNET、安全虚拟化aSEC进行介绍。组件解耦和服务化超融合平台在不断发展的过程中,可能会遇到下面几种情况:数据到处都有:如果系统彼此独立,那么相同或类似的数据会分散存储。系统体积庞大:如果功能都集中在一个系统中,那么这个系统将拥有太多的功能,造成项目代码过多,维护、迭代、发布也会变得困难。代码到处拷贝:相同逻辑的代码,会分布在多个系统中;更严重的是代码与数据的耦合度太高,不易于扩展。代码质量无法保障,系统/模块之间相互影响,不利于升级维护。通过组件服务化设计,把高度相关的功能单独做一个系统,并且把相关的操作通过接口的方式暴露出来。这种设计的好处是:业务逻辑集中、可复用。一个功能,只需要一处实现,其他系统只需要调用接口。如果是RPC的方式实现,就像调用本地的一个方法一样。调用方不需要关心具体业务逻辑是如何实现的。屏蔽了底层复杂度。用不用缓存,数据的具体存储,对调用方来说,都是黑盒。超融合内部组件服务化实质是将独立的场景通过标准服务的方式进行设计和维护,主要原理见下图:图3.12组件服务化过程服务拆分的过程实际上是从业务耦合的部分出发,将计算、存储和网络相互之间的依赖通过各自新增的服务接口来实现去耦合,好处就是接口规范化后,组件间相互独立演进、独立升级和维护,不影响其他组件工作,这一点在热升级的场景尤为关键。基于上图的思路,超融合的服务划分架构如下图所示。图3.13超融合服务架构这里的服务接口是通过接口描述语言描述的一组操作及其参数的集合,同时兼顾分层设计,将接口暴露划分等级。具体如下:PublicAPI:为超融合底层提供服务给上层应用,包括:Web界面、CLI。其他场景服务如VDC、SCP的边界,通过超融合内置的API网关提供服务。PrivateAPI:主要服务于组件之间的依赖和业务组合,便于基于接口设计和快速原型化场景等。InternalAPI:专门在组件内部起作用,支持组件自身的架构和功能演进。服务云原生容器化服务容器化主要是将各个组件及其模块按照各自独立的容器镜像进行打包,利用容器一次打包、到处运行的好处,保证开发、测试和交付的一致性。此外,因为容器镜像成为拆分服务的粒度,利于像部署和升级这样的复杂场景可以基于启停、编排容器来完成。因为各容器的运行时是相互隔离的,杜绝了共享母镜像的冲突和依赖,在服务层屏蔽了内部实现。包括依赖库、代码都可以做到不同容器之间相互不影响。超融合底层服务容器化借助容器生命周期管理、容器本地压缩镜像管理来支撑组件的管理。对于超融合软件,根据服务容器化粒度可以简单地划分为如下图:图3.14服务容器化架构架构设计根据计算、存储和网络组件自身服务特性,采取如上图罗列的容器化粒度。在集群架构中,计算、存储和网络采用类似的集群管控面、节点管控面和节点数据面的划分。它们三者主要是从部署节点的类型和承担的服务角色不同来划分的。功能架构设计HCI由aSAN存储虚拟化、aSV计虚拟化、aNET网络虚拟化组件构成。从逻辑架构上,各个组件可分为管控层和数据层,在逻辑上有一个统一的管控层,包括:配置管理、资源管理、监控服务、以及高级功能等主要功能。向上支持通过API与云管理对接,实现云化数据中心的管理。配置管理:提供对aSV、aSAN、aNET组件的配置转化和配置下发,如:拓扑计算、异常恢复、数据存储、分布框架、读写路径等。资源管理:提供对aSV、aSAN、aNET组件的的资源管理,如:节点管理、存储容量、网络设备、虚拟机、安全组、角色、用户的管理等。。监控服务:提供对组件的监控服务,包括:运维监控、报表数据、告警通知、信息采集、状态中心、日志中心等。高级功能:提供如调度中心、安全中心、容灾备份、内建安全等能力。管控层分层的好处,能够提高管理面的管理性能,能够避免在每个节点都部署管理层,减少节点的资源消耗和消息交互。图3.2-1超融合功能架构VDI和HCI融合架构VDI和HCI融合场景本质上是将虚机桌面的虚拟化管理平台和HCI超融合平台做了一次合并,通过开放接口的方式支持虚拟桌面业务场景和虚拟化场景的融合。融合架构带来的优势是一个平台支持两种业态,还能保证各自场景的性价比,从整体上考虑到用户业务混合和场景切换的需求。在架构方面同时考虑到私有化部署和托管云上部署这两个线上和线下场景,在方案上为场景打通提供架构保障。融合部署场景在VDI和HCI融合场景下,根据客户使用VDI的规模不同,通常有以下两种部署场景。1.HCI和VDI不同资源池当客户VDI用户规模大,同时没有VDI和虚拟机业务需要复用GPU等这类需求时,建议VDI和HCI规划不同的资源池。典型的场景如三甲医院VDI规模可能上千用户,HCI和VDI资源的管理员一般是一个,通过采用HCI和VDI不同资源池,上层由SCP云管平台统一管理,分别提供虚拟机和VDI。这种部署方式带来的好处就是用户使用同一个HCI的底座,可以方便的实现统一运维管理,比如升级、扩容等。图3.31HCI和VDI不同资源池2.HCI和VDI共享资源池当客户同时存在HCI和VDI需求,并且规模都不是很大的情况下,建议HCI和VDI共享资源池,提高资源利用率和管理效率。典型的应用场景包括:融合办公场景、GPU资源分时复用场景、专业测绘场景等。以融合办公场景为例:企业办公虚拟桌面业务与业务应用系统部署在同一个超融合集群,VDI虚拟机与OA、应用数据库、文件共享服务器、企业门户服务器等内部业务共享计算、存储与网络资源,既实现内部业务性能优化、体验更流畅,又实现内部IT资源的统一运维管理。比如用户需要30个VDI场景,同时还需要承载10个业务系统,使用二合一版本之后,3节点的服务器就可满足要求,成本更低。图3.32HCI和VDI共享资源池VDC为虚拟桌面控制器,负责在通过SCP云管平台获取授权后,与底层HCI超融合获取用户、策略、资源并管理模板和桌面虚拟机。VDI的客户端则通过这些管理员的配置信息完成终端接入。用户在使用VDI时的内部交互流程如下图所示。图3.33融合部署场景下的交互流程SRAP协议:为深信服自主研发的高效、安全桌面传输协议。这里的VDC可以通过虚机部署也可以通过物理机部署,主要看业务场景的规模和性能要求。桌面即服务(DaaS)场景桌面即服务DaaS(DesktopasaService)是一种云计算服务,DaaS的本质也是桌面云,只是后端落地方式、交付方式不同。DaaS通过将后端的虚拟桌面基础架构(VDI)托管于第三方云提供商,最终用户以订阅付费的形式获得相关服务使用许可,从而向云提供商请求并使用虚拟桌面和虚拟应用程序相关服务。桌面即服务(DaaS)方案适用于客户常规业务与网络传输、本地业务关联性较低的场景,如普通办公、安全办公场景。例如,很多中小客户有桌面上云的需求,但是一般需求不多,单独采购成本较高,且一次性投入成本很大,用户难以接受。此外,在竞争激烈的业务环境中,用户需求不断变化,工作不再局限于某个场所,而是采用一种“移动化、随时随地”的工作方式,员工希望通过任意设备随时随地访问数据和应用程序,从而提高工作效率与响应速度。桌面即服务(DaaS)场景与融合部署稍有不同,如下图所示。图3.34DaaS场景下的交互流程DaaS作为一个应用插件集成在SCP内部,二者在用户资源上有区分映射,场景的管理入口在托管云上。此外,客户可能为内网与云端桌面服务的连通性增加专门的AD服务。产品兼容性为了给客户提供一体化的服务体验,深信服超融合提供各种系列的一体机,包括但不限于:2U/4U服务器、低中高多档服务器、以及适配业务需求的全闪存和GPU服务器等。深信服超融合也广泛兼容主流服务器硬件设备和操作系统。目前支持主流的X86、ARM架构CPU,支持600+类型的服务器;支持Tesla、Quadro、GeForce、TITAN、Ampere等超过20种显卡类型;超融合上承载的虚拟机支持10多种类型的操作系统。超融合产品具体的兼容性可以登录信服云兼容性平台查询获取。超融合关键技术超融合关键技术主要包括:计算虚拟化aSV、存储虚拟化aSAN、网络虚拟化aNET、安全虚拟化aSEC四大部分,本章后续内容将展开进行介绍。计算虚拟化aSV深信服计算虚拟化aSV采用了裸金属架构的LinuxKVM技术,在此基础上,aSV开发更多高级计算功能,为客户提供更加实用便捷、自运维、稳定可靠、高性能的计算平台。技术概述aSV的关键技术包括:自主研发的SFFS文件集群系统、内核安全加固、以及资源隔离技术等,为超融合平台提供可靠安全的基石。Hypervisor架构深信服的aSV采用了裸金属型Hypervisor架构中的LinuxKVM虚拟化。图4.11Hypervisor架构KVM是基于硬件虚拟化扩展(Intel
VT)和
QEMU的修改版,KVM属于Linux内核的一个模块,可以用命令modprobe去加载KVM模块。加载了该模块后,才能进一步通过工具创建虚拟机。但是仅有KVM模块是不够的。因为用户无法直接控制内核去做事情,还必须有一个运行在用户空间的工具才行。这个用户空间的工具,我们选择了已经成型的开源虚拟化软件QEMU,QEMU也是一个虚拟化软件,它的特点是可虚拟不同的CPU,比如说在X86的CPU上可虚拟一个power的CPU,并可利用它编译出可运行在power上的程序。QEMU工作在用户态(Usermode、cpuring3),提供外设的模拟、vCPU模拟、主控逻辑、IO收发等,当GuestOS需要发送IO请求或者网络包时,都需要调用vm_exit让QEMU协助实现。一个普通的linux进程有两种运行模式:内核模式和用户模式。内核模式(KernelMode)一般运行在Ring0上,用户模式(UserMode)一般运行在Ring3上。对于一个Linux系统来说,Linux内核为内核模式程序,它可以直接管理所有的物理设备、外设;而Linux系统上的服务,如Apache,则为用户模式程序,它需要使用内核提供的接口,才能提供服务。KVM使用了QEMU的一部分,并稍加改造,就成了可控制KVM的用户空间工具了;这就是KVM和QEMU的关系。如下图:图4.12KVM与QEMUKVM在内核和用户模式上增加了第三种模式:客户模式(有自己的内核和用户模式),在KVM模型中,每一个虚拟机都是由linux调度程序管理的标准进程。总体来说,KVM由两个部分组成:一个是管理虚拟硬件的设备驱动,该驱动使用字符设备/dev/kvm作为管理接口;另一个是模拟PC硬件的用户空间组件,这是一个稍作修改的QEMU进程。SFFS文件集群系统 超融合架构下,一个集群由多台物理主机构成,要保障业务的高可用,需支持用户使用SAN存储进行数据存储,因此需要选择合适的文件系统针对这些外置存储进行容量管理。SFFS文件系统全称Sangforfilesystem,是深信服针对虚拟化场景主要用于保存虚拟机镜像文件和虚拟机配置文件研发的特殊集群文件系统,不作为通用文件系统。SFFS的整体结构如图所示:图4.13SFFS文件系统结构1.SFFS有以下几个主要特点:多个主机可以同时挂载同一个共享磁盘,同时使用。2个主机之间是平等的,不需要主控。能自动检测挂载主机掉线,并释放该主机占用的资源。支持文件系统在线扩充。和主机的集群无关。2.SFFS的特殊限制:文件系统大小——(2^64-1)Bytes单文件大小——单文件大小最大256TB文件名长度——单级文件名最大长度为100字节。支持的文件类型——常规文件、目录和软链接3种类型的文件。目录下文件数量——8192个文件(包括"."和"..")。SFFS文件系统的优点:在多个主机之间建立集群文件系统,确保多主机可以同时访问外置存储,而不会相互影响。相对于本地文件系统(如ext3、ntfs),SFFS可以保证多个主机在访问外置存储的时候提供锁保护机制。内核安全加固超融合HCI底层系统平台使用Linux系统,为保证设备的安全,必须对Linux操作系统进行基础的安全配置,基础安全配置的主要内容如下:最小化服务:禁用多余或危险的系统后台进程和服务,如邮件代理、图形桌面、telnet、编译工具等。服务加固:对SSH等常用服务进行安全加固。内核参数调整:修改内核参数,增强操作系统安全性,如禁用IP转发。文件目录权限设置:结合业界加固规范及应用要求,保证文件权限最小化。帐号口令安全:启动口令复杂度检查、密码有效期、登录失败重试次数等。系统认证和授权:root用户采用平台admin管理员账号结合厂商授权码绑定的方案,任何人需要登录HCI后台都必须同时获得厂商和用户的共同授权。日志和审计:记录服务、内核进程运行日志,在HCI后台均有黑匣子进行记录,需要时候,可以通过黑匣子回溯系统发生的一切行为。通过上述加固,平台以最小功能集合运行,保证整个平台安全可信赖、过程可追溯。虚拟机之间资源隔离超融合HCI采用多种技术对数据进行隔离,包含:虚拟机网络通信层面、虚拟机运行内存层面、数据IO和镜像层面的隔离。虚拟机网络通信层面虚拟机发出的网络数据包,会经过vSwitch(虚拟交换机)进行数据转发,vSwitch具有完备的数据隔离和防护机制。虚拟机运行内存层面超融合HCI的计算虚拟化技术基于QEMU-KVM架构进行开发,平台底层操作系统为SangforOS系统,该系统是基于社区的linux系统,运行逻辑如下图:图4.14虚拟机运行逻辑架构虚拟机对于宿主机(HostOS)而言是一个QEMU进程,与其他普通的linuxapplication一样有独立的进程空间,结合linux(HostOS)的进程隔离机制和X86服务器提供的内存页表映射(VT-X/EPT)访问机制(VT-X/EPT直接在硬件上支持虚拟机内存的逻辑地址->虚拟机内存的物理地址->物理服务器内存的物理地址的两次转换),从宿主机操作系统和底层硬件机制上,保证各虚拟机只能访问自己空间内的内存地址,从而实现了各虚拟机的空间隔离。虚拟机IO和镜像层面与虚拟机的内存隔离实现机制类似,每个虚拟机进程在宿主机(HostOS)层面都有对应的虚拟机镜像文件存在,这些虚拟机镜像以QCOW2格式存放于服务器的磁盘中,彼此之间相互独立、隔离。图4.15虚拟机运行逻辑图-IO与镜像服务进程内存隔离超融合平台上运行有平台管理服务、存储服务、网络服务和计算服务。服务进程内存隔离机制用于隔离这些服务,避免在内存资源上相互影响。例如,当计算服务内存超额配置的情况下,当其运行过程中超过了限额,则不能再使用其他的内存资源,保障其他服务和平台的稳定性不会受到影响。实现原理内存隔离基于Linuxcgroups机制,对主机资源进行抽象,形成资源组(一组资源的集合,包括CPU、内存、IO等),共分为平台资源组、存储资源组、网络资源组、计算资源组,通过资源组对相应各类服务进行内存资源管理,进而可以限制和保障相应服务的内存资源供应。图4.16服务资源组注意事项内存隔离支持计算内存超额配置,即允许开启更多的虚拟机,同时不影响平台的稳定运行。但是过多的虚拟机,会导致虚拟机内存竞争,虚拟机内存性能降低,导致业务卡慢。虚拟机超配大量使用swap且频繁读写场景下,会继续导致系统卡慢,此时需要关闭部分虚拟机来解决。说明:当前仅支持对内存的隔离,CPU、网络、存储IO的隔离暂未实现。低版本升级至该功能版本或以上版本后,内存管理相关的高级功能(重要虚拟机内存资源保障、内存不足告警通知),需要在升级后重启主机后才能生效。功能/特性架构图aSV的功能特性包括:性能优化、故障预防与处理、资源管理、数据保护、应用部署等5大部分。整个功能模块如下图所示:图4.17asv功能架构资源管理为了保证业务顺利运行,aSV支持丰富的资源管理手段提高业务可靠性和资源的有效利用率,主要包括:系统资源自保障、资源预留、DRS、DRX、内存气泡技术、虚拟机热迁移等。资源超配在超融合架构上,各虚拟机业务并非所有时刻占用资源,虚拟机资源使用状态是动态的,空闲状态下原先分配的资源是可以被忙碌状态的虚拟机所占用;因此,计算资源是支持超配的(超配是指虚拟机分配资源之和大于宿主机可提供资源)。需要注意:宿主机上大量虚拟机的负载都很高时,会严重影响虚拟机性能,甚至引起卡顿;因此,超配值需要在合适的额度内。CPU超配推荐vCPU数量不要配置超过2倍CPU线程数(注意:线程数不是物理核数,通常服务器开启超线程之后,线程数是物理核心的2倍)。内存超配超融合平台支持用户自定义每个物理主机内存超配比,推荐是内存不超配或者低于120%的超配比,客户可根据业务实际情况最多超配2倍。图4.18内存超配设置内存超配原理:假设给虚拟机分配32G内存,虚拟机实际占用只了24G,理论上8G(32G-24G=8G)是可以回收的,这回收的部分理论上可以给其他虚拟机用。虚拟的内存超配就是在此前提下,借助KSM技术(没有安装VMtools时)或者气泡内存技术(安装VMtools时)实现的。物理主机虚拟内存包含:物理内存(内存条)+SWAP分区(硬盘分区);物理内存不够时,系统会根据配置使用SWAP分区(超融合平台上默认设置“尽量不用SWAP”的策略)。平台在标准的硬盘情况下大约占用32GB左右内存(具体要看配置,详细参见《资源占用文档》),主机物理内存剩余的可分给虚拟机使用。虚拟机占用内存分为两块:QEMU进程(约占几十兆)占用+虚拟机GuestOS占用(虚拟机配置内存大小)。需要注意,Linux和Windows内存管理的差异:当虚拟机系统为Windows的时候,系统开机时全部“写零”操作一次。Linux开机不会内存置零动作,而有这操作默认是需要用的时候才触发分配(所以默认情况下,刚启动阶段linux实际占用内存会比windows小)。说明:内存超配的上限是物理内存+SWAP大小,此时即使设置比例也无法超出该上限。系统资源自保障由于超融合平台自身会占用一定的计算资源,为了保证平台承载业务时的稳定和性能,超融合平台提供系统资源自保障机制:在系统启动阶段,会强制保留平台运行所需的最基本计算和内存资源,避免虚拟机资源过多挤占系统资源,导致整个超融合系统出现异常;根据用户开通的超融合平台组件情况,自适应地调整强制保留的系统资源。系统资源自保障通过资源过载保护机制实现,典型场景为:当超融合平台运行过多虚拟机时,产生资源过载。资源过载保护机制可以保障在过载场景下,平台的正常运行和管理。图4.19资源过载保护机制资源过载保护是基于Linuxcgroups机制,对主机资源进行抽象,形成资源组(一组资源的集合,包括CPU、内存、IO等),共分为平台资源组、存储资源组、网络资源组、计算资源组,通过资源组对相应各类服务进行内存资源管理,进而可以限制和保障相应服务的内存资源供应。
内存气泡 当超融合平台的内存资源被虚拟机占用过多时,需要将非重要虚拟机的空闲内存回收,不仅让内存资源利用率更高,还能保证重要业务有足够的内存使用,保证了业务的连续性、稳定性,以及足够的性能保护。通常而言,要改变虚拟机占用的内存,是要先关闭虚拟机,修改虚拟机内存配置,然后重启虚拟机才能实现。而超融合平台内存的ballooning(气泡)技术可以在虚拟机运行时动态地调整它所占用的物理主机内存资源,而不需要关闭虚拟机。该技术通过给每个虚拟机内部分配一个内存“气泡”;被“气泡”占用的内存不能供该虚拟机访问和使用,但可以被平台重新分配给其他进程(或者其他虚拟机)使用,内存气泡变大意味着平台可用内存变大;于是平台就可通过调整“气泡”的大小,进行内存回收和内存分配操作。平台会综合考虑内存资源回收与虚拟机性能之间的平衡,根据系统剩余内存情况执行相应的内存回收策略。当系统剩余内存低于40%时,开始触发内存回收,每小时进行虚拟机内存回收;当系统剩余内存低于15%时,每半小时进行虚拟机内存回收;当系统剩余内存低于5%时,每10分钟进行虚拟机内存回收。内存回收过程host机可用内存较少,内存使用紧张,此时VM1存在空闲内存;host机向VM1下发回收内存指令,VM1接收到内存回收指令,将空闲内存释放出来,此时VM1的内存气泡吸收这部分内存充气变大,host机可用内存增大。图4.110内存气泡示意图-内存回收内存分配过程VM2内存不足,请求host分配内存,此时压缩VM2的内存气球,释放出内存气球中的部分内存,让虚拟机使用更多的内存。图4.111内存气泡示意图-内存释放使用相对于开源社区的“气泡内存”方案,aSV平台还做了如下的优化增加安全保护机制在内存回收过程中不断检查Guest系统剩余内存,当剩余内存不足100M时,就主动停止回收操作,保障Guest系统的正常运行。增加了自动化回收机制自动化回收机制不再需要Hypervisor的监控和处理,实现机制大幅简化,解决了原方案大规模场景下Hypervisor调度压力大控制策略复杂的问题,能够适应大规模的部署场景。提高了回收内存的效率优化了内存回收的算法,将内存的回收效率提高30倍以上。用户透明用户感受不到虚拟机内存的变化,即内存气球膨胀和压缩过程,为用户提供优质体验;解决了原方案中用户可直接看到虚拟机内存突然上升或下降,误以为系统出现问题,给客户造成困扰的问题。内存页合并当多个虚拟机并行运行一个业务时,存在多虚拟机共享同一个内存页,每个虚拟机开辟一块内存空间存放这部分数据,将造成内存的极大消耗和浪费。超融合平台提供内核同页合并KSM(KernelSamePageMerging),即共享内存或相同页内存合并技术,把相同的内存页合并,减少内存的浪费,让物理主机跑更多的虚拟机。KSM让内核定期扫描检查正在运行中的程序并比较它们的内存,如果发现他们有内存区域或内存页是完全相同的,就将多个相同的内存合并为一个单一的内存页,并将其标记为“写时复制”,这样可以起到节省系统内存使用量的作用。之后,如果有进程试图去修改被标识为“写时复制”的合并的内存页时,就为该进程复制出一个新的内存页供其使用。图4.112内存同页合并KSM技术原理如上图所示,SangforKSM为超融合平台的KSM处理模块,它定期扫描虚拟机进程的内存页(图中privatepage),当发现有虚拟机进程(图中的VM)内存页完全相同时就会合并这些内存页面,使他们指向一块共享的内存区域(图中的Sharedpages),从而可以释放出一些内存供其他虚拟机使用。通用的KSM技术在内存合并扫描页面、识别出可合并的页面的过程会浪费太多时间,相比之下,超融合平台用了全新的哈希扫描算法,能够以极快的速度扫描,并合并冗余数据,其页面合并的速度,最高可比原生的KSM快20倍以上。这样极大提高了工作效率,在提高主机内存利用率的同时,还能减少对主机CPU的消耗。动态资源调度当虚拟机业务压力激增,导致其运行的物理主机可提供的资源,不足以承载虚拟机业务的正常运行时,aSV提供动态资源调度DRS(Dynamic
ResourceScheduler)功能,通过监控集群中资源池的使用情况,对整个集群的资源情况进行动态的运算,将资源过载服务器上的虚拟机热迁移到资源充足的服务器上运行,保障集群中业务的健康运行状态,均衡集群中的主机负载情况。图4.113动态资源调度流程DRS技术原理:通过跨越集群之间的心跳机制,定时监测集群内主机的CPU和内存等计算资源的利用率,当资源使用情况满足用户设定的阈值、且集群内有充分资源的物理主机时,DRS会将该主机上的虚拟机迁移到其他主机上运行。主机资源过载的基准线由用户自定义,包括CPU过载、内存过载的范围,过载持续时间,避免造成因DRS导致的业务来回切换震荡,并且用户可选择手动和自动进行资源调度。客户可根据需求自定义动态资源调度策略:调度方式+衡量因素+敏感度。自动调度:系统根据资源负载规则,自动进行调度,节省管理员运维工作量。手动调度:系统根据资源负载规则,给出调度建议,管理员手动执行调度建议。衡量因素:包括“CPU”和“内存”两种,需要设置“阈值”。敏感度:有“保守”、“激进”两种,分别对应10分钟、3分钟。当主机衡量因素超过阈值的持续时间达敏感度设置的时长时,页面上会出现告警,并提示“负载失衡”,并根据配置的调度方式进行下一步的动作:自动调度或者提供调度建议。动态资源扩展对虚拟机而言,如果前期配置资源(vCPU、vMEM)不充足、或者随着业务量的增加导致原有资源紧张,aSV提供动态资源扩展DRX(Dynamic
ResourceeXtension)功能可以自动扩充虚拟机的资源,以保证业务的持续运行。图4.114动态资源扩展示意图资源动态添加的实现原理:系统实时监控业务虚拟机的内存、CPU等计算资源的消耗,当资源消耗达到自定义阀值的时候对业务所在主机剩余资源进行校验。如果发现虚拟机所在的物理主机资源剩余量比较充足的时候,会对业务虚拟机进行不中断业务地添加虚拟资源(vMEM、vCPU);如果所在物理主机剩余资源不足,则不会进行任何资源调整操作,这样可以避免影响该主机上的其他业务。虚拟机热迁移虚拟机热迁移(也称在线迁移)技术是指业务几乎不中断地把虚拟机从一台物理服务器迁移到另一台物理服务器上。设备维护时,可通过热迁移将应用迁移至另一台服务器,维护结束后再迁回来,中间应用不停机,保障业务连续性;当集群主机负载不均衡时,可以人工调整某些虚拟机的运行位置和存储位置,同时保障业务不中断。图4.115虚拟机热迁移热迁移过程会涉及到三种运行时数据的迁移,包括:虚拟机的内存数据、虚拟机的磁盘数据(可选,跨存储热迁移时需要)、虚拟机的硬件状态数据(CPU、网卡、显卡等)。在虚拟机迁移前,超融合平台会在目标端主机上启动虚拟机与源端虚拟机建立TCP连接,用于传输源端虚拟机的内存数据、磁盘数据、硬件状态数据等。
迁移过程中的数据传输分为三个阶段:全量数据传输,增量数据传输、停机切换。源端与目标端之间的数据经过多伦迭代传输,使差异数据越来越少。当剩余的数据量达到阈值时,会暂停源端虚拟机将剩余数据一次性迁移到目标端。虚拟机热迁移的主要技术点如下:自研Sangfor4高效压缩算法原生QEMU热迁移压缩算法效率低,采用Sangfor4高效压缩算法,提高数据迁移效率速率提升7倍以上,CPU消耗降低80%。缩小记录脏数据的数据块粒度热迁移的总数据量包括内存脏页和磁盘脏页两部分。针对磁盘热迁移脏数据放大影响性能导致无法热迁移完成的情况,通过缩小记录脏数据的数据块粒度,磁盘脏数据放大率降低90%以上。优化CPU节流策略原生QEMU的CPU节流算法导致业务性能受影响时间较长:进入到增量迭代迁移阶段后,如果内存脏数据的生成速率大于迁移速率时候,迁移任务就有可能无法完成。通过优化CPU节流策略,在热迁移过程中引入直接节流和阶段式节流两种方式,大幅度缩短切换停机时间到2s以内。GPU虚拟化图像处理场景、AI场景需要使用GPU应用,为了支持用户GPU应用的数字化转型以及满足业务统一管理的需求,超融合平台支持GPU显卡直通和vGPU显卡切分两种方案。GPU直通(pass-through)GPU直通方案将显卡上的单个物理核心透传给虚拟机使用,采用DMA+VFIO技术。DMA技术会从超融合系统的内核中分配一段地址空间给硬件设备(GPU显卡),当上层应用确定使用这个硬件设备(GPU显卡),将直接把数据放入对应的地址空间中直接交给硬件设备(GPU显卡)处理,避免CPU中转和调度的资源消耗。VFIO技术是一种IO调度的保护机制,能够保障IO上下传输时的可靠性,使用该机制可增强IO传输的可靠性。KVMhost识别显卡的物理核心,将物理核心1:1映射给虚拟机,成为VirtualMachine上的虚拟硬件,而后被GuestOS使用。图4.116GPU直通GPU切分(NVIDIAvGPU)vGPU显卡切分方案与GPU直通方案类似,但该节点上的显卡在KVMhost层会被NVIDIAvGPUhost驱动接管,NVIDIAvGPUhost驱动可对数据中心级显卡(一般为Tesla、Quadro系列)进行状态监控、资源切分等管理。GPU经过NVIDIAvGPUhost驱动切分后,在VirtualMachine层会有多个vGPU,每个vGPU可分配给一个VM使用。以英伟达TeslaP40为例,单个显卡最多可以虚拟化出24个vGPU,支持24个用户同时使用。还可以根据不同场景和负载的需求,虚拟出不同规格的vGPU,并能支持GPU虚拟机在GPU服务器之间迁移,这些都是新一代显卡虚拟化比较突出的特色功能。同时英伟达在新的硬件虚拟化技术里也增加了软件授权的费用。图4.117GPU切分GPU调度GPU调度充分考虑了底层GPU资源的利用率,能够自动调整GPU显卡配置。GPU调度支持性能调度模式和密度调度模式。GPU性能调度模式:通过将GPU虚拟机调度到GPU空闲的机器上,确保GPU云主机均衡地使用不同GPU显卡资源,尽可能保障每一台GPU云主机性能最佳。例如在深度学习、视频渲染、科学计算等对GPU性能要求高的场景。GPU密度调度模式:将GPU虚拟机调度到已被分配的GPU上,使GPU云主机优先运行在已经运行了GPU云主机的物理主机上,确保GPU资源能够被充分利用。例如,教育行业的人工智能学院AI实训场景、通用办公场景等。数据保护 深信服计算虚拟化aSV提供逻辑故障时的虚拟机快照,物理故障时的快速备份、定期全量备份、归档压缩和持续数据保护CDP,以及故障恢复时的快速恢复功能,机密数据的数据一键清除功能,实现数据保护。虚拟机快照aSV提供基于QCOW2文件的虚拟机快照功能,当对虚拟机使用该功能时,能够记录下快照时刻的数据状态;管理员可以通过回滚快照的方式,把数据恢复到快照时刻的状态。使用场景存储快照是一种数据保护措施,可以对业务数据进行一定程度的保护。存储快照常用于软件或操作系统升级、数据中心设备替换等场景,在进行这些操作之前对虚拟机进行快照,若操作失败,将快照进行回滚,可将数据恢复到操作前的状态。图4.118存储快照流程图如上图,假设在t0时刻,虚拟机有一份完整的源数据,我们在t1时刻为该虚拟机创建一次快照。在t2时刻,由于误操作或系统错误等原因导致源数据被修改或损毁,可以通过快照回滚操作,将虚拟机数据恢复至快照创建时的状态(即t1时刻)。实现原理存储快照基于ROW(RedirectOnWrite,重定向写)技术实现。快照后,数据写入过程在对虚拟机创建快照时,系统会将所有虚拟磁盘置为只读,并生成对应数量的新磁盘文件(即快照空间)。快照创建完成后,该虚拟机的所有新增数据和源数据修改数据都将写入到新生成的快照空间,并将源虚拟磁盘和快照空间逻辑地址的对应关系写入映射表。创建快照后,数据写入流程如下:图4.119快照后数据写入流程虚拟机写入数据,期望将数据“c”修改为数据“E”。数据E被重定向写入到快照空间对应的逻辑地址“ii”中。系统将原虚拟磁盘和快照空间的逻辑地址对应关系写入映射表,记录原地址“2”的数据对应为快照地址“ii”的数据。快照后,数据读取过程快照创建后,虚拟机对数据的读取存在两种情况:若读取的数据是快照创建之前写入的,且创建快照后未进行修改,则从源虚拟磁盘中读取。若读取的数据是快照创建后新写入的数据,或对源虚拟磁盘的修改数据,则从快照空间读取。创建快照后,数据读取流程如下:图4.120快照后数据读取流程虚拟机下发数据读取命令。读取原地址“1”对应的数据,是创建快照之前的数据,地址“1”不存在于映射表中,直接从原虚拟磁盘中读取返回数据“a”。读取原地址“2”对应的数据,是创建快照之后写入过的数据区域,则查询映射表,从快照地址“ii”中读取返回数据“E”。快照回滚在存储快照中由于源虚拟磁盘中保存着快照创建前的数据,快照创建后,新增的业务数据和对源虚拟磁盘的改动数据都写入到了新分配的快照空间中。因此将虚拟机回滚恢复到快照时间点的数据状态,即取消读映射的过程,直接从源虚拟磁盘读写数据。一致性组快照一致性组快照主要应用于由多个虚拟机组成的业务场景,这些虚拟机之间强关联,对这类业务进行快照保护时,必须要保证组成该业务的多个虚拟机的快照时刻点的一致性。例如:由2个或更多的虚拟机组成的OracleRAC数据库、由多个虚拟机组成的分布式应用、由“app虚拟机+中间件+数据库”3个虚拟机组成的典型业务。超融合支持将多个虚拟机加入到一致性组中,对一致性组进行快照操作时,该组内的所有虚拟机创建快照时刻的数据时间点是一致的,保证后续进行快照回滚和快照克隆时的业务可用性。图4.121快照一致性组产品示意图定时快照策略超融合支持对业务虚拟机创建定时快照策略和快照保留策略,超过保留时间期限的快照将自动删除,释放存储空间。定时快照实现对虚拟机的定期保护,在虚拟机出现逻辑性错误时,比如中毒等事件,可以回滚到未中毒时刻的快照点,恢复业务虚拟机,降低损失。定时快照和定时备份是对业务的两种数据保护方式,存在以下差异:表4-1定时备份与定时快照对比表定时备份定时快照首次全量数据保护首次全量备份,空间占用与原虚拟机占用的空间大小相同原镜像设为只读模式,不需要对数据进行拷贝或移动处理,不需要占用额外的空间增量数据仅对新增或删改数据进行增量备份新增或删改数据写入到快照空间中备份/快照速度首次备份拷贝原镜像全部数据的时间+后续拷贝增量数据的时间秒级完成快照恢复/回滚速度分钟级拉起虚拟机后,持续将备份数据回拷秒级回滚至快照时刻的状态故障容忍能力可容忍逻辑性故障(中毒/误删除)备份至异地可容忍本地集群物理性故障,备份至本地集群则不可以可容忍逻辑性故障(中毒/误删除)无法容忍本地集群物理性故障性能影响备份过程有一定性能影响备份完成后对业务性能无影响快照过程对性能无影响快照后性能小幅下降,后续逐渐恢复快速备份对于业务数据的逻辑类故障(发生在虚拟机内部的故障,如虚拟机内误删数据、勒索病毒),仅仅依赖业务服务器自身的可靠性建设(存储双活、多副本、HA、系统故障自动重启)是无法避免的,因为逻辑故障将直接损坏数据源,进而对副本数据也造成数据损坏。比如,近来疯狂的勒索病毒,会导致业务系统内部的数据自身遭到破坏,即便采用多副本,其每个副本数据都会被破坏。针对此类故障,超融合平台提供快速备份机制来应对。技术上采用首次全量备份+非首次增量备份+bitmap技术(bitmap的方式标记了QCOW2文件的变化的位置,也称脏数据位置)实现快速备份,下面将详细介绍快速备份的实现原理:图4.122备份流程对虚拟机进行备份时,首先进行全量备份(如果已经有全量备份则直接进行增量备份)。全量备份后业务持续写入新数据(G和H),用bitmap标记,此时新数据可以在QCOW2文件的原位置直接写入,下次备份时只增量备份修改处的数据;备份结束后重新将bitmap置0,以此进行每一次的备份操作。在原位置写入新数据时可直接写入,不会发生写时拷贝,不会造成QCOW2文件与数据位置的映射乱序,因此不会对QCOW2镜像造成任何性能上的影响;增量备份方式减少每次备份的数据量,进而提高备份速度。删除增备文件,数据向后合并,保证每个保留的备份数据都是完整可用的,以此快速释放空间,节约备份存储资源。图4.123备份文件删除合并流程说明:删除操作导致没有增备文件2的恢复点,但增备1,增备3及之后的增备点的数据都是完整正确可恢复的。当一个虚拟机的多个磁盘镜像、或者多个虚拟机的磁盘镜像有相关性时,快速备份还提供多磁盘数据一致性检查,比如在数据库的应用场景中,数据库(SQLServer、Oracle)的数据盘、日志盘,必须保持备份时刻的一致性,否则当恢复备份时,会由于不一致导致恢复的Oracle系统仍然不可用,而通过深信服的快速备份可保障数据库数据的多个磁盘在恢复时,保持数据的一致性。在超融合平台上备份操作非常简单:通过向导四步即能新增一个符合用户业务特征的备份策略。支持按周、按天、按小时的自动备份周期,根据实际业务需求灵活配置。同时提供自动清理备份功能,最大限度节省备份存储空间。此外无须安装插件,简单易用。快速备份性能图4.124快速备份性能变化从上图可以看到,快速备份在首次全量备份、第二次增量备份的过程中,原始基于QCOW2的备份只出现少许性能下降,而在备份结束后,即迅速恢复到了初始水平。备份文件清理策略:客户可以根据业务情况自定义备份文件保留策略,时间粒度从天到年,相较之前保留策略更加灵活。快速恢复 当业务系统出现故障不可用时,如果此前开启数据备份保护,可以通过查找备份文件恢复虚拟机到最近的业务正常运行点实现业务恢复。备份恢复一般做法如下:迁移备份数据至运行位置,等待数据迁移完后,在运行位置拉起虚拟机恢复业务。如果业务数据量大,数据迁移时间长,就会导致业务恢复的RTO很大。为此,对备份恢复功能进一步进行优化。快速恢复主要优化点新增一种恢复方式,即“生成全新虚拟机”方式。优化前仅支持对原虚拟机覆盖性恢复,这就导致了无法验证备份数据是否正常可用就覆盖了原来的虚拟机数据,有了“生成全新虚拟机”的恢复方式后很好地解决这个问题。在满足一条限制条件的情况下,可以快速恢复虚拟机备份,仅需几分钟时间便可完成备份恢复并开机;通过先拉起虚拟机实现业务快速恢复,业务运行的同时迁移备份数据至目标存储的方式实现业务快速恢复上线。快速恢复原理如下:图4.125快速恢复快速恢复步骤快速拉起虚拟机运行业务在业务恢复位置上新建空白镜像,QEMU进程会通过该空白镜像拉起虚拟机,此时业务可正常运行。如图恢复位置中的第一行,形成一个空白镜像。业务读数据优先恢复位置业务运行过程中,优先从恢复位置读取数据,如果恢复位置没有该数据,需要从备份文件池中将该位置数据迁移到恢复位置中,然后进行数据读取。如图恢复位置中的第二行,业务需要读取位置1的K和位置3的M数据。业务写数据位置为恢复位置业务运行过程中,虚拟机新产生的数据,则直接写入新镜像中。如图恢复位置中第三行和第四行,分别在位置3和位置1写入O和P。备份数据不断从备份文件池迁移至恢复位置在恢复虚拟机进行业务运行的同时,虚拟机QEMU进程中还会有一个默默在后台持续将备份恢复池的数据搬运到恢复位置上的虚拟机镜像中,我们称之为备份数据整理,数据整理完成后,该虚拟机恢复为普通虚拟机。如图恢复位置的第三行和第四行,在第三行状态时,QEMU发现恢复位置中的镜像文件中位置2和没有数据,此时将这位置2的数据从备份文件池迁移至恢复位置,当所有数据迁移完成后,如恢复位置的第四行状态,意味着虚拟机完全恢复,成为一个普通虚拟机。业务快速回复时的数据放丢失机制快速恢复首先通过在恢复位置新建空白镜像快速拉起虚拟机,实现业务快速恢复;其次优先恢复业务运行的热数据,在短时间内提高业务运行性能,然后以不影响主业务运行的速度迁移备份文件池中其他数据(冷数据)到恢复位置中。定期全备,压缩归档,备份复制默认情况下aSV提供的备份功能是首次全量备份、后续增量备份的形式,某些合规性要求除了增量备份,系统还需要做定期的全量备份和二级的数据归档功能。aSV也提供了满足合规要求的全量备份和压缩归档方案。其流程如下图所示:用户配置了1周1次的自动备份频率;1月1次全量备份;一月一次的归档备份。每月初就会根据用户配置,进行一次全量的拷贝(直接从原始镜像拷贝,而不是基于前一次的增量镜像合并而言),以此保证全量备份的数据可靠性,然后基于此镜像在进行后续是三周的增量备份。月末会基于最后一次备份的增量,从备份存储上合并生成一个新的镜像,并拷贝到归档存储完成归档。注意:归档并不会从原始镜像(生产存储)上直接拷贝,而是从备份存储上完成数据的归档,以此减少对原始生产环境的影响。考虑到归档存储的访问频次和空间利用率,aSV提供了压缩功能,以减少对存储资源的占用。图4.126定期全备对于归档存储需要满足两个条件:不能与归档时的备份存储一致。不能为虚拟存储。而对于某些特殊行业的关键业务数据,对于安全及可靠性有极高的强制性要求,常规的全备与归档无法满足此类特殊的合规要求。基于此类需求,aSV提供备份复制功能,可将1个备份及其多个备份副本分别存储在不同的存储位置,可同时满足在线存储、异地存储和离线存储需求。备份复制策略可配置源存储、目的存储、复制频率、复制速率限制等,策略定期自动执行,将虚拟机源存储上的备份复制到目的存储,也支持手动进行备份复制。其注意项如下:备份复制的目的存储不支持为本地存储。备份复制的源存储和目的存储不支持为同一个存储。备份副本无数量限制。例如备份需要三副本,可添加一个备份策略和两个备份复制策略,备份复制策略可以不断添加。持续数据保护通常普通备份为小时级,意味着业务故障恢复时至少丢失一小时的数据,这对用户的一些关键业务而言是不可接受的;某些重要业务系统需要实现更细粒度的备份,RPO的需求为分钟或秒级,为了满足这种需求,就需要对业务系统进行持续数据保护(ContinuousDataProtection,CDP)。CDP持续数据保护是IO秒级别的高级备份技术,记录客户的每一次数据改动,可通过零丢失的数据恢复实现业务保护。超融合平台对CDP技术进行优化,将CDP模块做到虚拟机的QCOW2文件层,相较于传统CDP软件只是以代理方式嵌入到GuestOS层,我们能更好为客户提供CDP数据保护,为客户提供了一种低成本、易部署、高价值、更适合虚拟机业务使用的CDP解决方案。CDP实现原理CDP本质仍然是一种备份技术,包括数据备份和恢复两个步骤,下面将从备份和恢复的实现原理来讲述CDP的实现原理。实现原理-备份CDP备份数据由RP日志文件和BP备份文件组成,备份实现原理主要为BP点和RP点的生成原理。图4.127CDP备份流程启动虚拟机时,同时开启业务(QEMU)和CDP功能(cdp_worker),并为该虚拟机开辟一块内存(默认2G),作为主业务和CDP模块的共享缓存区(sharedbuffer)。CDP模块(cdp_worker)位于虚拟机的QCOW2文件层,可直接下发备份指令,对QCOW2文件进行备份形成全备和增备BP,首次开启CDP功能,需要进行一次全备生成基准点,后续根据设置的定期备份频率(小时级别),定期生成BP点;BP点以备份文件的形式存在CDP数据存储区。采用旁路架构+IO分流技术,经过共享缓存区,实现从主业务异步复制IO到CDP日志存储区(IO仓库),以IO日志的形式存在;根据设置的IO日志间隔时间(RPO=1s/5s),定期生成RP点,单独利用RP并不能够恢复数据,所有的RP均依赖于对应的BP。对生成的BP点和RP点均标记上时间戳,便于故障时定位恢复点。说明:1)IO日志存储区和CDP数据存储区可为同一位置或不同位置。2)如果该虚拟机曾使用普通备份功能,生成的备份点可直接被作为CDP的BP点支持多磁盘数据一致性检测,保证每个恢复点都是有效的。一致性备份CDP存储有3个磁盘,每个IO写入并形成id标识的RP点,3个磁盘上的id相同的RP点则认为属于同个一致性RP。id为3的RP点在3个vdisk上都存在,因此RP3是一个有效的一致性RP,可以展现在页面上,用于恢复虚拟机。id为6的RP在vdisk2中缺失了,因此RP6不是一个有效的一致性RP,不能展现在页面上,不能用于恢复虚拟机。图4.128一致性CDP备份对多磁盘上存储数据做一致性检测,保证每个恢复点数据正确有效。实现原理-恢复当业务发生故障(病毒,误删除等)需要通过CDP备份文件进行虚拟机恢复时,可根据时间点查找对应备份文件,通过增量备份和IO仓库创新设计,支持快速浏览备份文件,实现文件级和业务级恢复。图4.129CDP备份恢复如图所示:CDP备份文件包括3个BP备份文件(BP、BP1和BP2)和8个RP日志文件(RP1到RP8);当选择某个RP点进行恢复时,需要将目标恢复点之前的所有BP点和最近一个BP点至目标恢复点的所有RP点进行数据合并和业务恢复。以RP5进行业务恢复为例,关键步骤如下:终端界面提出浏览14:00:20生成的IO日志(即RP5)的请求。从QCOW2备份文件中提取该恢复点之前的全部备份文件,即全量BP和增量BP1。从IO仓库中提取从最近备份点至目标恢复点的所有RP点,即RP4和RP5。将获取到相关备份文件和RP点文件进行合并,得到该恢复点的最终结果。客户可通过找回文件恢复特定文档,或者直接恢复该时刻的整个虚拟机。此外,深信服CDP故障中断不会影响业务。图4.130CDP故障以金蝶ERP系统CDP备份和故障恢复举例:首次全量备份生产基准点,记录每个IO形成RP点,定期形成增量BP。在形成RP4之后CDP功能发生故障中断,业务正常运行。在生成RP6之后CDP功能恢复,立即生成一个备份点(增量BP2),保证后续备份数据正确。说明:此时会丢失恢复点RP5和RP6,其他恢复点完整有效。超融合平台的CDP的功能与特点记录每一个IO,不丢失任何数据,可从任意一个IO日志记录点中恢复虚拟机,RPO=5秒/1秒(可设置)。CDP服务与虚拟机QEMU独立,采用异步缓存机制,IO复制过程对业务性能基本无影响,对业务稳定性无影响。提供虚拟机多磁盘的数据一致性检测,保护备份数据完整可靠。CDP在虚拟机启动时,不需要等待CDP数据同步完成,就可以开启业务,同时进行虚拟机IO数据的备份。支持快速浏览备份文件和进行文件,方便用户快速的从CDP备份中获取数据文件;同时具有详细的审计日志和权限控制,保障该功能的安全性。集成于平台中,融合交付,无须安装第三方软件和插件,是虚拟机级别的CDP方案。使用灵活,可指定虚拟机开启CDP功能,可在平台进行动态的开启和关闭CDP。例如,对正在运行的虚拟机,不需要重启或中断业务,就可以开启CDP。易用简单,无学习成本,帮助客户完成稳定可靠的IT创新。数据一键清除超融合HCI平台提供残余数据保护功能,用户可以自定义开启,以保障数据的完全删除与数据安全性。并支持设置擦除速率和删除次数设置,实际擦除速率会根据存储IO和繁忙程度动态调整。故障预防与处理 深信服计算虚拟化aSV提供进程看门狗、黑匣子技术、虚拟机异常重启、高可用HA、亚健康主机、主机维护模式、系统盘安全更换、跨主机USB映射、UPS掉电保护、系统文件备份恢复进行故障预防与处理。虚拟机异常重启虚拟机Guest系统出现应用层不调度(蓝屏、黑屏)也是常见的业务中断问题;比如蓝屏,可以说是Windows用户最常见的应用层不调度问题,它往往由硬盘故障、驱动错误、CPU超频过度、BIOS设置、软件中毒等原因引起,当发生时,Windows为了保护电脑数据,会中止所有业务,系统崩溃并弹出蓝屏提示;比如黑屏,由于显卡驱动、盗版软件、软件病毒等问题,业务操作系统也会出现黑屏之类不可自动恢复的业务系统故障。以上故障Windows并不会自动重启,而是需要管理员介入手动重启业务,不仅业务中断的时间不可控,还增加了管理员的运维工作量。若是没有管理员值守,那么业务恢复的时间将不受控制,对于业务连续性敏感的企业来说,是不可接受的故障损失。超融合平台提供了虚拟机异常重启功能来解决此问题,帮助管理员进行自动化运维,更好地提供了虚拟机业务连续性的支持,通过在虚拟机中安装深信服的性能优化工具,该工具每隔几秒向虚拟机运行所在主机发送心跳,主机根据虚拟机发出的心跳、磁盘IO、网络流量状态,判断是否虚拟机的Guest系统应用层不调度,持续数分钟后,可认为该虚拟机发生了黑屏或者蓝屏,关机并重启。虚拟机高可用对于外部环境故障(比如主机网线断了,所在存储不能访问等)和虚拟机Guest系统故障两种情况导致的业务中断问题,深信服的超融合平台都提供了成熟可靠的HA机制保障业务不中断或短暂中断。虚拟机高可用HA(HighAvailability高可用性集群),通常需要两个或者两个以上的主机节点组成集群,当启用了HA功能的虚拟机所在节点发生意外(主机掉电、断网等)时,集群心跳机制侦测到后,将选择一台资源充足的节点自动重启该虚拟机,从而实现业务的不中断或短暂中断。图4.131HA机制集群心跳机制,通过轮询的机制,每隔5s检测一次虚拟机状态是否异常,当发现异常并持续时长达到客户设置的故障检测敏感度时(比如5分钟,最高敏感度为10s),切换HA虚拟机到其他主机运行。如下图所示,当云主机存储不能正常访问时,必定会启动HA机制,其他故障场景HA机制可根据需要自由配置。图4.132HA机制配置通过aSV的HA技术,对业务系统提供了高可用性,极大缩短了由于各种主机物理或者链路故障引起的业务中断时间。HA流程概述:主机都正常时,通过比较虚拟机的电源状态和运行状态,电源打开而虚拟机未运行时,则认为此虚拟机异常挂掉了,需要重新拉起。主机离线时,集群会根据所有在线主机的负载情况,选择一台或多台合适的在线主机拉起离线节点上的所有虚拟机。检测运行在本节点的启用了HA的虚拟机,业务口不通并且持续一段时间后,关掉此虚拟机然后由1重新拉起。当前HA流程图如下:图4.133HA流程HA拉起时间=敏感度检测时间+虚拟机拉起时间(进入BIOS)主机离线故障场景下,虚拟机从故障到拉起在30s内完成(进入BIOS),无需敏感度检测。其他故障HA场景,可自定义敏感度,因此
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年新人教版化学九年级上册 第三单元 物质构成的奥秘 课题3 元素 第2课时 教学课件
- Unit 2第2课时(教学设计)Cartoon time四年级英语上册同步高效课堂系列(译林版三起)
- 2024年新人教版七年级上册数学教学课件 5.3 实际问题与一元一次方程 第3课时 球赛积分表问题
- 2025年防晒衣品类线上消费与行业洞察
- 证券人员工作总结
- 买卖车辆置换合同范例
- 保本合作合同范例
- 生物教材封面青蛙课件
- 代理交易合同范例
- 个人水库租赁合同范例
- 2024二手房屋买卖的合同样本
- 2024年公开干部履历表
- 《电子商务》科目考试复习题库(核心500题)
- 二年级下册美术说课稿-第4课《我的爱心卡》浙美版
- 浙江省中小学心理健康教育课程标准
- 2024年江西省中考道德与法治真题(原卷版+解析版)
- 蒙台梭利教学法(学前教育专业)全套教学课件
- ICP备案网站建设方案书
- 部编版七年级道德与法治上册 第一单元复习课件
- 简易疲乏量表中文版(BFI-C)
- 2023-2024学年六年级下学期综合实践活动(劳动教育)第3课学做手擀面教案
评论
0/150
提交评论