FusionInsight LibrA可靠性技术白皮书_第1页
FusionInsight LibrA可靠性技术白皮书_第2页
FusionInsight LibrA可靠性技术白皮书_第3页
FusionInsight LibrA可靠性技术白皮书_第4页
FusionInsight LibrA可靠性技术白皮书_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 ( DOCPROPERTY ReleaseDate 2018-05-05) DOCPROPERTY PartNumber DOCPROPERTY Product&Project Name FusionInsight LibrA DOCPROPERTY DocumentName 可靠性技术白皮书 DOCPROPERTY Product&Project NameFusionInsight LibrA DOCPROPERTY DocumentName 可靠性技术白皮书 STYLEREF Contents 目 录文档版本 DOCPROPERTY DocumentVersion * MERGEFORM

2、AT 01 ( DOCPROPERTY ReleaseDate 2018-05-05) DOCPROPERTY ProprietaryDeclaration * MERGEFORMAT 华为专有和保密信息 版权所有 华为技术有限公司PAGE ii DOCPROPERTY DocumentVersion * MERGEFORMAT 01 DOCPROPERTY ProprietaryDeclaration * MERGEFORMAT 华为专有和保密信息 版权所有 华为技术有限公司PAGE x DOCPROPERTY DocumentVersion * MERGEFORMAT 01 DOCPROP

3、ERTY ProprietaryDeclaration * MERGEFORMAT 华为专有和保密信息 版权所有 华为技术有限公司 STYLEREF 1 简介文档版本 DOCPROPERTY DocumentVersion * MERGEFORMAT 01 ( DOCPROPERTY ReleaseDate 2018-05-05) DOCPROPERTY ProprietaryDeclaration * MERGEFORMAT 华为专有和保密信息 版权所有 华为技术有限公司PAGE 2简介 HYPERLINK l _ZH-CN_TOPIC_0087894458 o 1.1 FusionInsi

4、ght概述 HYPERLINK l _ZH-CN_TOPIC_0087894440 o 1.2 FusionInsight可靠性设计原则FusionInsight概述华为FusionInsight是一种高可靠性、高扩展性、高效性、高容错性、易运维的大数据管理和分析平台。作为一种新的数据平台,大数据系统存储了海量的业务数据,承载着企业的价值业务,数据的丢失、业务的中断,都会给企业带来有形、无形的损失,因此系统必须充分考虑业务连续性的要求,实现高可靠性。本文将对华为FusionInsight的可靠性技术和基本设计原则进行分析和介绍。FusionInsight可靠性设计原则华为FusionInsig

5、ht在可靠性方面遵循如下设计原则:所有对象的故障都有自动恢复措施,包括集群管理节点,计算节点,进程,服务容器,服务实例等。通过监控业务成功率等手段,避免单个节点/进程的亚健康、僵死导致业务全中断。提供服务质量保障能力,实现租户资源隔离和任务优先级调度,避免不合规的用户业务导致系统业务全阻塞。按照上述原则,FusionInsight对社区版本进行了大量的可靠性增强。例如:华为FusionInsight产品的OMS Server、数据库等管理节点,全部采用主备或负荷分担配置,避免单点故障。针对系统掉电后可能发生文件损坏的问题,FusionInsight对数据写入的全路径进行了优化,确保系统异常掉电

6、后,业务仍能可靠地启动。FusionInsight支持对节点亚健康状态的侦测,在紧急状况下,部署认证服务的关键节点自动重启节点以恢复业务。支持管理平面与业务平面的网络隔离,防止业务平面的高负载对集群管理通道造成冲击。通过这些措施,系统的数据持久度、业务可用性都得到了极大提高。 DOCPROPERTY Product&Project NameFusionInsight LibrA DOCPROPERTY DocumentName 可靠性技术白皮书 STYLEREF 1 n * MERGEFORMAT 1 STYLEREF 1 简介文档版本 DOCPROPERTY DocumentVersion

7、* MERGEFORMAT 01 ( DOCPROPERTY ReleaseDate 2018-05-05) DOCPROPERTY ProprietaryDeclaration * MERGEFORMAT 华为专有和保密信息 版权所有 华为技术有限公司PAGE 4系统可靠性 HYPERLINK l _ZH-CN_TOPIC_0087894446 o 2.1 管理节点支持双机配置 HYPERLINK l _ZH-CN_TOPIC_0087894441 o 2.2 系统的掉电可靠性保障 HYPERLINK l _ZH-CN_TOPIC_0087894442 o 2.3 备份和恢复管理节点支持双机

8、配置华为FusionInsight产品对所有业务组件的管理节点,都实现了双机机制,这包括OMS Server、数据库、Kerberos Server、Ldap Server等,它们全部采用主备或负荷分担配置,有效避免了单点故障场景对系统可靠性的影响。系统的掉电可靠性保障FusionInsight对数据写入的全路径进行了优化,确保系统异常掉电后,业务仍能可靠地启动。不论是单节点意外掉电,还是整个集群意外断电,恢复供电后,系统都能正常恢复业务,关键数据不会丢失。这里的关键数据至少包括:操作系统启动和正常运行所需的文件;为业务组件提供的基本运行环境(如JDK);启动和运行业务组件所需的文件,包括程序

9、文件、配置文件等;由用户输入的、长期生效的配置信息,如用户账户信息/权限信息,上级网管的SNMP对接地址等。备份和恢复FusionInsight产品支持对OMS Server、Ldap Server数据、LibrA表、数据库、集群进行备份。数据类型备份内容支持的方式集群管理系统(OMS Server)备份OMS Server所使用的数据库及本地文件。自动/周期/手动备份数据到OMS Server本地硬盘。Ldap Server数据备份用户信息,包括用户名、密码、密钥、密码策略、组信息。自动/周期/手动备份数据到OMS Server本地硬盘。LibrA数据库对象备份的对象包括:数据表、数据库、集

10、群信息。通过界面按需配置需要备份的对象信息。备份集群、表、数据库对象到数据库所在节点的本地硬盘。备份集群、表、数据库对象到数据库所在节点的NBU。 DOCPROPERTY Product&Project NameFusionInsight LibrA DOCPROPERTY DocumentName 可靠性技术白皮书 STYLEREF 1 n * MERGEFORMAT 2 STYLEREF 1 系统可靠性文档版本 DOCPROPERTY DocumentVersion * MERGEFORMAT 01 ( DOCPROPERTY ReleaseDate 2018-05-05) DOCPROP

11、ERTY ProprietaryDeclaration * MERGEFORMAT 华为专有和保密信息 版权所有 华为技术有限公司PAGE 6节点可靠性 HYPERLINK l _ZH-CN_TOPIC_0087894449 o 3.1 硬件健康状态监控 HYPERLINK l _ZH-CN_TOPIC_0087894452 o 3.2 操作系统健康状态监控 HYPERLINK l _ZH-CN_TOPIC_0087894455 o 3.3 进程健康状态监控 HYPERLINK l _ZH-CN_TOPIC_0087894443 o 3.4 硬盘故障的自动检测 HYPERLINK l _ZH-

12、CN_TOPIC_0087894447 o 3.5 节点RAID组的配置硬件健康状态监控FusionInsight运行在通用x86服务器上。商用x86服务器一般都会支持IPMI规范。IPMI即智能平台管理接口(Intelligent Platform Management Interface),是管理基于Intel架构的企业系统所采用的一种工业标准。FusionInsight通过调用IPMI接口,监视服务器的物理健康特征,如温度、电压、工作状态、电源状态等。如果发现异常,FusionInsight会作为节点的亚健康状态上报,维护人员可根据节点故障对系统的威胁程度和紧急程度,安排相关硬件的检修计

13、划(例如,在100个节点的集群中,损坏2个不同环中的数据节点对业务是没有任何影响的,可以延迟修理;但如果损坏了2个同一环中的数据节点,系统就可能停止服务了,需要紧急处理)。FusionInsight当前可监控的硬件状态包括:处理器状态、交流供电状态、直流电源模块状态、内存状态、硬盘状态、电池状态等。但具体的支持项,还取决于x86服务器硬件供应商。操作系统健康状态监控FusionInsight运行在Linux操作系统上(当前支持SUSE和Redhat的企业版Linux)。如果操作系统不正常,可能导致该节点上的业务实例长期处于亚健康状态,影响集群的运作。FusionInsight对操作系统采取了多

14、种监控措施:支持对节点运行状态的监控。如果节点进入假死状态,严重影响业务的运作,就会自动执行节点复位,迅速恢复业务。支持对操作系统内核参数进行微调,在操作系统出现致命异常,如内存耗尽、非法地址访问、内核死锁、调度器失效时,重启操作系统,恢复业务。周期采集节点上各类硬件资源运行状况的数据,包括处理器状态、内存状态、硬盘状态、网络状态等,如果发现异常,FusionInsight会作为节点的亚健康状态上报,携带相关的异常指示信息,如“CPU过载”、“内存过载”、“发现慢盘”、“TCP重传率越限”等,维护人员可据此对相关节点的操作系统状态进行检查,排除故障。进程健康状态监控FusionInsight在

15、各节点上都部署了代理进程,负责监控业务实例的状态。如果业务实例进程故障,代理进程会尝试自动重启对应的业务实例进程,如无法启动,会向OMS Server发送告警。代理进程会周期向OMS Server发送心跳。如果代理进程故障,OMS Server也会检测到异常,发送节点故障告警,并尝试自动重启对应的代理进程。硬盘故障的自动检测大型LibrA集群中,硬盘数量可能高达成百上千。由于机械硬盘的故障率偏高,系统运行一段时间之后,故障硬盘就会不断出现。FusionInsight会监控各节点上的硬盘状态,以及文件系统状态,如果出现异常,立即上报告警,通常情况下Raid组能自动修复,就不需要人工干预,如果不能

16、自动修复,需要人工干预,这种可靠性保证机制,可以提前告知用户进行磁盘修复,不至于没有监控,没人工干预,导致数据丢失,造成不必要的损失,有利于提高系统的可靠性。节点RAID组的配置FusionInsight建议按照实际业务需要,合理规划节点的硬盘资源,以提高系统对硬盘故障的抵御能力。各节点的操作系统,建议安装在两块硬盘做成的RAID 1上,以保障系统盘的稳定,避免一块盘损坏就导致操作系统崩溃,整个节点不可用。如果条件允许,管理节点关键进程使用的硬盘(如Manager数据库等)尽量做成RAID 1,以保证元数据的可靠性。读写模式差异很大的业务组件,应当避免共用同一块硬盘。数据盘(LibrA数据盘)

17、可以做成单盘RAID 5(即每个RAID 5组内至少要3块硬盘)。RAID组内的硬盘自身具有容错能力,如果一块硬盘坏掉,可以自修复,数据丢失几率大大降低,保证可靠性提升。 DOCPROPERTY Product&Project NameFusionInsight LibrA DOCPROPERTY DocumentName 可靠性技术白皮书 STYLEREF 1 n * MERGEFORMAT 3 STYLEREF 1 节点可靠性文档版本 DOCPROPERTY DocumentVersion * MERGEFORMAT 01 ( DOCPROPERTY ReleaseDate 2018-05

18、-05) DOCPROPERTY ProprietaryDeclaration * MERGEFORMAT 华为专有和保密信息 版权所有 华为技术有限公司网络可靠性 HYPERLINK l _ZH-CN_TOPIC_0087894444 o 4.1 网络隔离 HYPERLINK l _ZH-CN_TOPIC_0087894439 o 4.2 组网可靠性网络隔离LibrA是分布式计算系统,要求业务节点之间全互联。为应对由此带来的可靠性、安全性风险,FusionInsight支持将网络划分为三级:集群业务平面、集群管理平面和集群外维护网络,彼此之间实施物理隔离,保证业务网络、管理网络的独立运作。实

19、施网络隔离,可以防止业务平面的高负载对集群管理通道造成冲击,也可以阻止外部攻击者通过管理通道入侵实际业务数据。网络类别信任程度网络负载说明集群业务平面高高LibrA集群核心部件,业务数据在其中存储、流转。集群管理平面中中仅具备集群管理功能,不接触实际的业务数据。集群外维护网络低低仅能访问OMS Server提供的Web服务,除非连续攻破OMS Server和APP Server,否则无法访问业务数据。组网可靠性在典型配置下,FusionInsight集群采用三层双平面组网。各服务器节点采用双网口Bonding方式(每节点一个业务IP地址),分别接入到两个接入层交换机,提供可靠性和负载均衡。业务平面的接入层和汇聚层分别用两套交换机通过堆叠线互联提供可靠性保障。这样,无论是节点的单个网口故障,还是网口与交换机之间单条连线故障,或者单个交换机故障,都不影响业务的运行。进一步的细节,可以参见硬件部署和组网方案指南的说明。 DOCPROPERTY

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论