企业案例广州超算中心 企业案例广州超算中心、项目建设规划、项目需求分析 1.3项目建设规划_第1页
企业案例广州超算中心 企业案例广州超算中心、项目建设规划、项目需求分析 1.3项目建设规划_第2页
企业案例广州超算中心 企业案例广州超算中心、项目建设规划、项目需求分析 1.3项目建设规划_第3页
企业案例广州超算中心 企业案例广州超算中心、项目建设规划、项目需求分析 1.3项目建设规划_第4页
企业案例广州超算中心 企业案例广州超算中心、项目建设规划、项目需求分析 1.3项目建设规划_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、企业案例广州超算中心 企业案例广州超算中心、项目建设规划、项目需求分析 1.3项目建设规划项目建设规划 PAGE17 / NUMPAGES17项目建设规划魏道付(华云数据集团)摘 要:本文描述华云数据集团承建广州超算中心云计算平台项目的项目建设规划关键字:华云数据;中山大学;超算中心;云计算平台规划1.1系统总体概要规划1.1.1总体方案规划广州超算中心云平台总体拓扑如图1所示: 图1 广州超算云平台总体拓扑图广州超算中心云平台逻辑结构如图2所示:图2 广州超算云平台逻辑图 eq oac(,1)系统总体规划包括计算子系统、存储子系统、网络子系统。 eq oac(,2)计算节点分为4个机柜,每个

2、机柜4个刀框,每个刀框32台刀片。每个刀框内置一台接入交换机,通过背板和刀片服务器互联,有4个10 GE口和汇聚互联。 eq oac(,3)管理节点采用5台作为controller节点,3台作为mariadb & rabbitmq节点,1台做为stackwatch & influxdb节点。 eq oac(,4)存储使用x-sky存储,共10台,分别和controller节点以及compute节点互联。 eq oac(,5)网络子系统按照核心层、汇聚层、接入层、虚拟层的四层结构,云平台各网络包括管理网、存储网、数据网。1.1.2命名规则云计算平台节点命名规则如表1所示表1 云计算平台节点规划类

3、别命名规则举例备注管理节点CS_角色编号_编号cs-controller-01第一个controller节点cs-db-02第二个数据库节点计算节点CS_COMPUTE_编号cs-computer-0020第二十个计算节点cs-computer-0160第一百六十个计算节点1.1.3集群概要规划云计算集群服务节点数量规划如表2所示表2 云计算集群服务节点类别数量controller节点数量(台)5mariadb节点数量(台)3stackwatch节点数量(台)1compute节点数量(台)512内存虚拟化比例1:1CPU虚拟化比例(非独占)1:4此方案为简化方案,对于集群来说,有如下一些缺点1

4、、rabbitmq & mariadb节点的资源负载会比较高,rabbitmq和mariadb都比较消耗内存2、rabbitmq & mariadb节点只能宕机一个,否则mariadb集群失效,整个云平台无法进行操作3、当rabbitmq & mariadb节点内存利用率很高时,rabbitmq和mariadb可能会互相抢占资源,从而引发OOM,进一步引发云平台故障最优化的方案如表3所示:表3 云计算平台集群服务节点规划类别参数controller节点数量(台)5mariadb节点数量(台)5rabbitmq节点数量(台)3stackwatch节点数量(台)1compute节点数量(台)512

5、内存虚拟化比例1:1CPU虚拟化比例(非独占)1:4最优化的方案优势为:1、512个计算节点,会有非常多的心跳报文,因此,对控制的负载会比较高,将重要的模块拆开,可以有效减少每一个节点的负载2、pacemaker集群要求一半以上的节点存活,5个controller节点可以宕机2个,如果是3个只能宕机1个,可靠性降低,而在大规模的环境中,负载高会导致引发异常的概率提升,因此推荐5个controller3、controller的负载主要在nova和keystone上,从3个节点增加至5个,每个节点可以有效减少40%的负载4、同理,mariadb使用galera集群方案,也要求一半以上的节点存活,所

6、以推荐5个5、拆开控制的模块,可以有效减小故障发生时的影响面,否则如果都混合在一起,一旦一个节点宕机,对controller服务、rabbitmq、mariadb都有影响,对整个云平台的打击也比较大1.1.4主机概要规划云计算平台主机的配置信息如表4所示表4 主机的配置信息类别服务器型号服务器配置Controller华为RH2288cpu:E5-2692 v2mem:128GBdisk:2块sas系统盘(500GB)network:4千兆+4万兆Mariadb华为RH2288cpu:E5-2692 v2 mem:256GBdisk:2块sas系统盘(500GB)+2块ssd数据盘(480G)n

7、etwork:2千兆+2万兆Stackwatch华为RH2288cpu:E5-2692 v2mem:128GBdisk:2块sas系统盘(500GB) + 2块ssd数据盘(480G)network:2千兆+2万兆Compute天河cpu:E5-2692 V2mem:64G,disk:1块sas系统盘(1TB)network:2千兆1.1.5VM概要规划云计算平台虚拟机的规格配置如表5所示表5 虚拟机规格类别说明虚拟机规格1cpu:1mem:2GBdisk:20GB虚拟机规格2cpu:2mem:4GBdisk:20GB虚拟机规格3cpu:2mem:8GBdisk:20GB虚拟机规格4cpu:4

8、mem:8GBdisk:20GB虚拟机规格5cpu:4mem:16GBdisk:20GB虚拟机规格6cpu:8mem:32GBdisk:20GBGuestOS类型Centos6、Centos7、Ubuntu12.04、Ubuntu14.04、Ubuntu16.04、Ubuntu17.04、Windows7、Windows2008R2、WindowsxxxxR2、WindowsxxxxR21.2网络子系统概要规划1.2.1网络拓扑概要规划交换机组网规划广州超算中心云平台总体整体组网规划如图3所示图3 云平台总体组网 eq oac(,1)网络子系统按照核心层、汇聚层、接入层、虚拟层的四层结构,云平

9、台各网络包括管理网、存储网、数据网、存储集群网、IPMI网、业务网。 eq oac(,2)虚拟网络:对虚拟机提供各种网络服务;接入层网络:实现服务器/存储和接入交换机连通;汇聚层网络:实现多接入交换机的互通;核心层网络:实现所有网络设备间的消息转发。 eq oac(,3)业务网:用来承载用户侧到VM的流量以及VM之间的流量;管理网:用来承载云计算系统设备之间的管理消息交互和云计算系统的维护和监控流量;存储网:用来承载计算子系统和存储子系统之间的存储流量。存储集群网:用来保证存储间数据的互拆访问。服务器连线规划Controller节点:服务器使用4千兆+4万兆口,其中万兆口做两个bond,承载管

10、理和存储流量,千兆口做两个bond,承载业务网的dhcp流量,如图4所示。图4 控制节点服务器连线规划Mariadb & rabbitmq节点:服务器使用2万兆口,万兆口做bond,承载管理流量,如图5所示。图5 消息队列和数据库节点连线Stackwatch & influxdb节点:服务器使用2万兆口,万兆口做bond,承载管理流量,如图6所示。图6 监控节点连线Compute节点:计算节点规划如图7所示图7 计算节点连线规划用于管理和存储的万兆交换机使用双电源,但是还会有单点故障,如果交换机宕机,则管理网和存储网无法连接,会导致云平台服务不可用1.2.2网络地址概要规划服务器网络规划如表6

11、所示表6 服务器网络规划项目VLAN/VXLAN规划IP地址段网关地址管理集群管理网2852控制节点:0-14/16DB节点:0-22/16监控节点:0/1654管理集群存储网2851-5/2054管理集群 vxlan vtep2850-5/2054管理集群IPMI2853控制节点:0-14/24DB节点:0-22/24监控节点:0/2454P120管理网1120-32/16-32/16-32/16-32/1654P120存储网2851-32/20-32/20-32/20-32/2054P120 vxlan vtep2850-32/20-32/20-32/20-32/2054P121管理网11

12、21-32/16-32/16-32/16-32/1654P121存储网2851-32/20-32/20-32/20-32/2054P121 vxlan vtep2850-32/20-32/20-32/20-32/2054P122管理网1122-32/16-32/16-32/16-32/1654P122存储网2851-32/20-32/20-32/20-32/2054P122 vxlan vtep2850-32/20-32/20-32/20-32/2054P125管理网1125-32/16-32/16-32/16-32/1654P125存储网2851-32/20-32/20-32/20-32/2

13、054P125 vxlan vtep2850-32/20-32/20-32/20-32/2054业务vxlan10001-100000-业务vlan2860-2959-各机柜服务器物理网络为云下网络,每个机柜用一个单独的B类网虚拟机的业务网络为云上网络,从云的角度来看,不需要区分物理上的位置。因此,所有虚拟机业务网络在所有机柜都会存在。各物理节点网关为管理网,其他网络通过配置静态路由的形式进行互通。虚拟机内部网络为vxlan,外部网络为vlan。建议每一个租户配置一个外部网络,暂时规划30个vlan的外部网络,有以下几点优势1、构建vpc,租户隔离更好2、方便运维管理,根据IP可以很快对应到租

14、户,在故障情况下方便定位3、外部网络也不是一次性就全部配置的,根据客户租户的数量,一点点增加如果觉得外部网络太多,则可以所有租户都使用相同的外部网络,或者几个租户用一个外部网络,但是有一些缺点1、租户隔离性差,所有租户/某几个租户都在同一个网络2、IP和租户的对应关系复杂,不方便管理,故障时不方便定位12.3网络带宽概要规划管理服务器所以流量都有单独的物理网口,不需要进行带宽的考虑。计算节点只有2个千兆网口,需要承载管理、存储、业务所有的流量,如果业务网流量过大,会对管理造成一定的冲击,因此,需要对管理的流量进行最小化保证1、管理带宽管理网主要负责整个系统的监控、操作维护(系统配置、系统加载、

15、告警上报)和虚拟机管理(创建/删除虚拟机、虚拟机调度)等。其中,VM热迁移、模板导入虚拟机、导出模板、VNC访问虚拟机以及虚拟机挂载光驱等操作会通过管理网传输数据,占用一定的管理带宽。管理网带宽规划需考虑系统内计算节点数量,以及各种系统维护操作的并发量,建议至少200Mb。2、业务带宽业务网为虚拟机的虚拟网卡对内以及对外通信的网络。业务网络带宽规划须了解VM上承载的各种业务对带宽的需求,根据现网前期的信息采集带宽(要采集到带宽高峰值和低峰值)进行规划,并预留一定冗余。如是新业务,没有业务采样数据,建议按照平台出口上行的最大配置来进行规划。在可以采集或预估VM带宽的情况下,结合VM的数量以及VM

16、上业务的并发度与业务出口带宽的峰值比(=正常带宽/峰值带宽)进行规划,可估算出业务带宽。参考公式如下如下:业务带宽=(VM的带宽/VM数量)*VM数量*并发度/峰值比3、存储带宽存储网是虚拟机对本地磁盘进行写入时产生的流量,业务大多数为CPU密集型,对存储的需求并不是很大,存储网使用默认配置即可,不需要进行带宽的保证。1.2.4虚拟网络服务概要规划网络服务概要规划示例如表7所示表7 网络服务概要规划网络服务数量备注dhcp-agent5Controller节点部署vFW每个虚拟机1个创建虚拟机时选择需要的防火墙Compute节点为512个,虚拟机的数量至少在2000的数量级,对于网关会有很大的

17、压力。将网关放置在交换机上,物理交换机有转发芯片,能提供更高的性能,并且比软件路由更加稳定。虚拟机的防火墙放置在宿主机上,对于虚拟机不可访问的流量第一时间进行过滤,防止无效流量进入交换机,提高带宽的利用率。出于性能和稳定性考虑,推荐方案为将网关设置于物理交换机,不使用网络节点。折中方案为增加至少4台网络节点设备(最好8台),但是有以下几个缺点1、需要额外的网络节点,至少4台,且配置较高2、性能不如物理交换机3、稳定性不如物理交换机,在负载较高的情况下会阻塞网络4、vrouter心跳报文较多,会占用部分带宽5、在大规模环境下,任一网络节点发生故障会导致其余网络节点负载瞬时增高,根据网络规模引发时

18、间不等的网络中断1.3存储子系统概要规划1.3.1系统部署概要规划广州超算中心云平台存储子系统概要规划说明,如表8所示。表8 存储子系统概要规划项目参数存储厂家X-SKY主机数量10 集群数量单CEPH集群数量Ceph版本存储IOPS存储带宽部署形式分离部署Ceph mon地址1.3.2存储资源概要规划存储的详细资源数据规划表,实际存储容量分配,如表9所示。表9 存储系统的详细资源数据规划pool名称存储分配容量(GB)副本数Pool作用images3存储镜像volumes3存储volumevolumes23存储volume1.4安全性概要规划1.4.1网络安全性Openstack系统的通信平

19、面主要包括业务网、管理网和存储网。从网络安全性的角度考虑,各个网络需要隔离,本节根据项目实际情况,描述项目中所采用的网络隔离方案:管理网:VLAN隔离存储层:VLAN隔离VLAN业务网:VLAN隔离,虚拟机出口防火墙VXLAN业务网:VXLAN隔离(1)账号安全概要规划为了保证账号安全,要求系统中各账号的密码要求采用一定复杂度的密码,如表10所示。表10 账号安全设置管理员角色帐号密码AdminProject1管理员Project2管理员使用英文大小写,数字和符号的组合作为密码。密码位数超过8位。密码不包含账号名称。定期修改密码,且不和前五次密码相同。不同运维组织使用不同的登录帐号和密码。(2

20、)存储安全性概要规划存储的要求是稳定,对其他业务没有影响,这就要求ceph达到如下要求1、不同组件的pool独立,不要混用2、权限划分,客户端只能操作给云平台使用的pool1.5高可用性概要规划1.5.1设备高可用概要规划设备高可用概要规划如表11所示表11 设备高可用概要规划类别高可用性规划说明备注Controller每个网络2网卡做绑定双电源硬盘组RAID15台服务器组成高可用集群Mariadb每个网络2网卡做绑定双电源硬盘组RAID13台服务器组成高可用集群Stackwatch每个网络2网卡做绑定双电源硬盘组RAID1Compute网络2网卡做绑定存储10台存储组成集群多副本1.5.2网

21、络高可用概要规划(1)业务网络高可用所有节点都是用集群和双链路模式,不存在单点或者单链路故障导致系统全部失效的的情况,业务网络高可用方案如表12所示:表12 业务网络高可用规划类别高可用性规划说明备注服务器业务网双网口,网口负载分担模式接入层接入交换机采用堆叠模式接入交换机上行连接到汇聚交换机的两条链路配置聚合汇聚层汇聚交换机配置VRRP为服务器提供冗余网关。(2)管理网络高可用管理网络组网为接入层堆叠汇聚层VRRP+核心层VRRP,管理流高可用性分析参考业务流高可用性分析。(3)存储网络高可用存储网络组网为接入层堆叠汇聚层VRRP+核心层VRRP,管理流高可用性分析参考业务流高可用性分析。1

22、.5.3管理高可用概要规划(1)管理节点管理节点部署为多主模式,vip运行于controller节点,使用pacemaker来管理;openstack各控制服务在所有controller节点都运行,通过haproxy来进行负载分担。Rabbitmq和mariadb运行于mariadb节点,mariadb通过vip来连接,rabbitmq通过管理网IP连接Stackwatch和influxdb运行于stackwatch节点,通过管理网IP连接,总体高可用设计如图7所示。图7 管理节点高可用规划(2)计算节点Controller节点和compute节点构建consul集群,并周期性检测compute节点的管理网、存储网、业务网连通性。如果compute节点网络不可达,则触发故障恢复操作。考虑到数据一致性,需要将故障compute节点彻底隔离,有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论