Facebo数据中心建设模式分析_第1页
Facebo数据中心建设模式分析_第2页
Facebo数据中心建设模式分析_第3页
Facebo数据中心建设模式分析_第4页
Facebo数据中心建设模式分析_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Facebook数据中心建设模式分析

作者:安真

起源:《中国信息化》第04期

Facebook于发起开放计算项目(OCP,OpenComputeProject),并不停更新其版本,试图让其定制服务器、服务器电源形式以及三联柜模组能够成为市场主流标准产品,并对应更改传统数据中心供电供冷架构,推进服务器行业和基础设施行业产业链发生巨大调整,从而改变现有市场格局。

Facebook如此行为动机和意义何在?他推行数据中心会不会成为数据中心建设典范和趋势?应该怎样评价OCP价值?本文围绕Facebook数据中心场地基础设施架构,系统梳理分析了OCP特点,发觉Facebook数据中心简单实用,具备很多独到之处,值得研习。

一、经过服务器定制和变革简化供配电系统。

(一)Facebook定制服务器配电架构介绍

Facebook数据中心没有使用市场在售标准服务器,而是定制了特殊服务器。这种服务器电源形式与传统服务器存在一些差异,这是其开放数据中心基础,也是其配电系统改革支撑。

Facebook服务器供配电系统更简单,传统配电系统原有UPS(包含整流、逆变等多项功效)及其相关开关、电池、旁路等复杂电气架构和控制系统统统不见了,供配电系统只剩下市政电源、柴油发电机、变压器和连接线缆了。很显著,这种电气系统大大降低了电力输配路径数次交直流转换,降低了系统组件、降低了系统复杂程度,在大大降低成本同时,也降低了电气损耗,为节能做出了一定贡献。

(二)Facebook定制服务器配电架构可靠性分析

这让天天讨论可靠性电气工程师们大吃了一惊,这种系统,可靠性能有确保吗?可是,我们研究一下Facebook公开材料,就会发觉Facebook并不认可他供电架构会降低可靠性,其提供可靠性计算见下列图:

在Facebook公开计算书中,我们能够看到,在基础数据基本相同情况下,传统数据中心是4个9,OCP则是6个9,OCP可靠性显著高于传统机房。这个计算结果引发了不少从业人员怀疑。果真如此话,传统UPS不是白设了吗?是他计算有问题,还是他不会算,抑或是算错了吗?

理论上,他可靠性计算是没有问题,可靠性计算原理和方法都是正确,其对比也沿用了数据中心常规对比喻法,即只比较了场地基础设施电气系统可靠性。这种对比是针对传统机房,对比计算中不包括服务器等硬件设备,因为在传统算法里大家默认使用是一样、可靠性相同标准服务器。确实,当服务器可靠性对结果影响是相同时候,我们确实只需要对比基础设施侧系统架构,这会让问题变得简单一些。

不过,我们需要关注是Facebook服务器改变了,供电架构中电池以串联形式出现在系统最终一级配电中。也就是说电气系统里最轻易出故障电池,被他组合在服务器里了,电池没有在他供电系统内出现,也不属于上述供电系统可靠性计算范围,所以,在他计算过程中,没有表现出类似电池这种本应降低他可靠性组件。而传统方案里很多隔离电池、预防电池故障扩大到服务器技术方法在计算中反而成了降低可靠性复杂组件。

针对这种场景,只对比场地基础设施供电系统可靠性,而不考虑电子信息系统硬件设备电源系统就显然不公平了。实际上,传统方案中,电池故障通常不会引发服务器或配电系统中止,因为后一级交直流转换、ups旁路、电气开关等组件都能够将故障电池从系统中隔离出来,供配电系统极少会因为电池故障而中止。但Facebook特制服务器则不一样,电池直接挂在最终一级配电系统上,电池故障很轻易扩展到服务器,造成服务器故障甚至宕机。众所周知,数据中心电气设备里最轻易出故障组件是电池,数据中心很多故障都是因为电池故障出问题才引发。综上,我们能够推断,Facebook服务器真实故障率应该会高于传统数据中心。

(三)Facebook定制服务器配电架构技术支撑分析

当然,Facebook技术教授也不是不知道OCP风险,不过,Facebook为何还要坚持使用和推进呢?原因很简单,这么做,廉价。

确实,OCP电气架构简单、高效、经济,能够大大降低建设成本和运维费用。Facebook又拥有强大软件能力和领先IT技术,有信心填补其在可靠性方面不足。也就是说FacebookIT技术,尤其是软件方面高水平足以掩盖场地基础设施和IT基础设施不足。服务器故障率高,并不意味着他业务中止率高,其强大IT技术保障,完全能够做到业务快速转移,几台服务器宕机,一两个模块宕机,甚至失去一个数据中心,都不会大范围地影响其业务行进,IT技术有能力快速将业务从有故障设备迁移到正常设备上,甚至从一个DC转移到另一个DC中。站在客户体验角度,客户甚至不知道他业务曾经中止和迁移,不知道为他服务IT设备已经从瑞典迁移到了美国。

同国外先进数据中心相比,国内数据中心IT技术能力尤其是软件能力还有一定差距。我们从不停曝光挖掘机挖断光缆,设施被雷电击中等事故造成长时间服务中止都能够推断出,国内这些所谓互联网巨头,并没有足够先进技术能力,能够让业务及时从故障点迁移,所以局部故障往往会引发业务中止,给企业带来巨大负面影响。为了降低和防止类似事件发生,数据中心只能在基础设施层面加大配置,用来提升可靠性。尽管企业需要为这些复杂设施增加很多拥有成本,但也不敢轻易减配。

另外,一些金融行业和主要企业总部级数据中心,业务主要程度很高,数据中心运行不会把降低成本作为优先战略,他们不会采取这种服务器,也不会采取这种基础设施架构,国内如此,国外一样如此。

(四)Facebook定制服务器对行业影响

Facebook这种革新,当然能够降低自己成本,不过显然不符合IT制造商利益,对传统生态链是有一定冲击,小规模订单是不足以让服务器供给商放弃标准服务器生产,而接收这种非标产品研发和定制。即使接收非标订单,价格也不会有优势。这也是Facebook愿意和广大企业分享他们创新动力所在,他们希望能够有更庞大订单,让更多服务器制造商参加进来,让这种服务器价格降低,有点类似团购性质。Facebook甚至希望这种服务器成为标准服务器,让尽可能多服务器制造商充分竞争,方便取得更多利益。

Facebook服务器做法在业内也不算独创,谷歌做法也很类似,国外也还有很多运行商和互联网机房,都在尝试这种做法。国内ODCC制订天蝎计划也在尝试这么套路。大家思绪类似,细节各有千秋,都在尝试让数据中心变得更简单更经济。

总之,Facebook经过服务器变更,让场地基础设施能够接收更简单配置,让定制型服务器具备了实现标准化、模块化基础;在业内大力推进OCP,渴望他们服务器能够做为行业标准固定下来,并被更多企业所接收。这种供配电架构背后是需要有强大IT技术做支撑。

二、直通风自由冷却技术,让风机跨界为墙

Facebook对业界另一个贡献就是大胆使用风侧自由冷却,率先在大规模数据中心里放弃风管送风,将空调系统与建筑隔墙实现了完全融合。

(一)传统风侧自由冷却技术说明

直接风侧自由冷却是数据中心能耗最低冷却方案,它对节能贡献也是公认。冷却方式与PUE对应关系以下列图所表示(下列图数据仅供参考,详细项目尚需重新计算):

尽管直接风侧自由冷却(直通风)并不是什么高新技术,但使用这种技术数据中心客户并不多,主要原因有两个,一是环境难以精准控制,二是建设条件受限。室外高温高湿会给服务器带来更多故障,也会影响服务器使用寿命,要想做到送风稳定、均匀和精准,就需要配置过滤系统、机械制冷系统和复杂控制系统,这么会增加很多拥有成本。建设条件引发困难就更难对付了,建筑场地、风管尺寸、风阀设置、产品采购等问题,都可能成为详细项目无法推进理由。这些困难给很多试图采取直通风冷却客户带来了巨大挑战。

我们来看看传统风侧自由冷却,大致布局是这么:

图中方案是以直通风AHU为主,水冷冷水机组为辅风侧自由冷却方案。图中只画了一套AHU作为示意,实际上,一套完整处理方案需要一大堆定制AHU,每台AHU都需要繁杂风管系统,并配有新风阀、回风阀,阀门开度需要严格自控协调才能实现送风精准控制(大面积风阀控制极难做到精准)。为了风管实施,还需要在墙上开启无数孔洞。这些可能漏风孔洞又会给冷却效果和运行维护带来很多麻烦。当数据中心面积较大时,这么多风管就更难布置了,有些时候,靠近中心区域冷风引入和热风排除路径都极难找到。另外,风侧自由冷却和气体消防也存在很多不兼容地方,假如采取气体消防,风管穿越保护区域时候,就不得不采取大量防火阀,无疑会加大数据中心投资和操作风险。在中国,还有空气质量问题,比如严重超标PM2.5和含硫量,也会引发初投资和运维费用增加。

(二)Facebook风侧自由冷却技术说明

复杂庞大设备和技术风险,让传统直通风自由冷却技术变得极难推广。一向不愿在基础设施上投钱Facebook当然不愿采取。既想有风侧自由冷却节能效果,又想降低拥有成本,还不能太复杂,面对这些问题,Facebook是怎么做呢?

Facebook经过调整服务器内部布局、高度以及CPU数量,提升了IT服务器功效,同时经过改进空气流通路径以降低风阻,能够让服务器安装直径更大风扇,以提升通风量和风扇效率,这些技术方法尽可能优化了其服务器本身散热能力。当然,Facebook数据中心选址也会尽可能防止酷热低纬度地域。

从服务器角度来看,为了让自己数据中心彻底告别机械制冷(Facebook数据中心只有一个配置了DX冷却盘管),能做好像也只有这么多了。每年酷热季节,Facebook只能放宽进风条件,靠蒸发冷却进行适当降温,然后让自己服务器接收考验了。

建设条件问题,怎么处理呢?Facebook采取了一个新奇大胆创新方案,他抛弃了全部AHU,采取无风管型通风系统,经过设置风墙,让风扇和建筑隔墙融为一体,其过滤、喷淋设施也和建筑隔墙融为一体,巨大建筑走廊取代了风管。换句话说,定制框架型风扇、湿膜冷却、过滤器像砖块一样,被砌筑在隔墙里,成了建筑隔墙一部分。这么,他系统不再出现麻烦AHU、风管、风阀、孔洞;墙体不需要那么多砖块,空调系统也不需要钣金外壳,可谓节材到了极致;建设工序也变得更简单了。

同电气系统类似,Facebook空调系统简单而又实用,不需要风管风阀、也不需要AHU,AHU各个功效段被演进放大成了由一个个框架组成墙体,这种形式不但投资低廉,而且施工简单,不需要砌墙然后再开孔,不需要排布风管,不需要尤其精准控制,调试也变得很简单,建设速度当然会更加快捷。

(三)Facebook风侧自由冷却技术存在问题

凡事有利必有弊,这种做法带来麻烦就是,没有精准控制送风,造成环境温湿度很轻易失控。听说Facebook数据中心确实因为湿度过高,出现过云雨现象,造成大量服务器出现故障。另外,经常处于高温高湿下服务器,即使没有马上发生故障,也会影响其使用寿命。鉴于互联网企业配置服务器往往为经济型产品,更换周期也比通常企业要短,且伴随IT产业进步,服务器更迭换代速度很快,成本连续走低,所以服务器寿命和故障就变得不是硬伤所在了。

这种方案另一个弱点就是庞大通风设施无法把IT区域分隔成若干个小房间,整个IT区域好像大型仓库一样,没有门,没有走廊。这种做法看起来很省钱,但会给管理造成很多麻烦,比如,人流、物流、IT运维、机电运维路由交叉怎样防止,比如局部事故怎样防止扩散到整个机房等。另外,如此巨大空间,是无法使用洁净气体进行消防,一旦失火,其影响力度和面积都会很大。

总之,Facebook采取无风管风侧自由冷却技术,在业内算是极大规模应用,在数据中心冷却行业确实是一个大胆创新。这种方式最大特色是建筑和冷却融合一个新方式,而不是采取了一些革命性新产品。直接风侧自由冷却能耗很低,无风管系统经济性也是显而易见,不过,系统会带来一定可靠性问题。同电气系统类似,这些问题在Facebook眼中,是能够依靠强大IT系统去填补,他们有把握让基础设施简化引发全部问题最终不会影响业务连续性。这对于绝大多数成本优先数据中心来说,IT技术还没有强大到这种程度,所以也不具备这种方案实施条件。对于那些安全优先数据中心就更没有必要采取这种方案了。

三、Facebook数据中心布署快速

理论上,对任何一个工程来说,快速布署都不是问题,想要快,只要肯投入,一定是能够处理,不论是工程方式还是产品方式都有很多成熟可行技术方法。Facebook经过简单基础设施架构、相对适宜建设地点,重复建设方案,让快速布署不需要投入太多就能实现。

(一)采取简单基础设施架构,实现快速安装

Facebook数据中心布署速度之快在业内是知名。数万平米数据中心,十来个月就能够试运行了。Facebook数据中心能够快速上线投产最主要原因就是简单。

建筑本身没有传统数据中心繁复,没有太多隔墙,不需要结构降板,不需要架空地板,也没设置复杂综合管架。

机电设施也比传统数据中心简单很多,其配电和制冷系统需要安装组件,尤其是只能现场制作复杂组件,远远少于传统数据中心。比如不需要冷机、UPS,空调机组等设备,也就没有连接管路、阀门、线缆等工程内容。即使是那些需要安装设备也属于重复性非常高、安装要求相对简单设施(如定制框架式风扇、湿膜加湿模块、框架式过滤模块等),这么就更轻易实现工厂定制和快速安装。

瑞典lulea是Facebook第一个不在本土数据中心,建造管理相对困难,加之气候严寒,可施工季节短暂,数据中心能够快速布署优势就显得更为主要。为此,Facebook定制了大量预制组件,包含土建设施,机电设施,这些部件采取现场拼装方式进行建设,大大提升了建设速度,取得了不错效果。

(二)选择适宜建设地点,实现快速建造

Facebook选址特意避开了土地资源相对匮乏地域,这么能够采取经济性愈加好单层钢结构形式(尽管土地利用率较低),这在地广人稀海外是非常多见,是大规模厂房最简单最惯用土建模式,这么建设方式另一个好处就是它让施工作业面变得非常宽,无疑给布署速度带来了很多灵活性。

国内很多数据中心往往建在地价很高城市,因为用地条件受限,只能采取多层建筑,投资会增加,方案选择也会受到一定局限。加之系统复杂,从设计到服务器上线往往高达24个月以上。有些建设甚至长达好几年,确实会限制企业IT发展。很多企业也会所以放弃自建数据中心,而是采取随用随租方式,利用第三方数据中心完成自己IT业务。

(三)采取基本类似建设模式,实现快速复制

Facebook已经建成了四个数据中心,并投入使用,现在正在建设和规划其余数据中心。

重复建设类似工程,当然轻易建得又快又好。Facebook几个数据中心建造模式就基本雷同,都采取了定制服务器设备、三联柜模组和供电模块,也配置了基本相同供电供冷架构。他们都放弃了UPS,放弃了冷机,采取了直通风自由冷却这种散热方式。这给设计实施、产品采购、运维管理带来了极大方便。先前工程全部经验和教训都能够借鉴,确保越做越好。作为会数次采购大客户,更轻易取得性价比较高商品;另外,对运维好处则更是发挥到极致,数个数据中心运维管理非常相同,运维机制能够完全照搬,运维演练流程,常见故障处理和判断,怎样改进,怎样评选都能够借鉴。

四、Facebook数据中心建设模式带来启示

仔细研读Facebook数据中心,我们能够得到以下启示:

(一)Facebook数据中心可靠性保障更多依赖IT层技术优势,而不是局限在场地基础设施。

数据中心业务最大特点就是不能中止,一旦中止会造成重大损失。对绝大多数企业来说,基础设施是其可靠性第一道防线,他们需要复杂可靠基础设施来实现IT不宕机、业务不中止需求。

反观Facebook,其数据中心基础设施简单粗放,价格低廉,假如去做uptime认证,只能达成T1或T2级别。不过,Facebook经过IT技术管理和利用,填补了基础设施方面很多不足,数据中心整体功效还是能够满足其业务需要。数据中心性价比显著提升了。

关于性价比另一话题就是传统两地三中心和新兴异地多活模式。为了确保业务连续性,主要数据中心必须考虑灾害发生时业务转移,从一主一备两中心到两地三中心,再到异地多活多中心,这几个方式各有千秋,现在大型数据中心采取最多就是两地三中心和异地多活。两地三中心架构,相当于一套数据承载在三个数据中心之上,数据备份相当于1+2,即3N配置,可靠性当然高,但投资也会很庞大。异地多活架构,相当于让N+1个数据中心承载全部生产任务,当某一个数据中心发生故障时,其余数据中心能够自动接管全部业务,从而确保业务连续性,整个数据备份相当于采取了N+1架构。这种架构从经济上看当然更划算,但对业务迁移和资源配置能力,尤其是远距离执行能力是一个巨大挑战。怎样选择,必定要依照业务特点、业务规模、业务主要程度、IT软硬件架构等多原因平衡决议,绝不会全凭成本。

企业战略方向不一样,关注关键点也不一样,决议机制和结论也会有很大差异,数据中心完全仿效Facebook模式进行建设显然是不现实。尽管如此,我们还是要看到,当IT技术进步到了一定程度,对基础设施依赖就会降低,所以未来数据中心基础设施可靠性要求应该会连续走低。

(二)Facebook开源和简约格调,让数据中心建设变得更加快更省,运维也更简单更高效,这些举措强迫传统基础设施供给商必须重新思索应变策略。

Facebook数据中心取消了UPS和机械制冷,让供电供冷系统变得非常简练,只剩下油机、变压器、风扇、冷却湿膜和风口等简单设施。基础设施投资规模、运行费用、运行管理难度都会大大下降。这么数据中心,业主本身话语权很强,建设方案很明确,对产品需求很清楚,几乎不需要花费额外时间做研讨。作为传统基础设施供给商,在这种项目里,不能使用标准产品,没有引导能力,没有技术门槛,产品功效又简单,要想参加,那就只能做他们加工厂,采取非标定制方式,降低利润诉求了。

基础设施要求越简单,供给商引导能力就越弱。伴随IT行业不停进步,未来数据中心很有可能会深入降低对可靠性要求,对环境要求也会深入放宽。当Facebook数据中心完全放弃常规供冷供电产品,想要为他服务基础设施供给商就必须重新定

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论