2022浸没液冷服务器可靠性白皮书_第1页
2022浸没液冷服务器可靠性白皮书_第2页
2022浸没液冷服务器可靠性白皮书_第3页
2022浸没液冷服务器可靠性白皮书_第4页
2022浸没液冷服务器可靠性白皮书_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浸没液冷服务器可靠性白皮书2022PAGE\*romanPAGE\*romani目录浸没液服务靠性白书 1引言 1传统风数据心故障况 2温诱发的机理 2振诱发的机理 3湿诱发的机理 4灰诱发的机理 4空气冷与浸液冷下电子的环境力差析 6湿对比 6振对比 6灰对比 6阿里云没式冷服务运行分析 6浸液冷器运行效率析 7服器各失效率计结果 8阿里云没式冷服务长期后可靠评估 8服器系行稳定及性析 8服器主理特性析 9服器主号完整分析 服器主源完整分析 12服器电块PSU可靠性析 13服器机构件可性分析 14冷液长靠性分析 156.总结 16浸没液冷服务器可靠性白皮书浸没液冷服务器可靠性白皮书PAGEPAGE10浸没液冷服务器可靠性白皮书引言01题,很好的解决了这两个挑战。(以下简称“白皮书代背景下,传统制冷系统逐步面临瓶颈,液冷技术生态化正在加速形成。性、操作性的参考资料,希望能够在从风冷到液冷服务器转型过程中提供有效赋能。传统风冷数据中心故障情况温度诱发故障的机理(20℃-25℃)高温激发出的主要的故障模式如下:不同材料膨胀系数不一致使零件粘结在一起;润滑剂粘度降低。润滑剂外流使连接处损失润滑能力;故障或破坏完整性;(温度不均匀性(即循环次数)越少。温度循环激发出的主要故障模式如下:使涂层、材料或线头上各种微观裂纹扩大;使粘接不好的接头松弛;使螺钉连接或铆接不当的接头松弛;使机械张力不足的压配接头松弛;使质量差的钎焊接触电阻加大或造成开路;振动诱发故障的机理振动激发出的主要的故障模式如下:电缆磨损,如在松弛的电缆结处存在类似于尖缘那样的缺陷时;制造不当的螺钉接头松弛;安装加工不当的集成电路片离开插座;失效;损坏,例如电路板前板的发光二极管或在背板散热箱的功率晶体管;已损坏或安装不当的脆性绝缘材料中出现裂纹。湿度诱发故障的机理又会影响表面电阻下降,这些都会影响产品工作性能。湿度激发出的故障模式主要有:要的。毛细凝露。当隐患与断裂、缝隙和细孔有关时,毛细凝露是故障的主出现故障。很少有关。灰尘诱发故障的机理15μm2.5~15μm0.1μm~2.5μm“悬浮颗粒状物质”TSP。灰尘激发出的故障模式主要有:0.5μmMOS电路的重要失效缘由。绝缘性灰尘附着在连接器和接点的接触部分后,会引起接触不良。当有导电性灰尘附着时,会造成信号短路。电气元件散热,造成芯片和其它元器件更快损坏。电子设备故障统计数据结果分析(1USAirForceAvionicsintegrity在导致电子设备失效的因素中,55%(6%,19%,20%)。1空气冷却与浸没液冷下对电子设备的环境应力差别分析湿度对比影响因素。振动对比由于浸没液冷完全浸入不导电的液体中,不在需要高速风扇来进行散热,故浸没液冷消除了风扇全速振动带来的可靠性影响。灰尘对比由于浸没液冷完全浸入不导电的液体中,与空气完全隔离,故浸没液冷消除了灰尘带来的可靠性影响。ITITIT设备的可靠性。阿里云浸没式液冷服务器运行状态分析2016年首次推出浸没液冷系统;20186月位于河北省张家口市建成了全球互tank2千多台液冷服务器,包括通用计算型、SSD/HDD存储型液冷服务器,已成功支撑阿里巴巴20182020的双十一活动。20209PUE达1.09的绿色节能型单相全浸没式液冷数据中心在阿里云浙江云计算数据中心正式揭幕并5A6年的研发及规模化落2202163证液冷服务器能持续满足业务需求,需要关注液冷服务器本身的长期可靠性。浸没液冷服务器运行失效率分析阿里云浸没液冷数据中心于2018年6月完成并投入使用,分别选取液冷服20182021服务器各部件累计失效率。(1U)(1U机(1U)(1U机头+4U机尾)34服务器各部件失效率统计结果部件SAS/Raid部件SAS/RaidSSDHD CPUDMemory主板 PSU 网卡 网线 风扇风冷失效率1.00 0.87 0.77 0.28 0.22 0.64 0.26 0.11 0.80 0.0200* 24* 59* 87* 61* 86* 77* 79* 19* X X X X X X X X X X液冷失效率0.64 0.48 0.61 0.17 0.11 0.35 0.04 0.00 0.17988* 52* 87* 94* 98* 88* 67* 00* X X X X X X X X X0.0000*X加权分析液冷改善液冷vs冷失效率改善35.0 44.3 20.2 37.8 46.9 44.6 82.5 100. 77.6 100. 52.2% 8% 6% 7% 9% 9% 6% 00% 3% 00% 9%53%,整体服务器可靠性符合预期。阿里云浸没式液冷服务器长期运行后可靠性评估-部件-器件-料层面的物理特性&电气特性进行了的可靠性的评估分析。服务器系统运行稳定性及性能分析3次风冷服务器的系统运行数据,得到液冷服务器的系统运行可靠性分析结果。2测试项目测试内容风冷结果液冷结果测试结论稳定性整机压力测试+healthcheck整机压力测试pass整机压力测试pass风冷和液冷的系统运行稳定性均满足金刚基线要求,无异常。DCcycle测试+hwqc+healthcheck运行DC500次pass运行DC500次passOSreboot测试+hwqc+healthcheck运行reboot500次pass运行reboot500次pass性能CPU性能(金刚基线)满足基线要求满足基线要求液冷改善小于1%,无显著差异内存性能(金刚基线)copy,add,scale,triad满足基线要求满足基线要求液冷差异小于2%,无显著差异SSD性能-顺序读128kreadbw/MB/s满足基线要求满足基线要求液冷改善小于1%,无显著差异SSD性能-顺序写128kwritebw/MB/s满足基线要求满足基线要求液冷改善小于3%,无显著差异SSD性能-随机写4krandreadiops满足基线要求满足基线要求液冷差异小于3%,无显著差异SSD性能-随机读4krandwriteiops满足基线要求满足基线要求液冷差异小于3%,无显著差异&vs液冷服务器,CPU性能、SSD读写性能测试结果差异较小,性能无显著差异。服务器主板物理特性分析为了评估液冷环境对主板物理特性是否有影响,本文对液冷环境PCBA物理特性层面可靠性进行了分析,同时对比风冷和液冷PCBA的物理特性可靠性的差异。随机选取已经运行近3年的的阿里云浸没式液冷服务器,评估其PCBA物体层面可靠性。3测试项目测试内容风冷结果液冷结果风vs液测试结论PCBA物理特性PCBA外观检查外观检视ok,未见显著异常外观检视ok,未见显著异常液冷PCBA老化不明显;其他无明显差异PCBA上关键器件外观检查检视ok,未见显著异常未见显著异常无明显差异焊盘或露铜检查无腐蚀、变色、剥离现象无腐蚀、变色、剥离现象无明显差异过孔和螺钉孔外观分析无腐蚀、变色、孔盘剥离现象无腐蚀、变色、孔盘剥离现象无明显差异焊点外观分析无腐蚀、变色、开裂现象无腐蚀、变色、开裂现象无明显差异丝印和条形码分析产品丝印、条码均清晰、无变色脱落现象产品丝印、条码均清晰、无变色脱落现象无明显差异关键器件焊点X-ray分析无焊点异常无焊点异常无明显差异密间距器件引脚间枝晶分析QFN器件焊点无短路异常QFN器件焊点无短路异常无明显差异PTH焊接孔切片分析PTH孔无腐蚀异常,焊料填充正常PTH孔无腐蚀异常,焊料填充正常无明显差异VIA孔切片分析Via孔无腐蚀异常,PCB结构完整Via孔无腐蚀异常,PCB结构完整无明显差异PCB内层切片分析PCB内层无分层起泡现象PCB内层无分层起泡现象无明显差异焊点切片分析无裂纹,IMC连续形貌正常无裂纹,IMC连续形貌正常满足判定要求染色试验检测焊接无异常缺陷焊接无异常缺陷无明显差异PCBAIPCPCBA射线分析、切片分析、染色试验等结果风冷和液冷主板无显著差异。服务器主板信号完整性分析浸没式液冷对PCB的影响,主要是针对传输线影响即对走线的影响。传输线根据电磁场的理论,当高频信号通过传输线时,各点电压和电流是不相同的。各点分布参数(电阻、电感、电容、电导)存在于传输线的所有位置上,随着频率的提高,分布参数效应会带来不同影响。3性进行对比分析,比较液冷主板信号与风冷主板信号的差异性。UPIDMIRMTPCIe-TXTDR等项目的测试分析,同时对高速连接器及线缆的电气特性进行分析。测试结果汇总如下表:4测试项目测试内容风冷结果液冷结果测试结论信号完整性UPIMargin(CPU之间SI)满足spec要求满足spec要求均满足spec要求,且余量较大DMIMargin(CPU与南桥间SI)满足spec要求满足spec要求均满足spec要求,且余量较大RMTMargin(CPU与内存间SI)满足spec要求满足spec要求均满足spec要求,且余量较大PCIe-TX/ps满足spec要求满足spec要求均满足spec要求,且余量较大器件TDR阻抗测试/Ω满足spec要求满足spec要求TDR满足spec要求高速连接器高速线缆外观检视&物理特性连接器&线缆外观无异常连接器&线缆外观无异常外观无明显差异电气特性测试(IL/RL/TDR/CR等)电气特性测试满足spec要求;满足+/-10%要求满足+/-10%要求,长期工作特性无明显变化均满足使用要求SISPEC变化。服务器主板电源完整性分析针对液冷环境对板级pcb和电源器件(VRcontroller,Powerstage,POLconverter,LDO的长期可靠性和电气特性影响进PIV测试结果的差异性,判断标准是测试结果相差小于人为测试误差(5-10mV),并满足板级电源规格(IntelCPU、PCHmemory和基本上下电、环路、MOS应力、输出过流过压保护测试等)。5测试项目测试内容风冷结果液冷结果测试结论CPU/MemoryVR(多相)IntelCPU&MemoryVRTT(PVCCIN,PVCCSA,PVCCIO;PVDDQ,P0V6,P2V5)满足IntelCPU和Memory电源规格要求满足IntelCPU和Memory电源规格要求风冷和液冷均满足Intel电源规格要求上下电/MOSVds/Jitter/ControlLoop/输出保护(OCP/OVP),etc.满足阿里服务器测试规范(PIV部分)满足阿里服务器测试规范(PIV部分)风冷和液冷均满足SPEC;其他SwitchingVR/LDO(单相)DCregulation/Transient/上下电/MOSVds/Jitter/ControlLoop/输出保护(OCP/OVP),etc.满足阿里服务器测试规范(PIV部分)满足阿里服务器测试规范(PIV部分)风冷和液冷均满足SPEC;EFUSE/HOTSWAP缓启时间/过流保护/MOSSOA/热插拔满足阿里服务器测试规范(PIV部分)满足阿里服务器测试规范(PIV部分)风冷和液冷均满足SPEC;VRIC(Controller/Powerstage)单体外观&物理特性外观检视无异常外观检视无异常无显著差异电气特性满足器件规格要求满足器件规格要求无显著差异电感、电容、MOSFET、Diode(TVS,Schottky)单体外观&物理特性外观检视无异常外观检视无异常无显著差异电气特性(感值,Rdc,Isat,容值,ESR,Rds_on,SOA,Qg等)满足器件规格要求满足器件规格要求无显著差异PIintel范(PIV部分),vsPI电气性能&SPEC&电气特性无明显变化。PSU可靠性分析多。PSU4PSUPSU液冷环境下电气性能&气性能差异。6测试项目测试内容出厂结果液冷结果测试结论PSU单机电气特性HIPOT、EDVT、ATS测试符合电源SPEC符合电源SPEC,对比出厂性能无显著差异均满足SPEC,无显著差异Ripple纹波测试;满足SPEC满足SPEC均满足SPEC,无显著差异Dynamic动态测试;满足SPEC满足SPEC均满足SPEC,无显著差异InrushCurrent浪涌电流测试;满足SPEC满足SPEC均满足SPEC,无显著差异Holduptime测试满足SPEC满足SPEC均满足SPEC,无显著差异iTHD&PF满足SPEC满足SPEC均满足SPEC,无显著差异电源关键器件电解电容,FUSE满足器件出厂要求外观检视ok满足器件SPEC要求外观检视ok满足器SPEC使用要求压敏电阻、PFC高压采样电阻、副边低压采样电阻放电管,功率半导体器件磁性器件,MLCC结构件类(含PCB,COATING,PVC线材,TUBE,RTV等)外观检视ok对比出厂无显著变化外观检视ok对比出厂无显著变化PSU电气性能及器件特性均能满足SPEC器件的物理&特性无显著变化。服务器机箱结构件可靠性分析果如下:7部件类别测试项目风冷结果液冷结果测试结论金属结构件外观检视:变色、腐蚀外观无异常,局部金属易被氧化,局部有轻微生锈,积灰外观无变色、腐蚀液冷和风冷均满足要求无显著差异五金件(螺丝、螺母、拉钉)外观检视:变色、腐蚀推拉力、扭力测试外观检视无异常;力矩满足要求外观检视无异常;力矩满足要求液冷和风冷均满足要求无显著差异烤漆件外观检视:变色、腐蚀百格测试外观无异常烤漆满足要求外观无异常烤漆满足要求液冷和风冷均满足要求无显著差异标签、面膜外观检视:变色、腐蚀附着力测试色牢度检视外观无异常色牢度o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论