陈海超:大规模服务器集群的线上质量运营实践_第1页
陈海超:大规模服务器集群的线上质量运营实践_第2页
陈海超:大规模服务器集群的线上质量运营实践_第3页
陈海超:大规模服务器集群的线上质量运营实践_第4页
陈海超:大规模服务器集群的线上质量运营实践_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目前,专注于字节跳动的服务器线上质量建设与保障多年服务器研发测试、技术支持与海量运营工作经验,曾任职华为、腾讯。负责解决过国内外互联网、运营商、金融等领域的服务器疑难问题;制定服务器集群的硬件监控标准与A100/A800/H800运营流程;主导CPU\网卡\硬盘\GPUA100/A800/H800曾任TCCP讲师(服务器运维高级工程师课程)、获VMWare、WindowGOGOPS全球运维大会暨XOps技术创新峰会2024·北京站02线上质量体系的建立03线上质量的运营实践04展望GOGOPS全球运维大会暨XOps技术创新峰会2024·北京站01线上质量的重要性GOPS全球运维大会暨XOps技术创新峰会2024·北京站服务器集群规模的快速增长全球首家100W台全大规模服务器集群的运营模式演进大规模服务器集群的运营模式演进 随着服务器集群规模飞速扩张,机器型号层出不线上质量问题的发现来源交付交付拦截厂商厂商反馈故障故障告警研发反馈产线产线拦截业务反馈GOGOPS全球运维大会暨XOps技术创新峰会2024·北京站GOGOPS全球运维大会暨XOps技术创新峰会2024·北京站02线上质量体系的建立GOPS全球运维大会暨XOps技术创新峰会2024·北京站全生命周期的服务器质量管理新品导入新品导入生产质量灰度质量DOA质量线上质量GOGOPS全球运维大会暨XOps技术创新峰会2024·北京站跨团队的服务器质量工作协同02运营/交付0102运营/交付突显技术优势,负责服务器的产品规划、产品研发与测试、版本管理、产品质量。质量协同承担服务器的线上运营质量指标监控与批次质量问题治理,保障服务器高突显技术优势,负责服务器的产品规划、产品研发与测试、版本管理、产品质量。质量协同供应链04平台建设供应链看护整机和关键部件的质量指标,负责供应商工厂质量管理,处理影响交付进度事件,协助线上批次质量问题处理。主要为运营和业务提供自动化、平台看护整机和关键部件的质量指标,负责供应商工厂质量管理,处理影响交付进度事件,协助线上批次质量问题处理。GOGOPS全球运维大会暨XOps技术创新峰会2024·北京站线上质量之从源治理源头治理GOGOPS全球运维大会暨XOps技术创新峰会2024·北京站量产评估量产评估 故障发现能力故障率监控现场运维能力质量问题发现故障发现能力故障率监控现场运维能力质量问题发现整机运营基线部件运营基线固件运营基线运营交付物产品易用性产品可维护性产品形态架构方案平台影响线上质量之从源治理-生产质量P级质量事故管理、GPU整机MFR月度质量目标监控关键部件质量改善月度质量目标监控DOA、批次问题SLA重点重点OXM厂商质量管理MFR、AFRGOGOPS全球运维大会暨XOps技术创新峰会2024·北京站线上质量之从源治理-DOA质量压测部件性能测试压测部件性能测试部件压力负载测试功耗测试硬件信息检查BMC/BIOS配置一致性检查设备健康状态GOGOPS全球运维大会暨XOps技术创新峰会2024·北京站线上质量之过程管控-线上质量GOGOPS全球运维大会暨XOps技术创新峰会2024·北京站线上质量运营体系GOPS全球运维大会暨XOps技术创新峰会2024·北京站03线上质量的运营实践GOPS全球运维大会暨XOps技术创新峰会2024·北京站线上质量问题的处理流程与关键指标线上质量问题的实时监控线上质量-故障率分析保有量:一段时间内机器或部件数量MFR:=∑日故障数/等效保有量*100%线上质量-宕机率分析宕机对单物理机业务的稳定性挑战最大,特别是大模型训练等业务,对宕机尤为敏感;利用日志分析、图像识别、关键字提取等技术,自动对每一单宕机根因进行科学判断、统计、展示、及预警;对宕机根因进行三级分类,一级:预期、非预期,二级:硬件宕机、软件宕机,三级:CPU、主板、内存等;对少部分unknown宕机单深入分析,投入故障分析专家人工分析,持续改进,提取宕机分类特征值;l大模型训练集群l宕机根因的三级分类液冷专项对冷板式/浸没式液冷服务器液冷专项对冷板式/浸没式液冷服务器的运营指标进行监控,负责风险预应急处置对GPU进行压测和全链路监控,包括:1)进场和维修时Fieldiag半DCGM压测,2)GPU状态监控:GPU卡在位状态,Nvlink链路状态、SRAM半DRAM状态AOC链路专项监控和解决AOC/交换机/CX*网卡之间概率性链路信号质量差导致的网络兼容性问题GOPS全球运维大会暨XOps技术创新峰会2024·北京站服务器关键部件的趋势 个个个个个个个个服务器关键部件的趋势应用程序应用程序存储、安全存储、安全厂商代表产品发布时间NVIDIABlueField-42023BlueField-32021BlueField-22020FPGAIPUC502X2020XilinxAlveoU252020BroadcomStingray2018服务器形态与集群的发展趋势在高散热需求下,液冷已成为服务器温控技术的政策要求物理极限芯片功率密度逐代升高,但电子器件的失效温度仍保持不变,散热挑战更大国家对数据中心PUE和能耗双控的绿色达标要求越来越高,传统风冷方案已无法解决散热功耗变化随着芯片散热功率提升,用于冷却的风扇功率呈指数级增高,总功耗上升服务器形态与集群的发展趋势云游戏,网络直播,自动驾驶等。多样化的应用驱动更靠近客户端去部署云服务,业务网络延迟低。云游戏,网络直播,自动驾驶等。多样化的应用驱动更靠近客户端去部署云服务,业务网络延迟低。云上的专属物理服务器,在满足核心应用场景对高性能及稳定性需求的同时,还兼备云计算的弹性、灵活性。展应用,同时可按需动态调整资源分配。保证应用的高可用性和稳定裸金属线上质量管理的挑战需要线上质量团队承载更多原来由OEM⼚商负责的技术分析、资源协调等⼯作不同业务,对同⼀故障的敏感度会不⼀样不同业务,对同⼀故障的敏感度会不⼀样,需要根据业务特点去定制化服务器监管控策略需要根据各部件特点,开展⽐PN更细颗粒度的分析,监控物料来源及其报错类型,⽐如CPU的DateC

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论