英特尔中国公有云和互联网创新实践_第1页
英特尔中国公有云和互联网创新实践_第2页
英特尔中国公有云和互联网创新实践_第3页
英特尔中国公有云和互联网创新实践_第4页
英特尔中国公有云和互联网创新实践_第5页
已阅读5页,还剩320页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

云与数据中心基础设施应用篇云与数据中心基础设施应用篇构建云创新基石云与数据中心基础设施应用篇2云与数据中心基础设施应用篇2071317263035414548525704前言腾讯云依托傲腾™持久内存深度优化云硬盘CBS产品,打造极速云存储体验百度智能云基于英特尔®IPU打造全新计算平台,提升云平台管理能力更兼顾成本效益字节跳动采用英特尔®RDT和英特尔®PRM缓解底层硬件干扰,提升混布集群性能京东利用英特尔MCA+MFP降低内存故障下的宕机率,构建稳定、高效的云服务青云科技采用英特尔软硬件升级新一代QKCP企业级容器平台,加速企业云原生落地金山云采用英特尔®Tofino™可编程交换芯片实现高带宽、低延迟的运营商线路网络转发快手以英特尔CPU+FPGA+PMEM为底座,基于LaoFeNDP架构提供多元算力OPPO基于英特尔®QAT加速云安全网关HTTP3-QUIC,显著降低网络时延AI65697276798465697276798488阿里巴巴采用英特尔多样化硬件,构建开源稀疏模型训练和预测引擎DeepRec蚂蚁集团基于英特尔®SGX和英特尔®DLBoost加速端到端PPML解决方案美团基于至强®可扩展平台深度优化TensorFlow,提升推荐系统性能壹沓科技基于至强®+OpenVINO™,加速基于RPA+AI的智能平台创新搜狐采用至强®可扩展处理器提升AI推理58同城使用英特尔®傲腾™持久内存打造高经济性的Redis与云搜系统10693综述——至强10697腾讯云使用至强®可扩展处理器,实现HTTPS性能优化,提升安全服务OPPO基于英特尔®服务器GPU打造云游戏平台,全面提升游戏体验赞奇科技采用英特尔®oneAPI渲染工具包,加速三维视觉计算效率蔚领时代、硅基大陆采用英特尔CPU+GPU,提供高密度、流畅的游戏云服务爱奇艺引入傲腾™+SPDK+OCF深度优化MySQL性能,提供优质客户体验云与数据中心基础设施应用篇3Contents目录124125云与数据中心基础设施应用篇3Contents目录124125126126127127128129130132134135136137139139140140142142143143144144145145146146147147148149英特尔®oneAPIDPC++/C++编译器英特尔®VTune™Amplifier英特尔®高速缓存加速软件(英特尔®CAS)存储性能开发套件(SPDK)ClearLinuxKataContainerStarlingXKubernetes英特尔®OneAPI工具套件英特尔®DAAL技术篇以数据为中心的技术篇以数据为中心的(英特尔®DLBoost)技术(英特尔®AVX-512)英特尔®SpeedSelect技术(英特尔®SST)英特尔®软件防护扩展(英特尔®SGX)英特尔®数据中心GPUFlex系列英特尔®服务器GPU英特尔®FPGA和SoCFPGA英特尔®傲腾™持久内存200系列英特尔®傲腾™固态盘P5800XPonteVecchio英特尔®基础设施处理器(IPU)和SmartNICBigDL英特尔®MKL-DNNOpenVINO™工具套件面向英特尔®架构优化的Hadoop和Spark英特尔®Crypto-NI英特尔®oneVPLSVT云与数据中心基础设施应用篇云与数据中心基础设施应用篇 44云与数据中心基础设施应用篇云与数据中心基础设施应用篇当今时代,数字技术正作为世界科技革命和产业变革的先导力量,日益融入经济社会发展各领域的全过程,为生产方式、生活方式和社会治理方式带来颠覆性改变。同时,这一轮新的科技革命和产业变革又推动数字技术快速发展,也将见证技术的真正魔力,让五大超级技术力量,也就是无所不在的计算、无处不在的连接、从云到端的基础设施、人工智能,以及传感与感知相互增强和赋能,共同驱动线上服务这样的新模式、新场景变得普及,一系列面向生产与管理效率提升、商业与技术模式创新、用户与服务体验优化的数字化、智能化转型新方案,诸如算网融合、绿色节能、分布式数据库、分布系统化的基础设施以及端到端的技术能力,从而成为用户关键业务的核心内驱力,也成为各云服务提供商和各企业之间赢得竞争的关键筹码。但这显然需要一系列强劲且可应对多样化负载的计算平台和英特尔的产品与技术,无疑是启动并引领这些引擎的可靠选择。围绕至强®可扩展平台,英特尔所提供的丰富软、硬件产品体系及创新技术实现,不仅涵盖了云服务中面向计算、存储、网络的全量基础这些软、硬件产品及技术实现,既包括跨不同架构的算力和硬件加速设备(如CPU、GPU、IPU、FPGA、以太网产品及其它打破封闭式编程模型的限制,也包含加速卓越性能和生产力交付的软件与框架(如英特尔®oneAPI工具套件、OpenVINO™工具套件、英特尔®MediaSDK及其它)。通过分层的软件栈构建和优化来充分发挥底层硬件技术的威力,兼具多云环境的可靠性、灵活性和安本白皮书不仅介绍了英特尔推出的一系列软硬件产品组合,还展示了与阿里云、腾讯云、百度云、火山引擎、京东云、快手、金山云、青云、OPPO等合作伙伴,面向云数据中心基础设施、人工智能、互联网与媒体服务等应用场景的创新方案与成功案例。通过这些全球领先的技术合作成果,可以了解展望未来,英特尔将持续与合作伙伴、开发者和用户一起,共同挖掘蕴含于方寸之间的无穷硅力量,55云与数据中心基础设施应用篇云与数据中心基础设施应用篇66■阿里巴巴■中国电信■AWS■阿里巴巴■中国电信■AWS■华为■腾讯■其他9.0%云与数据中心基础设施应用篇724.6%34.5%8.1%10.3%11.6%11.0%依托于云服务,各种前沿技术落地到了更多的数字化场景。在此进程中,企业多种新需求、新机会也被激发。数据中心与云服务提供商必须更加精准且前瞻性地洞察到当前行业正在发生的改变,并通过基础设施架构优化、技术与服务创新等方了数据的海量集聚以及对于云服务需求的快速增长。IDC发布的《中国公有云服务市场(2022上半年)跟踪》报告显示1,2022上半年中国公有云服务市场整体规模达到165.8亿美元,其中IaaS(InfrastructureasaService,基础设施即服务)市场同比增长27.3%,PaaS(PlatformasaService,平台即服务)市场同比增速为45.4%;同时有报告预测未来5年,中国公有云市场会以复合增长率30.9%继续高速增市场规模将达到1,057.6亿美元,中国公有云服务市场的全球占比将从2021年的6.7%提升到9.9%2。图1中国TOP5公有云IaaS厂商市场份额占比(2022H1)在云计算市场快速发展的同时,云服务也走向细分和深化,整个产业在技术、应用、管理等方面呈现出新的发展特点。比如随着传统行业、政企行业对云需求的高增长,以及更多的企业选择深度用云而不是简单迁移上云,其不仅带来了更多云基础资源和云平台产品的消耗,对安全、性能以及时延等提出了更算力服务等成为目前备受关注的领域,驱动着云服务厂商加大对云产品性价比、安全、技术优化等的投资,促进云服务进入26.3%33.5%■阿里巴巴■腾讯■AWS■华为■中国电信■其他9.4%10.7%图2中国TOP5公有云IaaS+PaaS厂商市场份额占比(2022H1)■云上负载日趋动态化、多元化数据援引自:/s/QFNKwfjzDvknPLahaUZWnw数据援引自:/news/d_1o3u5a5gq4rl1.html数据援引自/s/QFNKwfjzDvknPLahaUZWnw云与数据中心基础设施应用篇云与数据中心基础设施应用篇8元化、更敏捷、更安全的方向发展5。到2024年将会有50%的组织采用多云数据治理工具,使用统一的数据获取、迁移,安全和保护策略。随着到2025年,云计企业在全面数字化转型的过程中,其业务创依赖于任何时间任何地点尽快地开发和使用创新技术和服务8。云服务正在逐步成为市场“新宠”。据IDC在2022年7月发布的市场分析报告称6,2021下半年,中国专有云服务市场规模已经达130亿元人民币,同比增长27.2%;显示了私有云作为集中公有云弹性扩展、配置便利以及私有云安全提供更加安全、合规、符合行业属性的解决方案7。借由能够实现公有云以及企业自身本地和边缘计算存储资源统■混合云/多云快速增长业自身本地和边缘计算存储资源统一管理的新型混合云与多云IT基础设施进行混合搭建,来满足企业在新时期的IT需求,也■分布式与算力服务渐露头角也让云服务逐渐向算力服务演进。而算力服务促进算力服务普惠化9。同时,随着企业希望通过边缘云实现应■云原生推动基础设施全面升级服务器无感知技术Serverless)、编排及管理技术(如基础设施即代码IaC)、安全技术、监测分析技术(如扩展包过滤器能够有力支撑企业组织和流程、架构和设计、技面覆盖边缘自治、混合多云、云边一体的典型资源监控、日志、审计能力延伸至混合多云架构。也是如欲了解更多详情请访问:/getdoc.jsp?containerId=prCHC48774222数据援引自:/5G/162/726009662.shtml如欲了解更多详情请访问:/getdoc.jsp?containerId=CHC48746022&pageType=PRINTFRIENDLY如欲了解更多详情请查阅:IDCFutureScape:2022年中国云计算市场十大预测如欲了解更多详情请查阅:中国信通院云计算白皮书(2022年)云与数据中心基础设施应用篇云与数据中心基础设施应用篇9由云原生、分布式、专有云、混合云、云安全、算力服务等趋势驱动的云市场变革,为云与数据中心发展带来了巨大且全新高度依赖网络质量,同时微服务等云原生技术架构的采用,让应用之间存在错综复杂的依赖关系,加之云上系统的故障率会随设备的增加而呈指数级增长,使得单一节点问题可能会被无限放大,给日常运行过程带来不可避免的异常状况。此外,新旧系统的共存和过渡也带来潜在风险,在云迁移过程中如何做好新旧系统共存状态下的稳定性保障成为重要命题,尤其是用户核心业务系统上云用云,往往对运行连续性要求高、并发请求量大,且业务激增随机性强,对云上系统.跨多种平台的可扩展性与敏捷性:为了进一步提升敏捷性,用户常常希望应用负载能够跨越多种云平台进行流动、调度与分配,因此实现公有云、私有云、混合云等多种平台的灵活扩展,提供一致的跨云体验就尤为重要。这不仅需要交付具有自动化、自主运行和管理功能的企业级云基础设施,还另外,软件定义基础设施(SoftwareDefinedInfrastructure,现性能、服务质量(QualityofService,QoS)和总拥有成本(TotalCostofOwnership,TCO)的轻松调配,以满足基础.支持AI、数据分析等新型负载:IDC在《中国人工智能与大数据技术现状及趋势分析,2022》研究报告中指出10,中国业实践中不断迭代,服务商正聚焦于数据智能决策、数据智能服务以及AI增强等未来的市场趋势,帮助用户构建统一的.应对低碳发展带来的挑战:2021年,碳达峰、碳中和被首次写入中国政府工作报告,而数据中心作为一个高耗能且能耗仍在快速增长的行业,实现低碳化发展至关重要。工信部发布的《新型数据中心发展三年行动计划(2021-2023年)》提出坚持绿色发展理念,全面提高新型数据中心能源利用效率;发改委等部门发布《深入开展公共机构绿色低碳引领行动促进碳达峰实施方案》,更是明确提出新建大型、超大型数据中心能效目标,驱动数据中心行业加速优化算力、存储景和商业模式11,帮助企业管理应用、协作应用等工作负载顺利•将芯片解决方案作为跨数据中心基础设施的控制点,变革基支持在单个计算实例中进行协同工作,并通过共享内存和存专用的可编程内核加速和管理基础架构功能,提供全面的基•部署优化的开源软件框架,采用针对硬件架构和平台进行优化的云平台管理和资源编排软件,并通过软件对常见的工作•将安全功能集成到基础设计中,确保无论数据驻留在何处,英特尔一直走在超大规模云服务前沿,拥有广泛、优化的软件生态,并兼具跨多云环境的可靠性、灵活性和安全性。英特尔与全球领先云服务提供商开展的联合研发及业务合作,已经交付了数代专为云规模打造和优化的定制芯片,帮助实现从边缘如欲了解更多详情请访问:/getdoc.jsp?containerId=CHC48744522&pageType=PRINTFRIENDLY/news/ziben/chany/79931.html如欲了解更多详情请访问:/cn/media-center/analyst-viewpoint云与数据中心基础设施云与数据中心基础设施应用篇具备多项优势,为各种云上负载提供一致的、经优化的性能,包括通过英特尔®深度学习加速(英特尔®DLBoost)、面向英特尔®架构优化的框架等实现的人工智能就绪;通过英特尔®傲腾™持久内存实现的内存计算;通过英特尔®AVX-512、架构与软件等加速的高性能计算;由英特尔®以太网、英特尔®QuickAssist技术(英特尔®QAT)、英特尔®数据直接I/O技术(英特尔®DDIO)等赋能的网络能力;由英特尔®QAT、英特尔®傲腾™固态盘、英特尔®卷管理设备(器,包括新的指令集架构和集成IP,能够高效应对人工智能、工作负载进行优化。同时,通过全新的英特英特尔软硬件组合构建基础设施基石英特尔软硬件组合构建基础设施基石-多样化硬件传输更快存储更多混合云软件和系统级优化软件和系统级优化应用优化操作系统和编排层优化基础设施优化AI框架及软件工具数据处理与分析用框架及软件工具媒体服务用软件工具ClearLinuxStarlingXKataContainersKubernetes算力优化存储优化网络优化英特尔通过平台创新,为数据中心现代化构建更新和更全面的架构策略,提供新的产品。采用Intel7制程工艺的第四代英特尔®至强®可扩展处理器,支持DDR5、PCIe5.0和CXL1.1,内置全新的集成加速器,是迄今为止英特尔功能最丰富的至强®处理器,增强了其在人工智能、安全性等几大关键数据中心领域的领导地位。与第三代至强®可扩展处理器相比,可以更好地处理数多代虚拟化技术优化和集成库,确保跨云环境的无缝迁移。例如,配合虚拟化系统,英特尔®虚拟化技术(英特尔®VT)可以提供实时迁移功能。ISV和用于测试、验证和优化英特尔®至强®可扩展处理器的开源项目可提供跨处理器的兼容性和扩展性,针对常见的工作大量的英特尔®至强®可扩展处理器已部署在当今的云环境中,广泛兼容当前和未来的工作负载,可以实现出色的性能、可用性和可扩展性。英特尔®至强®可扩展处理器提供经过优化的性能和每核虚拟机密度,是数据中心的重要选择。英特尔®至强®可扩展处理器和英特尔®傲腾™持久内存可帮助提高每核虚拟机密度,降低每核平均时延,打造高效的云和数据中心基英特尔与合作伙伴成立了机密计算联盟,旨在提高在用数据的安全性。英特尔投资打造多层保护,提供经过验证的技术,在不影响性能的情况下尽可能降低风险。例如,英特尔®SGX提供基于硬件的隔离和内存加密,可 腾讯云与英特尔一起,以全新的存储引擎设计和英特尔®傲腾™持久内存重构和优化腾讯云的极速型固态盘CBS产品,并重构数据落盘方案。新方案以更佳的带宽、更低的时延和更高的每秒读写次数,为性能密集型用通过搭载大容量、低延迟的英特尔通过搭载大容量、低延迟的英特尔®傲腾™持久内存,百度推出全新一代用户态单机存储引擎,为百度离线与部分在线业务提供高效稳定、低延迟、低成本、可扩展的存储服务,挖掘数据价值。借力英特尔®IPU平台参考设计,百度智能云自研百度太行DPU1.0产品,有效提升云数据中心管理及虚拟化水平,并通过在裸金属服字节跳动利用英特尔字节跳动利用英特尔®RDT和英特尔®PlatformResourceManager,缓解底层硬件资源对其混布集群的干扰云与数据中心基础设施云与数据中心基础设施应用篇云与数据中心基础设施应用篇云与数据中心基础设施应用篇 OPPO基于第三代英特尔®至强®可扩展处理器,以及通过与英特尔在节点管理与空闲电源优化等方面的技术合作,京东云面向可持续数据中心,推出冷板液冷参考解决方案。实际部署表明,该方案可将数据中心PUE(PowerUsageEffectiveness,电能利用效率)从1.3降低到1.1,每个服务器节点可节电约4%12。京东云在英特尔®C5000X-PL上研发了自主的智能网卡,并基于英特尔®至强®可扩展处理器,推出了最新一代裸金属云主机—京刚裸金属云主机,在提供了出色性能的同时,具备分钟级一键交付、无缝集成云产品和统一管理等特性,能够出色支撑性能敏感型以及对于数据安全和隐私要求较高的应用。同时通过引入英特尔®MCARecovery与MemoryFailurePrediction(MFP)技术,结合京东云的故障恢复系统,降低内存错误对青云科技携手英特尔,采用英特尔多项技术与产品,推出新一代QKCP企业级容器平台。基于全新升级的QKCP,英特尔凭借独特的硬件黑科技助力青云科技打造更高效的企业级云原生容器平台,双方携手搭建测试环境,并通过软硬件调优,在产品的硬件性能得到质的提升的同时,软件层面的性能也得到了极大优化,特别离解决方案,优化KingStorage-BDG大数据存储网关、KingStorage-OBS对象存储性能,同时提升了平台同时金山云与英特尔合作,在运营商线路网关中使用了基于P4可编程技术的英特尔®Tofino™可编程交换芯而且大幅节省了服务器的部署规模需求,显著降低了TCO。采用第三代英特尔®至强®可扩展处理器和傲腾™持久内存等产品,实施混合云平台全面升级,实现能耗、性能、可靠性以及成本等方面的优化,为后续服务推广和端到端云原生产品及解决方案等的部署提供了数据支持快手推出LaoFeNDP架构,实现异构计算,采用英特尔®至强®可扩展处理器、英特尔®Agilex™FPGA和为了解决QUIC引入后带来的加解密性能问题,OPPO采用英特尔®QAT来进行加速,使得HTTP3-QUIC的如欲了解更多详情,请访问:/content/www/cn/zh/now/data-centric/jd-cloud-liquid-cooling-solution.html如欲了解更多详情,请访问:/content/www/cn/zh/customer-spotlight/cases/oppo-cloud-security-gateway-http3-quic-based-qat.html储系统作为业务数据的重要载体,其性能表现正受到越来越多的关注。作为全球领先的云服务提供商之一,腾讯云通过先进的云硬盘CBS(CloudBlockStorage储系统作为业务数据的重要载体,其性能表现正受到越来越多的关注。作为全球领先的云服务提供商之一,腾讯云通过先进的云硬盘CBS(CloudBlockStorage)产品为众多行业用户提供高效、可靠的持久性块存储服务,并在核心数据库、内容分发网络(ContentDeliveryNetwork,CDN)及电商系统等用户场景中获得了广为向用户提供性能更为卓越的企业级云存储服务,腾讯云与深度合作伙伴英特尔一起,以全新的存储引擎设计和英特尔®傲腾™持久内存来重构和优化腾讯云的极速型固态盘CBS产品。验证表明,新的产品方案能以更佳的带宽、更低的时延和更高的每秒读写次数(Input/OutputPerSecond,IOPS为性能密集型用户业深度优化云硬盘CBS产品,无论是正兴的互联网、大数据或人工智能等领域,还是传统的金融、医疗和制造等行业,云服务都已逐渐成为企业下一代IT基础设施的标准之一;而作为企业未来业务数据的重要载体,包括云硬盘在内的云存储产作为全球领先的云服务提供商之一,腾讯云一直以先进的云硬盘CBS产品为用户提供持久性块存储服务。典型的腾讯云CBS产品存储系统架构如图5所示,由CBS接入、MDS控制集群以及C当CBS接入收到CVM云主机集群的数据读写请求后,会根据MDS提供的集群路由信息,将读写请求转发至对应的CBS存储节点中。云主机(CVM)集群 CBS接入MDS控制集群 CBS存储集群MDS控制集群图5腾讯云CBS产品存储系统架构依托于雄厚的技术积累以及持续不断的技术优化与演进,腾讯云CBS基于英特尔高性能NVMe固态盘和腾讯云创新自研存储引擎的有效组合,CBS产品目前已可为用户业务场景提供单盘最大110W的随机IOPS性能,以及最高4Gbps每秒的带宽能力;云与数据中心基础设施云与数据中心基础设施应用篇云与数据中心基础设施云与数据中心基础设施应用篇通过高可用和容灾设计,CBS产品能有效降低系统不可防止因篡改和误删导致数据丢失,保证在业务故障时能99.9999999%的数据可靠性;而借助优异的数据复制CBS产品允许用户根据业务需求自由配置存储容量,按需扩容。目前系统单磁盘容量最大可支持32TB,单个云主机累计可挂载640TB,使用户能够从容应对TB/凭借以上优势,腾讯云CBS产品在不同用户业务场景,如高负载OLTP(On-lineTransactionProcessing,联机事务处理)系统,以及高并发的CDN网络等中都具有不俗表现,并获得了从而与本地化存储产生差异。这也是用户在核心数据库、CDN网络等性能敏感场景中对采用CBS产品仍抱有迟疑的原因之一。核心业务数据读写需求正驱动着腾讯云对极速型CBS产品开展进一步深度优化以提升性能,消除用户对CBS产品的顾虑。针对CBS产品的架构、存储引擎以及硬件基础设施,腾讯云加入了对远程直接数据存取(RemoteDirectMemoryAccess,.加入轮询、算法优化、消除竞争以及消除锁等机制,优化CBS存储引擎;Kit)开发套件,优化NVMe固态盘的IOPS和时延性能。品本身的时延性能也成为进一步提升CBS产品整体性能的障碍。“黑科技”,以英特尔®傲腾™持久内存作为新一代极速型CBS时延上的更高要求。极速型CBS产品打造更佳性能在腾讯云既有的极速型固态盘CBS产品设计中,数据的落盘过程如图6所示,来自计算集群的云主机数据首先通过HASH找到或分配到对应的块节点(BlockNode)中,然后数据会被缓存到不同的Page。接下来,系统需要执行两次写操作,一次将业务数据写入固态盘对应的数据区;另一次是将元数据(Metadata)以LOG方式追加(wAppend)写入固态盘中。DRAM内存HASHBlockNodePageBlockNodeBlockNodeNode…PagePagePage(SPDK)数据区元数据区数据区图6腾讯云既有极速型CBS产品数据落盘过程可以看到,这一过程需要对固态盘执行两次写操作。基于NAND闪存构建的固态盘写入时延通常为数十微秒,因此两次写入过程就会带来数十乃至近百微秒的时延来很小,但在端到端网络时延可达1毫秒(1,000微秒)的5G时代,其显然还是会制约CBS产品的整体性能。同时,NAND固态盘数据写入需要以块为单位,且写入前需要大幅降低了其使用寿命(即所谓的“写入放以帮助CBS产品有效应对以上问题。英特尔®傲腾™技术通过图7英特尔®傲腾™持久内存200系列与传统DRAM内存相比,由英特尔®傲腾™技术与其它英特尔其次,AppDirect模式下的英特尔®傲腾™持久内存所具备的持久性特性,使之可以有效充当CBS产品的数据持久化存储DRAM内存HASHBlockNodePageBlockNodeBlockBlockNode…PagePagePage英特尔®傲腾TM持久内存元数据区Page数据区元数据区后台Page下刷固态盘(SPDK)数据区图8优化后腾讯云极速型CBS产品数据落盘过程得益于英特尔®傲腾™持久内存的创新特性,极速型CBS产品的数据落盘过程,如图8所示得以优化。首先来自计算集群的数据会通过HASH分配到对应的块节点并缓存到Page中,然时Page/Block的元数据也会原地更新到对应的数据区中。有效降低CBS产品的TCO。在提供先进存储硬件产品的基础上,持久内存开发工具包(PersistentMemoryDevelopmentKit,PMDK)为CBS产以其中的libpmem库为例,作为PMDK中的底层库,其支持映射到应用程序的虚拟内存空间进行操作。通过同时,libpmem库也可以检测处理器的特性而使用最为高效的持久化指令(例如CLWB、CLFHASHOPT等)将数据写入到持久内存中。CLWB指令具有并发能力,同时可在刷新数据后仍然保证处理器缓存有效。除此之外,libpmem还封装了NTW(NonTemporalWrite)指令,该指令能利用写合并方式来绕过处理器缓存(Cache),直接将数据从StoreBuffer中写入内存控制器的WPQ中,从而提高性能。得益于以上特性,libpmem库不仅能以丰富的接口帮助用户实现对整个写入流程更加细致和准确的控制,也通过使用内存映射(MemoryMapping)的访问方式,并结合NTW写入指令提升整个系统基于持久内存访问的写入性能,从而让英特尔®傲腾™持久内存的各项特性在CBS新方案设计中发挥效能。效果:创新硬件与优化设计为CBS与既有方案相比,基于英特尔®傲腾™持久内存设计的CBS产.数据读写时延大幅缩短:一方面,相比NAND固态盘数十微秒的读写时延,英特尔®傲腾™持久内存的读写时延可控制在1微秒以内;另一方面,借助PMDK提供的函数库与工具,英特尔®傲腾™持久内存可对整个写入流程实现更加细.系统使用寿命有效提升:一方面,英特尔®傲腾™持久内存可按字节寻址的特性有效解决了以往NAND固态盘的“写入.增强存储空间使用效率:英特尔®傲腾™技术允许单独访问和更新内存单元,所以英特尔®傲腾™持久内存无需再执行垃圾收集,进而避免了以往NAND固态盘面临的回收毛刺云与数据中心基础设施云与数据中心基础设施应用篇云与数据中心基础设施应用篇云与数据中心基础设施应用篇为验证新硬件与优化设计对CBS产品产生的效果,腾讯云与英特尔合作开展了多方位的验证测试。测试结果如图9所示,采用英特尔®傲腾™持久内存构建的CBS产品方案与优化前相比,整体写时延从120微秒下降到60微秒,整体读时延从130微秒下降到40微秒,同时IOPS可高达200W以上,性能获得了有效提升14。化CBS等云服务产品。例如双方计划在基于英特尔®傲腾™持久内存的方案设计中加入RDMA协议,从而有效降低处理器和更强性能助力,也能与英特尔®傲腾™持久内存200系列形成良好的配合,为用户数据打造更佳云存储体验,使CBS等云存越低越好整体写时延60传统方案优化方案越低越好整体读时延40传统方案优化方案图9新方案令CBS产品读写时延显著下降如欲了解更多详情,请访问:/content/www/cn/zh/cloud-computing/tencent-cloud-cloud-disk-cbs-cloud-storage.html云与数据中心基础设施应用篇云与数据中心基础设施应用篇百度智能云基于英特尔®IPU随着5G、人工智能、边缘计算等前沿技术在更多行业获得落地应用,.更呈分布式的云服务部署:云服务由传统的中心云逐渐向“云边端”协同演进,更多云服务被部署在贴近应用的边缘端;.更为广泛的云服务应用场景:云服务正成为更多行业的IT基础设施.更复杂的工作负载需求:不同场景的工作负载对算力、内存或加速实例多样化以及资源池化驱动向未来数部署方案与应用场景的变化,让云数据中心服务器在管理与应用上面临更多挑战。例如,更多虚拟机(VirtualMachine,VM)的部署使管理任务变得更加复杂。同时,其能力输出也逐渐从传统单体式应用向微服务化发展,进一步提高了云数据中心管理的复杂度,更多占用既要对虚拟机、微服务,甚至裸金属服务器等实例开展高效管理,又要对相关的云数据中心的网络、存储等基础设施实现加速,其中的复杂性和资源开销不断增加,传统基础架构何以满足未来数据中心要求就成为随着微服务模型越来越多地用于云数据中心的应用,可以预测的是,未.云原生应用的出现和快速增长推高了对专用基础设施的需求,并大幅.云服务的微服务化,推动了分布式异构计算环境的发.微服务模型的广泛采用也催生出数据中心编排系统,使各异构计算服.使用微服务、虚拟机、容器以及容器编排的场景不断增加,让服务网高度智能的基础设施加速系统级安全性、控制和隔离通用软件框架高度智能的基础设施加速系统级安全性、控制和隔离通用软件框架硬件和软件可编辑根据客户需求构建云与数据中心基础设施应用篇同时,由于不同工作负载或者用户不同时段对于资源需求的不同,通过资源池化可以更优配置资源以满足弹性扩容的要求。因此,未来数据中心的架构将更多地面向于服务不同的实例且日益资源池化的方向发展,以便更好利用异构计算带来的加速处理能力。这一异构计算的核心将由传统的处理器平台,以及由英特尔推出的IPU(InfrastructureProcessingUnit)等基础设施处理设备来组成。在基于这种架构的数据中心内,服务器与执行网络、存储等加速的IPU设备互联互通,不仅传统的服务器节点处理能力可在专用计算节点的支持下得到增强,同时存储、网络服务,以及云服务管理包括裸金属服务器和微服英特尔®IPU助力数据中心应对变革随着多种实例服务以及资源池化等越来越普遍地用于云数据中心的架构中,通常借助传统的网卡(NetworkInterfaceCard,NIC)产品来负责执行物理层与数据链路层的数据流量处理,而而在提供云服务的过程中,这一情况则更为突出。不仅OpenvSwitch(OVS)等虚拟交换技术、RDMAoverConvergedEthernet(RoCE)等传输存储协议以及相应的数据安全技术被这一趋势,伴随着数据规模的不断增大(端口带宽正逐步从.数据处理的增长速度始终高于算力增长速度,对处理器资源.为保障核心业务的高效执行,数据中心不得不购置更多处理器资源,带来云服务TCO的增加;.更大的数据规模和处理复杂度,也对数据中心的各项基础设在这一背景下,英特尔通过对数据中心基础设施能力进一步分析与整合,推出了英特尔®IPU(Intel®InfrastructureProcessingUnit来全面帮助云数据中心构建新的基础设施.卸载高密集的基础设施应用任务到IPU并进行加速,如加密.在极端情况下,IPU可以卸载整个虚拟机管理程序,释放处理器所有内核为应用和微服务提供支持,这对于裸金属服务.减少了主机侧处理器中虚拟机管理程序和基础设施堆栈的开销,并可以从主机侧处理器中卸载存储堆栈,使更多的处理如图10所示,英特尔®IPU产品在配置了FPGA芯片或者ASIC控制面功能实现卸载。这种将专用可编程硬件与通用处理器相((ASIC和/或FPGA)图10英特尔®IPU架构以目前英特尔面向市场的IPU主力产品英特尔®FPGAIPUC5000X-PL(代号“BigSpringCanyon”)为例,如图11所示,其具备2个25G端口(使用SFP28光口可提供50G的网络吞吐能力;核心处理能力则由所搭载的英特尔®Stratix®10DXFPGA芯片与英特尔®至强®D处理器担纲。DD图11英特尔®FPGAIPUC5000X-PL云与数据中心基础设施应用篇核心/管理程序加密安全性vSwitchIPU核心/管理程序加密vSwitch安全性IPU加速安全性核心裸金属云基施服加密vSwitch安全性IPU基施理多租云其中,英特尔®Stratix®10DXFPGA可编程逻辑芯片能充分发一代FPGA拥有更多的收发器并支持硬核PCIeGen4接口从的单核性能来承载控制面的各项功能,支持Hypervisor,还能以良好的x86兼容性以及与其它基于英特尔®架构的硬件形成■卸载基础设施能力与释放算力存储、安全以及基础设施管理等多种能力从处理器卸载到IPU,.网络加速:将承载网络I/O、数据转发等功能的虚拟交换机软件,如OVS等从主机侧处理器卸载到IPU,提升网络吞.存储加速:将virtio-blk、NVMe-oF等存储接口、协议栈从主机侧处理器转移到IPU,提高存储弹性和灵活性,并降低.安全加速:可以从主机侧处理器卸载加密/解密、压缩和其.基础设施处理:将云服务管理功能从主机侧处理器卸载到此外,英特尔还正以加速开发平台(AccelerationDevelopmentPlatform,ADP)为抓手,优化生态系统。在规划中,ADP平台将为用户提供通过英特尔®开放式FPGA堆栈(英特尔®■对接英特尔®至强®可扩展处理器,提升云数据通过英特尔®IPU开展能力卸载,对基础设施进行性能加速,也可以引入英特尔®至强®可扩展处理器来进一步加强算力。.更多的内核、更优的架构带来算力性能的大幅提升,可有效.多项内置增强技术,如英特尔®深度学习加速(英特尔®DL能够有效提升卸载能力的效率和平滑性。由于主机侧和IPU都和英特尔®至强®D处理器这样将原先主机侧运行的应用迁移到IPU上就变的非常方便,甚至无需编译即可迁移。例如DPDK、SPDK等软件就可以从主机侧直接迁移到IPU上运行,这一算力架构正帮助云数据中心形成更高效的能属服务器为例,借助英特尔®IPU提供的云管理能力卸载,可以实现基础设施管理面与租户间的物理隔离,利用VirtIO设备热核心/管理程序加密安全性vSwitchIPU图12英特尔®IPU面向不同基础功能卸载的场景云与数据中心基础设施应用篇20云与数据中心基础设施应用篇20百度太行百度太行DPU太行DPU2.0数据路径硬件加速.BVS:25G->100G,10MPPS->50MPPS.NVME,200k->1MIOPS.RDMA:10usHostVMVMDPUDPUHypervisorBVS硬件化NVMeoFDPUHypervisorHostVMVM.VirtIO-Net/VirtIO-Blk.主机CPU太行DPU3.0云原生IOEngineBVC太行DPU1.0裸金属虚机容器CPUCPUHDDSSD图13百度太行DPU发展路径图14百度太行DPU图14百度太行DPU1.0产品图主机侧处理器卸载到专门的基础设施处理单元上并实施性能加带宽接入和更低网络时延的挑战。以百度智能云独具优势的AI云服务为例,目前AI算力需求比之前已提升数个数量级,元宇宙的算力需求还要再提升1,000倍15。因此要贯彻上述理念,需为此,百度智能云通过自研的百度太行DPU系列产品,并融合如图14和表1所示,百度太行DPU1.0产品配备了2个25G带宽的光口,并引入英特尔®FPGA与英特尔®至强®D处理器通过将云管控平面卸载到百度太行DPU1.0中,也可以实现虚度。来自百度智能云的测试验证表明,百度太行DPU1.0产品能够为用户提供1,000万PPS的转发率以及20万IOPS的存储性能16。•支持网络卸载及加速,实现裸金属和虚拟机物理机型统一•支持弹性热插拔,为裸金属和虚拟机提供弹性网卡、弹性扩•支持热升级、热恢复、热迁移(虚拟机)百度太行DPU1.0:虚拟化功能卸载•云管控平面卸载到DPU,虚拟机和裸金属共池•2*25G,10MPPS,200KIOPS百度太行DPU产品功能亮点与配置数据表1百度太行DPU产品功能亮点与配置数据帮助百度智能云保持优势。在百度智能云的计划中,这一DPU产品也将作为其智能云服务的核心组件,助力其构建IaaS资源的统一弹性底座,进而为用户依托百度智能云开展各类业务创数据援引自公开媒体报道:https://fi/chanjing/cyxw/2022-03-10/doc-imcwiwss5271286.shtml百度太行DPU产品数据来源于百度内部。百度太行DPU产品数据来源于/m/media/pclive/pchome/live.html?room_id=5073343376&source=h5pre云与数据中心基础设施应用篇云与数据中心基础设施应用篇字节跳动采用英特尔®RDT和英特尔®PRM缓解底层硬在同一服务器上混布(co-locate)不同优先级的工作负载是一种提高服务器总利用率的新方法。按照传统方式,一台服务器只运行一种时延关键型工作负载,但这种方式通常无法做到CPU的全时段充分利用,因此为安排低优先级工作负载将这些CPU未用时间利用起来提供了机会,但前提是,不违反时延关键型工作负载的服务级别协议(ServiceLevelAgreement,SLA)。遵守时延关键型工作负载的SLA对工作负载混布而言是一个巨大挑战,随着SLA定义越来越严格,这一挑战也变得更加严峻。为了提供更好的用户体验,工作负载所有者会将尾时延作为其关键工作负载的SLA。实现这个目标颇有难度,即使在所有计算资源都指定给一项工作负载的当集群中出现违反工作负载SLA的情况时,必须排查所有可能造成的影响,从软件代码变更到运行时配置,从上层资源管理到底层资源分配逐一进行,如果一个集群中运行的工作负载达数十种,要耗时冗长逐一云与数据中心基础设施应用篇22云与数据中心基础设施应用篇22字节跳动运营着多个基于机器学习的内容平台,建立了混布集群,并利用观察到的某些工作负载的CPU日常使用模式,通过混布机器学习等低优先级任务来利用CPU的空闲时间。在字节跳动混布集群内混布的工作负载有两种:在线工作负载。在线工作负载属于远程过程调用(RPC)服务,有着严格的SLA要求。而Hadoop任务和视频转码等多数离线工作负要维持在线工作负载的性能,需要将CPU资源妥善分配给离线工作负载和在线工作负载:离线工作负载须在在线工作负载发出请求时尽快归还CPU时间。这一过程由cpuset实施。所有在线工作负载都在一个cpuset内运行,离线工作负载在另一个cpuset内运行。它们并不共用逻辑CPU内核或物理CPU内核。资源控制器会根据所有在线工作负载的CPU负载持续调整cpuset配置。当所有在线工作负载的CP制器会将更多CPU分配给在线工作负载的cpuset。而当CPU在在线工作负载cpuset中的任何CPU上运行,离线工作负载工作负载性能模型是基于底层性能计数器构建的。性能计数器是平台提供的一种记录特定硬件执行行为的硬件功能。我们从CPU角度选择了三种计数器作为工作负载性能的指标:unhaltedCPUcycles、retiredinstructions、cachemisses。Cyclesperinstruction(CPI)指执行每条指令平均所需的CPU周期数量。CPI越高意味着完成指令需要的CPU周期越多。当CPI高到一定程度时,工作负载的性能可能会受到影响。Cachemissesperkilo-instructions(MPKI)指的是工作负载每千条指令的三级缓存缺失数,用来确定CPI高于常规值时的根本原因。如果CPI和MPKI同时高于常规值,则表明工作负载的性能很可能已经受到缓存缺失的影响。只要密切监控一种工作负载在运行时的这些指标,就能知道底层共享资源对性能有哪些干扰(如有)。在本文所述的情况中,尾时延等传统性能指标无法用于性能评为分析字节跳动混布集群中离线工作负载的性能,我们每30秒针对各在线工作负载收集性能计数器、缓存占用大小(cacheoccupancy)和其他辅助指标(如CPU利用率和工作负载强英特尔®资源调配技术(英特尔®RDT)把对应用、虚拟机(VM)和容器使用三级缓存(LLC)和内存带宽等共享资源的监测和控性的同时,降低TCO。随着软件定义基础设施和高级资源感知编排技术在行业中影响力的不断上升,英特尔®RDT已经成为英特尔®RDT提供了一个由多个组件功能(包括CMT、CAT、MBM和MBA)组成的框架,用于实现高速缓存和内存带宽监控及分配功能。这些技术可以跟踪和控制平台(CAT)(MBM)CPU核(CMT)(MBA)?图16英特尔®RDT功能云与数据中心基础设施应用篇23cpus‘L3’‘L3_MON’‘MB’M2云与数据中心基础设施应用篇23cpus‘L3’‘L3_MON’‘MB’M2taskstasksmon_datacpusschematatasksmon_datamon_datamon_L3_00mbm_local_bytesllc_occupancy 图17英特尔®RDT内核架构如图17所示,英特尔®RDT内核架构描述的是英特尔®RDT功能的Linux内核框架和实现。核级和线程级MSR寄存器操作,如功能枚举、监控和分配配置、CLOS/RMID与线程关联、读取监控计数器,均纳入文件系统操作。从最终用户的角度来看,英特尔®RDT的监控和分配功能是通过默认装载在/sys/fs/resctrl下的资源控制文件系统来实现的。见图18:英特尔®RDT在resctrl文件系统中的分层结构),为“tasks”:读取该文件会显示该群组所有任务的列表。将写入文件会添加任务到群组。“cpus”:读取该文件组拥有的逻辑CPU的位掩码。将掩码写入文件会添加CPU到启用RDT监控功能后,根目录和其他顶层目录会包含“mon_见图18:英特尔®RDT在resctrl文件系统中的分层结构),以监控任务群组。“Mon_data”目录包含一组按照资源域和RDT文件(“llc_occupancy”、“mbm_total_bytes”和“mbm_local_bytes”)。这些文件为群组中的所有任务提供了事件当前值的计英特尔®RDT在resctrl文件系统中的分层结构类似于控制组(Cgroup)。与Cgroup相比,resctrl文件系统界面有着类似的进程管理生命周期和用户界面。但不同于Cgroup的分层结构,resctrl文件系统界面是单层文件系统结构。资源组在resctrl文件系统中表示为目录。默认组为根目录,在文件系统装载后即拥有系统中的全部任务和CPU,可以充分使英特尔®PlatformResourceManager英特尔®PlatformResourceManager(英特尔®PRM)是一套软件包,可帮用户将尽力而为型(best-efforts)任务和时延关•代理(eris代理),可监测和控制各节点上的平台资源(CPU周期、三级缓存、内存带宽等);•分析工具(分析工具),可建立平台资源冲突检测模型。CG2CG2mon_groupsCG1mon_dataschematatasksmon_groupsmon_L3_01图18英特尔®RDT在resctrl文件系统中的监测和控制示意图高/低离线高/低离线工作负载CPU利用率CPI估算云与数据中心基础设施应用篇24回归模型旨在为在线工作负载建立CPI和MPKI模型。该模型利用混布离线工作负载的周期数和CPU总利用率来为CPI和MPKI建模。CPI=f(CPU_cycles,Offline_workload_utilization)MPKL=f(CPU_cycles,Offline_workload_utilization)CPI和MPKI与工作负载强度有关。我们将离线工作负载利用率如果在同等工作负载强度下,CPI随着离线工作负载利用率的提如果MPKI有同样的相关性,则影响很可能来自三级缓存干我们为每项来自相同代码库的在线服务建立一个回归模型。CPI和MPKI模型均基于七天运行时指标建立。我们将指标拆分20次以进行模型筛选,最后随机选择500个样本建立模型。我们还设计了两个测试集来检验离线工作负载利用率与CPI/MPKI之间的相关性。第一个测试集为不同的CPU周期组合,离线工作负载利用率较低。离线工作负载低利用率的抽样范围是低于总离线工作负载利用率10%;另一测试集的样本来自离线工作负载利用率较高的不同的CPU周期。离线工作负载高利用率的抽样范围是高于总离线利用率90%。将两个测试集用于CPI/MPKI模型是为了观察CPI或MPKI是否会随着离线工作负载利我们发现,对于某些在线工作负载,CPI/MPKI与离线工作负载利用率之间存在相关性。一种在线工作负载的结果见图19:性此外,我们还收集了英特尔®RDT指标来验证此评估结果。同两个NUMA域运行。离线工作负载在其中一个NUMA域中高强度运行,与其他在线工作负载争夺该域中的三级缓存,最终性能造成了影响。为缓解干扰,字节跳动部署了英特尔®RDT来管理离线工作负载的缓存占用情况。下文所述■RDT配置■评估范围拥有超过9,000台服务器且服务器均已部署RDT配置的混布0.950.90低离线低离线高离线012345周期数高/低离线工作负载CPU利用率MPKI估算4.754.504.254.003.753.503.253.00低离线低离线高离线012345周期数左:CPI模型(离线工作负载CPU利用率低/高)右:MPKI模型(离线工作负载CPU利用率低/高)■评估方法在线工作负载第99百分位的时延波动用于指示缓存管理配置的波动t=|99th_latencyt-99th_latencyt-1|/99th_latencyt首次收集的工作负载第99百分位的时延波动数据来自未启用缓存管理的混布集群和非混布集群。在混布集群■评估结果工作负载A对于工作负载A,混布集群中有超过9,000个实例,非混布集群中有超过3,000个实例。在不启用缓存管理的条件下,混布集群中尾时延的波动明显高于非混布集群中的尾时延波动{见图20:工作负载A(启用前)}。若在混布集群中启用缓存管理,在混布集群中启用缓存管理后,工作负载B的结果同样表现较好。工作负载B在混布集群中有超过10,000个实例,在非混布集群中有超过5,500个实例。图22:工作负载B(启用前)所示为该工作负载在混布集群中运行(未启用缓存管理)与在非混所示为在混布集群中启用缓存管理后的对比。两图20工作负载A(启用前):工作负载A在非混布集群和图21工作负载A(启用后):工作负载A在非混布集群和图22工作负载B(启用前):工作负载B在非混布集群和图23工作负载B(启用后):工作负载B在非混布集群和字节跳动利用英特尔®RDT和英特尔®PlatformResourceManager,来缓解底层硬件资源对混布集群的干扰,验证了英特尔®RDT和英特尔®PRM可以减少工作负载混布时底层资源对时延关键型工作负载的干扰,进而提云与数据中心基础设施云与数据中心基础设施应用篇25京东云基于至强®处理器打造冷板液冷参考解决方案,有效京东云基于至强®处理器打造冷板液冷参考解决方案,有效蓬勃发展的数字化转型使得数据中心的能耗处于持续的增长中,而在数据中心的能源消耗中,加热、通风和空调(HVAC)系统能耗值得关注。以京东云数据中心为例,有超过70%的数据中心能源由信息技术设备(ITE)消耗,HVAC系统消耗的能源达到12%,居第二位18。因此,除了提升数据中心IT使得具备动态频率调节能力的XPU等关键组件能够以较高频率进行稳定运于工作温度的降低,IT设备的运行寿命得以提升,在冷却方面耗费的成本也传统数据中心多采用空气作为冷却介质,但其存在无法在垂直机架阵列的IT设备入口处提供均匀温度的空气,冷却系统效率也相对较低等诸多缺陷,让液.在液冷系统中,热量能够在更靠近其来源的地方与液冷介质进行交换,避.水等液体比空气具有更高的热容量和更低的热阻—一般来说,冷却液的导热系数是空气的6倍,单位体积的热容是空气的1,000倍;.与传统的冷却方式相比,冷却液的传热次数更少,容量衰减更小,冷却效冷板液冷主要方法是组建冷却液回路,利用CDU分配冷却液。在通过冷板收集计算节点的热量后,冷却液不断流向另一个冷的CPU,并通过另一个连接器离开服务器冷板管道,实现液冷计算节点的液冷循环。冷板液冷技术目前在行业内相对成熟,在传统数据中心改造、数据中心基础设施复用等方面具备一但同时,由于液冷与空气冷却系统在设计上有较大的差异,很多技术仍缺乏充26CPUTDPEnvelope,WPower/Core云与数据中心基础设施应用篇27RackServerManifoldColdPlateTube/PipeCLeakageompatibilityTube/PipeCPUTDPEnvelope,WPower/Core云与数据中心基础设施应用篇27RackServerManifoldColdPlateTube/PipeCLeakageompatibilityTube/Pipe面向XPU的冷却系统设计挑战包括CPU在内的XPU芯片功耗是服务器能效的重要考量因素,在很大程度上决定着数据中心的总功耗。由于人工智能、数据分析、数据库等工作负载对计算能力的需求不断增长,以及半导体工艺的巨大改进,XPU已经集成了极多的晶体管。尽管单核功耗因工艺技术的改进而不断下降,但芯片整体的热设计功率(TDP)却由于性能大幅增长而在不断增加,这将导致芯片的TDP超过空气冷却的能力。CoreCountCoreCountYear→YearYear→TDP,W6005004003002001000TodayLiquidTodayLiquid35030020520514514513013013095XeonThermalDesignPower(TDP)以京东云服务器系统为例,其x86处理器的典型TDP在2013年为105瓦,而在2022年部署时,这个数字将提升到350瓦以上19。此外,行业普遍预计,XPU的TDP在接下来的几年中热量,减少了风冷风扇,将热阻显著降低到典型范围0.3~0.5。C/W21。如今,处理器制造商允许XPU在受控范围内超出其基本(或标称)频率运行。在大多数情况下,处理器在最低频率和基本频率之间的保证范围内运行。只有在热量和功率预算允许的情况下,它们才能在更高的频率运行。由于液冷系统具有非常高的冷却能力,使其能够支持XPU运行在较高的频率上,从而提升京东云冷板液冷解决方案是从数据中心级到系统级的整体解决方案,涵盖了CDU、机架、服务器等不同层级的产品与技术,在CDU、工作液、歧管、服务器等方面进行了针对性的设计。京东云服务器CPU的TDP处于持续的上升通道中LiquidCoolingSolutiLiquidCoolingSolution-OpenLoopDataCenterDataCenterCDUCDUHeatExchangerorkingFluidLeakageTube/PipeWPumpReliabilityTestingReliabilityTesting图25京东云冷板液冷参考解决方案架构数据援引自京东云内部测试结果。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及云与数据中心基础设施应用篇云与数据中心基础设施应用篇28CDU在整体液冷解决方案中,CDU作为服务器侧二级回路和数据中心侧一级回路的关键传热路径,必须具有泵、在液体冷却系统的一次回路侧,选择去离子水+乙二醇作为工作流体。去离子水具有低电阻特性,乙二醇则确保了流体在低环境温度下冻结而导致管道破裂的低风安装在机架上的歧管将冷流体分配到每个服务器节点。在歧管顶部的快速连接器可方便机架部署。歧管底端设服务器液冷方案主要由冷板、管路、快速接头和检漏线组成。其中,数据中心单相冷板供液温度范围为40~45。C,工作液兼容乙二醇溶液(去离子水)。为了防范液体泄露风险,京东云采用检漏线将液冷系统包裹起来,特别是在冷板和管路接头处,确保在漏液的情况LeakageSensorTubeColdPlateTubeQuickConnector图26京东云服务器液冷方案组成京东云已于2021年第二季度在其数据中心部署了冷板液冷解决调整了核心数、基础和Turbo频率、TDP、RAS特性、T机箱方案部署后,在相同服务器节点配置下,京东云对比了空气冷却与冷板液体冷却在25。C和35。C环境温度下的冷却效果,数据如表2所示。在25。C和35。C环境温度下,对比空气冷却,采用冷板液体冷却的服务器节点的风扇功率显著降低18%dBA,对维护人员非常友好22。2°52°5CC3°53°5CCCPU机箱温度风扇负载降低5%风扇功率(节点级)降低44%服务器节点出口温度噪音降低7.0dBA备注1.具有相同服务器节点配置的空气冷却是比较的基准。2.“-”表示低于基线3.用于风冷的CPU散热器高度为64mm,而冷板液冷则为17mm。表2京东云数据中心空气冷却与冷板液体冷却的冷却效果对比可用性、可维护性)特性以及内存故障预测已统服务器相比,该服务器计算节点主机的宕机率降低了40%,保证了云主机服务99.99%的可用性SLA24。数据援引自京东云内部测试结果。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。云与数据中心基础设施应用篇云与数据中心基础设施应用篇29.液体冷却的传热比空气冷却的传热系数高数百倍,冷却能力.高性能的处理器通常会具备高频和多核特性,解决最高性能.通过冷却高性能的处理器和增加服务器机架功率密度来实现.采用冷板液冷解决方案,可以将数据中心50%~80%的散热转移到外部冷却塔,减少冷却塔的使用,最终降低PUE和碳.液体冷却提高了云主机服务等级协议,以及处理器、服务器.冷板液冷是一种将传统风冷数据中心改造成液冷的循环经济数据中心的PUE从1.3降低到1.1,每个14KW机柜可节电31,031度,碳减排24.4吨。在服务器系统方面,每个服务器节点可以节省大约4%的电量26。机架电源服务器节点省电10.96PUE值1.3总功率比(包括直流)10.813总电力成本10.81321,722节电(千瓦时/年)31,031碳排放量(公斤)24,360碳减排量(吨)24.4表3京东云数据中心冷板液冷与空气冷却节能减排效果对比数据援引自京东云内部测试结果。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。3030京东利用英特尔MCA+MFP京东云是京东科技集团旗下领先的云计算品牌,依托于京东科技集团在人工智正式商用,进军中国云计算市场;2017年6月,京东业务全部上云;2021年4月,京东云IaaS市场占有率升至中国第五,跻身国内云计算第一梯队28。作为全球容器化最彻底的云平台之一,京东云拥有全球最大规模的Docker集群、全球最大规模的Kubernetes集群,支撑万亿级电商交易,实现京东618购物节订单100%云上完成、以及京东物流、京东健康全量上云。历经京东育、游戏等客户,服务最高可用性保证达99.995%29。如今京东云覆盖各个行业领域超过2,500家的合作伙伴,随着用户规模不断增大,特定行业与云原生类用户对应用开发和运营模式提出许多新的要求,传统用户也正在将更多复杂业务迁移上云,这些持续变化的技术需求对京东云服作为云服务的核心资源云主机,它的可靠性、可用性、可维护性直接决定了云服务的质量和水平。如今硬件故障的发生是造成主机宕机的重要因素。传统方式下,一组服务停止工作只会影响到自己的业务和用户,但是在云环境下,服务终止将会导致云服务提供商违反SLA并造成巨大的经济损失。在众多的硬件故障中,内存错误是当今数据中心中所面对的最严重的故障之一。目前京东云数据中心内存错误在整体硬件故障中的占比达到37%,为此京东云建立了完善的云主机故障预测和恢复系统,希望通过对内存错误的发现与预测,通过在37%Memory32%Disk11%CPU7%Mainboard5%Others4%Power4%Network图27京东云硬件故障分布如欲了解更多详情,请访问:/content/www/cn/zh/cloud-computing/mca-mfp-jd-stability-cloud.html云与数据中心基础设施云与数据中心基础设施应用篇定性与可靠性,提高终端用户的SLA,降低京东云数据中心的TCO都有极大的帮助。英特尔®MCARecovery+MFP,京东云与英特尔在云计算领域一直保持着紧密而广泛的合作,为终端用户提供专业且高性价比的云服务是了解决内存错误的困扰,双方再次携手,通过引入英特尔MCARecovery与MemoryFailurePrediction(MFP)技术,结合京■内存错误UncorrectedUncorrectedError图28内存错误分类1目前主机出现的内存错误主要分为可纠正错误(CorrectedError,简称CE)和不可纠正错误(UncorrectedError,简称不可纠正错误(UE)通常会造成比较严重的灾难性后果,如主机操作系统挂起,系统崩溃、宕机。UE错误也可以分为FatalError、SRAR、SRAO以及UCNA。.FatalError:非常严重的UE错误。此类错误系统无法对其只能通过复位系统进行恢复。出现这种UE错误目前暂无好.RAR(SoftwareRecoverableActionRequired发生这种错误后,操作系统/应用程序需要执行某种操作(例如隔离/终止失败线程)来恢复此无法纠正的错误。此类错误是恢复.SRA(SoftwareRecoverableActionO

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论