基于RDMA的长距无损数据搬移技术白皮书_第1页
基于RDMA的长距无损数据搬移技术白皮书_第2页
基于RDMA的长距无损数据搬移技术白皮书_第3页
基于RDMA的长距无损数据搬移技术白皮书_第4页
基于RDMA的长距无损数据搬移技术白皮书_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中国联通chinaunicom基于RDMA的长距无损数据搬移技术白皮书RDMARDMA400G400G中国联通chinachinaunicom令令1.2T800G1.2T800GAIAIF5G-A令F5G-A本文档可能含有预测信息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。由于实践中存在很中国联通研究院中国联通研究院基于RDMA的长距无损数据搬移技术白皮书本报告版权属于中国联合网络通信有限公司研究院,并转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:中中国联合网络通信有限公司研究院,中国联合网络通信有限公司刘红红,续建伟,王俊敏,周彦韬,董姗,岳文强随着人工智能时代的来临,千行百业大模型风起云涌,海量数据以T、P、甚至E级别如太平洋海水般随之产生。我国基于资源配置优化,提升资源使用效率部署实施“东数西算”战略工程,这其中就涉及到海量调和搬运。传统的数据搬运是通过快递硬盘,源宿两地读写方式来实现,这种方式耗费时间长,效也比较差。数据通过硬盘来实现跨地域的运输就好比绿皮蒸汽火车,速度慢,人员拥挤,体验差。问题呢,观察中国高铁的发展模式或可得到很好的启发,高铁发展至今,世界领先,高效舒适,安很好,带来了人员和商品的流动也发生了质的提升和改变,也同时促进了社会经济的发展。当今数据的流动运输提出了高吞吐、高弹性、高安全和时效性需求,效率即是生产力,中国的高铁模式值为全面贯彻国家网络强国数字中国战略,支撑国家“东数西算”工程,发展新质生产使命担当,确立了“数字信息基础设施运营服务国家队、网络强国数字中国智慧社会建设主力军、创新排头兵”的战略定位,在2015年,发布了网络创新体系CUBE-Net2.0,提出了面向云端双中心的集约解耦型网络架构,加速电信网络向云化、虚化化、SDN化等转型。经过5年的实践后,算力时代全面到来,通信网络如何可持续发展,新一代网络的运营体系和服务体系如何构建,如何向客户提供更有价值的网络创是整个行业需要认真思考、积极探索、不断实在此背景下,在2021年,中国联通将CUBE-Net2.0升级为CUBE-Net3.0,致力于实现“连接+计算+数据+智能”的融合服务,进而达成从新一代网络到新一代数字基础设施的蜕变。中国联通基于CUBE-Net3.0新一代网在此基础上,中国联通在2020年发布《云时代的全光底座》,在2022年发布了《算力时代的全光底座》白皮书,本《基于RDMA的长距无损数据搬移技术白皮书》联,通过端网协同技术,解决广域RDMA大流量的长距离无损传输,提供区别用任务式连接,提供按照流量、按时效等方式计费的组网业务,助力数字中国、东数西算等国家战略的本白皮书详细描述了海量数据RDMA长距无损数据搬移技术的需求、数据搬运基于RDMA的长距无损数据搬移技术白皮书目录 11.1海量科学计算 1 1 2 3 31.6数据搬移业务需求,挑战与机会总结 302“数据搬移”运力指标 503“数据搬移”架构与关键技术 73.1架构与关键特征 7 83.2.1灵活承载 83.2.2任务式带宽 83.2.3长距高效率 83.2.4安全可靠 93.2.5统一编排 93.2.6长距RDMA提速技术 05总结与展望 1 2 2 3 7 11 1202表目录 5 6基于RDMA的长距无损数据搬移技术白皮书第1章典型应用场景01典型应用场景1.1海量科学计算智算和超算快速发展,中国在此领域已经达到了国际先进水平,但智算和超算中心效低成本方案,尤其在支撑天文、气象、医药生物等以FAST天文数据计算为例,FAST每年约200多个观测项目,单项目产生观测数据量TB~PB量级,年产数据约15PB。如果数据导出采用人工方式,数据获取阶段需要安排1~3人出差数据现场,负责数据导出工作,由于缺乏专人专岗负责数据拷贝操作,数据导出申请可能被滞后数月处理,再加上数据传输和目的地数常耗时,将极大影响数据获取的时效性。又如,济南超算平台总存储量是245PB,覆盖了文件、对象和大数据存储,要把数据搬迁到超算里做计算,目前快递硬盘的方式,数据接收和导入需花费很多时间和资源面向科学计算海量数据异地迁移场景亟需一种高效、经车拉硬盘汽车,车拉硬盘汽车,150公里更换硬盘38GB/s影视综艺节目的拍摄素材需要经后期制作公司剪辑、渲染,由于拍摄地不固定,且拍摄过段,需要根据拍摄和制作周期将拍摄素材批量传输至后期制作公司所在地。一部大型综艺或影数据量是PB级别,单次传输的数据量在10TB~100TB量级,采用人工硬盘快递方式存在两次数据拷贝(源端上传、目的地下载)以及人工搬运(乘坐飞机或高铁搬运磁盘阵列),每次行程需要2~3天,拷贝运输期间如出现镜头数据丢失,需要补拍,打乱拍摄计划,人力、物力成本大;且人媒体内容,存在片源泄露风险,或是一旦中间有某1块/几块硬盘异常需全部重拷贝,影影视/综艺行业竞争激烈,如何充分利用网络能力,通过在线传输为音视频务,满足时效性的同时,减少人工投入成本,对网络影视行业的内容涉及多种类型的素材,如视频、音频、图片、字幕等,这些素材通常都是大格的格式和质量要求。影视行业对素材的传输和分发有着高效、稳定、安全等需求,因为这关系到制面效果、版权保护等重要因素。随着高清4K、8K的普及,影视行业的数据容量也在不断增加,全国一年上映400部电影左右,一部影片平均200G~300G;平峰期一般4~10部,春节贺岁档一周最多15部;一部影片大概有10个版本,一次快递数据在10T~40T之间,中影集团每周将片源数据从北京资源中心通过硬盘快递到全国),时间压力大、成本高。且硬盘在快递过程中,容易发生数据损坏或丢失等问题。因此,实现影视分发的这些问题,同时实现提升工作效率、保障数据厅1厅2厅1厅2厅1厅2厅1厅2伴随智能科技浪潮的兴起,自动驾驶技术飞速发展。如今,科技企业、传统车企和一众初创公驶行业的主要参与者,多国政府更是将其上升至国家自动驾驶稳步发展,诸多车企将在推出L3/L4级自动驾驶量产车激烈角逐,预计2025年L3汽车销量将有50%市场份额,到2030年L4汽车销量将达到市场的20%。自动驾驶的AI训练依赖海量的路测数据,对训练效率和快速迭代追求驱动自驾训练上云,同时也产生大规模路测数据上云需求。根据行业观察,训练L3需400PB数据,国内20家/全球约50家参与试验,预计产生总数据8EB/20EB,训练L4需2EB数据,国内10家/全球约20家参与试验,预计产生总数据20EB/40EB。行业当前路测产生的海量数据是基于“硬盘+保障,这催生了高效按需无损的网络“数据高铁”服务,通过高品质的网络来应对和解为了提高生产效率,企业需要进行数字化转型,而数字化过程中产生的海量数据研、制造等企业的跨地域搬移数据规模主流为百TB量级,且有一定时效性需求。跨域数据迁移成为企业发展和转型中不可避免的一环,然而这项任务也给企业带来了很多挑战。企业运营过程中业务需持续运务、物流服务、数据分析和应用等。因此,如何确保业务不中断,数据完整性不受到损失,是海量数据迁移如果需要花费很长的时间和更多的资源,对企业效率的影响也会更加显著。数据迁移数据的传输和存储,因此,安全性问题是需要考虑的。如果数据泄露或丢失,企业将面临严重的同时,对于高性能工业仿真,训练的企业使用远程算力,远程访期长(部分场景需要源+宿两次本地数据拷贝)、硬数据搬移,如跨广域DC间数据灾备等,大多是周期性传输,带宽资源利用不充分,存在带宽成本与传输利从技术上看,传统TCP/IP网络技术通过操作系统内核频繁的数据拷贝和中断操作来传输数据,而R则是通过绕过内核并将网络堆栈卸载到网卡实现CPU开销接近零的高吞吐和超低延迟。RDMA不仅改进了性能,还减少了每个服务器上网络堆栈处理使用的CPU核数量。对于单DC内的智算/云存储场景,RDMA技术展现出显著的优势展,高性能计算、大模型等新兴应用不断涌现,DC间的数据流通量剧增,使得跨DC场景也虽然,长距传输产生了不可规避的超大时延,其稀释了RDMA技域RDMA继承了RDMA技术可以避免数据转存过程中多次数据复制的优势,能够有效降低CPU与够带来机理上的优势。此外,考虑到RoCEv2是目前DC内部署的主流方案,在跨DC场景中仍采用RDMA技术,还可以保持软件开发在DC内部和DC间的一致性和易移植性。因此,针对多云数据备份、长距离云存储等术并非是绝对的刚需技术,但其相对于传统TCP技术能够提供机理性的优势,使其具备了很高的应用价值。长距数据搬运中广域RDMA技术所面临的挑战,主要是如何在长距场景中优化其传输效率,TCP相当的传输效率,从而让上层能够采用上位的RDMA替代传统的TCP。综合来看,对于运营商,大量线下数据搬移将有机会通过网络传输,带来新的增长点;对于业务支撑网络流量填充,带来网络硬件升级和扩容机会。而所有机会成立的前提,是网比传统硬盘快递/人工搬移、传统线上数据传输更有竞争力(品“东数西算”工程首次将算力资源提升到水、电、燃气等基础资源的高度,统筹布局建设全国一体化络国家枢纽节点,助力我国全面推进算力基础设施化。数据的产生与计算需求主要在东部,存储部,东西部枢纽间的带宽需求将达到1000T+以上,传输距离在多样化的算力应用快速发展,跨区域算力需求不断增长,对算力网络提出了更高更得稳、传得快,才能确保用户一点接入,算力触手可及。因此确定性的网络,是满足多样化算力应用1.6数据搬移业务需求,挑战与机会总结1.6数据搬移业务需求,挑战与机会总结智能社会产生的海量数据需要大量的算力进行处理,各行各业对于算力的需求都将构预测,从2018年到2030年,自动驾驶对算力的需求将增加390倍,智慧工厂需求将增长110倍,数字货币的需求将增长2000倍,AR/VR游戏的需求将增长300倍,主要国家人均算力需求将从今天不足500GFLOPS,到2035年增加到10000GFLOPS。面向2030年,算力将在科学计算、影视、自动驾驶、工业企业数字孪生、智慧565基于RDMA的长距无损数据搬移技术白皮书02“数据搬移”运力指标为匹配国家东数西算、东数西存的大战略,消除数据孤岛,充分挖掘数据价值用,需要构筑具备在全国任意两地高效流通数据的能力,根据数据流动效率、客户体验、数1)线下的方式:针对大数据量的搬运,硬盘快递因其成本低,是当前使用的搬运数据,需要临时协调数据导入/导出人员,导致数据流通时长不可控、效率2)互联网方式:带宽小,所有用户共享,网络质量无法保证,无法承3)数据搬移方式:可提供波长级超大带宽、带宽和安全性均可保障,品质可承诺,是最高品质的方式。但当前成本高,需要在不改变现有运营商专线市场价格体系的情况下,利用网络的边际成本低用户运送大数据的成本,提供一种新的大数据搬运服务,改变过去以连接和带宽为计费基准的专改为以数据搬运量、搬运距离、速率档位(商务舱、头等舱、经济舱)等为基准计费的商业模式小、计费大小,提供小时达、天级、周级等不同传在数据中心间进行长距数据搬运业务场景中,运营商所扮演的角色分为两大类,不同场景下,其一是,运营商是为云商提供高速数据传输通道,而直接的业务提供者是云商,数据是运,用户所关注的是高速数据传输通道(比如裸纤、专线、切片)的性能表现,评空载时延丢包、不可用时长等传统指标。而受云商自身服务器所影响的指标,属于是客户自己对服题,比如利用率能实际用到多少、用超签约带宽引发的时其二是,运营商直接作为业务提供者,数据是在联通云服务器之间搬运;用户所关注的转存时间,也就是整个系统对外的I/O效率。传统网度量具体业务的端到端传输效率,建议增加新量纲:传输效率。有效传输带宽由传输数据总量除得出。有效传输带宽越高,表明传输效率越高,最大值趋近于网络物理带宽。例如,1PB数据,6小时传输完毕,则有效带宽定义为0.167P/小时。折算为线路带宽,则表示为0.167P*1024*1024*8G/3600S=389Gbps的有效传输带宽,即传输1PB字节数据,若需要6小时传输完毕,则有效传输带宽为389Gbps。以此类推,如果100G有效传输带宽,需要24小时传输完毕。ATCPTCPTCP10G10~100G100G~400GL2逻辑管道隔离L1硬管道隔离L3层加密属性(可选)L2层加密属性(可选)L1层加密属性(可选)10G100G400G800G90%85%80%75%2.50.30.1064T16.20.50.2100T25.32.70.70.4400T101.110.72.8800T202.321.45.731000T252.826.87.13.85000T1264.2133.935.610000T2528.4267.771.137.9基于RDMA的长距无损数据搬移技术白皮书第3章“数据搬移”架构与关键技术03“数据搬移”架构与关键技术3.1架构与关键特征3.1架构与关键特征为满足海量科学计算、影视行业、自动驾驶、工业制造、东数西备等大数据搬需大带宽、品质可保障的组网架构,并提供端网协同的业务无损能力,以实现长距离高吞吐的无损>o<参数网络存储网络RDMA网络CPECPE2.任务式带宽:可根据业务数据量按需实施链路的快速拆建和基于业务带宽的弹性可调。3.长距高效率:端网协同实现RDMA长距高吞吐。链路层需要具备无损传输及流控的能力4.智能流量调度:具备多业务流识别和调度能力,通过RDMA提速网关可以感知传输链路带宽、等链路SLA状态,在RDMA提速网关完成多业务流的最优传输路径编排和调度,多路RDMA流汇聚调度,快速感5.安全可靠:满足不同行业业务安全隔离及加密的要求。端到端管道具备静态1+1或者重路99.999%及以上可靠性。6.网存一体:具备算、存、网统一编排能力,可基于算存网编排调度系统实现网络资源一调度,并能够提供基于数据量、时长等不同3.23.2关键技术3.2.1灵活承载过程中必然会涉及到队列与调度问题,这是拥塞引发时延与丢包的根源,属于无法规避的机理达,可以在物理层面上避免了途径2/3层设备,从而避开了由队列与调度机制带来的时延与丢包,形成无损的点对3.2.2任务式带宽东数西算、自动驾驶数据上云等大数据按需搬运的兴起,临时性的TB级大数据量传输驱动带宽动态变化成常态。为满足这类临时性的弹性带宽需求,管道的使用需从静态分配到可灵活拆建,从以年为级、天级分时复用。这就要求光网络具备“任务式敏捷建链能力”以及“弹性带任务式敏捷建链,快速打通波长级传输通道。波长资源池内的光链路资源构建两大能力,一是电驱动光的最优资源规划;二是波长1.电驱动光最优资源规划算法:根据业务带宽、使用时长、SLA等要求,由系统自动规划业务所需要的线路2.波长级开通自动化:以免人工介入、秒级开通为目标,系统对光模拟系统进行数字化建模,实现对全网路径的可达性探测,最终达成系统规划好的业务路径自动下发,自动完成OSU弹性管道按需调整带宽。OSU技术是支持多种业务带宽颗粒灵活接入的基础技术,可提供2M~100G灵活的带宽接入,避免了传统ODUk映射的刚性和效率不高问题。同时,OSU管道映射延,并且将连接数提升到百万级别,充分满足业务数量巨大和需求颗粒度差异化的需求。通过OSU技术可有效满足不同行业、不同企业对数据搬移的带宽需求,例如企业上云初期,需要将全量数据一次性向云大带宽保障大量本地数据快速迁移到云端,迁移完成后则希望周期性提供大带宽提供全量数据备于业务流量自动感知,按需无损调整管道带宽,实现网络带宽“3.2.3长距高效率导致网络状态反馈滞后,导致RDMA无法有效利用带宽。为了应对超长距传输确定性传输能力,并与端侧协同,以满足高性能协议的传端网协同物理层信息。长距下的RDMA的吞吐量受距离、误码等的影将物理距离的信息通过协议传递到网卡侧,网卡根据根据距离调整RDMA的messagesize、QP数量以达到长距下的满速传输。另外,每次误码都会导致丢包,从而触发RDMA的GoBackN机制,导致1个RTT报文重传,网络可以将误码信息通知给端侧,端侧可以判断是链路误码导致的重传还是拥塞导致的重传,从端网协同保护信息。网络侧一般会对重要业务提供保护,保护路由一般会比的吞吐量越低,因此,每次故障引导的保护倒换,网络设备可以将倒换后的路径的长度信息端网协同流控。在长距传输时,一旦远端DC拥塞,交换机会触发PFC等的流控机制,需要缓存至少1个RTT的报文,比如,400G@1000km,需要至少500MB的缓存。交换机主要是针对DC内部应用设计的,其缓存能力不足以支持长距无损传输。需要端网协同实现长距流控,以实现端针对广域长距RDMA承载需求场景,预采用的创新技术•长距采用基于RDMA的无损数据搬移技术:光层OTN直达确保中途不经由IP设备引发时延抖动与丢包;•DC出口位置添加新型网关设备:新型网关中运行自研的长距RDMA提速方案,构建广域RDMA的高效传•DC内不对端侧NIC与内部组网设备提出变动需求:兼容端侧的现有域内RDMA技术(NIC与Switch)。•远端拥塞时,OTN与交换机/RDMA网关协同,共同缓存反压的流量,保证RDMA流量拥塞不丢包,保障•DC间光层一跳直达,利用OTN技术,直接在DC间搭建的光层通道,中间的长距传输不经过2/3层的交换机/路由器设备,一跳直达DC的出口交换机。光层直达可以避免由队列调度带来的时延与丢包,是支撑广域3.2.4安全可靠L0~L1硬隔离,专网级体验。OTN基于光层L0的波长级波分复用和基于电层L1的ODU/OSU固定时隙技术对用户的业务进行隔离,保障了每个业务的资源独享性,业务之间互不影响。可保证重要行业客不易被监听、不会被同一光纤链路内其它类型业务流攻击,具备100%私有专网体验。安全加密,防止数据泄露。为了保证客户数据的安全,OTN可采用国家SM发(QKD)等高安全技术实现传输保密通信。OTN设备在信号处息,并对传输的OPUk净荷进行加密,完全不介入OTN可提供不同层次全面保护机制以及高可靠的保护电层保护针对业务级提供端到端1+1保护能力,保护倒换性能小于50ms;针对高可靠业较高的场景,可提供50ms抗多次断纤的电层重路由保护能力。光层保护针对网络级的光线路或节点故障,提供OTS1光电协同保护针对更高级别可靠性要求的业务,通过在电层配置1+1保护技技术,实现光电协同的保护,可以抗多次光纤故障,满足业务99.999%的可靠性要求。3.2.5统一编排为保障海量数据的搬运效率以及搬运的成本最优,网络需要由静态连接变成基于通过存储管理系统及网络管理系统的协同调度来实现,需要将存、网统一管控和编排,为数据搬构建大数据搬移业务运营层:实现数据搬移产品的一体化运营服务,为客户提供基于数据量存力和网络运力统一编排:实现存力和网络运力的业务编排服务。面向运营层提供统一的存网务能力,支持跨网络域和存力域的资源的分配,以及端到端业务编排和各个存力节点的连接时延/带宽等信息的运力地图传递给编排层,支撑编排层自存力管控层进行数据搬移管控,并与编排层协同。端侧数据汇总到存储后,输数据的SLA,向编排层申请创建光专线请求,存力管控系统在完成数据传输后通知光网络管理系统释放光专线。存力管控系统可主动查询或被动接收网络管理系统上报的光链路误码、时延等信息,评估3.2.6长距RDMA提速技术的连接,为用户提供安全的接入通道,确保数据传输的机密性和完整性。并对用户间业务进行区户之间的数据隔离。该网关设备实施严格的隔离策略,为每个用户的业务设置独立转发表项,以2.RDMA提速能力首先,在拓扑方面,新型网关与RDMA网络有直接的连量则是仍由业务网承载,经由RDMA提速网关设备>><">•优化拥塞检测方法,新增提前拥塞通告功能;•将拥塞反馈周期压缩到本DC时延之内,从而使得发端能够更快的收敛到不触发拥塞的发送速率,如下图基于RDMA的长距无损数据搬移技术白皮书第4章现网实践3.流量智能调度能力RDMA提速网关作为数据高铁站,通过先进的IP协议及管控系统为跨智算中心的业务流量提供基于业务SLA服务级别的流量调度:识别并处理不同服务级别的流量,例如智算业务中的温冷数据搬移流的存算分离拉远训练流量,多智算中心间的协同训练流量等。网络运营商可以根据智算业务的SLA要求不同,为不同的业务设置不同的转发路径,以满足不同业务的动态的流量调度:根据网络状态的变化(如链路故障、拥塞等)动态地调整数据包负载均衡:通过对智算流量的智能识别,通过负载分担能力,将流量均匀地分配到提高网络资源的利用率,降低网络拥塞,提高网络04现网实践随着国家东数西算战略的推进,越来越多的跨地域大数据搬移场景开间流转并进行算力协同,算力中心间的长距高性能物理网络的参数和服务器端侧参数都会对长距离RDM的最重要因素之一,随着距离的增加,RDMA的吞吐量会逐渐降低制,导致业务的有效吞吐量降低;服务器端侧QP(队列对)数量也会对RDMA中国联通基于全光网络的长距环境,对长距下磁盘阵列服务器,并构建打通跨省100G的全光直达的OTN无损网络,验证海量数据从上海金桥到器的内存到内存、硬盘到硬盘的传输时间,以及远端在全程无拥塞时,从上海金桥到宁夏中卫的数据长距搬移,内存到内存时,9TB数据传输时间15分钟11秒;硬盘到硬盘时,9.375TB数据传输时间15分钟45秒,传输时间接近理论值。•OTN与交换机之间无协同流控:交换机出方向限速模拟拥塞,入方向出现丢包,重传加剧拥塞,业务有效带宽从85Gb/s降到19Gb/s。•OTN与交换机协同流控:交换机模拟拥塞,入方向无丢包,OTN通知端侧降速,端网协同防止无效重传,业务有效带宽从19Gb/s提速到78Gb/s,传输带宽提升明显。当前的环境配置下,OTN无损网络传输带宽是100Gbps,端

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论