




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1分布式存储技术与产业分析报告ServiceTelemetry数据采集方案白皮书1分布式存储技术与产业分析报告ServiceTelemetry数据采集方案白皮书开放数据中心标准推进委员会ServiceTelemetry数据采集方案白皮书版权声明ODCC(开放数据中心委员会)发布的各项成对于未经著作权人书面同意而实施的剽窃、复制、修IServiceTelemetry数据采集方案白皮书编制说明本报告在撰写过程中得到了多家单位的大力支):腾讯、百度、中国移动、美团、博通、华三、华为):胡小媛、包贵新、秦凤伟、杜海峰、何宗应、晏思宇、杨扬、冯耀烽、孙ServiceTelemetry数据采集方案白皮书前言在云化和AI时代,数据中心网络由数十万级的交换机设备、百万级的网卡和数千万级网络实例组成,并不断在随着业务动态变化,复杂性远超以往。计算资源池化、存储资源池化后产生的指数级数据流量增长给数据中心网络的运营带来了严峻挑战。我们改变传统网络管理工作的思路,设计了面向应用的ServiceTelemetry平台,采用应用看网络的视角,基于大数据技术结合AI算法实现应用流模型画像,解决故障发现难、诊断难和界定难的问题,并提供应用瓶颈识别,性能优化、故障规避和预测等网络服务能力。本文着重介绍ServiceTelemetry数据采集方案白皮书 I II III 1 1 1 3 3 3 4 4 5 6 6 7 8 8 9 9 10 10ServiceTelemetry数据采集方案白皮书 10 10 14VServiceTelemetry数据采集方案白皮书网络遥测技术serviceTelemetry图1传统网络遥测技术与ServiceTelemetry的对比图为网管系统定制信息、并通过设备实时主动推送数据的技术。不同于传统网络测量技术采集数据以IP报文格式呈现给分析工具,网络遥测技术通常使(二)面向应用的网络遥测技术(ServiceTelemetry)图2基于ServiceTelemetry的业务监控框架现了从单一的网络质量监控到业务与网络联合监控的转变,同时实现了从设1ServiceTelemetry数据采集方案白皮书传统的网络运维视角只关注带宽使用情况,丢包具体内容和原因等指标,但这些指标对业务的性能产生多大的影响,无法有效的关联。只有将网络指标和应用指标相互关联,构建出业务流的画像的系统,才能精确度量出应用的随着应用架构逐渐向分布式发展,导致大量incast突发流量网络上涌现,多种硬件卸载技术被广泛应用,更快更轻的网络通信方式相继涌现,这也进一步增大网络吞吐压力。同时存储介质的不断升级,网络IO时延问题进一步成为制约存储性能提升的关键瓶颈问题,唯有准确查找出存储长尾时大规模的网络故障发现难,问题界定更难,比如网络微突发抖动很常见并不易感知,而应用对时延的抖动问题却很敏感。需要分析瓶颈在应用侧还基于“以应用为中心的网络”理念,我们提出ServiceTele念,向业务提供高精度、更加丰满和定制化的数据,帮助业务打开网络的黑盒子,为未来向业务故障预测、应用驱动网络等愿景前进打下基础。度量业务实例性能影响的关键指标:比如TPS\QPS\IOPS、IO抖动、长2应用画像功能是在ServiceTelemetry平台实现业务的关键数据采集和多维度分析,输出的分析报告,包括对业务流维度的端到端完成时间和在每个网络节点的逐跳时延,比如TPS\QPS\IOPS,以及latencyp99键指标的评估分析。只有将网络指标和应用指标映射关联,构建出业务流的应用架构分布式发展、多种硬件卸载技术广泛应用,对于应用画像精确度、数据处理能力等方面都提出了巨大挑战,没有办法采集并分析全部业务流量,必须更加有的放矢地选取具体关键流程报文进行染色、达到精准度量而不额外增加网络通信开销。针对这一问题,ServiceTelemetry实现了的关键业务流识别方法,此类关键业务流以消息较小且内容完整为主要特征,通常包括业务实例的类型,任务消息大小和种类,任务开始和完成标识等信息,一般为控制报文,这类报文通常与数据传输的流使用相同的链接,也就有相同的网络转发路径,因此只需对此类关键业务流进行染色识别即可。业务在对数据结构定义时,在IP报文四层头后面插入特定报文头标记报文),3ServiceTelemetry数据采集方案白皮书业务端染色完成后,进入接入层网络设备,设备在转发芯片内建立一个业务实例表Service_Table,以业务实例报文源IP、目号(Service_Seq)唯一标识一个业务实例,这个表里同时还记录该实例的时间戳、业务实例类型、业务实例编号、业务实例传输大小等信息;并Service_Table中不存在时,则创建一条实例表项;如该业务实例编号(Service_Seq)在Service_Table中已存在,判断业务实例类型,并根据Service类型更新Service_Table中该实例的内容;在识别出一个业务实例的完成报文(Service_Resp更新时间戳,并将Service该业务实例表项封装为ServiceTelemetrystream上送分析平台,同时网络设备本地删除该条表项记录;分析平台实时进行数据的分析和统计,比如针对不同消息大小的业务实例,不同时段的业务实例,进行测量比较,评估业务的健康状态。还可以深入进行多维度的分析,比如业务实例时延分布情当ServiceTelemetry平台分析发现业务性能的一些异常情况,比如业务实例IO长尾时延数据对比典型值的波动超出阈值,则可以针对性触发对以进一步对网络进行分析,找出问题网络设备或者链路。具体过程如下:ServiceTelemetry分析染色并打时间戳,在逐跳的网络设备上对探针报文打上入、出时间戳,入、出网络端口信息,网络设备ID,网络设备质量状态等信息,目的服务器收到业务探针报文,打上时间戳并复制封装上送ServiceTelemetry分析器,同时发送业务响应报文,染色并打时间戳,以完成对回程报文转发路径的采集;ServiceTelemetry分析器可以根据业务报文的双向转发路径,根据时间戳信息得出该双向转发路径各自的网络时延,从而评估该业务完整转发路4ServiceTelemetry数据采集方案白皮书属性含义数据类型数据长度DestinationIP业务实例响应端IP地址4B业务实例发起端IP地址4BServiceSequence业务实例序列号2BServiceType业务实例类型ServiceSize业务实例大小Timestamp业务发起时间double4BTimestampUpdate业务最近更新时间double4B属性U含义数据类型数据长度网络设备ID4ByteCongestion拥塞标志位5bitDropPkt业务实例序列号1Byte报文的TTL值1ByteRxTimestamp入接口时间戳double2ByteTxTimestamp出接口时间戳double2ByteIngressPort入接口2Byte5ServiceTelemetry数据采集方案白皮书EgressPort出接口2Byte属性含义数据类型数据长度网络设备ID1ByteCollectoraddress采集器IP地址4ByteDestinationport采集器端口号2ByteSourceaddress网络设备上送源IP4ByteSourceport网络设备上送源端口2Byte属性含义数据类型数据长度DestinationIP业务实例响应端IP地址4Byte业务实例发起端IP地址4ByteServiceSequence业务实例序列号2ByteErrorType异常类型1Byte业务流量微突发(Microburst)是数据中心网络中一种常见的现象,是端口在非常短的时间(毫秒级别)内收到非常多的突发数据,典型的微突发的持续时间通常在1~100毫秒之间,以至于瞬时突发速率达到平均速率的数十倍、数百倍,甚至超过端口带宽的现象。微突发流量会降低数据中心业6ServiceTelemetry数据采集方案白皮书务的性能。微突发流量会导致网络丢包,影响到业务的性能。但是传统的网度也只能做到秒级,而要发现网络环境中的微突发现象,通常需要ms级别的高精度监控。如图3.1,实际的微突发流量是绿色曲线,监控平台往往读图3数据中心流量业务微突发场景业务流量存在波动:很多通用的业务模型下,用户的请求和服务器的响应是离散出现的,导致业务流量是间歇性的,不稳定。同时对时延和带宽敏传统的TCP发包原则:通过慢启动和拥塞避免机制,尽快将数据包发送出去。慢启动使得发送速率不会快速上升。当吞吐量达到上限后,TCP滑动窗口减半,速率迅速下降,导致会话流量呈锯齿状,具有突发性。TCP总是期望把发送窗口中的数据尽快发送完,所以会在等待TCP的报文到达确认(ACK)到来后,通过滑动窗口机制再继续发送数据,如此循环,使得发包流量的入端口总带宽和超过出端口的总带宽。广泛存在在数据中心的分布式应用,会存在高带宽端口向低带宽的出端口转发流量、多个入端口向一7ServiceTelemetry数据采集方案白皮书个出端口转发流量。以及网络设备上不适当的QoS参数配置,如队列调度和当微突发流量的瞬时速率超过网络设备的转发能力时,网络设备会将突发的数据进行缓存以便稍后发送。但是在数据中心网络里大多采用小缓存的盒式网络设备,一旦缓存溢出,会导致出现大量丢包的情况,影响到业务性4.微突发监控的实现传统监控微突发的方案是针对所有的流量进行实时的监控和统计,利用流表来记录五元组并持续计数,但受限于网络设备芯片流表容量,无法做到全量监控,同时因为突发是微秒级别,并瞬间存在,控制面无法及时捕获。更重要的是,网络运营团队对微突发和丢包问题不仅需要精确发生的时间,更需要准确知道发生导致微突发现象具体报文的内容以及关联的具体业务。ServiceTelemetry平台的微突发监控重点针对这几方面的难点进行优化,交换机的MMU上设定微突发开始水线和微突发停止水线(水线代表在一个时间窗口内的缓存计数),当交换芯片收到的报文就给后续报文都打上微突发标记,当收到的报文超过MMU丢弃水线在交换机出方向匹配到microburst标记位时,从报文中抽取五元组信息并以精确匹配方式查找该设备的微突发五元组流表,如果没有命中则意味这这是一条受本微突发影响的新流因而在该表中插入一条新条目,包括五元组,时间戳、入口端口信息、队列信息、出口队列缓存的使用率等,设备启8ServiceTelemetry数据采集方案白皮书同时设备启动启用周期性定时器,当设备长时间不再检测到该流存在拥塞或者报文缓存回落到微突发结束水线,则认为拥塞现象已经消失,发送最5.微突发数据分析所有微突发流上送到ServiceTelemetry后,以上送时间窗口和单台网络设备为一个独立的分析单元,统计每个分析单元内的所有流微突发的持续属性含义数据类型数据长度CPUTimer基于流的微突发信息上送Collector1BytesdropCn-byte微突发导致丢包数字节数2BytesdropCn-pkt微突发导致丢包数2BytesDropthreshold微突发丢包水线2BytesFinishthreshold微突发buffer结束水线2BytesFinishTimer多少时间没有收到微突发采样报文,判断为微突发结束4Bytes9ServiceTelemetry数据采集方案白皮书MicroburstCnt-byte微突发的报文字节数2BytesMicroburstCnt-pkt微突发的报文数2BytesSample按多少进行采样2BytesStartthreshold微突发buffer触发水线2Bytes图4ServiceTelemetry的系统框架(二)下发和采集规范用gRPCDial-in模式,设备作为gRPC服务器,采集器作为由采集器主动向设备发起gRPC连接并订阅需要采集的数据信息。ServiceTelemetry数据采集方案白皮书这里与Telemetry的下发模式一致,采用gnmi的标准set接口进行下ServiceTelemetry数据采集方案白皮书ServiceTelemetry数据采集方案白皮书下发配置,path需要指定key值,且path路径为leaf的上一层节点关于update中的val字段,TypedValue这里支持很多类型的数据,这ServiceTelemetry数据采集方案白皮书ServiceTelemetryStream可以部署在网络的接入层、汇聚层、核心层,是指通过对业务报文的处理对业务实例质量进行测量、统计和分析,并将统计结果上报给采集器,合并处理后存入ServiceTelemetry分析平台。ServiceTelemetryStream可以将业务实例类型、业务实例大小,完成时队列信息、以及每一跳的耗费的时延的时间戳信息封装成标准IP报文。封属性含义数据类型数据长度VersionIPFIX版本2ByteLength采集器IP地址2ByteExportTimeIPFIX消息头离开Exporter的时间,表示自1970年1月1日起的UNIX
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 子宫肌瘤诊治规范
- 教师基层服务工作总结
- 阿坝师范学院《大学基础听说4》2023-2024学年第二学期期末试卷
- 扫黑除恶专项斗争工作培训
- 陕西交通职业技术学院《数学竞赛指导》2023-2024学年第一学期期末试卷
- 陕西机电职业技术学院《国际会展实务》2023-2024学年第二学期期末试卷
- 陕西电子信息职业技术学院《舆情监测与危机应对》2023-2024学年第二学期期末试卷
- 国家电子商务标准体系研究
- 陕西省榆林市绥德县2025届初三化学试题模拟卷试题含解析
- 陕西省汉中市部分高中2025年高三下学期5月月考生物试题文试题含解析
- MSOP(测量标准作业规范)测量SOP
- 仓库温湿度记录表
- “少儿好舞蹈”大赛活动报名表
- 营养风险筛查(NRS2002)解读
- 复地A2A3附着式升降脚手架施工方案济南复星国际中心A2A3地块总承包工程
- 纸杯制作手工课ppt
- 动物防疫与检疫技术教案
- 销售话术900句顺口溜
- 工程量确认单范本
- 曲臂车安全协议模板
- 腰椎间盘的诊断证明书
评论
0/150
提交评论