2024遥测数据采集方案_第1页
2024遥测数据采集方案_第2页
2024遥测数据采集方案_第3页
2024遥测数据采集方案_第4页
2024遥测数据采集方案_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

II遥测数据采集方案2023PAGE\*ROMANPAGE\*ROMANIV目录一、背景 1(一)网络遥测技术 1(二)面向应用的网络遥测技术(ServiceTelemetry) 1二、应用场景 3(一)场景一:应用画像 3业务染色 3业务实例画像 4业务实例转发路径 4数据定义 5(二)场景二:微突发监控 6微突发的定义 6微突发的原因 7微突发的影响 8微突发监控的实现 8微突发数据分析 9数据定义 9三、采集规范 10(一)系统架构 10(二)下发和采集规范 10下发方式 10上报方式 14PAGEPAGE12一、背景图1传统网络遥测技术与ServiceTelemetry的对比图(一)网络遥测技术广义上说,网络遥测技术(Telemetry)是指从设备上采集高精度数据,为网管系统定制信息、并通过设备实时主动推送数据的技术。不同于传统网络测量技术采集数据以IP报文格式呈现给分析工具,网络遥测技术通常使用“推模式”,支持亚秒级精度的数据采集和格式化数据传输。(二)面向应用的网络遥测技术(ServiceTelemetry)图2基于ServiceTelemetry的业务监控框架AI,ServiceTelemetry备运维到业务通信运维的升级。要求一:业务质量精确可视承载着基础转发能力的物理网络任何一个小问题都会影响到应用的质量,传统的网络运维视角只关注带宽使用情况,丢包具体内容和原因等指标,但这些指标对业务的性能产生多大的影响,无法有效的关联。只有将网络指标和应用指标相互关联,构建出业务流的画像的系统,才能精确度量出应用的运行情况。要求二:分布式应用不断升级,如何优化长尾IO随着应用架构逐渐向分布式发展,导致大量incast也进一步增大网络吞吐压力。同时存储介质的不断升级,网络IOIO要求三:问题快速界定大规模的网络故障发现难,问题界定更难,比如网络微突发抖动很常见并不易感知,而应用对时延的抖动问题却很敏感。需要分析瓶颈在应用侧还是网络设备,原因具体是什么,该怎样解决谁来解决。ServiceTelemetry盒子,为未来向业务故障预测、应用驱动网络等愿景前进打下基础。ServiceTelemetry应用模型画像度量业务实例性能影响的关键指标:比如TPS\QPS\IOPS、IO抖动、长尾IO。业务瓶颈识别:带宽、时延敏感流识别。高精度网络度量实现微突发现象监控和自愈;实现业务流量端到端逐跳时微秒级度量。随流技术检测精确测量每条业务的丢包率/时延信息;精确还原业务转发面路径信息背景。二、应用场景(一)场景一:应用画像ServiceTelemetry平台实现业务的关键数据采集和TPS\QPS\IOPSlatencyp99、p999画像的系统,才能精确度量出应用的运行情况。业务染色应用架构分布式发展、多种硬件卸载技术广泛应用,对于应用画像精确而不额外增加网络通信开销。针对这一问题,ServiceTelemetry务在对数据结构定义时,在IP报文四层头后面插入特定报文头标记报文(染色字段),并打上相应的时间戳。业务实例画像业务端染色完成后,进入接入层网络设备,设备在转发芯片内建立一个Service_Table,IPIP号(Service_Seq)唯一标识一个业务实例,这个表里同时还记录该实例的时间戳、业务实例类型、业务实例编号、业务实例传输大小等信息;并Parser解析业务IP报文头,判断业务实例编号(Service_Seq)中不存在时,则创建一条实例表项;如该业务实例编号(Service_Seq)Service_TableServiceService_TableService_TableServiceTelemetrystreamIO、IO业务实例转发路径ServiceTelemetry平台分析发现业务性能的一些异常情况,比如业IO以进一步对网络进行分析,找出问题网络设备或者链路。具体过程如下:ServiceTelemetryID,网络设备质量状态等信息,目的服务器收到ServiceTelemetryTelemetry数据定义业务实例数据表(Service_Table)定义属性含义数据类型数据长度DestinationIP业务实例响应端IP地址int4BSourceIP业务实例发起端IP地址int4BServiceSequence业务实例序列号int2BServiceType业务实例类型int1BServiceSize业务实例大小int1BTimestamp业务发起时间double4BTimestampUpdate业务最近更新时间double4B业务实例转发路径表定义:属性U含义数据类型数据长度Device-ID网络设备IDint4ByteCongestion拥塞标志位int5bitDropPkt业务实例序列号int1ByteIPTTL报文的TTL值int1ByteRxTimestamp入接口时间戳double2ByteTxTimestamp出接口时间戳double2ByteIngressPort入接口int2ByteEgressPort出接口int2Byte配置下发数据定义属性含义数据类型数据长度DeviceID网络设备IDint1ByteCollectoraddress采集器IP地址int4ByteDestinationport采集器端口号int2ByteSourceaddress网络设备上送源IPint4ByteSourceport网络设备上送源端口int2Byte业务实例异常数据表属性含义数据类型数据长度DestinationIP业务实例响应端IP地址int4ByteSourceIP业务实例发起端IP地址int4ByteServiceSequence业务实例序列号int2ByteErrorType异常类型int1Byte(二)场景二:微突发监控微突发的定义业务流量微突发(Microburst)是数据中心网络中一种常见的现象,是端口在非常短的时间(毫秒级别)内收到非常多的突发数据,典型的微突发的持续时间通常在1~100毫秒之间,以至于瞬时突发速率达到平均速率的数十倍、数百倍,甚至超过端口带宽的现象。微突发流量会降低数据中心业络带宽监控的粒度比较粗,snmp,Telemetry度也只能做到秒级,而要发现网络环境中的微突发现象,通常需要ms3.1,实际的微突发流量是绿色曲线,监控平台往往读到的是颗粒度比较粗的蓝色流量曲线,无法及时监控到微突发现象。图3数据中心流量业务微突发场景微突发的原因业务流量存在波动:很多通用的业务模型下,用户的请求和服务器的响应是离散出现的,导致业务流量是间歇性的,不稳定。同时对时延和带宽敏感的业务要求尽快发送数据,加剧业务的突发性。TCPTCPTCP期望把发送窗口中的数据尽快发送完,所以会在等待TCP(ACK)到来后,通过滑动窗口机制再继续发送数据,如此循环,使得发包速率不平缓,突发性强。流量的入端口总带宽和超过出端口的总带宽。广泛存在在数据中心的分布式应用,会存在高带宽端口向低带宽的出端口转发流量、多个入端口向一QoS端口限速。设计不合理的UDP通信程序,短时间内发出大量burst包,不做延时。微突发的影响当微突发流量的瞬时速率超过网络设备的转发能力时,网络设备会将突发的数据进行缓存以便稍后发送。但是在数据中心网络里大多采用小缓存的盒式网络设备,一旦缓存溢出,会导致出现大量丢包的情况,影响到业务性能。微突发监控的实现传统监控微突发的方案是针对所有的流量进行实时的监控和统计,利用流表来记录五元组并持续计数,但受限于网络设备芯片流表容量,无法做到全量监控,同时因为突发是微秒级别,并瞬间存在,控制面无法及时捕获。更重要的是,网络运营团队对微突发和丢包问题不仅需要精确发生的时间,更需要准确知道发生导致微突发现象具体报文的内容以及关联的具体业务。ServiceTelemetry平台的微突发监控重点针对这几方面的难点进行优化,实现了高效准确的微突发监控。具体实现方法:MMU(水线代表在一个时间窗口内的缓存计数)就给后续报文都打上微突发标记,当收到的报文超过MMU弃标记。在交换机出方向匹配到microburst标记位时,从报文中抽取五元组信息并以精确匹配方式查找该设备的微突发五元组流表,如果没有命中则意味这这是一条受本微突发影响的新流因而在该表中插入一条新条目,包括五元组,时间戳、入口端口信息、队列信息、出口队列缓存的使用率等,设备启动针对该五元组进行counter计数(pkt数和Byte数)。同时设备启动启用周期性定时器,当设备长时间不再检测到该流存在拥塞或者报文缓存回落到微突发结束水线,则认为拥塞现象已经消失,发送最后一个ServiceTelemetryStream后流表老化,并释放相关资源。微突发数据分析ServiceTelemetry时间,报文技术等指标,得出对业务造成关键影响的业务流量。数据定义属性含义数据类型数据长度CPUTimer基于流的微突发信息上送Collectorint1BytesdropCn-byte微突发导致丢包数字节数int2BytesdropCn-pkt微突发导致丢包数int2BytesDropthreshold微突发丢包水线int2BytesFinishthreshold微突发buffer结束水线int2BytesFinishTimer多少时间没有收到微突发采样报文,判断为微突发结束int4BytesMicroburstCnt-byte微突发的报文字节数int2BytesMicroburstCnt-pkt微突发的报文数int2BytesSample按多少进行采样int2BytesStartthreshold微突发buffer触发水线int2Bytes三、采集规范(一)系统架构图4ServiceTelemetry的系统框架(二)下发和采集规范下发方式(1)gRPCDial-in模式Telemetry,ServiceTelemetrygRPCDial-ingRPCgRPCgRPC交互协议、接口TelemetrygnmisetprotobufSetRequestSetResponse数据结构说明:下发配置,pathkeypathleafleaf。updatevalTypedValuejson_valyangjson。如果同一个key值下有多个子KEY,请封装到多个updata消息下发。pathelementyangpathxpath。ServiceTelemetry数据采集方案白皮书上报方式ServiceTelemetryStreamServiceTelemetryStream计结果上报给采集器,合并处理后存入ServiceTelemetry分析平台。ServiceTelemetryStream可以将业务实例类型、业务实例大小,完成时队列信息、以及每一跳的耗费的时延的时间戳信息封装成标准IPIPFIX(MessageHeader),再根据不同的应用IPFIXSets。ServiceTelemetryStreamHeaderFormat属性含义数据类型数据长度VersionIPFIX版本int2ByteLength采集器IP地址int2ByteExportTimeIPFIX消息头离开Exporter的时间,表示自1970年1月1日起的UNIX时间的秒数int4ByteSequenceNumber报文序列号int4ByteObservationDomainID上送的网络设备int4ByteTemplateSetFormat业务画像Streamset定义微突发监控Streamset定义gRPCdial-out采用基于gRPC的设备可以自动读取各种统计网络数据信息,根据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论