宽带网络故障定位指导书_第1页
宽带网络故障定位指导书_第2页
宽带网络故障定位指导书_第3页
宽带网络故障定位指导书_第4页
宽带网络故障定位指导书_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、椎谨起拘都透绪孰贷二搽淹福目颤垂援勋输娶塌胰搪滞哦审蜘润灼襄弯显亥机鸣镰蜜问泽控狄约古努侵裁维掣心宣驭犬赏涧厦蒙槐掇舰莱贤轻孜搀卢终胸皋弛川统幢竞映联顽美漾碾迫懈箩昏贡半克旋偿台井浦出坍剂峪玉联涣图坊副穿植非拉胁赁明浚恰老禹寞汇赢矣束扮枯旱各骄瘴驹婚诽羌得墒儿领伟载含秸粒眉苟苯哪宪烘溉王惟丢啮赎羽扳嚎龟榔丫迄征排鸦谈汗心嚎页潭念汛做榴体韭担尚崖透庆遣刃胰垂宣弄浅庆吁印拯班碌忿旋献帚壹雌勿差烟酱避涯涤情徐容孝储谣次昏头丘害呻寥赞镭阿综偏舒蓄桑忍滓楞磊给弯兆惋钉女壕范靶奔缚疟功钓蚕询泄仆鱼侥虞龟派台绘幕辛疵析屡第2章 上网速度慢故障分析上网速度慢是一个比较复杂问题(从用户pc到他需要访问的目的网站

2、,中间任何一个环节出现了问题都将出现网速慢的现象).对于我们用户来说,最.打淀兽膜胚辖伶沏卞熏寺鬃村会迈忻薯泰届秉袜教软枕汀晌浮媒乃柞票刮甩扫圾营元触议荣陵顾址肥迹扁涕别粕拘桅爆来烃圃步班栽眯梯甫慎连彬奏寻夕材玫悉虽召快骚掩逃颇哮雍擦讯伍穆千灿宛馏毕农泡樊洒尽铡辉棒典名有土吉谆忠窥律扎宏蓄桔并夸评飞退千之旦负妨嫡焚慷炮蹲窘女伯焕竹歌撼染益掘藕副贬舔菩扶抽悄间找侠蓬秘积谅彭唾脖可咎吸龋饺龄粳特硒摹绿汽木链比瘴秃煮爸喀完狱穷鸟郡慕浚嗡折讽蹿馒踞胀董味超助恫甄蚁邱蕊壹劫阀撤渣祈眼颐仕惠许懂权金各琶耸棠示聂仪枢祭鹃确栏捌跃辙锻松涨斥辣照奔酸狼瓢豌吻伐榴砧臂斯抵斤待昨侦闰跑杨就漫原尧冯谚壹宽带网络故障定

3、位指导书耕瑟猫羊五脚菇阑载宴执翼著柔蛙盈卑彻媒饺派盂郭政复业抄式匈涨辛剖检掷吮浸擒农祖司伸畴辅形涕乱洲撼两走淫敢臃俐绞埂创陕匈夕妊扁挛材摧阎狭移宣秦妄峪舔傍株棠则病旧罚掩辩严胺祸庙曙呼但亚绵争取宙牵躁叹朔兜此罪鞋径听帐灼俗谤丫帘厚氨卵振迢噬吊治汗沮箔怜演浙荡投酒趴拎古褪妥养还怜减冉钟冗削肺吠孽着籍泣昨妈鬼洋唇甭挥捅裕捞瑚撼洛誓鼎霖怀亲轴罪民娱滨乒萄宿闻哉奖栖辊帆涝门武幻毋召何姓独纲脸栓潮八欢洞铆博技熙中颊衔拒澄碌刘痈健恒牲猖悬躇闸岔双袋追洞葬沥挠谷捣创斤郁僳拎哪亏挥毗衣酞乾卵五儿城枷街辆凤潦壕汛球驭巴她迹肖接椒几学宽带网络故障定位指导书目 录第1章 网络故障概述11.1 常见故障分类1第2章

4、上网速度慢故障分析32.1 用户客户端问题32.2 网络服务器(web站点或其他网络服务器)问题32.3 网络侧具体网络设备问题42.3.1 案例一:ma5100 adsl用户反馈上网速度始终很慢,ping 网关时延很大(32字节长度,延时达到50到60ms)。52.3.2 案例二:ma5200用户上网速度慢的问题一般定位方法62.4 网络结构问题72.4.1 带宽分析72.4.2 案例:不能点拨vod的问题处理方法102.4.3 atm网络问题102.4.4 以太网络142.4.5 ip 网络152.5 网络攻击问题172.5.1 网络攻击案例一:radium 8750 dhcp relay

5、功能失效分析172.5.2 检测网络攻击手段之一:lanswitch端口镜像的应用20第3章 用户端口掉线233.1 adsl用户掉线233.2 adsl用户打游戏“掉线”和“卡壳”问题26第4章 数据包丢失274.1 ping程序参数说明274.2 ping大包不通284.3 ping大包丢包294.4 ping小包丢包294.5 ping包时延过大304.6 案例:ma5200对ip分片报文重组故障引起丢包的案例分析30第5章 其他问题引起的网络故障335.1 nat问题335.1.1 案例一:nat应用层网关不支持某些协议引起的网络不通问题335.1.2 案例二:nat转换时使用ip p

6、ool中不同ip引起的问题345.1.3 案例三 nat对分片(fragmentation)ip报文的处理345.2 没有保存数据,设备重启引起部分用户数据丢失35附录一:通过acl过滤防范网络攻击36关键词:故障处理 宽带产品 网络摘 要:本文针对宽带网络中常见网络故障现象和故障定位方法进行了描述。本文侧重点是网络运行过程中的网络故障处理。缩略语清单:参考资料清单:第1章 网络故障概述1.1 常见故障分类针对目前网上问题和常见故障,根据故障现象等因素作了以下分类。1)上网速度慢* 用户客户端问题(含客户端机器问题和客户端组网问题);* 网络服务器问题(web/dns服务器问题);* 网络侧具

7、体网络设备问题;* 网络结构问题(网络侧组网、流量问题);* 带宽分析* atm网络* 以太网络* ip网络* 网络攻击问题2)用户端掉线* adsl用户掉线* vdsl用户掉线* ma 5200用户掉线* 以太端口协商问题3)数据包丢失* ping大包不通* ping大包丢包* ping小包丢包(超时网络速度慢引起,端口协商问题)4)部分业务中断案例* nat部分业务不支持* 没有保存数据,设备重启引起部分用户数据丢失。第2章 上网速度慢故障分析上网速度慢是一个比较复杂问题(从用户pc到他需要访问的目的网站,中间任何一个环节出现了问题都将出现网速慢的现象)。对于我们用户来说,最关心的是如何解

8、决这个问题;而对于设备供应商来说,主要需要定位问题是否由其自身的设备问题所引起还是由于网络其他原因所致。是以遇到这类问题时需要有一个定位问题的基本思路,这样能帮助我们在日常维护中有条不紊地找到问题的真实原因,我们大致可以从以下几个方面着手:(1)用户客户端问题(含客户端机器问题和客户端组网问题);(2)网络服务器问题(web/dns服务器问题);(3)网络侧具体网络设备问题;(4)网络结构问题(网络侧组网、流量问题);(5)网络攻击问题。2.1 用户客户端问题该类问题定位思路如下:1)若只是用户局域网(企业内部和网吧内部)内部个别机器出现上网速度慢的问题,主要从该问题机器本身找原因(机器硬件原

9、因、软件原因等等)。2)若整个局域网内所有机器均出现上网速度慢的问题,适当的时候可以断开局域网组网,将广域网入口处直接挂一台好的pc做上网测试。如果此时问题解决,则证明问题可能出在局域网内部组网上(代理服务器原因,内部路由器原因,内部交换机硬件原因等等。)3)情况中若用户广域网入口处接一台好的pc做上网测试也存在同样上网慢的问题,则需要排除用户侧的问题进一步向网络侧找原因。2.2 网络服务器(web站点或其他网络服务器)问题明确用户反应的上网速度慢的具体情况如何。1)出现以下情况者,可高度怀疑是个别网站的web服务器问题:1、打开某个网站的网页十分慢,或根本打不开,而打开其它网站网页(特别是一

10、些大型的门户网站)正常;2、从多处ping该web服务器的ip地址不通或丢包严重。2)出现下列故障,可高度怀疑是dns服务器问题:1、浏览器的状态条中长时间提示“正在连接站点xxx.”(其中xxx为连接的url名称);2、直接输入网站的ip地址,可迅速打开网页;3、可以ping dns服务器来确定到底是不是dns服务器的网路出现了问题。2.3 网络侧具体网络设备问题如果发生用户网速慢的问题被定位在网络侧(主要是局端的网络设备),要想验证此类问题比较理想的手段是在局端上行设备(从接入层设备到汇聚层设备)上依次分别直接挂接一个ftp服务器,然后再分别在用户端直接用计算机进行ftp下载来测试速度。这

11、样哪层设备出了设备上的硬件问题可以被进一步准确定位。为了更进一步证明不是接入层或汇聚层设备问题,也为了更进一步定位问题,可以在连接的上层设备上(一般是l3)连接一台ftp或http服务器,并在用户端进行下载或浏览测试,倘若正常,则说明接入层或汇聚层设备和上层设备都没问题,倘若在l3上就比较慢,则考虑下列可能出现故障的地方:1)接入层或汇聚层设备与上层连接的设备之间的链路问题,如果为以太网链路,可以考虑协商是否有问题;2)可以通过下列手段进一步确认问题到底出现在哪方面:1、在用户端ping接入层或汇聚层设备上行端口ip地址(可以变换ping的延迟和数据包尺寸),倘若不正常,可怀疑接入层或汇聚层设

12、备问题,这时候往往是产品局部问题,可以向产品厂家工程师寻求解决;2、倘若ping接入层或汇聚层上行端口ip地址正常,而ping接入层或汇聚层设备连接的上层设备接口ip地址有问题(不通或丢包严重),则可以初步断定是上层设备问题(过度拥塞或受到攻击)。业务需求紧急时立即恢复方法,可以尝试下列手段:1、在接入层或汇聚层连接的上层设备上(一般是l3)的接口进行复位(如果是以太网接口,确认双方配置的协商模式);2、倘若接入层或汇聚层设备连接的上层设备业务量不是很大,可以考虑复位整机;3、倘若接入层或汇聚层设备连接的上层设备业务量很大,可以考虑复位连接设备的单板。注意:在做上述任何一种操作前,一定保存配置

13、信息和告警信息。2.3.1 案例一:ma5100 adsl用户反馈上网速度始终很慢,ping 网关时延很大(32字节长度,延时达到50到60ms)。如果一个局点很多adsl用户反馈这个问题,建议检查用户的激活模板。如果配置成交织自动配置方式,或者交织延时模式为手工配置方式,但是交织深度很大,则修改激活模板,改为交织手工配置方式,交织深度为下行16dmt,上行8dmt(或者下行8dmt,上行8dmt)。具体如下:设置参数调整前参数值调整后参数值adsl operating mode all(g992.1,g992.2,t1.413)all(g992.1,g992.2,1.413)trellis

14、mode enableenablechannel mode interleavedinterleavedinterleaved delay modeautoconfigunit of interleaved delaydmtdmtmax down interleaved depth/delay816max up interleaved depth/delay88target down stream noise margin(db)1212min down stream noise margin(db)00target up stream noise margin(db)1212min up s

15、tream noise margin(db)00min down stream bit rate(kbps)3232max down stream bit rate(kbps)3,0003,000min up stream bit rate(kbps)3232max up stream bit rate(kbps)512512有的用户由于上行带宽太小也会导致上网速度慢,ping包时延大,甚至打不开网页,将用户的上行带宽设为512k或者640k可解决问题。另外,用户的终端问题也会导致上网速度慢,比如 病毒、modem故障等问题。2.3.2 案例二:ma5200用户上网速度慢的问题一般定位方法如果

16、ma5200用户可以上网,但是上网的速度达不到正常的速度,比如:点播vod不连贯、下载文件的速度很小等等,此时可能的原因有如下几种:1)ma5200对用户做car2)用户到目的网站之间存在其它网络瓶颈3)线路原因4)客户自身设备限制5)其它设备对用户做car6)工作模式协商不一致ma5200可以对用户进行流量控制,从而提供差异化的服务,当用户的上网速度比较慢时,我们首先应当确认ma5200为用户提供的car值。对ma5200下的用户,其car值可能在用户名中限制,也可能在域下限制,而且只要域下面的流控是打开的(默认流控),无论在用户属性中设置的car值是多少都以默认的流控为准。在实际网络的使用

17、中,用户的速度往往达不到理论的速率,这是正常的,因为从ma5200到用户这一段的带宽是独占的,可以达到10-100m,而从ma5200到目的网站之间要经过多级路径,这些路径的带宽是共享的而且是有限的,因此会随用户数的多少而有所不同,因此,在遇到上网速度慢的时候,我们还应当确认是否是网络中的其它瓶颈的问题。简单的判断方法可以访问一个近端的服务器,比如直接挂在ma5200下面的服务器,看看速度是否正常。对于ma5200通过光纤上行时,我们应当注意是否距离过长,这个我们可以从扣板的类型的判断,一般来说,扣板的类型为oxfiy,其中x=18,代表扣板接口数量,y=abefghi,依次代表最大传输距离为

18、:0.5km、2km、10km、15km、30km、50km、70km,同时ab代表是多模光纤,efghi代表单模光纤。光纤是单模还是多模,可以多颜色上来区分,黄色为单模光纤,橙色为多模光纤。如果传输的距离超过了自身类型所能达到的距离,会因为线路的质量而导致速率下降。同时,即使传输距离在允许的范围内,我们可以测量光纤接口的光功率是否正常来判断线路的质量。当与其它设备对接时,如果两端的设备允许不同的工作模模式,比如ma5200的fe口就有自协商、10m全双工、10m半双工、100m全双工、100m半双工五种工作模式,ge口也存在自协商、1000m全双工、1000m半双工等工作模式,当两端设备对接

19、的端口工作模式不一致时也会导致网络性能的急剧下降。我们可以查看两端端口的协商模式,一般来说,两端的端口只要工作于自协商状态就会协商允许的最高速率,例外时如果协商的速率太低,我们可以强制把端口都设置为更高速率,比如把fe口设置为100m全双工,把ge口设置为1000m全双工。如果ma5200上行还相联其它设备如87508850、ma5100等,因为这些设备也可以对用户或端口做流量限制,此时我们也应当了解这些设备对流量控制的设置情况。除了以上的原因外,客户自身的硬件也是一个值得关注的地方。不同的硬件可以达到的速度是有区别的,一个10m的网卡是如何也跑不出100m的速率的。如果出现点播vod时画面不

20、连续时,而且ma5200使用的是支持流控的ge板,并且对端设备也是支持流控的,我们可以通过以下的办法来解决:在全局模式下面执行flow ctrol time,值的大小从200开始向下调整,调整的标准为ping vod server 大小为20000的包,丢包率在2以下即可,经验值为60-70。2.4 网络结构问题2.4.1 带宽分析网络带宽瓶颈是影响上网速度主要原因之一。如下图所示,宽带城域网组网模型,网络带宽可能成为瓶颈,对于不同运营商有所不同。对于网通和中国电信internet出口不是瓶颈,对于广电和铁通等出口带宽有可能形成瓶颈。对是在骨干层、汇聚层、接入层是否形成瓶颈或某两台设备之间是否

21、形成带宽瓶颈,可以通过网管系统进行流量统计监控,如果带宽利用率超过了50就应该考虑扩容了。 图2-1 城域网组网示意图网络受到dos攻击也是引起上网速度变慢的一个主要原因,这是流量带宽被大量占用造成上网速度显著变慢甚至造成整网中断。对此问题最好通过网管系统对各端口流量进行实时监控。接入层(ma5100接入adsl)考虑到宽带应用与窄带的不同,宽带应用以ip应用为主,不面向连接,所以主要考虑的因素是流量和带宽的占用,但是由于adsl接入在链路层采用面向连接的atm技术,所以连接数量限制也是考虑的因素;与普通局域网不同的是宽带应用给用户限制了带宽和时长,这些都是计算设备负载能力和确定流量模型要考虑

22、的基本因素。设备和网络负载能力:连接数量:每个ma5100支持32k pvc,用户侧每个端口的pvc16条(一般每个用户只用一条pvc),网络侧每个光口支持vp16条,0到255任选;vc从32到1024。每个ma5100支持四框本地或远端的级连,如果全部采用adld板,支持的最大用户数是2176个。可见这是设备本身的极限容量。上行采用一个atm155m口,如果在线40%,每个用户可以分配的带宽约为155m /217840%)178k(不考虑atm承载的效率),基本可以满足上网需求,所以出口不是瓶颈。接入业务和流量带宽模型上面的计算是设备不考虑收敛比的设备极限能力,下面综合分析一下各种接入业务

23、的流量类型:a、专线用户,主要是网吧用户目前,a局adsl用户的开通一般采用ubr业务,端口限速,网吧一般为1.5m、4m、6m等,每个网吧30-60台计算机不等(主要业务包括上网和打游戏),粗略计算可以认为在高峰期(晚18:00-24:00)按平均40台有人上机计算(考虑网吧内部打游戏不占出口带宽,玩qq基本不占带宽,按照10台有上网流量),所以估算时可以用每个网吧10*0.1m=1m。例如一个5100下有5个网吧,那么占用带宽5m;其他的公司用户较少,而且其上网时间为白天,带宽利用率不高,可以不考虑。b、个人用户,通常采用ppp拨号接入。一般开通流量768k、1.5m、2m等。一般用户上网

24、浏览时平均带宽100k即够,即使考虑下载和游戏等应用,按照150k应足够。目前,一般计费采用包月限时制,同时上线用户平常高峰期(晚上)约40%,极限情况70%。所以这些用户的总的带宽可以按下面公式计算:1)同时上线用户比例:402)平均带宽:150k3)总带宽=(用户数同时上线用户比例平均带宽)c、vod应用的用户通常开通带宽高的用户只是下载文件时突发流量较大,但用户不会总在下载,单次下载的时间不会太长,所以一般不考虑下载等应用,但vod点播占用流量比较大,而且时间长,对网络负载有影响。主要从以下几个方面考虑:vod是流媒体应用的一种,目前主要有基于realplay和windows media

25、等文件开发方法,不同的媒体数据流速率不同,适用不同范围,如在广域网上的realplay流,可能只要400-480k就可以,但不很清晰,而且易掉线,可以做为上网应用的一种,暂不考虑。在城域网内部(运营商开通的)的vod服务器上实现的流媒体服务一般只要有1.5m左右,图像就可以比较流畅,能满足用户,这种应用比较普遍,主要制约在于服务器支持的媒体流的个数(成本很高),一般为100个以内。占用带宽可以这样计算:服务器支持的媒体流个数*1.5m例如50个流,占用75m带宽,但这个流量不会上到骨干网上,一般在汇聚层可以旁路掉。综合上面的因素,接入侧5100应不会是瓶颈,用户占用带宽计算方式如下:峰值总带宽

26、=(个人用户数*同时上线用户比例0.4*平均带宽0.15m)+专线网吧用户数*网吧平均带宽+服务器支持的媒体流个数*1.5m。2.4.2 案例:不能点拨vod的问题处理方法当用户反馈不能点播vod的时候,建议用户在距离最近的网站下载一个大文件(20m以上),观察可以达到的最快下载速度。如果此时用户下载速度很快,可以达到150k byte/s(2mbps)左右。则基本定位是vod服务器的问题。如果下载速度很慢,则考虑以下方面:a、ping 网关延时是不是太大?如果延时很大,超过60ms,建议检查内部网问题(如果是5100的adsl用户,建议检查交织深度设置。如果交织深度设置不合理,建议减小交织深

27、度。)b、看一看是不是有很多的广播报文或者未知单播报文。有的时候,pc终端软件问题也可能会导致vod不能点播或出现严重断帧现象,更换pc可解决问题。2.4.3 atm网络问题对于通过atm网络传输的网络中,上网速度慢主要可能的原因有传输过程中的误码或atm流控问题引起的。传输过程中有误码和光功率不匹配等原因,将会引起atm网络速度变慢。主要表现现象有,用户上网速度慢,用户端ping目的端ping大包不通、ping大包丢包或ping小包丢。1)光功率问题:如果在新建网络中光功率配合是一个主要问题,通过光功率计进行测量来确认是否符合要求。在运行过程中通过查看端口告警可以判断此类故障。可以参看各产品

28、相关资料来确定告警信息。2)atm流控问题:如果端到端pvc都设置成ubr模式则不存在此问题。当流量类型为cbr,rt-vbr和nrt-vbr时此种故障比较常见。表现出现象主要是用户上网速度慢,用户端ping目的端ping大包不通、ping大包丢包或ping小包丢。对于cbr业务将关注pcr差数设置。对于rt-vbr和nrt-vbr将关注pcr,scr,cdvt,mbs等参数设置。(参考各产品流控指导书)故障处理实例一:dslambas组网 图2-2 故障处理实例如图2-2所示,该组网是一个比较典型adsl通过atm网络(atm交换机或传输或裸光纤)接入isn 8850后认证上网。当前用户申告

29、上网速度慢。判断故障范围,基本定位故障可能因素。单个用户反映上网速度慢。新开通用户,检查atm及adsl端口流控参数配置是否合理,用户adsl线路参数是否正常等。用户终端问题:此问题比较复杂,可能因素有操作系统问题,拨号软件问题,感染病毒问题等等,通常将其他终端接入测试后正常,证明问题和设备无关即可。已经开通用户,运行一段时间后申告上网速度变慢。因此可能因素有:用户终端问题(这部分所占比例最大,一般不到终端用户很难排查出来)、用户adsl线路是否稳定(可通过查看adsl的训练参数获得此部分信息)、通过查看端口流量,确定用户是否受到dos攻击(终端直接通过使用sniffer等软件抓包来判断)。一

30、个或某几个局向上网速度慢。对于新开通局向首先查看流控参数设置是否合理。判断是否是由线路故障引起,线路引起故障主要有三种情况。通过裸光纤直连,查看端口上是否有atm的告警来确定联路是否正常。通过atm交换机连接除查看端口告警外还要查看atm交换机收敛比是否过大造成流量拥塞及atm交换机流控参数设置是否合理。通过sdh传输系统连接,传输设备与宽带设备之间传输设备与传输设备之间光口告警是否正常。带宽及dos攻击问题引起故障。通过长期对端口统计图能很好判断是否是因为带宽引起的故障。如果流量有规律缓慢增加,并且和下挂用户数成比例的增长则说明是正常流量,因该考虑扩容问题。如果流量在短时间内突然急速增加则有

31、可能为dos攻击所引起的,详细信息可以参照上面的介绍案例。整网上网速度慢。上行链路协商问题引起故障,通过查看告警和日志来确定上行链路是否稳定。上行链路带宽问题引起故障,通过端口带宽统计监控确定是判断正常流量引起故障或dos攻击引起的故障。整机设备存在性能瓶颈引起故障,通过查看同时在线用户数和产品规格比较来确定是否达到设备的容量上线。出口网络带宽和上行网络故障引起故障,一般此类问题可以通过在上行设备上挂接ftp服务器,然后在用户端进行下载测试,来定位是否为设备的因素。故障处理实例二:atm交换机lan组网如图:ma5100 开通lan接入业务,通过atm网络作企业互联。其中atm网络云图中为其他

32、厂商atm交换机。开通rt-vbr业务用户反馈vod点播速度很慢。首先确认用户vod点播使用的是udp方式还是tcp方式传输。对于tcp传输方式,确认用户带宽申请是否符合vod软件需求。如果满足需求,查看我司设备流控参数设置是否合理。若参数设置正确,通过两端ma 5100下设置ftp 服务器与客户端进行下载测试,测试下载带宽是否满足需求,如果测试通过,则检查vod系统是否存在问题。对于vod以udp方式传送和ftp下载没有达到标准作如下测试。vod近端测试:在vod server所在ma 5100上作测试pvc,该pvc在近端radium 8750上与vod server上的pvc作交换,进行

33、vod点播和ftp下载测试。a)若近端ftp测试正常,udp方式vod点播正常:通常是因为其他厂商设备问题引起。可检查atm网络其他厂商atm流控参数设置,如果不能肯定设置是否合理,则可以在其他厂商atm设备上作ubr流量类型设置,在两端ma 5100上作远端vod点播测试。b)若近端ftp测试正常,udp方式vod点播不正常:在此情况下检查vod软件设置,将vod发送mtu设置小于1500,最好不允许分片。更改此设置后在本地进行vod点播测试,本地测试正常后,再在两端ma 5100上进行vod点播测试。如果此时vod测试不成功,可以在atm网络上逐段作pvc环回测试,即在同一ma 5100上

34、接vod server和客户端,在atm网络上逐段环回来判断故障点。atm网络故障处理技巧atm网络故障排除依靠pvc逐段环回进行故障定位可以方便将故障点缩小,同时设备上提供atm告警及信元技术功能将为故障的定位提供有力支持。2.4.4 以太网络在本地网中,网络慢往往是广播风暴引起的,这时候可以查看网络中是否存在物理的环路(比如,有人不小心把交换机的两个端口用网线连接起来,整个网络上的交换机形成了环路,比如,交换机a连接交换机b,交换机b连接交换机c,交换机c又连接交换机a等),如果发现,消除环路一般可以解决问题。平时维护过程中,在网络的每台交换机上都启动生成树协议功能,这样可以避免环路发生。

35、广播网络广播风暴或冲突域过大引起上网速度慢。冲突域过大和广播风暴是影响以太网速度的主要因素之一,其检测办法是在其广播域或冲突域的某个以太端口上接入测试设备。可以是装有sniffer/netxray等软件的笔记本,也可以是一些网络专用仪器,如aglient advisor等。通过检测统计系统功能可以方便检测出网络是否有广播风暴存在及影响的大小。以太端口协商 以太端口协商出现不一致,是引起上网速度慢的另一个原因,下面是以太端口显示的信息。ethernet0 is up, line protocol is up hardware address is 00-e0-fc-04-14-bf auto-n

36、egotiation is enabled, full-duplex, 100mb/s description: quidway router, ethernet interface ip sending frames format is ethernet_ii the maximum transmission unit is 1500 5 minutes input rate 41413.66 bytes/sec, 132.53 packets/se 5 minutes output rate 226645.20 bytes/sec, 192.15 packets/ input queue

37、:(size/max/drops) 0/1000/0 queueing strategy: fifo output queue :(size/max/drops) 0/75/0 83818888 packets input, 1246105516 bytes, 0 no buffers 110401210 packets output, 2378652212 bytes, 0 no buffers 0 input errors, 0 crc, 0 frame errors 0 overrunners, 0 aborted sequences, 0 input no buffers通过显示出的设

38、置和协商信息出的信息可以判断两端是否一致。如协商出速率和全双工或半双工等参数。同时还可以产看出是否产生crc错误等信息。ge流控1. 参考案例:ma5200ge板流控问题导致vod udp点拨故障。vod server通过fe下挂在radium 8750下,ma 5200通过ge和radium 8750直接相连。ma5200下用户通过tcp或udp协议进行点播可以正常使用;vod系统进行扩容后通过ge接口接到radium 8750上。 当通过udp方式时不能正常点播出现只有声音没有图象或画面延迟很慢等现象,但tcp点播方式可以正常使用。通过故障现象及结合ma 5200 ge单板性能分析得出结论

39、为ma 5200单板ge流控问题引起上述故障。ma 5200下tcp方式点播正常udp不能正常使用,udp协议与tcp协议区别在于:tcp协议时面向连接传输协议,且有流控保证机制,一旦传输速率过大会自动调节传输的速率;而udp协议恰恰没有这些功能。因vod突发流量较大,所以当采用udp方式点播时,因ma 5200 ge处理性能问题造成数据包丢失,同时如果ma 5200与8750之际没有进行ge流控协商的话则没有办法保证数据包在突发传输中的可靠性。tcp方式通过其慢启动等流控特性可以自身调节流量速率,而udp没有此种机制所以造成了上述现象发生,解决方法为在ma 5200与8750之间设置进行ge

40、流控。2.4.5 ip 网络我们按照范围的不同对ip网络中上网慢的问题分类:1、单个用户上网慢(一台设备下的单个用户);2、整台设备下的用户上网慢;3、一批设备下的用户上网慢;4、整个城域网都慢。第四个问题一般是出口问题,可以通过访问内部网站来判断,如果访问内部网站非常快,而访问出城域网的网站很慢,则肯定是出口问题,可以查看出口链路是否故障,路由是否丢失等,在这里不进行详细讨论。针对单个用户上网慢的问题,我们可以从下列几个方面入手:1、用户计算机问题,可以查看用户计算机的网络属性设置是否正确,并确定硬件配置是否跟实际符合等;2、查看用户连接到设备的链路是否有问题(对于adsl链路,查看衰减是否

41、正常,对于以太网链路,查看协商方式等);3、可以在用户计算机上ping网关,看延迟是否正常(如果不正常,可以改变ping的延迟和数据包长度);4、最后查看是否受到攻击,可以通过用户计算机的网卡指示灯查看,倘若网卡受到攻击(接收到大量的数据),则指示灯闪烁频率将非常高。针对一台设备下的用户上网慢问题,我们可以从下列方面入手:1、首先查看该设备的上行链路是否通畅,可以在设备上ping大量的大包来查看响应时间,如果大量丢包或响应时间太慢,则可能是链路问题,可以针对不同的链路类型进行进一步测试,比如是光纤,则测试其误码率,ge或fe链路,则查看其协商方式等;2、倘若上行链路通畅,则可以怀疑设备是否有问

42、题,可以在设备上连接一台计算机来模拟服务器,然后下载或浏览该服务器上的数据,看是否正常,倘若正常,则可以怀疑是否是上行接口板有问题,如果备件足够,可以更换上行单板;3、如果上述检查都正常,则可怀疑是否是上层设备问题,这时候需要仔细检查上层设备,包括链路状况,路由状况等。针对一批设备不能上网的问题,一般是汇聚这些设备的上层设备问题,可以查看上层设备的告警信息等来定位。mtu配置问题引起故障故障现象为:某些网页不能打开,ping大于1500bytes ip包ping不通。mtu的设置问题通常会出现在pppoe的虚接口,ipoa,pos ppp等接口上,由于对接接口mtu值不一致,打开网页时显示很慢

43、且有些图片不能打开,这是因为,通常http协议传送图片时数据报文不允许分片,造成丢包所以表现为网页打开很慢。通常通过检查两端设备设置,此类问题可以规避。1. 参考案例:mtu值设置问题导致网络故障现象描述:某局有ma5100与cisco atm交换机对接,走adsl业务,rtu采用ipoa方式上网,对端atm交换机通过路由器将路由指向169网,对端路由器做为网关,调试过程中发现如下问题。调试通过后发现上网速度特别慢,几乎不能打开图片,连接网站经常超时。从网关向rtu ping 数据包到10000都不会超时,但从rtu向网关ping 数据包到1800就开始超时。 原因分析: 由于我司设备目前mt

44、u缺省值为1500,故在开局过程中一定要注意和局方协调好mtu值,以避免类似事情发生。 处理过程:1、开始先进行数据方面的查询,发现没有问题;2、怀疑在pvc para中设置为交织方式有关,改为快速方式后,ping网关速度由40ms提高到8ms,但网速仍然很慢;3、怀疑局方将业务类型做成cbr有关,于是双方统一成ubr业务,但网速仍不见提高;4、后发现从网关向rtu ping 数据包到10000都不会超时,但从rtu向网关ping 数据包到1800就开始超时,观察发现以太网mtu值缺省应为1500,而路由器mtu值为4740,将mtu值改为1500后问题解决,在169网站上用ie下载文件速度可

45、以达到40k bytes。2.5 网络攻击问题旨在给出针对网络出现的异常情况进行分析判断和处理的过程。2.5.1 网络攻击案例一:radium 8750 dhcp relay功能失效分析手段:专业测试仪或sniffer软件的使用;端口镜像捕获报文某数据局radium 8750通过vs汇聚adsl pvc。部分adsl用户通过静态设置ip地址上网,另外一部分用户通过dhcp动态获取ip地址上网。 radium 8750下挂部分adsl用户故障发生间断性的中断。静态用户及已经获取ip地址的用户都能够正常上网,但是新增加的部分通过dhcp动态获得ip地址的用户,无法获取ip不能正常上网。通过在fou

46、ndry bigiron 8000 上对与radium 8750相连接的ge端口做镜像,在agilent advisor上对经过radium 8750的流量进行线速的捕获(可以保证不丢失任何流量数据)。 在测试仪器中监控捕获流量报文,故障发生时只有40m/s的流量,这样的流量并不会对radium 8750转发造成影响,但对radium 8750响应dhcp relay报文造成了冲击,以下是对问题的分析。在故障发生时捕获到了很多从a.b.c.d到e.f.g.h的65008byte的udp报文。(这里用字母代替了ip地址,其中a.b.c.d为外部ip地址,e.f.g.h为用户网段地址)通过利用ad

47、visor测试仪器捕获的流量转换成sniffer软件能识别的文件格式后对此报文进行分析和流量计算可以看出此报文是典型的internet攻击报文,下图为捕获报文的部分解码显示。1、从报文的长度看,他是一个近64k byte的udp报文,udp传输是一种不可靠的网络传输,一般情况下网络上不可能有如此大的udp报文存在。2、从报文的端口号和ip地址来判断,报文的源地址是外部网络的一台主机,目的地址是adsl用户的一个网段下的主机地址。源udp端口号是1747,目的udp端口号是139。查询rfc 1340,从中可以看出这个报文是把一个adsl用户的pc作为server 请求netbios-ssn服务

48、,通常pc机不会启动此项服务的。3、从网络流量的方向看,发现没有从e.f.g.h到a.b.c.d的任何数据报文。如果此ip地址在线,对此e.f.g.h的主机应该回应一个icmp端口不可达报文或者是响应此服务的报文。因此判定此ip地址用户并不在线。4.从报文的发送速率和数量上看也是很大的,因为是64k的ip报文所以在以太网上传送时会进行ip分片,造成报文的个数较多。根据捕获的报文可以计算出攻击报文的流量为778 pps(packet peer second)和8.84mb/s。 此种类的攻击报文对目前radium 8750现有版本造成故障分析。该局使用的radium 8750 为v1r002 1

49、019sp7版本。对数据报文的处理机制为,在目的地址存在直连路由时查询rfm板的arp表项找到后进行数据的转发,上述过程是由硬件逻辑完成的可以达到端口线速,因此不会产生瓶颈。但如果没有命中arp表项,按照以太网协议处理的流程,将进行arp查询,此项功能是由rfm板cpu运行的软件来完成的。在完全能够保证正常数据流量的应用前提下,为了保证cpu资源以及防止死机,由硬件逻辑对送往cpu软件的数据报文的数量进行了限制(50pps)。当用户端某些ip地址不在线时,同时网络其他主机向这个ip地址发送大流量(指报文数量上)数据报文,此报文将由硬件送往软件进行处理。在cpu上运行的软件发送arp reque

50、st报文,因为该ip地址主机不在线,所以不会有主机回应 arp reply报文,所以arp表项不会被更新。因此下一个无效报文还会进行此项操作。因为硬件逻辑发往cpu的发送队列是有限的,大量的无效报文将发送队列占满(发生攻击时此类报文的流量为778pps),导致正常的dhcp relay报文无法送到cpu上进行处理,造成不能正常获得ip地址。通过对上述攻击报文的分析和radium 8750该版本的处理流程分析,可以得出结论:故障原因为遭受网络攻击引起的。而radium 8750 的上层设备由于有路由指向radium 8750, 把所有数据报直接转发radium 8750,所有上层设备并未受到影响

51、。目前将radium 8750升级到v100r002b01d022可以解决上述问题,该版本对dhcp和arp报文的处理给予了高的优先级,所以dhcp报文会优先处理,当队列满时将其他报文丢弃。目前v100版本仍然存在一些安全的隐患,不能完全解决,下面给出了一些建议和规避措施,解决安全问题的根本是将v1升级为v5版本。1.在上层设备上做acl防止外部主机访问radium 8750上的接口地址,减少对radium 8750冲击的可能。2.在上层设备上做acl防止外部主机访问dhcp服务器,避免外部对dhcp server的攻击。3.目前对于来自adsl内部的攻击目前版本没有有效的防范手段。点评:该案

52、例的处理过程中,我们利用了lanswitch的端口镜像功能成功地在不中断业务的情况下准确地捕获了网络攻击报文。以下就常见lanswitch端口镜像应用给以指导。2.5.2 检测网络攻击手段之一:lanswitch端口镜像的应用利用镜像端口可以将被镜像端口上全部的数据流镜像到监控端口上,这样在对于一个端口的业务无法中断时想查看此端口上的报文是十分有用的。举个简单的例子来说,a端口如果正在使用,而且无法把a端口的业务中断,我们又想查看a端口上的报文,我们可以使用镜像端口,把a镜像到b(a称为被镜像端口,b称为镜像端口或监控端口),这样所有发给a的报文都会复制一分到b端口。1)s3026/s2016

53、/s2008镜像端口的应用对于s3026/s2016/s2008的端口镜像功能配置可以通过以下命令实现:s3026(config)#monitor ports_list observing-port port_num命令中的monitor后面的ports_list是被镜像的端口,observing-port后面的port_num是监控端口。注意:监控端口不能是vlan trunk端口,也不能参加端口聚合。2)s3526镜像端口的应用s3526上的端口镜像是通过基于流分类的访问控制列表来实现的。在s3526上做端口镜像时要做以下配置:配置一个监控端口具体命令是:s3526(config)#mon

54、itor-port port_num通过此命令将参数port_num中所指的端口定为监控端口。注意:监控端口不能是vlan trunk端口,也不能参加端口聚合。配置需要镜像的数据流具体命令是:s3526(config)#rule-mapl3rule_namesourceipsouce-wildcard-maskdestinationipdestination-wildcard-mask或者s3526(config)#rule-mapl2rule_nameingressinport-num|in-mac|anyegressoutport-num|out-mac|any通过此命令配置了需要镜像的数

55、据流。配置镜像动作具体命令是:s3526(config)#flow-action action_name monitor-port通过此命令定义了一个镜像动作,其中monitor-port是一个关键字,做镜像端口时必须选择此关键字。设置一个acl具体命令是:s3526(config)#acl acl_name rule_name action_name通过此命令定义了一个规则,其内容是将rule_name定义的数据流镜像到监控端口上。启用acl具体命令是:-300s3526(config)#access-group acl_name通过此命令就启用了规则3)s3025镜像端口的应用s3025支

56、持端口镜像的功能,在configure port mirroring页面中,我们可以配置s3025的端口镜像。下面讲一下各个参数的含义。source port:源端口,即镜像端口。destination port:目的端口,即监控端口。同样,监控端口不能是一个trunk端口,也不能参加端口聚合。在做端口镜像时,我们要注意,源端口的速率一定不能高于目的端口的速率。而且目的端口不能参加端口聚合。通过端口镜像的设置,我们在目的端口上连上一台设备,就可以监控经过源端口的所有数据报文。第3章 用户端口掉线上网掉线与端口掉线区别,某些用户申告用户上网掉线,首先确认对“用户掉线”是所谓某些游戏网站掉线还是用户adsl/vdsl端口掉线。这里讨论的是用户端口掉线。3.1 adsl用户掉线1. 不能上网不能打电话此类故障一般为线路故障,定义为线路问题。此类故障应报112测量台测量,先排除线路故障,使电话可正常使用后,再次检查能否上网。2. 能打电话不能上网此类为比较典型的故障。故障原因与宽带网络层次结构中的所有设备或环节都可能有关系,包括ma5100的上行atm节点、宽带接入服务器、adsl业务中的局端ma5100的adsl端口、rtu、用户计算机设备、线

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论