MTBF和MTTR简介_第1页
MTBF和MTTR简介_第2页
MTBF和MTTR简介_第3页
MTBF和MTTR简介_第4页
MTBF和MTTR简介_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、MTB喻介随着伺服器的广泛应用,对伺服器的可靠性提出了更高的要求。所谓“可靠性”,就是产品在规定条件下和规定时间内完成规定功能的能力;反之,产品或其一部分不能或将不能完成规定的功能是出故障。概括地说,产品故障少的就是可靠性高,产品的故障总数与寿命单位总数之比叫“故障率”(Failurerate),常用入表示。例如正在运行中的100只硬碟,一年之内出了2次故障,则每个硬碟的故障率为0.02次/年。当产品的寿命服从指数分布时,其故障率的倒数就叫做平均故障间隔时间(MeanTimeBetweenFailures),简称MTBF即:MTBF=1/入笔者最近看到一款可用于伺服器的WDCaviarRE27

2、200RPM硬碟,MTBF高达120万小时,保修5年。120万小时约为137年,并不是说该种硬碟每只均能工作137年不出故障。由MTBF=1/入可知入=1/MTBF=1/137年,即该硬碟的平均年故障率约为0.7%,一年内,平均1000只硬碟有7只会出故障。上图所示为著名的“浴盆”曲线,左边斜线部分为早期故障率,其故障率一般较高且随着时间推移很快下降。曲线中部为使用寿命期,其故障率一般很低且基本固定。最右部为耗损期,失效率急速升高。电子产品制造商一般通过测试、老炼、筛选等手段将早期故障尽量剔除,然后提供给客户使用。当使用寿命期将尽,产品也即将进入故障高发期,需要报废或更新换代了。温度与器件的寿

3、命明白了MTB林口“浴盆”曲线的基本概念,我们对评估产品的使用寿命有了一定的掌握。在合适工作条件下器件使用寿命期内的故障率很低。广大电子爱好者都知道电子元器件的寿命,与工作温度是有密切关系的。以电脑主板上常用的也常出故障的电解电容器为例,其寿命会受到温度的影响。因此,应尽可能使电容器在较低的温度之下工作,如果电容器的实际工作温度超过了其规格范围,不仅其寿命会缩短,而且电容器会受到严重的损毁(例如电解液泄漏)。因此,在分析电脑主板上电容器的工作温度时,不仅要考虑机箱内整体环境温度及电容器自身的发热,还要考虑机箱内其他发热元件的热辐射(特别是CPU稳压器、电源供应器等)。根据测试,通常2.0G的C

4、PUW耗功率达56.7W,生成温度达70C;而当频率提高至3.0G时,CPU温度往往超过90C。在这样的高温烘烤下,主板上的电容器寿命会发生什么变化?为简化起见,不考虑纹波、频率、ES吟因素,电容器的估计寿命可用下述公式表示:kF£二x2寸其中,L0表示最高工作温度下的寿命,Tmax表示最高工作温度,Ta表示实际环境温度。由此可见,如果环境温度每升高10C,电容器寿命将下降一倍!由上图右面的曲线可明显看出,随着电容器工作环境温度的上升,其有效寿命急剧缩短。其中有效寿命(Usefullife)是指该种电容器达到给定故障率的时间。温度与电脑的可靠性电源供应器对电脑来说,重要性不言而喻。影

5、响电源供应器寿命的因素很多,如负载大小、振动和周边的环境温度等。其中,环境温度很重要,所以选择合适的风扇,排放出由电源供应器内部的热量非常关键。电源供应器的MTBF在很大程度上是由其内部的电解电容器MTBF直所决定的。因随着温度的上升,电容器的寿命急剧缩短,所以电源供应器的工作温度如能得到降低,其寿命就会更长一些。当评价电源供应器所标称寿命时,电源供应器是否运行在额定的满负载状况是另一重要考虑因素。如果电源供应器装有合适的散热器而散热风扇风量足够大,在低于满负载的情况下连续工作,电源供应器就能有更长的寿命。一般电脑电源供应器寿命按照3-5年计算元件的可能失效周期,MTBFB80,000-100

6、,000小时之间。不同的电源供应器厂家,其产品设计、用料也往往差别很大,工作寿命自然不同。在DIY1U伺服器时,优质的电源供应器选择不多,台湾新巨Zippy是一个不错的选择。中国内地一些名牌伺服器例如著名的曙光也采用该品牌电源供应器,在一些DIY市场可购到的P1H-6400P400W电源供应器,随着双核心CPUB出,400W电源供应器可能不够用,推介使用H1H-6507P、M1G-6500P500W如上图所示,HG2-6400P采用了主动PFG虽然增加了成本,但具有更高的效率,能够在90V-260V的任何电压环境下稳定工作。该电源供应器大量部采用稳定性和寿命是普通电容器的3倍以上的日本电容器。

7、在一些劣质的电源供应器产品中,EMI电路往往是重点的省略对象。从这款HG2-6400P的EMI电路上可以看出,用料十分充足,符合电磁兼容标准,稳定的表现当然是情理之中。除电源供应器外,硬碟的温度也不可小视。现在的硬碟动不动就7200rpm-15000rpm,想想看硬碟内的马达每天转24小时,平均工作温度在四、五十度的高热是免不了。笔者曾测量过一台散热不够好的伺服器硬碟,温度超过40Co对硬碟来说,如果机壳内部的温度降低了,这将意味着减少主轴马达液态轴承的轴承润滑剂以及磁碟润滑剂的蒸发,这将大大降低其损坏的机率。据Seagate公司公开的某型号硬碟数据,在34c时的MTBF为150,000小时,

8、但在25c时,会达到230,000小时。风扇与散热效果为降低硬碟温度,可增加散热风扇。市面上是有卖硬碟专用的散热模组,有的则是一颗风扇再加上一块硬碟大小的铝制散热片,其实没有必要这么复杂。笔者采用北京生产千际牌“暴风雪”十风机1U机箱1U进行过散热改造,使用Sanyo1.5万转4cm电流0.55A风量20.83CFM及新推出9CRA0412J5021.58万转4x5.6CM风量31.8CFM放在硬碟前、硬碟后增加散热,测量其温度约只有28C,已经很接近室温了O笔者也将广州五舟SF5100双至强的准机箱将原装台达牌2700转小风鼓作CPUt热HI1更换成山洋(Sanyo)9BAM12GA2580

9、0转的小风鼓后,CPM占有率100%的情一二'况下,温度由66c下降至ij55C!该风扇的使用寿命很高,在60c环境下工作40,000小时,残存率仍有90%要知道Intel原装CPU风扇,都大部份采用Sanyo的产品。如采用小型风鼓(BLOWER)风量增加,散热效果更好。但是,增加风扇或风鼓一定要考虑振动的问题。要知道风扇较高的转速才能达到一定的风量,但如采用较劣质的风扇,转速虽高,但寿命短且振动厉害,对硬碟寿命会带来不利影响,安装硬碟时加吸震软垫、机箱机壳底部的吸震片都有一定效用。优质的电源供应器当然要搭配高品质的风扇,如HG2-6400P选用白是NM售W珠轴承风扇,比传统油封轴承风

10、扇寿命高出2倍。这款电源供应器还加入了风扇转速控制线路,可以根据电源内部的温度调节风扇转速,在延长使用寿命的同时,也更好的控制了风扇噪音和震动。灰尘对伺服器的影响如何保养和维护好伺服器,最大限度的延长其使用寿命,是大家都非常关心的话题。灰尘对伺服器构成的威胁不容忽视。按笔者的电子产品维修经验,在灰尘比较大的环境中工作,由于PCB吸附灰尘,而灰尘的沉积会影响电子元器件的热量散发,这将导致元件温度上升,进而出现热稳定性下降甚至产生漏电,严重时导致烧毁。另外,灰尘也会吸收水分,腐蚀电子线路,造成一些莫名其妙的短路问题。所以灰尘体积虽小,但对伺服器的危害不可低估。尽管伺服器机房有相对较好的环境,但灰尘

11、仍会不断累积。所以,有必要定期进行清理,可使用上图美国生产CRC牌防尘喷剂、也可用有防静电(ESD功能的小毛刷小心进行清扫,或使用吹风球清洁灰尘,减少出故障的机率。在清理机箱内部的灰尘时,切记断开电源,小心操作,特别是面板进风口和电源(排风口)的附近,以及板卡的插接部位灰尘最多。清理电源里的灰尘最好将电源供应器拆下,用防尘喷剂、吹气球仔细清扫干净后再装回。高可靠性与可用性可靠性是通信电源设备的首要指标,通信的不间断性首先要由通信电源予以保证。1 .可靠性(R)可靠性反映的是设备综合技术水平,包括器件、材料、电路技术、热设计、电磁兼容(EMC设计、制造工艺、质量控制等。我国在通信局站电源系统总技

12、术要求中提出的可靠性指标是,在系统运行期间,平均无故障工作时间MTB应不小于5乂104(h)o显然,在今天,该要求还应该进一步提高,因此引出了可用性的概念。可用性与可靠性的不同之处在于:可靠性R是指设备在规定时间内不出故障的概率,它的表达式为:R=e-11=e-t/MTBF(1)式(1)中,t是指定的工作时间(单位为小时h),在这里是5年,即:1=5X365X24=43800(h)(2)a是故障率,它是平均无故障时间MTBF勺倒数,MTBF最小值时:MTBF=5X104(h)=50000(h)(3)代入式(1)后可靠性为:R=e-43800/5000=e-0.876=0,416(4)以上结果表

13、明,MTB儆规定值的最小值时,系统可靠性非常低,所以通信电源的平均无故障工作时间是衡量质量的非常重要的指标。2 .可用性(A)可用性A是指在规定时间内,设备有效工作时间的百分比,其表达式为:A=MTBF/(MTBF+MTTR(5)MTTR中是平均维修时间,如果MTTR勺取值趋于0,那末A的取值趋于1,所以缩短维修时间是提高可用性的一个主要途径。一般可用性也用时间表示,不同的是常常利用电源的允许故障时间t来表示,其表达是为:t=指定的工作时间段x(1-A)(6)比如在这个例子中设MTTR=4(h),由式(3)得A=0.99992,于是t=5X365X24X(1-0.99992)=3.504(h)即当平均维修时间MTTF4h时,5年中机器不可用的时间为3.5h时,缩短维修时间对系统来说非常重要。3 .提高可用性的途径(1)缩短维修时间MTTR为了实现这个要求,厂商一般都把通信电源做成模块结构。(2)采取冗余并联措施,如果单台电源的可靠性只有0.416,则2台电源冗余并联后总的可靠性就是0.659(R2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论