服务器故障处理方法_第1页
服务器故障处理方法_第2页
服务器故障处理方法_第3页
服务器故障处理方法_第4页
服务器故障处理方法_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

服务器故障处理方法服务器故障处理方法探讨作者:深圳市环球数码科技有限公司

陈武亭从2002年上海国内第一套数字放映设备投入商业使用以来,国内已经有超过35000套数字放映设备在影院使用。十几年来业内同仁写了很多数字放映设备使用维护方面的文章,却很少有讨论服务器故障处理方法的,本文将以GDC服务器为例,抛砖引玉,与广大业内同仁共同探讨数字电影服务器故障处理方法。声画不流畅、放映中途停止是影片放映中出现比较多的故障现象,放映机及还音系统因素导致的故障不在本文讨论之列,本文仅探讨服务器因素导致的此类故障及其检查方法,下面我们先了解一下数字电影服务器的工作原理和流程。数字电影服务器的放映管理系统(SMS)在安全管理器的监管下将存储在存储系统中的加密内容(DCP)提取到媒体处理系统,进行解密、解码等处理,产生无压缩的重建图像、声音和字幕,并输出至数字放映机和声频处理器而实现电影的放映。服务器故障处理方法全文共12页,当前为第1页。影片放映时,数字电影服务器是在数据的提供、传输和处理的整个过程中依次读取、传送和处理一帧帧图像和音频数据的。在此过程中,服务器的硬盘和阵列的性能、数据传输的通道、媒体模块和CPU的温度以及所存储的内容数据的完整性,都有可能导致放映不流畅或中途停止。服务器故障处理方法全文共12页,当前为第1页。就以处理数据量最大的视频来说,服务器是依次从存储系统中读取图像数据,并将数据传送给媒体模块进行处理。在这个过程中如果某一帧图像数据出现错误,服务器会花费更多的时间尝试纠错,当超过一定时间时,服务器将放弃此帧数据,进行后续帧的数据读取和处理。一部普通2D影片有十几万帧的图像数据,只要不是连续的多帧数据出现问题,我们从影片放映的效果上是感觉不到问题的,只有连续的帧在数据处理时出现问题时,才会看到放映不流畅的现象;如果问题严重时,则会出现放映中途停止或死机。首先我们从节目源开始讨论,DCP打包前出现的问题不在本文讨论范围内,因此通常需要注意的是服务器内所存储内容数据的完整性。此类问题一般为DCP载入服务器过程中产生,现象为服务器只在放映某部影片时出现异常,放映其他影片正常,且出现问题时均在同一时间点,那极大可能是存储系统中的DCP数据有问题,此时只需对DCP进行完整性验证即可确认。服务器故障处理方法全文共12页,当前为第2页。如果可以排除内容数据完整性问题,且故障出现随机,则应考虑是否因为服务器的RAID降级或硬盘性能不佳所导致的故障。造成RAID降级的因素有很多,数字电影服务器均采用RAID5技术保证存储系统的容错性与可靠性,具有数据安全、读写速度快、空间利用率高等优点;但不足之处是如果1个磁盘出现故障以后,整个系统的性能将大大降低,在修复完成前出现放映不流畅或中途停止的几率大大增加。因此当数字电影服务器的RAID存储系统出现故障时应尽快恢复,避免因存储系统的性能降低而出现放映故障。服务器故障处理方法全文共12页,当前为第2页。服务器出现RAID降级等问题时,开机都会有信息警示,只是现实中有相当一部分放映员对此视若无睹,直到放映出现异常了,才去查看处理。及早地处理,不仅可以避免放映事故,还可降低硬盘硬件损坏更换的几率。图一为GDC服务器开机时报告的RAID警示信息,见到此警示需要及时进行查看和修复服务器阵列。我们也可以通过菜单查看服务器的RAID状态,比如GDC服务器可以直接在控制面板中查看,例如图二中显示的RAID状态为降级(Degrade)。服务器故障处理方法全文共12页,当前为第3页。

图一服务器故障处理方法全文共12页,当前为第3页。

图二接下来我们再讨论硬盘性能不佳或损坏的问题。硬盘在环境温度为5℃-60℃的设计使用寿命为5年,实际上其使用寿命一般低于5年。而且随着开机时间的增加(与每天使用硬盘的时间有关)、硬盘内部温度的升高(与硬盘外部的热负荷以及硬盘自身产生的热量有关),硬盘的年故障率会有所提高。有研究表明当硬盘外壳的温度由30oC(接近室温)上升至70oC时,年故障率上升至约3.4倍(由0.21%上升至0.71%)。服务器故障处理方法全文共12页,当前为第4页。除此之外,异常地中断磁盘的读写、物理撞击和剧烈振动等因素,也都可能导致硬盘性能降低或损坏,严重的硬盘错误甚至可能导致服务器无法开启。因此,严格地遵循数字放映设备操作使用规范操作使用设备是确保设备正常运行的重要条件。服务器故障处理方法全文共12页,当前为第4页。数字电影服务器都会提供硬盘读写性能检测的功能,例如GDC服务器,可以进入控制面板(Adminpanel)——存储系统管理(StorageSystemManagement)——存储效率(Storageperformance)(见图三和图四)进行硬盘和阵列的读写性能测试,从而判断其性能是否可以满足影片放映的需求。

图三服务器故障处理方法全文共12页,当前为第5页。

图四服务器故障处理方法全文共12页,当前为第5页。在打开的存储效率(Storageperformance)界面中选择需要检查的项目进行读写性能检测。图五为GDCSX2000系列服务器的截图,截图中选项/dev/md0为整个RAID的读写性能测试功能菜单,选项/dev/sda(b/c/d)为单个硬盘的读写性能测试功能菜单,其中sda为服务器系统硬盘,sdb、sdc和sdd为数据磁盘。

图五服务器故障处理方法全文共12页,当前为第6页。图六为GDCSX3000服务器的截图,此型号服务器将外置存储模块加载为一个磁盘的形式进行使用,只能对整个外置存储模块进行检测,选项/dev/sdb为存储模块读写性能测试的功能菜单。单个数据硬盘的检测由外置存储模块自行进行,通过硬盘指示灯状态进行辨别(见表一)。服务器故障处理方法全文共12页,当前为第6页。

图六

表一服务器故障处理方法全文共12页,当前为第7页。单个磁盘的读取速度与服务器所使用的硬盘品牌、系列有关,数值不一而足,但三个数据盘必须使用同品牌同型号的硬盘,例如图五中数据盘使用的是Hitachi的型号为HUA7230的硬盘,而系统盘使用的是WDC的型号为WD5000AAKX的硬盘。就数字电影服务器上常用的日立企业级硬盘来说,其读取速度一般在80MB/秒以上(见图七中的标注线)。服务器故障处理方法全文共12页,当前为第7页。

图七在服务器投入使用时,进行读写性能检测并记录结果,可以为今后的故障判断提供参考。在进行读写性能检测时,需要注意三个数据硬盘间的读取速度不能相差太大,我一般建议读取速度最低的硬盘其数值与另两块硬盘读取速度数值相差超过20MB/秒时即考虑更换。正常情况下RAID的读取速度为单个磁盘读取速度的两倍左右。如阵列有降级或重建,RAID的读取速度会降低,此时放映影片极易出现声画不流畅之类的异常,因此放映时应避免内容载入、删除等操作,降低出现放映异常的风险。服务器故障处理方法全文共12页,当前为第8页。数字电影服务器出现阵列降级时一般会进行阵列的自动修复,服务器是否正在阵列修复可以通过查看数据磁盘状态指示灯状态(红灯不停闪烁)或通过菜单查看相关信息进行判断。图八中的阵列状态信息显示即为服务器正在进行阵列的重建,在修复完成前不要关闭服务器。服务器故障处理方法全文共12页,当前为第8页。

图八假如服务器无法进行阵列的自动修复,则可以进入控制面板(Adminpanel)——存储系统管理(StorageSystemManagement)——将硬盘加入冗余存储阵列(AdddisktoRAIDarray)进行手动修复。在手动修复前最好进行磁盘读写性能的检测,对检测出性能异常的硬盘应将其移出阵列,进行更换。外置存储模块无需此类操作,通过硬盘状态指示灯判断后直接更换硬盘即可。服务器故障处理方法全文共12页,当前为第9页。前面我们介绍了内容提供环节中的内容数据完整性的验证、硬盘和阵列的性能检测,这也是数字电影服务器出现故障最多的环节。例如服务器播放影片时放映中断并报告错误提示"Errordetectedduringplayback",根据我们统计的数据看该故障80%是由于硬盘故障导致,10%由于重建阵列(Rebuildraid)导致,其他原因只占10%。接下来我们讨论在数据传输和数据处理异常所导致的放映不流畅或中途停止,这些异常主要体现在数据传输通道不畅、媒体模块和CPU工作异常方面。服务器故障处理方法全文共12页,当前为第9页。目前我们所遇到的CPU工作异常都是因为温度过高,运行不稳定造成的数据处理延滞,其形成原因无非是散热不良造成,由主板性能不稳定导致的故障非常少见。而数字电影服务器一般都未提供CPU温度的直接查询,只能通过SNMP获取温度警报的方式进行监控,发现CPU温度偏高及时解决散热问题即可。CPU工作异常和数据传输通道不畅造成的数据传输异常,影院的放映员是无法直接获取信息进行判断的,虽然服务器的日志对此会有较为详细的记录,但只有厂商的技术人员才能从中获取有用信息,对于影院的放映员来说,实际工作中可行的通常做法是根据经验判断后进行交换测试来确定故障具体所在。服务器故障处理方法全文共12页,当前为第10页。GDCSX2000系列服务器为用户提供了一个简单辨别硬盘与主板之间数据传输异常的方法,进入控制面板(Adminpanel)——存储系统管理(StorageSystemManagement)——硬盘信息(HardDiskinformation),选择硬盘检查其S.M.A.R.T.属性值。服务器会生成检测报告,如果报告中199项的奇偶校验错误率值为非零,且此数值持续增加,表明硬盘与主板之间的数据传输异常。这可能是硬盘与硬盘机架接触不良或硬盘机架和主板之间的SATA线连接不良造成的,可尝试重新安装硬盘,连接或更换SATA线,确保数据通道连接良好来解决。如图九中,被检查的硬盘其199项S.M.A.R.T.属性值为1,只要此值不再继续增加,则说明已解决了硬盘与主板之间数据传输异常的问题。服务器故障处理方法全文共12页,当前为第10页。

图九媒体处理系统是服务器的核心所在,也是数字电影服务器数据处理量最大的环节。如果工作异常会出现各种各样的现象,比如掉帧、偏色、画面昏暗、音画不同步等等。在实际应用中,更多的是因为媒体模块温度过高造成的掉帧和偏色,媒体处理系统的软件或硬件问题导致的异常几率很小。服务器故障处理方法全文共12页,当前为第11页。导致媒体模块温度过高的因素一般为环境温度过高或散热不良,GDC服务器媒体模块的温度可以在控制面板中查询,如图十中媒体模块的温度为59℃。服务器故障处理方法全文共12页,当前为第11页。

图十对于媒体模块未嵌入放映机的数字电影服务器(GDCSX2001/SA2100)来说,降低设备运行环境温度,确保设备通风良好以及DCI卡上散热风扇运行正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论