董治国+李凯+邹雨
摘 要:本文介绍了某光电经纬仪图像处理服务器(以下简称服务器)电源的一次故障排查方法和经验。文章首先介绍了服务器电源的工作原理,然后從故障现象、排查定位详细步骤方法、故障机理分析等方面详细介绍了由于电源故障导致服务器自动关机重启问题发现、排查和解决的全过程。最后总结了该次排查的经验方法并对设备后续使用以及如何解决其它类似故障提出了建议。
关键词:图像处理;服务器;电源
DOI:10.16640/j.cnki.37-1222/t.2017.16.133
1 引言
作为服务器的动力核心,电源的重要性不言而喻,没有稳定的电源输入,再强的CPU,再强的显卡也不过是没用的摆设。尤其是在CPU、显卡等配件的性能日益强悍的今天,一款好电源可以说是高性能计算机必不可少的基石。
某光电经纬仪图像处理服务器所选用的ToughPower XT电源(型号:TPX-1275M),集合了近年来的许多高级电源技术,它的最大亮点是放弃了以前传统的多路12V供电,将其整合为一路高电流的12V供电。这样一来ToughPower XT可以对NVIDIA SLI、AMD CrossFire、多核心处理器架构提供完美的支持,满足当前设备的需要。
由于备件的缺乏和条件限制,在任务准备过程中出现的故障不能仅仅依靠更换备件来解决,学习电源工作基础知识,提高电源故障定位、维修能力显得尤为重要。
2 ATX电源工作原理
ATX电源工作原理简述:如图2所示,220V交流电经过第一、二级EMI滤波后变成较纯净的50Hz交流电,经全桥整流和滤波后输出300V的直流电压。300V直流电压同时加到主开关管、主开关变压器、待机电源开关管、待机电源开关变压器。由于此时主开关管没有开关信号,处于截止状态,因此主电源开关变压器上没有电压输出,上图中的-12V至+3.3V,5组电压均没电压输出。
同时,300V直流电加到待机电源开关管和待机电源开关变压器后,由于待机电源开关管被设计成自激式振荡方式,待机电源开关管立即开始工作,在待机电源开关变压器的次级上输出二组交流电压,经整流滤波后,输出+5VSB和+22V电压,+22V电压是专门为主控IC供电的。+5VSB加到主板上作为待机电压。当用户按动机箱的Power启动按键后,(绿)色线处于低电平,主控IC内部的振荡电路立即启动,产生脉冲信号,经推动管放大后,脉冲信号经推动变压器加到主开关管的基极,使主开关管工作在高频开关状态。主开关变压器输出各组电压,经整流和滤波后得到各组直流电压,输出到主板。但此时主板上的CPU仍未启动,必须等+5V的电压从零上升到95%后,IC检测到+5V上升到4.75V时,IC发出P.G信号,使CPU启动,电脑正常工作。当用户关机时,绿色线处于高电平,IC内部立即停止振荡,主开关管因没有脉冲信号而停止工作。-12至+3.3的各组电压降至为零。电源处于待机状态。
输出电压的稳定则是依赖对脉冲宽度的改变来实现,这就叫做脉宽调制PWM。由高压直流到低压多路直流的这一过程也可称DC-DC变换,是开关电源的核心技术。采用开关变换的显著优点是大大提高了电能的转换效率,典型的PC电源效率为70—75%,而相应的线性稳压电源的效率仅有50%左右[1-3]。
3 故障的定位与排除
3.1 故障现象
2016年10月,服务器在工作约1.5h后自动重启,首先服务器显示器黑屏,约30s后服务器重启;而后在约10min后再次自动重启,随后在几分钟内自动重启过程不断重复,最终服务器无法开机。
3.2 原因分析
将服务器关机,紧固电源接口和各板卡插头,开机20min后,问题复现,对服务器内部接口进行紧固,开机5min后,问题复现,排除了线路接触不良的可能。打开机箱,接通电源后发现服务器电源风扇不转(资料显示风扇在负载达到40%额定负载时才开始运行),工作约15min后,风扇转动。约45min后问题复现,具体现象为:电源面板共三盏指示灯,从上至下依次为STANDBY、PG SINGAL和TEMPERATURE。正常工作时三盏灯均为绿色,故障出现时,首先PG SINGAL灯变红随即PG SINGAL和TEMPERATURE熄灭。问题重复出现多次后,除STANDBY指示灯外,其余电源指示灯均不亮,测量电源输出,除电源24pin输出引脚(主板供电用)中的9口(5v)和16口(3v)外,其余接口均无输出电压。初步认定是电源故障导致服务器频繁重启。
3.3 故障排查定位
(1)现场对电源24pin输出引脚进行测试,并与厂家在厂内对同一型号正常电源检测结果进行比对,具体如表1所示,引脚定义如表2所示。
资料显示16口(PS-ON)电压应在1V以下,电源才能正常启动运行;空载时,电源加电后不运行,将16口与地短接后,电源即开始运行。
从测试结果看,16口电压值明显大于1V的门限值,故电源不能正常运行,也就导致服务器不能正常启动。
(2)进一步测量另一台工控机24pin电源接口,“16-17”电阻值约800Ω,而服务器的“16-17”电阻值在0.8MΩ左右,初步怀疑服务器主板24pin电源接口的16口异常。通过以上测试初步分析故障现象有两个原因:一是电源自身故障,不能正常工作输出电压;二是主板未能将16口电压拉至1V以下,电源因未被触发而不运行。
(3)将服务器电源(额定功率为1275W)接至另外一台试验用工控机(其自身电源额定功率为300W,以下简称工控机),三盏灯均点亮,工控机工作正常;再将电源接至服务器,故障依旧。
(4)将主板上板卡及主板本身逐步拆下,进行全面除尘清洁、线缆插拔等工作,重新安装后,开机,故障依旧。endprint
(5)将服务器显卡、图像采集卡、内存等12块板卡拆下后并逐步安装,发现当负载(板卡)较少时,服务器可以开机启动,负载较多时,特别是显卡(功耗较大)安装后,问题复现。初步判断电源性能下降,带负载能力大幅降低,不满足服务器全系统工作需求。
3.4 故障解决
将一台功能近似的500W新电源接至服务器,开机运行正常。对设备进行连续9h拷机测试,过程中图像处理軟件运行稳定,图像处理、记录和输出功能均正常,执行瑞星杀毒软件全盘查杀等操作运行稳定,服务器工作正常,未出现自动关机重启问题。随后,开展系统指标测试和跟踪目标测试,工作正常。
停靠码头后,将故障电源返厂检修。厂内检修发现故障原因为其内部起保护作用的D17电容损坏(该电容一般在瞬时冲击电流过大时会损坏),更换该电容后即恢复正常。故障电源检修后回船,重新安装后,服务器全系统工作正常,问题解决。
4 总结和建议
本文针对某经纬仪图像处理服务器故障现象,分析了其工作原理,并根据电源电路原理图分析了Toughpower XT 电源24pin输出接口引脚定义,通过更换一台功能近似的服务器电源,进行拷机测试、分系统指标测试、跟踪信标球试验有效定位并排除了故障。针对此次故障原因的分析,对设备在今后的使用策略上提出以下建议:
(1)持续关注设备工作情况,加强检查维护;
(2)具备条件时,在已有其它类型服务器上验证替代服务器的可行性;
(3)进一步关注电能质量,增加电能监测手段;
(4)虽然购置时间短,不能盲目乐观认为设备处于使用初期就不重视器件的使用寿命问题;
(5)发现隐患要及时进行预防性维护或提前更换备件,加强备件筹措设备;
(6)装船期间,船厂工作环境恶劣,灰尘(尤其是金属粉尘较多),易对设备造成损害,应注意做好防护措施。
参考文献:
[1]张荣帜.电脑开关电源维修经验[J].中国科技信息,2005.
[2]网络.Toughpower XT电源使用说明书[S].www.thermaltake.com
[3]吴康.笔记本电脑电源配置分析[J].电源世界,2009.
作者简介:董治国(1989-),男,河南兰考人,本科,测量员,研究方向:光学测量。endprint