吴德发
(厦门宏发开关设备有限公司,福建厦门 361021)
框架式断路器动作特性测试系统的核心是配置英特尔赛扬处理器、2.4 GHz 主频、单条512 MB 内存、80 G 西数硬盘的凌华科技工控机,上面运行着设备厂家开发的特性测试软件,用来检验UEW5/6 系框架式断路器四段保护动作特性,即过载长延时保护、短延时保护、短路瞬时保护和接地故障保护功能的准确性。测试过程工控机显示屏会间断性出现蓝屏,当时用手机瞬间拍下显示的内容(图1)。
图1 工控机显示器蓝屏
***STOP:0x000000D1
(0xFEH41000,0x00000002,0x00000000,0xEB8DCDA3)
DRIVER_IRQL_NOT_LESS_OR_EQUAL
***Address EB8DCDA3 base at EB8DC000,DataStamp 399ca4d0 -A821.sys Beginning dump of physical memory.
界面提示:发生蓝屏时程序停止的地址及驱动器中断请求时程序段的地址及所在驱动文件,并开始把调用所指向物理内存数据存储成文件保存到硬盘上。
但工控机从开机自检到桌面登陆,再到点开桌面快捷方式启动动作特性测试程序,过程一切正常,只要不进行测试产品就不发生蓝屏。
A821.sys 是工控机内插模拟量采集卡台湾泓格A821PGL的硬件驱动,此卡的规格特征:AD 最大采样率大约在45 kSa/s;软件可设置输入范围;ISA 接口;A/D 触发方式有软件触发、脉冲触发;16 通道单端或8 通道差分12-bit 模拟量电压输入信号带中断数据处理功能;1 通道12-bit 模拟量电压输出信号;可编程输入增益1,2,4,8 倍;输入范围:±5 V、±2.5 V、±1.25 V、±0.625 V;输入过压范围:单通道连续输入电压70 Vp_p;输出电压范围:0~5 V,0~10 V;输出驱动电流±5 mA;16 位数字TTL输入信号及16 位数字TTL 输出信号。
该驱动程序最近没有升级更新过,点工控机Windows 桌面上“我的电脑”,按鼠标右键选属性点硬件选设备管理器(图2)。展开DAQCard 目录,点中ICPDAS A-281 Analog/Digital Card 即泓格模拟量采集卡驱动此项双击点开(图3),查看常规项下设备状态显示“此设备当前工作正常”,资源项下冲突设备列表显示“没有冲突”。采集卡硬件驱动安装及开机启动后运转情况,在设备管理器中排查无异常。
图2 设备管理器界面
图3 模拟量采集卡驱动界面
排查采集卡硬件。卡表面电阻电感元件无变色开裂、电容无冒浆、芯片无击穿、铜箔无烧断、无烧焦异味等现象,排除硬件的电子电路引起此故障,从概率上讲发生电子电路故障可能性极低。生产线上其他工控机没有发生过类似现象,打开机壳外盖查看工控机电源风扇和CPU 风扇运转正常,母板上±5 V、±12 V、+3.3 V 电源指示灯正常,初步认为采集卡与插槽间可能接触不良。
对准母板上插槽及侧边卡槽手动重插几次板卡,用橡皮擦清洁采集卡的金手指以排除因接触不良引起的故障。清除机内四周灰尘及前面板挡尘海绵,插回工控机继续生产测试产品。测试过程有时二三天运行正常,有时一天出现三四次蓝屏。故障未消除提示基本一致,只是Address,at,DataStamp 后面数值不同。用Debugging Tools for Windows(x86 32 bit)即Windbg 微软调试工具软件打开系统蓝屏时保存的内存映象文件C:WINNTMINIDUMPDUMP(Windows2000 系统保存的目录,若是Windows XP 或Win7 是在C:WINDOWSMinidump 下)文件显示无法读取,数据已损坏,包括系统装备以来发生的DUMP 文件都无法打开,因此判断蓝屏发生时此内存数据已被破坏。此时故障定位仍未明确,还要继续深入分析。
启动工控机进入CMOS 设置,按DEL 进BIOS ADVANCED SETUP FEATURES(BIOS 高级设置项),选第一启动盘为USBCDROM(外置光驱启动系统),按F10 回车退出。一重启就出现报警显示:NO FLOPPY DRIVE(无软盘驱动器),机内蜂鸣器急促鸣响。该机没有设置成软盘启动操作系统,出现此项报警信息,跟设置内容毫无关联。设置参数无法正确保存,无法启用外置光驱里工具光盘引导Windows 系统。怀疑CMOS 电池有问题,断电用万用表测量CMOS 电池电压2.8 V,电压不算过低。为确保正常工作,更换一块全新CR2023 3.0V 电池,故障依旧,基本可排除CMOS 电池问题。
排查内存条。用气枪清洁内存条上灰尘再排查电接触情况,重新拔插几次内存条后故障依旧。剩下的可疑点一是CMOS 参数无法正确读取,二是内存条又没接触不良,综合以上两点及逐一排查情况,判定内存条本身故障可能性最大,替换完好的内存条,试机跟踪一个月,故障现象没有出现。
工控机主板、母板、中央处理器、内存条都属于不易发生故障的电子部件,此次内存条故障原因比较隐蔽,若没进入CMOS 设置更改参数保存后退出,系统每次都能正常通过开机内存自检。故障内存条的存储芯片不是主流大品牌厂家生产,芯片生产工艺、功耗、性能稳定性、抗干扰度等不如主流厂家产品。当测试程序采集数据内存发生频繁大量数据变换时,内存条整体功耗超标或部分地址指向存储单元中信息易产生丢失或不准,从而产生数据存取越界引发操作系统保护机制动作。追根溯源是在前期工作中工控机系统电子部件选型时考虑不周到。为预防类似疑难故障再现、同时减少设备维护难度及成本,提高设备的生产测试有效利用率,质量与价格综合衡量才是选型的首要因素。如果在安全级别比较高的测控环境中应用,设备选型的每个细节都不能疏忽,甚至应定制专机,采用双机冗余备份,使用错误检查和纠正功能的内存条,确保系统安全运行。
工作实践中要勤于思考,不断积累经验,先易后难。排查中遇有诊断困难,除外观检查、应用比对、逻辑分析外,可试用备件替换解决。复杂繁锁的安全系统工程可用故障树分析法,甚至编成程序计算机辅助计算分析。完工后做好必要的维修记录,详细描述故障的机台、开始结束时间、故障现象、解决措施、更换备件及型号,对提升问题解决能力、后续技术改进会有很大的帮助。