陆士强
从某系统运行故障谈装备测试性设计的应用
陆士强
华东计算技术研究所,上海 200233
测试性作为装备的一种设计特性,具有同可靠性、维修性、保障性同等重要的位置,是构成武器装备质量特性的重要部分。从设计源头系统考虑测试性设计方案,可以有效提升设计质量水平,减少装备交付用户后暴露问题的几率。
测试性技术;测试性设计
随着国防科技工业的快速发展,军工科研单位交付部队的装备数量持续增长,研制单位交付的产品时常出现在使用现场暴露问题的情况。究其原因,未在设计源头系统思考测试方案,测试性设计不足占较高比例。我们从一个真实的系统运行故障着手分析,看测试性设计如何应用到装备设计中。
1.1故障描述
2013年8月,某军工单位接到用户紧电,反映某军工项目的电站控制加固计算机接收到了错误数据,引发系统出现报警并停止工作的问题,要求研制生产单位立即派员到现场进行故障排查。[1]
1.2 原因与措施
经现场分析发现,报警问题是由于控制台计算机接收到的数据发生了串帧引起的。系统的网络连接关系如图1所示。
4台加固计算机组成一个电站,其中包括3台机组加固计算机和1台区管服务器。加固计算机n与WAGO之间、区管服务器与加固计算机n之间、区管服务器与控制台n之间的信息均通过CAN总线交互。
图1 系统组成图
经FTA分析,分别排除了通信线路故障导致数据串帧、硬件板卡故障导致数据串帧和CAN总线在信息传递过程中因总线竞争导致数据串帧的三种可能。经数据发现,多个控制台加固机会同时出现串帧现象且错误数据一致,因此将问题聚焦于区管加固服务器的FPGA发送管理软件上。
详细计算加固计算机n与区管服务器之间定时通讯的数据流量:
(1)加固计算机n向区管服务器发送数据:45帧×10bit/帧,间隔500ms;
(2)区管服务器向加固计算机n发送心跳:1帧×10bit/帧,间隔500ms;
(3)加固计算机n向区管服务器发送心跳回复:1帧*10bit/帧,间隔500ms。
根据以上数据,加固计算机n占用的带宽为7.36k bit/s,机组加固机与区管加固机占用的带宽共约为23kbit/s,小于CAN总线带宽为125kbit/s,不会造成发送数据缓冲区溢出。
而区管服务器与控制台加固机之间、控制台加固机与控制台加固机之间均存在数据通信,即存在10台计算机(9台控制台加固机、1台区管服务器)之间相互竞争带宽。经计算,区管服务器与控制台加固机占用的带宽为:23+12×9=131 kbit/s,大于CAN总线的125 kbit/s带宽。因此,区管服务器不能及时发送当前数据,加固计算机周期性向区管服务器发送的下一批数据将覆盖前一批数据。[2]
根据技术协议要求,在通讯流量高峰时,允许区管服务器以新数据覆盖老数据后发送,但必须以帧为单位进行,不得发生前半帧老数据、后半帧新数据的“串帧”问题。经查,恰恰是底层FPGA程序设计错误,FIFO读取设计存在必然的“串帧”问题,至此故障源已水落石出。随后采取了完善设计的技术措施,问题得以解决。整个过程投入大量人力物力,历时三周实施分析排查,最终通过归零评审。
1.3 故障类型
根据质量问题分类原则,此问题的第一层次原因是设计缺陷,第二层次原因是测试覆盖性不全。
在相关标准中,对“测试覆盖性不全”的解释是“指由于设计或技术、经费等因素的限制,产品测试工作没能覆盖所有工况,无法验证产品在各种条件下的性能,而最终引发的质量问题”。
1.4 故障引发的思考
上述故障已从技术角度采取了相应措施,装备能够在系统中正常运行。而测试性设计技术从系统设计的角度统筹考虑,学习好、使用好这项技术可以举一反三地避免类似故障的发生,对我们装备研制开发具有很强的指导意义。
随着军民用系统和设备性能的提高和复杂性的增加,测试性越来越受到大家的重视,许多新技术、新方法都应用到了测试性之中。测试性经历了由外部测试到嵌入式机内测试,由测试性/BIT到智能BIT、综合性诊断再到预测与健康管理的发展过程。
测试性这一术语最早在1975年由F.Liour等人提出。1985年,美国国防部颁发了MIL-STD-2165《电子系统及设备的测试性大纲》,把测试性作为与可靠性、维修性同等的产品设计要求,规定了电子系统和设备应遵循的测试性设计、分析与验证的要求及实施方法。该大纲的颁发标志着测试性已经成为与可靠性、维修性并列的独立学科。
按照国军标GJB 2547-1995和GJB 3385-1998的定义,测试性是指产品能及时准确地确定其状态(可工作、不可工作或性能下降)并隔离其内部故障的一种设计特性。
图2 测试性与其他设计特性的关系
从图2可以看出,测试性是装备可靠性设计与维修性设计之间的重要纽带,是确保装备战备完好性、任务成功性和安全性要求得到满足的重要中间环节。
测试性的设计目标是完成性能监测、故障检测、故障隔离、虚警抑制、故障预测等测试功能。测试性设计技术主要含固有测试性、机内测试、外部自动测试等技术与方法。
固有测试性:主要指合理划分装备功能和结构,在产品设计上保证方便测试的特性;
机内测试(BIT):指装备内部提供的检测和隔离故障的自动测试能力,根据测试规模大小又可分类为机内测试设备(BITE)和机内测试系统(BITS);
外部自动测试:通常是借助自动测试设备(ATE)或自动测试系统(ATS)完成的,用于完成对被测装备进行故障诊断、功能参数分析及评价;
外部测试技术自1950年开始发展,现在已发展到综合应用高速总线、虚拟仪表等技术提供能力更强的自动化测试阶段。
机内测试技术自1960年开始发展,现在已发展到以改进测试诊断技术,提高诊断能力,形成成熟的中央测试系统并进一步成熟的阶段。
在民用领域,波音787飞机建立了飞机信息与维护系统,可以执行机上实时数据收集、处理和显示,执行原因分析以消除级联故障。通过网络转送数据到地面维护系统,扩展诊断和预测分析等。
在军用领域,F-35战机上采用了PHM系统,包括BIT、系统PHM区域管理器、飞机PHM管理器等,提供数据采集、增强诊断、故障预测和维修决策等综合的健康管理能力。
从技术角度分析上述系统运行的故障,结论是底层FPGA程序设计错误,FIFO读取设计存在必然的“串帧”问题。从质量问题分类角度进行问题划分,第一层次原因是设计缺陷,第二层次原因是测试覆盖性不全。对标上述测试性的相关知识和技术的发展演变,如何更好地解决并避免上述问题的发生,至少有以下几种方法可供参考。
方案1:搭建外部测试系统加强装备系统外部测试
军用装备无论是模块、单机或是系统,都对测试提出了相当高的要求。特别如航天产品更是明确为出厂(所)测试项目必须覆盖用户验收的测试项目,单元测试项目必须覆盖单机测试项目、单机测试项目必须覆盖分系统测试项目、分系统测试项目必须覆盖全系统测试项目。对于测试不能覆盖的还专门提出了“四不到四到”的相关规定,即“测试不到要验收到、验收不到要工序检验到、工序检验不到要工艺保证到、工艺保证不到要人员保障到”。
上述系统交付前的外部测试严重不足,研制单位如果能够严格实施测试,区管服务器应对3台控制台和3台加固计算机同时工作并收发CAN数据的工况下,完全能够发现问题并采取对应措施。对标表1“外部测试技术的发展过程表”,研制单位在此系统研制生产过程中,未同步开展外部测试技术的研究和布局,对系统的外部测试存在严重的技术短板。
第一种方法是在系统交付前加强装备系统外部测试,对照技术协议书要求,掌握并模拟真实的使用环境,搭建外部测试系统,并编写相应测试用例,测试用例必须覆盖系统各项功能和性能。从各方面对出所产品进行完整、全面的测试。针对串口通讯、网络通讯等要研究大负荷、拉偏等强度测试和覆盖性测试的方法,避免故障发生。
方案2:增加BIT部件补齐系统内部测试短板
从以上装备系统的功能和系统组成图(图1)可以获知区管服务器是整个装备系统的关键设备,可靠地收发往来于加固计算机n和控制台n的CAN通讯数据的功能是区管服务器这个产品的关键特性,供电电源、进出数据流量、CAN通讯程序响应频度等共同组成了区管服务器的关键参数。
第二种方法是对标表2“内部测试技术的发展过程表”,在系统设计前期,对区管服务器中的CAN通讯模块进行冗余设计,可以采用冗余模块的冷/热备份等多种组合方案。同时,明确系统运行中表征系统状态的监测参数,增加BIT部件,BIT部件通过监测区管服务器的关键参数,实现自动故障检测和故障隔离功能,通过隔离工作异常的CAN通讯模块,避免故障的发生。
针对上述系统,图3描绘了双机冗余分布式BIT测试工作的原理图。其中每台区管服务器的CAN通讯模块、CPU模块均具备BIT测试功能,各自的BIT结果经判断后形成故障指示,经输出判断与切换部件输出至CAN总线。
图3 双机冗余分布式BIT测试工作原理图
方案3:同步补强外部测试与内部测试
在系统设计前期同时对系统的内部测试、外部测试环节进行综合考虑,可以从技术难度、项目周期或资源投入等多个方面权衡比较,在内部测试和外部测试同时采取行之有效的技术措施,避免系统运行故障的发生和蔓延。
测试性作为装备的一种设计特性,具有同可靠性、维修性、保障性同等重要的位置,是构成武器装备质量特性的重要部分。
本文旨在通过从一个真实的系统运行故障问题入手,对照测试性设计的相关知识和要求,以技术角度从顶层设计策划开始找寻出了一些更加系统全面的解决措施,希望对大家更加深入透彻地学习测试性知识有所启发。
[1]石君友.测试性设计分析与验证[M].国防工业出版社,2001.
[2]八院航天产品质量问题归零实施要求:Q/RJ 184A-2011[S].
Application of Equipment Testability Design From a System Operation Failure
Lu Shiqiang
East China Institute of Computing Technology, Shanghai 200233
Testing as a design feature of equipment, with equally important position with reliability, maintainability and supportability, constitute an important part of quality characteristics for weapons and equipment. From the design of the system to consider the design of the test design, can effectively improve the level of design quality, reduce the risk of equipment delivered to the user after the exposure problem.
testability technology; testability design
TJ06
A
1009-6434(2016)6-0206-03
陆士强(1966—),男,汉族,华东计算技术研究所高级工程师,本科学历,研究方向为计算机软件。