一种适用于长期工作的测控设备特性验证方法

2023-03-04 13:25姜姗姗宗丽娜毛鹏飞徐宫健
计算机测量与控制 2023年2期
关键词:测控总线评估

张 腾,姜姗姗,陈 韬,宗丽娜,毛鹏飞,徐宫健

(北京航天测控技术有限公司,北京 100041)

0 引言

测控设备在各类航天装备中承担重要参数测量、中继控制等功能,对接众多信号接口众,发挥地面神经中枢的作用。装配的正常测试、发射等任务要求地面测控具备更稳定、更可靠的特性。长期工作的测控设备主要实现装备持续的信号采集、数据通讯、指令控制等,为符合装备测试的需求,其控制功能、信号处理功能、通讯功能等要求更低的故障率和更长的无故障间隔时间。

以产品寿命时间维度考虑产品可靠性,产品可靠性的保障工作需要研制阶段的可靠性预计为产品设计进行约束,测试阶段的可靠性试验对产品进行可靠性验证,剔除缺陷产品、改进产品设计和制造,并最终形成可靠性达标的产品。但当多数产品实际投入应用后,缺乏可靠性状态的监测和评估,产品是否可以正常的长期使用具有较大的不确定性。

以产品可靠性测试方法维度考虑产品可靠性,根据相关标准和要求对设备的各组件进行测试和试验验证[1-2],一般受限于测试工装、测试方法等因素,多直接基于对外信号接口实现测试,即通过加入激励和测量资源,判定设备组件的功能和性能情况,该方式可直接测试的数据点和数据类型完全基于接口引出情况,可测数据和故障激发能力有限,难以提前发现问题。设备内部的测试可以为设备状态预估提供更多的数据支持,如内建的板级边界扫描测试(BST, boundary scan testing)技术针为支持IEEE1149.1标准的元器件提供了连接检测方法,但对非BST元器件无法直接测试[3-4];基于探针接触的板级测试系统可以获取更丰富的板卡运行状态,但不能满足装机后板卡状态测试需要[5]。

为确保测控设备长期加电特性符合需求,针对测控设备运行稳定性的验证,尤其是系统长期对接工作条件下的验证,设计“全寿命”、“里应外合”的综合验证方法,从设计层面注入内部测试功能,结合外部测试,经趋势评估和故障评估,为设备的健康度进行判定[6-7],在应用前剔除可发现的缺陷设备、在应用后可预警可能出现的缺陷设备,以提升长期加电设备的可靠性验证程度。

1 测控设备简介

全文以某装备的测控设备进行具体介绍。该测控设备用于装备的地面测试,功能包括接收控制端指令,控制装备的供配电、状态转换等,采集装备关键信号(包括状态信号、模拟信号、通讯信号等),形成数据包回传至控制端。测控设备以标准4U上架机箱的形式安装于测试机柜内,测控设备基本组成包括基于实时操作系统的CPU主控模块、BC/BM/RT可配的1553B通讯模块、多通道RS422串口通讯模块、多通道模拟量模块(模拟量采集和输出)、多通道状态量模块(状态量采集和输出)、电源模块等,各模块均为板卡形式、通过背板实现板间连接,此外,背板将板卡对外信号通过机箱面板连接器引出。

测控设备启动后,CPU主控模块运行实时测试流程,根据指令执行相应动作,并以固定时间间隔,将运行状态数据通过以太网回传至远程控制端。

图1 测控设备组成原理

2 模块内部设计测试

测控设备的验证常通过产品对外接口、在独立工作环境下进行功能、性能的测试,针对产品内部电路、逻辑运行状态等缺乏相关测试,且在应用阶段缺少精细化状态监测,即只能在单机环境下通过接口的电气特性判定整体功能,涉及的测试面有限。模块内部设计测试,即在设计阶段将测试功能嵌入到测控设备模块级产品中,重点针对模块内部关键功能电路,尤其是电路中不可测不易测部分,并将测试覆盖至产品全寿命阶段,此外,模块是一个系统的组件,系统运行环境影响模块的长期工作可靠性,结合模块运行环境的监测,为模块的状态判断提供必要的参考数据[8-9]。具体方法:

1)利用或额外增加模块的嵌入式功能,如可编程逻辑器件、CPU、MCU等,设计该类元器件和外部关键元器件主要信号之间的连接,除基础的控制应用外,增加主要信号的逻辑、时序变化持续监测进程和状态判断进程,提供芯片级的测试数据,用于模块的状态评估;

2)设计多种环境传感器(如温湿度、振动等)、电压电流监测等元器件,用于模块应用环境、电源供电等外部状态的持续监测,提供运行环境数据,用于模块的系数修正、异常提醒、故障定位等。

对基于测控设备的模拟量模块、1553B模块等包含较复杂内部控制的模块开展测试性内部设计。模块均以FPGA为逻辑控制元器件,通过FPGA监测其它功能元器件和环境的状态变化情况。

以模拟量模块的AD内部测试举例如下。模拟量采集电路由调理电路、AD电路、FPGA电路、温湿度监测电路等部分组成。其中,调理电路接口直接引出模块外,可通过外部接口进行测试;AD与FPGA的接口均在模块内,无法直接测量。为测试AD芯片长期工作下的时序稳定性和工作性能,补偿不同温度下AD转换精度,基于FPGA与AD芯片的电气连接,结合温湿度传感器,在FPGA内设计AD芯片的控制接口时序测试、转换速率测试和温度测试。

模拟量模块使用的AD芯片是一种16位逐次逼近型电容结构的A/D转换器,主要由控制逻辑、SAR寄存器、输入输出控制、基准、时钟、D/A转换器和比较器组合而成,具备串行或并行控制通讯接口。模拟量模块AD控制采用串行方式,接口数量较少,接口包含CONVST启动AD转换信号、BUSY转换忙信号、CS片选信号、RD读控制信号、DATA并行数据信号,该类信号均与FPGA连接。AD控制时序如图2所示,AD芯片接收到CONVST转换信号后启动AD转换,经过tCONV时间后转换完成,BUSY信号拉低,通知FPGA可接收CS、RD信号以读取相应通道的数据。

图2 AD控制时序

设计的AD内部测试有:

1)tCONV最大时间,即AD芯片转换所需的最大时间,FPGA持续监测BUSY上升沿后的保持时间,监测时间变化趋势、是否超出阈值时间值、BUSY信号是否一直未拉低等情况,FPGA对监测情况进行记录和数据上报。对于时间变化未超出阈值的情况,持续收集数据进行趋势评估;对偶发有超出阈值时间、可正常完成AD转换的情况,认为AD性能下降,进行趋势评估;对BUSY信号一直为低的情况,认为AD故障,进入故障评估;

2)转换速率,即AD芯片转换、数据读取等一个完整周期所需的时间。通过FPGA设计在AD芯片指标允许范围内调整CONVST的周期,用以测试转换速率的边界值,为具体应用提供参考;

3)温度测试,即温度对AD性能参数的测试影响情况。如对使用内部参考电压的AD芯片,该参考电压受温度变化会产生影响,进而影响AD采集准确度。测控设备长期工作产生的热量较高,通过设计板载温湿度传感器,由板上FPGA采集环境参数,测试温度对AD采集数据以及AD运行稳定性的影响。此外,经收集处理的数据可为AD长期运行的精度提供修正。

以各模块共有的PCI总线通讯内部测试举例如下。模块采用FPGA结合PCI-LocalBus桥芯片实现总线通讯,该桥芯片主要由PCI总线接口模块、本地总线接口模块、FIFO构成的多个数据传输通道、配置寄存器、控制逻辑等构成,它满足PCI2.2规范的应用,能够进行高达132 MB/s的猝发(burst)传输,集成了PLX数据管道结构(PLX data pipe architecture)技术,包括DMA引擎、可编程的PCI发起者和目标设备间的数据传输模式、以及PCI信息转发功能。

PCI-LocalBus协议转换芯片以Target目标模式运行,FPGA连接PCI-LocalBus协议转换芯片的本地总线一侧,通过对本地总线的操作实现总线数据的读写功能。PCI总线的主要状态和控制信号有FRAME#总线通讯起始信号、C/BE#命令/位选择信号、IRDY#发起传输准备完成信号、TRDY#目标准备完成信号、DEVSEL#设备选择信号等;LocalBus总线的主要状态和控制信号有ADS#地址选通信号、LW/R#读写控制信号、READY#准备好信号等。以读操作时序为例,PCI读时序如图3所示,上半部分为PCI总线时序、下半部分为Local总线时序,由PCI一侧发起读数请求,Local端从FPGA获取数据后,转换至PCI端。

图3 PCI桥片读转换时序

设计的PCI-LocalBus协议转换内部测试为监测协议转换芯片的转换情况,以判定PCI总线通讯转换的完成状态、评估转换芯片的性能状态。设计FPGA增加PCI总线一侧的FRAME、IRDY、TRDY信号采集资源,当监测到FRAME低有效、并在此之后10个CLK时间以内ADS置低为监测进程触发起点(表征监测到对本模块的读操作),以READY上升沿为计时起点(表征Local端读取完成),监测IRDY信号的下次上升沿的时间tIRDY,监测TRDY信号的下降沿时间tTRDY1和之后再次拉高的时间tTRDY2,并持续记录和数据上报[10-11]。对于时间变化未超出阈值的情况,持续收集数据进行趋势评估;对偶发有超出阈值时间、可正常置高的情况,认为转换性能下降,进行趋势评估;对IRDY或TRDY信号为按照时序发送高低变化的情况,认为转换芯片故障,进入故障评估。

3 模块外部设计测试

模块外部测试即通过模块对外接口进行测试,除常规静态测试外,需对长期运行状态下接口动态特性变化的测试,该测试包括正常运行动态监测和故障注入动态监测。同样,仅在单机环境下通过模块外部接口的特性测试效果有限。模块外部测试设计,即在设计阶段将测试功能嵌入到测控设备系统级产品,采用独立资源实现系统内关键模块和可靠性短板模块的全寿命测试。

具体方法:设计与系统一体化的嵌入式模块资源,该独立资源与被测模块隔离,具备更高的可靠性,且模块的自身故障不会产生相互叠加和干扰。该嵌入式的模块资源通过独立的通讯接口和非易失的存储方式实现关键模块的“黑匣子”功能。

测控设备内关键且可靠性较低的模块为CPU主控模块,该模块运行实时操作系统,并根据网络指令进行严格时间内的复合动作响应。CPU主控模块为3U计算机模块,采用国产龙芯处理器。该计算机模块具有完整的计算机功能,集成网络、显示、PCI-PCI桥、SATA接口、声卡、串口、VGA、USB接口等功能。该模块为成品模块,不具备板级设计测试的条件,为实现模块长期工作的稳定性监测,需额外设计独立资源。基于最大程度的互不干扰原则和CPU主控模块的实际应用情况,设计独立的CPU监测模块,该模块与CPU主控模块均通过背板通讯总线连接。CPU监测模块组成包含控制电路、存储电路、背板总线通讯电路、外部通讯电路。CPU主控模块启动运行后,通过背板通讯总线持续以设定的时间间隔向CPU监测模块进行喂狗,CPU监测模块据此判定CPU主控模块的任务实时性调度情况。为测试CPU主控模块的健壮性,通过正常和非正常的测试条件,测量CPU主控模块的喂狗最大最小间隔、喂狗间隔时间趋势等数据,具体测试条件包含:

1)正常条件测试:在正常应用环境下进行测试,如系统内各模块均正常工作、外部加注允许范围内的输入输出条件(如模拟电压信号、串口通讯数据等)、网络发送正确的控制指令、室温环境等。CPU主控模块运行应用测试流程,并长期运行,监测器喂狗间隔变化;

2)非正常条件测试:通过注入故障或边缘状态条件,在非正常应用环境下测试,监测CPU主控模块喂狗间隔变化,如调整背板总线下的模块类型、数量和槽位、额外增加CPU占用率、通讯接口注入异常格式或长度的数据、拉偏供电电压值、网络接口异常接入或断开、硬盘存储满、背板总线注入中断等措施[12-13]。

对于未超出喂狗间隔阈时间的,持续收集数据进行趋势评估;对偶发有超出阈值时间、可正常完成喂狗和测试流程的情况,认为CPU主控模块或外部条件变化对应用流程稳定运行有影响风险,追查外部条件,并持续的进行趋势评估;对经常超出阈值时间或流程中断停止的情况,认为CPU主控模块运行故障,进入故障评估,排查故障原因。

4 其它设计测试

模块内部设计测试和模块外部设计测试均在设备内实现状态监测,针对一些重要且不易内部监测的信号,采用设备接口引出的方式,利用工装、仪器等进行精细化测试。以电源模块的测试为例,测控设备所使用的电源模块为DCDC电源,即直流28 V输入、直流12 V、5 V、3.3 V输出。为判别电源模块的长期加电状态,需要测量电源加载后的输入和输出端的上电瞬时电压、电流,以及工作过程中电流电压波动等,该测试需要较多资源,且电源模块属于相对可靠性较高的组件,因此将电源模块的输入、输出信号进行引出,使用数据采集记录器、示波器等仪器持续测试电源在不同条件下长期运行的稳定性。具体测试条件包含:

1)正常负载条件下,监测瞬时启动、关闭以及正常运行时的电压、电流峰值,以及正常运行时相同测试条件下的平均值;

2)通过调整负载模块工作状态调整负载阻性和容性变化、拉偏电源输入等方式监测电源输出电压、电流峰值,以及相同测试条件下的平均值[14-15]。

对于未超出电源阈值的状态,持续收集数据进行趋势评估;对偶发有超出电源阈值、可正常恢复供电的情况,认为电源模块或外部条件变化对其稳定运行有影响风险,追查外部条件,并持续的进行趋势评估;对经常或持续超出阈值的情况,认为电源模块故障,进入故障评估,排查故障原因。

5 趋势评估、故障评估

根据可靠性试验过程长时间的测试数据开展测试评估,测试评估分为趋势评估和故障评估。

趋势评估为没有超出允许范围内的健康度评估。趋势评估对设备维修性、可靠性和可用性有很大的影响,正确的状态评估结果可以提高设备执行任务的可靠性与安全性,减少维修时间和维护费用,提高可用性和综合保障能力。测控设备的趋势评估采用化整为零的方式,以设备各组件、模块的测试数据评价整体各功能的趋势,对于任何功能出现状态较差的趋势,均表征整体可靠性下降,需立即分析处理,防止故障问题出现。测控设备的趋势评估将测试数据进行等级划分,以测试时间为横轴、以测试数据为纵轴,对落入各等级的数据点数量与该单元时间的总测试点数量进行比较,等级划分、趋势状态判别均基于已有指标、理论计算、历史测试记录和专家指导等综合给出量化指标,为整体是否满足长期可靠运行条件提供状态预测意见[16]。

故障评估为有超出允许范围的评估。测控设备的精细化测试数据将一些设备或模块内部不可测、不易测部分转化为可测项目,同趋势评估,均基于已有指标、理论计算、历史测试记录和专家指导等综合给出量化的故障界限指标,超出该指标不能表征整体出现故障,仅表征某一功能出现较大程度偏差,需结合故障发生率判定是否需要立即维修处理,防止更严重的整体故障发生。对于已发生的整体故障,可根据该超出故障指标项排查和定位问题。测控设备故障评估以测试时间为横轴、以测试数据为纵轴,对故障点数量与该单元时间的总测试点数量进行比较,测定故障发生率[17-18],为整体提供故障预测和故障排查指导意见。

6 试验和评估效果

根据上文设计的测试方法示例,通过试验和条件激发开展验证试验,并对测试结果进行评估:

1)如图4所示,以模拟量模块长期加电测试AD电路的tCONV最大时间为例,加电试验时间为30天,每日测量2 880个数据点,将低于2.5 μs的数据点记为A等级、将2.5~2.8 μs的数据点记为B等级,将2.8~3.0 μs的数据记为C等级,将大于等于3.0 μs的数据记为故障。经测试,30天的全部数据点均落在A、B等级内,随着加电时间增长,落入B等级的数据略有增加,但无C等级数据点和故障点,认为AD电路部分状态良好。

图4 AD电路tCONV最大时间测试统计

2)以1553B模块长期加电测试PCI总线通讯电路为例,加电试验时间为30天,除去1553B控制通讯测试外,每60 s执行一次PCI总线读取动作(动作内容为读取设备ID),每日测量1 440个数据点,将tIRDY不大于4 CLK、tTRDY1不大于3 CLK、(tTRDY2-tIRDY)不大于±1 CLK的组合条件列为A等级(任意一个时间超过上述时间,均不认为A等级),将tIRDY为4~6 CLK、tTRDY1为3~5 CLK、(tTRDY2-tIRDY)±2 CLK的组合条件列为B等级(任意一个时间超过上述时间,均不认为B等级),将tIRDY为5~10 CLK、tTRDY1为4~9 CLK、(tTRDY2-tIRDY)±5 CLK的组合条件列为C等级(任意一个时间超过上述时间,均不认为C等级),将tIRDY、tTRDY1、tTRDY2任意一个有超出C等级的数据记为故障。经测试,30天的全部数据点均落在A等级内,无B、C等级数据点和故障点,认为PCI总线通讯电路部分状态良好;

3)以CPU主控模块长期加电测试喂狗间隔变化为例,加电试验时间为30天,喂狗间隔设定为17 ms,将低于17 ms*2的数据点记为A等级、将17 ms*2~17 ms*7数据点记为B等级,将17 ms*7~17 ms*10的数据记为C等级,将大于等于17 ms*10的数据记为故障。测试统计如下:正常条件运行30天,测试喂狗间隔时间均为A、B等级,没有出现其它等级情况,但随着持续工作时间增加,落入B等级的数据有轻微的波动,认为CPU主控模块状态良好;在注入相应条件后,有出现C等级情况,未出现其他等级情况,当条件撤销后,测试数据均为A、B等级,表征主控模块对异常条件具备规避措施,所加异常条件不会对主控流程造成影响,认为CPU主控模块状态良好。

表1 异常条件加注时间内各等级数据点占比 %

测试条件中,当使CPU占用率超过90%以后,会发生喂狗间隔大于等于17 ms*10的故障情况,根据该情况进行故障率评估,统计CPU占用率超过90%以后故障点数量与该单元时间的总测试点数量的占比,根据测试情况,当CPU占用率超过96%以后,CPU任务调度出现更大程度的延时,不能完全满足实时操作系统下的应用调度要求,可能出现整体故障,评估建议立即排查应用程序、操作系统、模块接口、供电等可能原因,以降低CPU使用占用率[19]。

表2 CPU占用率超过90%后的故障率 %

4)以电源模块上电输出瞬时电流为例,电源模块输入直流经取样电阻转换为电压由示波器探头采集,按照测控设备未带外部模拟负载单机条件和测控设备接入外部模拟负载对接条件分别测试,试验时间为30天,每日测量10次,将单机条件上电瞬时峰值2.95~3.15 A、对接条件上电瞬时峰值3.8~4.0 A的数据点记为A等级,将单机条件上电瞬时峰值2.85~2.95 A以及3.15~3.3 A、对接条件上电瞬时峰值3.7~3.8 A以及4.0~4.15 A的数据点记为B等级,其中如单机条件的上电瞬时峰值介于2.85~2.95 A,相应的对接条件范围应为3.7~3.8 A(C等级类同),将单机条件上电瞬时峰值2.5~2.85 A以及3.3~3.7 A、对接条件上电瞬时峰值3.5~3.7 A以及4.15~4.4 A的数据点记为C等级,将超出上述范围的数据记为故障。经测试,30天落在A、B、C等级的数据点占比分别为89%、10.3%、0.7%,无故障数据点,单以该测试结果认为电源模块状态良好[20]。

以上列出4组试验数据表征测控设备的AD电路、PCI通讯电路、CPU模块、电源模块在长期正常加电工作条件均未出现故障情况,且状态良好,异常条件下有规避措施,并基于测试评估结果提供故障排查意见。

7 结束语

为解决长期工作的测控设备稳定性验证问题提出了一种精细化测试和评估思路, “里应外合”的综合验证方法将测试内容延伸到芯片级、将测试过程覆盖到产品全寿命。从设计层面注入测试功能,不可外测的模块内部接口设计嵌入式的内部测试功能,可测的外部接口设计动态、激发故障的外部测试手段,通过对长时间测试的数据进行归类、总结,形成趋势评估和故障评估结果,为测控设备的长期稳定运行提供验证数据支撑。该验证方法可应用于航天等高可靠测控领域。

猜你喜欢
测控总线评估
第四代评估理论对我国学科评估的启示
基于LabWindows/CVI与TekVISA的Tek示波器远程测控软件设计
基于PCI Express总线的xHC与FPGA的直接通信
机载飞控1553B总线转以太网总线设计
基于现代测控技术及其应用分析
向着新航程进发——远望7号测控船首航记录
评估依据
多通道ARINC429总线检查仪
基于USB2.0协议的通用测控通信接口设计
立法后评估:且行且尽善