游达章 张敏 余炼 刘攀
摘 要: 为了更好地研究嵌入式系统硬件可靠性,提出一种针对嵌入式系统硬件的马尔科夫模型分析方法。首先分析了嵌入式系统各模块的失效形式和故障类别,并根据故障类别将系统定义为不同工作状态;其次,根据状态转移关系建立状态转移矩阵,并求解计算马尔科夫状态转移方程,得到系统可靠度随时间的变化关系;最后,对嵌入式系统硬件局部可靠性作了敏感性分析。仿真结果表明,马尔科夫链模型能较为准确地描述硬件失效过程和预测某型喷漆系统硬件的可靠度,此外,提高电源可靠性有利于提升整个嵌入式硬件系统的可靠性。
关键词: 可靠性预测; 模型分析; 失效形式分析; 工作状态定义; 状态转移矩阵; 敏感性分析
中图分类号: TN876?34; TP302.7; TP202+.1 文献标识码: A 文章编号: 1004?373X(2020)23?0079?06
Abstract: In order to study the hardware reliability of the embedded system better, a Markov model analysis method for dealing with embedded system hardware is proposed. The failure form and fault category of each module in the embedded system are analyzed. The system is defined as different working state according to the fault category. The state?transition matrix is established according to the state transition relationship, and the Markov state transfer equation is calculated to obtain the relationship of variation of system reliability with time. A sensitivity analysis on the local reliability of the embedded system hardware is carried out. The simulation result shows that the Markov chain model can describe the failure process of the hardware and predict the reliability of the hardware of a certain type of paint spraying system, and improving power supply reliability is conducive to improving the reliability of the entire embedded hardware system.
Keywords: reliability prediction; model analysis; failure mode analysis; working status definition; state?transition matrix; sensitivity analysis
0 引 言
嵌入式系统的可靠性是指系统在规定的条件下和规定的时间内,完成规定功能的能力,而嵌入式系统硬件可靠性主要由印制电路板的可靠性来体现。为了预测和提高嵌入式系统的可靠性,不少学者投入很大的精力研究。文献[1]针对嵌入式实时控制系统可靠性难以评估的难点,通过使用Copula建立的ERCS软硬件综合可靠性模型,使得ERCS软硬件综合可靠性比独立时有所提高。文献[2]利用离散时间的马尔科夫链和半马尔科夫链分析了复杂多状态可修复A/n系统元件的多样性,导出了易行、有效的系统可靠度与可用度的预测模型。文献[3]针对嵌入式系统设计只注重功能不注重系统整体的问题,提出一种新的嵌入式可靠性评价方法,对于软件故障问题的预测描述更加全面。传统的可靠性分析方法有故障树分析法、贝叶斯网络推理算法等,而马尔可夫模型能够计算出具有维修能力和多重降级状态的系统可靠度,也常作为预测系统可靠性的主要手段。文献[4]对光伏电站的可靠性模型,使用马尔科夫链蒙特卡洛(MCMC)方法对其进行评估,相比于传统的蒙特卡洛方法,这种方法收敛速度和抽样速度更快;文献[5]在设备具备故障率指数分布特性前提下,应用马尔科夫链可以快速对电力系统进行可靠性解析,通过历史运行状态得到应用状态转移矩阵与电力运行状态,分析未来时间段电力系统平稳状态与运行状态下的转移概率,确保准确评估电力系统的运行可靠性,相比传统模型更加快速和准确。文献[6]针对锂电池的寿命提出了一种马尔科夫残差滚动优化预测模型,在只有4个数据点的情况下比普通滚动优化模型的精度高很多。尽管这些研究通过使用马氏链解决了一些问题,但是,对于在工业设备频繁运用的嵌入式数控系统的硬件设计可靠性评估,依然是当今世界嵌入式系统寻求进一步发展亟需解决的问题之一。
为了更好地研究嵌入式系统硬件可靠性,结合嵌入式系统和马尔科夫模型,构造一种由系统模块分类的可靠性模型,并考虑修复率问题,提出一种针对硬件的马尔科夫模型分析方法,分析了嵌入式系统各模块的失效形式和故障类别,根据状态转移关系建立状态转移矩阵,并对马尔科夫状态转移方程进行求解计算;最后对嵌入式系统硬件可靠性作了状态预测和敏感性分析。
1 嵌入式系统的硬件模块
以某型嵌入式自动喷漆设备为例,如图1所示,电路硬件包括时钟电路、复位电路、MCU、通信模块、电源和光耦隔离等。
为了便于研究,按照功能将以上电路硬件划分为电源模块、通信模块、CPU模块和控制模块,如图2所示。
2 硬件嵌入式系统失效模式
2.1 故障原因
硬件故障根据故障的持续时间又可分为永久性故障和暂时性故障。永久性故障是硬件物理性能随着时间的推移而出现不可逆的退化;暂时性故障则是由外部或内部不确定因素引起的短时间硬件故障。暂时性故障有时不通过维修就可以自行恢复,电源电路故障或电路供电不稳定造成芯片烧毁则属于永久性故障,只能通过更换芯片实现系统正常运行,否则无法实现正常功能。但是当有器件接触不良,例如电源插座接触不良,与触摸屏之间的串口线出现短时间的通信障碍,故障并不会长时间持续,一段时间后能自行恢复正常,此类故障属于暂时性故障。表1列出了该系统出现的主要故障原因。
2.2 故障模式
硬件失效主要由硬件的全局故障、未能及时恢复的暂时性故障与超过系统容错能力的硬件局部故障引起的。当嵌入式系统出现全局故障时,硬件系统无法工作,也就是硬件失效。为了消除硬件暂时性故障的影响,经常采用重新烧写控制代码、关上设备重新启动等方法,但是在系统运行过程中,可能因为未能及时从故障中恢复而造成系统失效;当硬件局部故障发生时,系统将会依旧执行程序,但故障单元会导致整个系统无法工作,此时当故障单元修复后,系统能立即投入工作,修复后的单元模块还是属于指数分布,而当一系列指令、操作命令都无法执行且整个系统硬件受到应力影响,处于不可修复时,则判断系统处于失效,表2是本系统出现的主要故障模式。
3 硬件嵌入式系统的马尔科夫模型
在嵌入式数控系统硬件中,先从单个的元器件开始分析,当某个元器件处于正常工作状态时,它从正常状态转移到故障状态的转移概率与其现在处于的状态有关,而电子元器件的故障分布是符合指数分布,具有无记忆性,而这也是马尔科夫链的性质。即此时由正常转为故障的概率只与当前的状态有关,与之前的无关,状态之间转移随机。此时假设:
1) 每一个组成单元的寿命和维修时间的分布都遵循指数分布,也就是说故障率和修复率都是常数。
2) [X(t)]表示嵌入式数控系统当时处于时刻[t]的状态。
3) 每个结构单元处于什么状态是相互独立的,与其他结构单元的状态无关。
4) [Δt]足够小,可以认为在[Δt]时间内一个故障重复一次以上的概率为0,也就是说不考虑在同一时刻,组成部件出现两次及两次以上的故障情况。
当一个单元在[t]与[t+Δt]这段很短的时间里面,故障率为[λ],修复率为[μ],对单个单元进行状态分析,此时该单元会有故障状态和正常状态这两种状态,由此可以得出该单元的状态转移关系如图3所示。
利用马尔科夫模型能够较为准确地表示出该嵌入式硬件系统的工作情况。当运用马尔科夫模型评估系统可靠性指标时,嵌入式系统硬件各个部分的状态可以看作是一个离散时间、离散状态的马尔科夫过程,为了将马尔科夫过程应用到嵌入式硬件系统的可靠性模型中,作出以下假设:
1) 该嵌入式控制系统的所有硬件器件失效率均独立,服从指数分布。
2) 该系统共有 7 个状态(正常及6个模块失效,分别用0,1,2,…,6表示),用[λ]表示某个组成模块的故障率,[μ]表示其修复率,由一个状态转移到另一个状态是随机的。
因此,在[Δt]时间内,系统各状态间的状态转移如图4所示。
由图2可知,整个嵌入式系统的硬件主要由电源模块、CPU模块、通信模块和控制模块组成。其中,电源模块主要是由两块降压芯片、电容和电阻组成;CPU模块主要是由STM32F103芯片和时钟复位电路组成;通信模块主要是由MAX232和电容组成;控制部分主要是由GPIO、光耦和串口组成。相关部件的故障数据可参考IEEE收集以及我国军用手册专门用于可靠性评估的数据标准与表3,其可靠性数据结果计算如表4所示。
通过表4和式(4)可得到系统工作状态可靠度随时间的变化关系,如图5所示。
由图5可以看出,该硬件系统的可靠性随着时间的增大而减小,符合设备寿命实际变化规律。假设系统的可靠度大于0.8时硬件系统可靠,可知该硬件系统能可靠工作的时长约为0.3×106 h。在设备处于正常工作的情况下,时间越长,设备的可靠性大于这一时间的概率就越小。
5 敏感性分析
由于各个模块的失效率对系统的可靠度影响效果不同,因此在实际运用中,要对影响较大的模块加以考虑,即对各个模块的失效率做敏感性分析。通过控制变量法逐个调整各个模块的失效率,调整范围控制在20%左右,并选定评判标准为可靠度变化幅值。仿真结果如图6所示。
由图6和表5可知:模块失效率[λ1]的变化对可靠度的影响较大,当[λ1]减少20%或者是增加20%时,相比于其他模块失效率对可靠度的影响,可知电源模块对整个系统可靠性的影响更大,往后依次是时钟电路、光隔电路、MCU、串口屏。因而,在硬件设计上电源模块部分设计对整个系统的可靠性提高有一定的指导意义。
6 结 语
为了更好地研究嵌入式系统硬件可靠性,以某型嵌入式自动喷漆设备控制系统硬件为例,提出了基于马尔科夫模型的硬件系统可靠性预测方法。首先对嵌入式自动喷漆设备控制系统硬件进行模块划分,分析了各模块工作状态转移过程,得到整个硬件系统可靠性随时间的变化关系,较好地描述了整个硬件系统的失效过程;其次,通过敏感性分析得知,对系统可靠性影响最大的模块为电源模块,为进一步提高硬件系统可靠性提供了良好的解决思路。综上所述,基于马氏链的硬件可靠性预测模型对实际应用中嵌入式系统的硬件设计和可靠性分析具有很大的价值。
参考文献
[1] 郭荣佐.基于Copula的ERCS系統软硬件综合可靠性建模与分析[J].计算机科学,2014,41(4):145?149.
[2] 方永锋,陈建军.多状态可修复k/n系统的随时间响应可靠性研究[J].高技术通讯,2016,26(2):195?199.
[3] 李冬辉,苏海啸,冯中艳,等.ARM嵌入式系统模糊可靠性评价[J].测控技术,2016,35(1):118?122.
[4] 朱晓荣,王羽凝,金绘民,等.基于马尔科夫链蒙特卡洛方法的光伏电站可靠性评估[J].高电压技术,2017,43(3):1034?1042.
[5] 雷为民,罗玮,苗友忠.马尔科夫链的电力系统运行可靠性评估研究[J].自动化与仪器仪表,2016(3):110?111.
[6] 孔令达,杜蜀薇,赵兵,等.基于马尔科夫链蒙特卡洛仿真的智能电能表软件可靠性仿真研究[J].电测与仪表,2018,55(1):114?120.
[7] 封二强,郑军,蓝新生.软硬件可靠性综合评价方法研究[J].电子技术应用,2015,41(3):20?23.
[8] 秦昳.基于软硬件故障竞争失效模式的可靠性分析方法研究[J].电子技术与软件工程,2014(13):197?198.
[9] 王乐胥.嵌入式电子信息系统可靠度优化探究[J].信息与电脑(理论版),2018(8):23?24.
[10] 黄鲁江,雷烨.基于Markov过程的二乘二取二计算机联锁系统的可靠性和安全性分析[J].铁路通信信号工程技术,2017,14(5):1?4.
[11] 潘刚,尚朝轩,梁玉英,等.相关竞争失效场合雷达功率放大系统可靠性评估[J].电子学报,2017,45(4):805?812.
[12] 高志,雷建和,张丹,等.应用马尔科夫模型分析起落架的可靠性[J].自动化与仪器仪表,2014(5):146?149.