张明宇,王琦,2,于洋
半导体器件作为现代电子设备的关键零部件,被广泛应用于军工、通信、自动化和航空等领域,其健康状况直接影响着设备的运行性能和运行精度. 传统的依照可靠性手册对半导体器件进行评估鉴定,是基于“正常”和“失效”的二元判定,已经不能满足当前发展对寿命评估的要求,开展半导体器件的故障预测和健康管理(Prog‑nostic and Health Management,PHM)研究、建立产品使用寿命与故障机理之间的关系是十分必要的.
国内外主要从故障诊断[1,2]、状态评估[3~5]和寿命预测[6~9]三个方面开展PHM 技术研究,取得了较好的成果. 考虑到现有研究方法主要集中于对单一监测变量进行分析,且少有将状态评估和寿命预测结合起来研究,存在退化因素考虑不全和信息挖掘不充分的问题,本文面向电子领域PHM 技术,提出了一种基于LSTMDHMM 的MOSFET 器件故障时间预测方法,该方法可对器件状态进行预估并预测故障时间,为科学评估器件健康状态、最大限度地降低故障影响奠定基础.
LSTM 算法是一种深度学习理论,能够学习数据中暗含的复杂规则,其具备的长期记忆能力,使之处理半导体器件性能退化这种较长距离的时序依赖关系时更具优势;而半导体器件在故障演化过程中经历的衰退状态在现实中是观测不到的,只能根据状态观测值表现出来的征兆去感知器件的衰退状态,DHMM 可根据观测值反映研究对象内在状态,具有较强的状态描述特性与自学习能力,正适合处理半导体器件健康状态识别的问题.
基于LSTM-DHMM 的MOSFET 器件故障时间预测流程如图1 所示. 首先,对原始数据进行预处理;其次,采用LSTM 算法对二维离散时域信号进行时间序列回归预测;再次,利用AR 模型对得到的时间序列进行故障特征信息提取;接着,利用DHMM 算法构建健康状态识别分类器,建立特征向量与退化等级间的映射关系,实现MOSFET 器件退化状态的识别;最后,根据识别结果,结合失效阈值,进行虚警排除并实现MOSFET 器件的故障时间预测.
由于原始时域监测信号中存在的干扰因素,会影响模型输出结果的真实性和精确度. 因此,在预测前需进行数据预处理.
数据预处理包括去噪、数据压缩和归一化.
图1 LSTM-DHMM预测流程
首先,使用加权滑动平均滤波法滤除训练集和测试集中的高低频噪音. 加权滑动平均滤波法如式(1)所示.
式(1)中,yi为原始时域数据;yˉi为滤波后的数据;wk为线性权系数,其表达式如式(2)所示.
wk=N+1-k(2)
半导体器件状态的改变是极其缓慢的过程,当对半导体器件全寿命周期进行监测时,数据量将呈爆炸式增长. 为加快模型收敛,减少预测耗费的时间,需对滤波后的数据进行压缩处理. 本文选用一阶预测器数据压缩算法剔除重复、冗余数据. 具体操作如下:
式(3)~(5)中,x(t1)、x(t2)为样本中相邻点,kL为x(t1)和x(t2)定义的直线的斜率. 设置一个可变阈值,如果t3时刻的采样点在阈值范围内,则去除,反之则留用. 以“MOSFET Thermal Overstress Aging Data Set”14 号实验器件第五次实验数据为例,数据压缩前后对比见下图2.
图2 数据压缩前后对比图
在时间序列预测阶段,采用二维离散时域信号作为样本输入,而二维离散时域信号具有不同的量纲和数量级,为消除量纲和数量级对模型训练结果的干扰,同时加快模型收敛,需进行压缩后数据的归一化处理.具体见式(6).
MOSFET 器件的健康状态识别与故障时间预测模型分为时间序列预测和健康状态识别两部分. 时间序列预测部分拟合应力作用下器件故障特征向量的变化趋势,健康状态识别部分建立故障特征向量和退化等级之间的映射关系,结合两者的预测结果,判断器件健康状态、预测器件发生故障的时间. 时间序列预测部分采用堆叠结构,由LSTM单元、Dropout层、全连接层和回归层组成. 健康状态识别部分包括特征提取、建立模式库、模式匹配与状态识别四个子部分. 模型架构如图3 所示,图中Xt表示t时刻的样本输入,Dense代表全连接层,Re‑gression代表回归层.
在时间序列预测阶段,由二维离散时域信号构成关于同一器件不同参数的时间序列训练集Xt,将多个器件的训练集分别代入LSTM 单元,经LSTM 单元处理后将输出导入全连接层,其中,t时刻Xt的训练标签为t+1时刻的输入Xt+1. 为防止过拟合现象,在全连接层前加入Dropout 层. 全连接层的输出为后续回归层的输入,回归层的输出即为时间序列预测结果. 在模型训练过程中,采用BPTT 算法和模型权重优化算法调整模型参数,选用的模型权重优化算法将在3.2 节中进行介绍.选取均方根误差(Root Mean Square Error,RMSE)作为时间序列预测模型精确度的评价标准,其计算式为:为预测值,yk为目标值.RMSE 数值越小,表示预测的时间序列效果越好.
图3 LSTM-DHMM模型框架
在状态识别前,为找出时域信号的本质特征,需要提取时序序列的特征参数. 常用的平稳时间序列模型有自回归模型、移动平均(Moving Average,MA)模型和自回归滑动平均(AutoRegressive Moving Average,AR‑MA)模型. 根据序列的自相关函数(AutoCorrelation Function,ACF)和偏自相关系数函数(Partical Autocorre‑lation Coefficient Function,PACF)确定三种模型的使用场合:自相关系数拖尾,偏自相关系数截尾,则选用AR模型;自相关系数截尾,偏自相关系数拖尾,则选用MA模型;自相关系数和偏自相关系数都拖尾,选用ARMA模型[10,11]. 根据选用的模型类型,确定相关算法提取模型特征参数.
观察特征参数变化趋势,根据特征参数的特点,将半导体器件的寿命周期划分为若干阶段:器件在有效寿命期间发生故障的概率很小,为偶发故障,此阶段特征参数变化较平稳,前后幅值相差不大,设此阶段为正常损耗期;当器件的性能开始退化时,特征参数较正常损耗期会有较大起伏,设此阶段为衰退期;当退化逐步累积,器件在此阶段发生故障的概率增加,特征向量前后会有较大变化,设此阶段为严重退化期.
根据特征值变化趋势将器件寿命周期划分为正常
式(7)中,N为预测的时间序列中数据的个数损耗期、衰退期和严重退化期后,便可进入状态识别阶段. 由于DHMM 的观测矢量需要在有限的离散符号集合内,因此,在状态识别阶段,使用通讯领域信源编码技术中的Lloyds 算法将提取到的故障特征信息转为离散码本,再利用式(8)将码本化为观察值序号序列.
式(8)中,partition 为标量量化参数,index(x)为量化索引. 此时,便可利用DHMM 算法训练样本序列,建立状态识别模型库.
在健康状态识别阶段,将码本化的故障特征信息值作为观测值序列输入到初始模型中,利用Baum-Welch 算法可求得一组新的参数,同时获得新的模型,观测序列在新模型下的输出概率要大于在初始模型的输出概率. 重复此过程,逐步优化DHMM 模型参数直到输出概率满足预设的收敛条件,此时的模型便是所求的DHMM状态识别模型.
本文利用NASA Ames Research Center 提供的“MOSFET Thermal Overstress Aging Data Set”作为实验数据对基于LSTM-DHMM 的MOSFET 器件健康状态识别与故障时间预测模型进行分析. 该数据集中包含栅-源电压、漏-源电压、漏电流和壳温等参数的监测数据.
半导体器件的健康状态在运行中很难直接观测,只能通过器件表现出的信号征兆判断半导体器件的状态.为了便于观测实验器件状态随温度的变化趋势,本文选用单一退化特征向量作为状态观测值,通过计算数据集中漏-源电压与漏极电流的比值求出实验器件的漏-源导通电阻RDS(on),以RDS(on)参数作为监测量反应实验器件的状态. 五次实验的RDS(on)随实验条件的变化如图4所示.
图4 五次实验RDS(on)变化趋势图
图4(a)显示,在前四次实验中,器件的RDS(on)随壳温的降低而下降;而图4(b)显示,在壳温低于第4 次实验的情况下,第5次实验的RDS(on)要高于第4次实验. 综上分析,可知RDS(on)参数同时受壳温和加速老化累计时长的影响.
在时间序列预测阶段,本文选取壳温及加速老化累计时长作为样本输入,预测器件RDS(on)值.
选取数据集中8 号、11 号、12 号、14 号器件五次实验的全寿命数据作为训练集,9号器件五次实验的全寿命数据作为测试集进行模型验证.
划分好训练集和测试集后,利用LSTM 算法进行时间序列预测. 预测前使用2.2节介绍的方法对原始时域监测信号进行预处理,去除信号中存在的干扰因素. 超参数的设置直接影响着模型的训练结果,在时间序列预测阶段,LSTM模型的初始参数在均值为0、方差为2/(m+n)的均匀分布中抽取,其中,m为输入数量,n为输出数量. 常用的模型权重优化算法有Adam、SGDM 和RM‑SProp三种[15]. 五次实验,三种优化算法训练的模型均方根误差见表1 所示. 可见,三种优化算法中,Adam 作为自适应优化算法的预测误差最小,五次实验预测误差均小于1%,因此,本文使用Adam优化器进行梯度优化,训练得到最优的模型参数,具体步骤参见文献[12].
表1 三种优化算法的均方根误差
在模型测试阶段,以9 号实验器件的实验数据为例,将壳温和实验累计时长作为输入向量输入到已训练好的LSTM 时间序列预测模型中,预测9 号实验器件的RDS(on)值. 五次实验的模型预测值与模型目标值(实验器件实际RDS(on)值)的拟合结果如图5所示,绿色曲线代表模型预测值,红色曲线代表模型目标值.
从图5中可以看出,模型较好地拟合了样本参数的变化趋势,输出结果和目标值较吻合,模型计算结果作为预测值可信度高.
将9号实验器件的预测值留取待用,待完成DHMM健康状态识别分类器的训练后,将9号实验器件预测值中的故障特征信息作为DHMM模型的输入值.
图5 模型拟合结果
在状态识别阶段,根据器件状态退化单向前进演变的特点,DHMM 模型采用左右型马尔科夫链. 随着现代半导体设计、制造工艺和控制过程技术的发展,半导体器件的早期失效率和偶然失效率已接近于零,可保证器件在初始工作时刻状态是正常的,因此,把初始概率分布π设为(1,0,0). 前文已将半导体器件的寿命周期划分为正常损耗阶段、衰退阶段和严重退化阶段. 那么,状态数N可确定为3,状态所对应的观测值的数目M由故障特征信息提取情况确定.
以9号实验器件第一次实验数据为例,计算序列的ACF与PACF,判断序列的模型类型. 计算结果见表2所示.
从表2 中可以看出,此序列ACF 拖尾,PACF 截尾.由前节所述可知,此种情况适合选用AR 模型.AR 模型可探究时域信号复杂的内在结构,具有良好的时频分辨率,其表达式为:
式(9)中,x(n)表示时间序列;ak、p分别为模型的参数和阶次;εn为白噪声.
表2 ACF与PACF值
时间序列类型确定后,便可采用与序列类型相关的特征提取方法提取故障特征值. 由于五次实验RDS(on)参数幅值很小,为更显著的反映温度环境应力及实验累计时长对RDS(on)参数的影响,采用趋势分析法,提取RDS(on)针对上一时刻的变化量,再利用Burg 算法对AR模型提取参数,Burg算法具体求解步骤见文献[13].
图6(a)~(e)依次代表第1 次~第5 次实验的AR 模型参数. 根据前文对器件寿命周期的划分,结合器件RDS(on)参数在前三次实验中改变较小且在第5 次实验中陆续失效的结果,将前三次实验归为一类,设定为正常损耗期,设定器件在第四次实验中处于衰退期,第五次实验中的器件处于严重退化期.
规定了DHMM 模型参数的初始值、划分好器件状态后,便可使用Baum-Welch 算法对模型参数不断迭代重估,构建健康状态识别分类器,反映特征向量和退化等级之间的关系.DHMM训练迭代曲线如图7所示.
由图7的迭代曲线可以看出,DHMM 模型具有很强的学习能力. 虽然衰退期与严重退化期的迭代曲线距离较近,但三种退化状态依然具有不同的收敛值.
MOSFET 器件退化DHMM 库建好后,便可以用来识别器件所处的状态. 识别方法为使用前向-后向算法计算测试集数据在各模型下的输出概率值,选取输出最大概率值的模型作为实验器件所处的状态. Baum-Welch 算法和前向-后向算法的具体计算步骤见文献[14]. 三种MOSFET 器件退化状态在DHMM 分类器下的输出对数似然概率与识别结果见表3所示.
图6 五次实验AR模型参数
图7 三种状态的DHMM迭代曲线
从表3 可以看出,按照前文已划分的器件退化状态,DHMM 健康状态识别分类器正确识别出第2~第5次实验的结果,识别准确率为80%.
表3 DHMM分类器下三种状态的对数似然概率与识别结果
为了进一步验证本文提出的LSTM-DHMM 预测方法的有效性和优越性,设置其他方案与本文所提预测方法进行对比分析,以增强比较效果.
GRU 引入更新门和重置门控制信息的更新,是一种比LSTM 网络更加简单的循环神经网络,和LSTM 网络一样,通常也用于时间序列的预测. 本文使用GRU网络和单以温度环境应力为输入的LSTM 网络作为时间序列预测模型LSTM的对比方案.
由于数据驱动类算法存在多次预测不稳定的问题,本文引入均方差作为模型稳定性的比对指标. 均方差用来衡量数据的波动性. 均方差越大,说明模型预测数据偏离期望的程度越大;其值越小,说明模型预测数据波动性越小,预测算法的稳定性越好[15]. 均方差计算式见(10)所示.
式(10)中,N为预测的时间序列中数据的个数为模型预测值,E为预测时间序列的期望. 三种时间序列预测方法的均方差如表4所示.
表4 三种时间序列预测方法的均方差
从表4可以看出,以二维离散时域信号建模的GRU网络和LSTM 网络除第五次实验的均方差大于单应力LSTM 网络外,其余四次实验两者的均方差均小于单应力LSTM 网络. 可以说,就整体预测而言,二维离散时域信号GRU 网络与二维离散时域信号LSTM 网络的模型稳定性要优于单应力LSTM网络.
接下来对比二维离散时域信号LSTM 网络与二维离散时域信号GRU 网络的稳定性. 除第1 次、第5 次实验LSTM 网络的均方差要略大于GRU 网络外,其余三次实验LSTM 网络的均方差均小于GRU 网络,但相差不大. 综上分析,就单次实验而言,二维离散时域信号LSTM 网络与二维离散时域信号GRU 网络的稳定性各有优劣,但二维离散时域信号LSTM 网络的模型整体稳定性要比二维离散时域信号GRU网络略胜一筹.
对比完三种时间序列预测方法的稳定性后,再对比三种方法的预测精确性. 采用均方根误差作为模型预测精确性的对比指标. 均方根误差越大,模型预测精确度越低;均方根误差越小,模型预测精确度越高. 三种方法的均方根误差如表5所示.
从表5 中可以看出,在五次实验中,单应力LSTM的均方根误差最大,即三种时间序列预测方法中,单应力LSTM 网络法的模型预测精确度最差. 可见相对于单应力时间序列预测模型,使用二维离散时域信号建模,能够充分考虑影响器件的退化因素,可更好地拟合器件的变化趋势.
表5 三种时间序列预测方法的均方根误差
对于同样以二维离散时域信号建模的GRU 网络和LSTM 网络,在前三次实验中,虽然GRU 网络的预测误差要略小于LSTM 网络,但相差并不大. 对于第4次、第5 次实验,GRU 网络的预测误差要远大于LSTM 网络,尤其是在第五次实验中,GRU 网络的预测误差是LSTM网络预测误差的2 倍之多. 综上,对于五次实验,GRU网络与LSTM 网络的预测精确度各有优劣,但于整体预测而言,LSTM网络更具优势.
通过三种时间序列预测方法的均方差、均方根误差的对比分析可知,单以温度环境应力为输入的LSTM网络法在模型稳定性、预测误差方面都要逊色于二维离散时域信号GRU 网络法. 因此,选用GRU 网络法作为时间序列预测方法,选择识别领域内研究较充分且常用的SVM 方法进行健康状态识别,组成对比方案,以验证LSTM-DHMM 模型在本学习任务中的优势. 对比方案具体构成见表6.
表6 对比方案构成与本文所提预测方法
按照本文所提二维离散时域信号LSTM-DHMM 方法的预测流程,计算对比方案的预测结果,结果见表7.
从表7 中可以看出,GRU-SVM 模型的识别率最低,仅为40%. 虽然GRU-DHMM 模型和LSTM-SVM 模型的识别率能达到60%,但相较于LSTM-DHMM 模型80%的识别率,仍然偏低. 对比结果表明,LSTM-DHMM 模型相较于GRU-DHMM 模型、GRU-SVM 模型和LSTMSVM模型,识别准确率更高,更适用于本学习任务.
综合本节的分析可知,二维离散时域信号LSTM网络法在模型稳定性、预测准确性方面均要优于单应力LSTM网络法. 就整体预测而言,二维离散时域信号LSTM网络法的稳定性、准确性也要略胜于二维离散时域信号GRU网络法. 引入GRU-DHMM、GRU-SVM、LSTM-SVM 与LSTM-DHMM 方法相比较,结果表明LSTM-DHMM 方法识别率更高. 因此,本文所提方法在模型稳定性、预测准确性和识别率方面均表现良好,具有优越性.
表7 对比方案的识别结果
按照LSTM-DHMM 预测流程,当DHMM 预测器件处于严重退化阶段时,应结合失效阈值,预测器件的故障时间. 选取壳温稳定后RDS(on)参数20%的漂移作为器件故障阈值[16]. 计算表4 中第1 次和第5 次实验RDS(on)参数的漂移量,见表8所示.
表8RDS(on)参数漂移百分比
第1次实验的RDS(on)参数预测值漂移量低于故障阈值,可判断器件并没有发生故障,此次预警为虚警,器件可以正常工作,不需更换,继续进行监测便可;第5次实验的RDS(on)参数漂移量超过故障阈值,计算其故障发生时间,如表9所示.
表9 预测故障时间与实际故障时间
由此可见,LSTM-DHMM 模型能够提前预测故障的发生,模型预测误差小于10%,具有较高的预测精度.
在应用LSTM-DHMM 模型时,如经健康状态识别分类器判断,器件处于正常损耗期,证明器件处于整个寿命周期的早期,性能参数缓慢下降,但不影响正常工作,器件可以放心使用,继续监测器件状态即可;如果判断器件处于衰减期,此时器件性能参数下降速度加剧,需加强对器件的关注,并采取降温等措施,减缓材料老化、延长器件使用时间;如果判断器件处于严重退化阶段,代表器件材料已经严重老化,器件已濒临失效,根据故障阈值计算器件故障时间,以便提前更换器件,最大限度降低器件突然失效造成的损失.
本文提出了一种面向半导体PHM技术的二维离散时域信号驱动MOSFET 器件故障时间预测方法,通过LSTM 算法拟合应力作用下器件故障特征向量的变化趋势,采用DHMM 算法反映特征向量与退化等级间的映射关系,结合故障阈值排除虚警,最终实现故障发生时间的预测. 将本文所提方法与多种不同方法进行对比分析,结果显示,本文所提方法在预测准确性、预测精确性和识别准确率方面均取得了较好的效果. 在今后的工作中,我们将优化模型结构,进一步深入分析多种信号特征融合策略,以提高模型的判别能力.