张 杰,谌 祺,韩小涛
(1.华中科技大学国家脉冲强磁场科学中心(筹),湖北武汉 430074;2.华中科技大学强电磁工程与新技术国家重点实验室,湖北武汉 430074)
质子交换膜燃料电池(proton exchange membrane fuel cells,PEMFC)作为一种新型能源转换装置,具有工作温度低、功率密度大、负载响应快及环境友好等优点。然而PEMFC 系统运行状态复杂,在实际使用过程中可能出现多种故障,包括致命故障与可恢复故障。致命故障不可逆,会对燃料电池造成永久性损坏,主要包括膜损坏、电极穿孔和双极板损坏等。可恢复故障则可通过及时调整控制策略来进行改善,包括反应物供给系统故障、水热管理系统故障和电路故障等。对于可恢复故障,若不能及时诊断调控,将会演变成致命故障,对电池造成不可逆的损坏,因此对电池进行准确高效的可恢复故障诊断具有重要意义。
目前针对PEMFC 的可恢复故障诊断方法可分为两类:基于模型的方法和数据驱动的方法。基于模型的方法需建立能够模拟系统行为的模型,对实际系统与模型输出产生的残差进行分析、处理和决策。数据驱动方法利用历史数据确定经验分类器,使用分类器将实时数据分为正常状态和各种故障状态[1]。随着机器学习方法的迅速发展,其在故障诊断中的应用也越来越多,本文主要对几种典型的基于机器学习的PEMFC 故障诊断方法进行总结,分析和比较不同方法的特点及发展前景,为PEMFC 的故障诊断研究提供一定的参考和帮助。
在PEMFC 的运行中,水管理是一个关键问题,质子交换膜的含水量和质子传导率密切相关,膜必须保持充分的湿润度才具有良好的性能。但内部含水量过高会产生水淹故障,液态水积聚在气体扩散层和催化层表面,降低催化层活性,阻碍气体扩散,甚至堵塞气体流道,导致气体流通不畅,严重影响电池性能。而内部含水量不足时会出现膜干故障,膜电阻率随之上升,PEMFC 运行过程中产热增加,严重时甚至会局部过热而烧坏质子交换膜。常见的影响电池内水含量的因素包括温度、阴阳极进气压力、湿度等。水淹和膜干是最常出现的故障,需要及时诊断调控。
PEMFC 工作时会产生热量,使电堆温度升高。温度升高能提高反应速率,但温度过高时,质子交换膜的水含量下降,易引起膜干,膜阻增大,甚至导致膜的损坏。反之,当温度过低时,电化学反应速率降低,导致电堆性能下降。有效的热管理是维持系统正常工作的必要条件。
气体管理系统故障包括反应气体不足、气体泄漏、排气故障等。氢气不足会造成电流分布不均,严重时会产生反极,影响电池的使用寿命。氧气不足则会导致膜表面局部高温、电堆短路等问题,加速电池老化。但若气体过量,会导致无用功率消耗过多,净功率减少。
目前针对PEMFC 的故障诊断大多集中在上述几种类型,其中又以水淹及膜干故障研究最为广泛。在基于机器学习的诊断方法中,通常采用常规测量所得的变量作为诊断变量,包括电堆电压、单电池电压、电流、温度、压力、湿度、气体流速等,根据其变化特征判断故障类型。除此之外,电化学阻抗谱也常用于故障诊断中,作为水淹及膜干的诊断指标,但测量成本较高。
故障诊断需根据已有信息对数据进行分析,结合相关理论方法分析故障类型,得出诊断结果。机器学习在故障诊断领域的应用一般有两个方向:其一,根据实验数据来学习和构建模型以模拟PEMFC 系统的复杂过程,通过对实际系统输出与模型输出产生的残差进行评估和推理来实现故障诊断[1],原理如图1 所示,但这属于黑盒模型,难以解释变量之间的因果关系,残差生成及评价机制不如解析模型那么完善。其二,将故障诊断看作多分类问题,诊断过程分为两个阶段,首先是训练阶段,根据信息丰富的历史数据训练分类模型,判断样本所属的各种故障状态,通过对数据的处理及算法的优化得到最准确的分类结果,其分类流程如图2所示。之后在诊断阶段将实际运行数据输入训练好的模型中,诊断故障类型。
图1 基于模型的故障诊断原理
图2 故障分类流程
目前广泛用于故障诊断的机器学习方法主要包括神经网络、模糊聚类、神经模糊、随机森林、贝叶斯网络、支持向量机等。
神经网络(neural network,NN)是故障诊断领域最流行的方法之一,既可作为残差生成器,也可用作故障分类器。其基本结构如图3 所示,包含输入层、隐藏层、输出层。在给定一组输入和输出数据的情况下,神经网络能够学习和建立系统的非线性映射和多变量之间的关系,这为复杂系统的建模提供了一种新方案。使用神经网络算法进行建模时一般遵循以下流程:(1)获取实验数据;(2)数据预处理;(3)划分数据集(训练集、测试集);(4)构建神经网络;(5)训练神经网络;(6)验证网络;(7)结果分析。
图3 神经网络基本结构
Laribi 等[2]建立基于神经网络的PEMFC 优化模型,用于分析气体相对湿度对电池内水管理的影响。Yousfi Steiner等[3]基于神经网络建模进行水故障诊断,构造Elman 递归网络模型用于计算正常情况下的电压和压降,与实际测量值进行比较产生残差,根据设定的阈值对PEMFC 的状态进行分类。Koan-Yuh[4]将遗传算法神经网络模型与田口方法结合,利用实验数据训练和构建模型,以田口方法优化参数,可精确估算PEMFC 的稳态输出电压。
除用于残差生成,神经网络越来越多地作为分类器应用于故障诊断领域。Shao 等[5]提出一种神经网络集成方法,对4个反向传播神经网络进行训练,利用拉格朗日乘子法将这些子神经网络组合起来,结果表明集成神经网络的诊断准确率远大于单个神经网络的准确率,且具有更强的泛化能力。
刘嘉蔚等[6]提出基于概率神经网络(probabilistic neural network,PNN)和线性判别分析(linear discriminant analysis,LDA)的水管理故障诊断方法。利用LDA 对原始数据降维,使用PNN 对故障特征样本进行分类,并与反向传播神经网络(back propagation neural network,BPNN)和LDA-BPNN 进行对比,发现LDA-PNN 方法诊断精度最高且运算时间最短。党翰斌等[7]提出基于卷积神经网络(convolutional neural networks,CNN)的故障诊断方法,能识别膜干、氢气泄漏故障、正常状态及未知状态。
Liu 等[8]以单电池电压作为电量参数,进出口气体流量及温度等作为非电量参数,分别采用核极限学习机和在线顺序极限学习机建立基于电量和非电量的故障诊断模型,用D-S证据理论算法在决策层融合诊断输出。该模型能够诊断4 种不同程度的高空气化学计量比故障,平均识别率为98.7%。
深度置信网络(deep belief networks,DBN)在对于大样本数据的故障诊断中有很好的效果,Zhang 等[9]使用归一化和主成分分析(principal component analysis,PCA)对原始数据进行预处理,用模拟退火遗传算法模糊C 均值聚类处理无效数据,筛选故障样本,采用合成少数过采样技术对不平衡小样本进行补充。与仅使用DBN 的结果进行比较,发现前者可明显提高氢气泄漏故障的诊断精度,准确率从81.54%提高到了100%。
传统的故障诊断方法采用的一般是单一时刻的数据,但燃料电池在运行时产生的故障数据具有强时序相关性,王森等[10]以时间窗将采集到的数据分割成样本序列,以长短期记忆网络(long short-term memory,LSTM)为故障分类器,采用贝叶斯优化算法优化LSTM 模型参数。LSTM 善于处理时序数据,与循环神经网络和反向传播神经网络相比,LSTM 模型具有最好的分类性能和泛化能力。单向LSTM 只能处理一个方向的故障数据,Liu 等[11]提出基于双向长短期记忆网络(BiLSTM)和t 分布随机近邻嵌入(t-SNE)的故障诊断方法,使用t-SNE 方法进行降维,用BiLSTM 模型进行诊断。结果表明该方法对PEMFC 的水管理故障诊断准确率为96.88%。这种基于多变量时间序列的诊断策略可以有效克服某些异常值对诊断精度的不利影响,更符合故障的物理演化过程。
神经网络具有强大的学习能力和非线性逼近能力,善于处理大数据样本,更加灵活且更具鲁棒性。相比于其他方法,神经网络能够自主学习数据特征,模型构建更加简单。目前用于故障诊断的输入数据集都是易于测量的常规变量,包括电压、电流、温度、气体压力等,根据采集到的大量数据可准确区分水淹、膜干、反应气体不足、热管理故障等多种故障类型,且计算时间较短。神经网络属于监督学习技术,要实现诊断多种故障类型,需要获取尽可能多的故障样本,这在实际操作中非常困难,且随着故障模式的增加,网络复杂度也大幅上升。
聚类就是将数据集分成多个类或簇,最相似的数据点分配到同一个簇中,而不同簇之间的差异尽可能大。图4 即为在二维特征空间(f1,f2)得到三个簇(c1,c2,c3)的示意图。
图4 模糊聚类图示
作为一种重要的无监督分类算法,聚类在故障诊断领域有着广泛应用。用于故障诊断时,每个簇代表系统中特定的故障类型,数据点便是要诊断的特征向量。在使用聚类算法分类时需重点关注特征提取与选择方法,Liu 等[12]利用k均值聚类进行故障判别,有别于传统的从一维电压数据中提取特征,文中利用信号——图像转换技术将一维电压数据转换为二维图像,然后从二维图像数据中提取特征,使用费舍尔判别分析技术确定最佳特征,利用k均值聚类进行特征分类,可较好地诊断水管理故障。将一维数据转换为二维图像的方法能更好地突出故障在信号中引起的变化,提高诊断性能,也为数据不完整情况下的故障诊断提供了一种新的思路。
Zheng 等[13]提出一种基于模糊聚类的故障诊断方法,从电化学阻抗谱中提取特征,结合专家知识,使用基于方差和相关系数分析的方法进行特征选择,将选定的特征利用模糊聚类进行分类,可作为实时监测和诊断的有效工具。
此外,一种基于模糊聚类和模糊逻辑的双模糊方法也应用于PEMFC 的故障诊断[14-15],将模糊聚类的无监督分类能力与模糊逻辑的决策能力相结合。提取特征并构造特征空间后,在特征空间中进行模糊聚类,并根据聚类结果及专业知识设计模糊规则,每条规则对应一个聚类。此法可准确区分水管理故障的不同等级,如轻度干燥、中度干燥、重度干燥等,这证明了模糊逻辑的优势,且在不同堆栈上采集的数据集的测试结果验证了该方法的可移植性。
模糊聚类算法常用于诊断水管理故障,以电化学阻抗谱作为输入变量,分析水淹与膜干的特征,与有监督分类算法相比,模糊聚类根据专家知识来设计规则,对故障的分级更加清晰且具有更强的可解释性,但当出现新的故障类型时这些规则往往不能在线调整,对专家知识的依赖也限制其扩展性。
结合模糊逻辑和神经网络的自适应神经模糊系统(adaptive network-based fuzzy inference system,ANFIS)也广泛应用于故障诊断领域。神经网络的局限性在于需要大量数据且推理能力弱,而模糊逻辑则依赖于先验知识,自适应性差。一个典型的ANFIS 如图5 所示。它由输入层、输入隶属度函数层、规则层、规范化层、输出隶属度函数层和输出层组成。利用神经网络的学习机制自动从输入输出数据中提取规则,通过离线训练和在线学习进行模糊推理系统参数的自调整。
ANFIS 在PEMFC 故障诊断领域的应用大多是建立模型以预测输出。Silva 等[16]以电压为输入,训练一个自适应神经模糊推理系统,对电压序列的未来与过去的观测值之间的关系进行建模,采用梯度下降法和最小二乘法相结合的混合算法优化系统参数,结果表明该方法能有效预测电池的性能。这种方法不需要复杂的物理建模,易于实现,计算成本较低,且速度较快。唐奇等[17]采用自适应神经模糊网络对磷酸铁锂电池组故障诊断系统进行建模,利用减法聚类算法构建模糊规则,采用最小二乘法和误差反向传播算法构成的混合学习算法学习系统参数,该模型的诊断准确率可达92.7%。
除建立预测模型,ANFIS 作为故障分类器在机械及医学领域也有大量应用。Esin Dogantekin 等[18]将ANFIS 用于糖尿病诊断,利用线性判别分析进行特征提取,诊断准确率可达84.61%。作为分类器时,ANFIS 采用的是包含丰富信息的高维特征作为输入,而不是一部分最能代表系统的特征,这非常适用于非线性系统,可诊断多种故障类型,且自适应性强。
贝叶斯网络是一种概率统计模型,它通过有向无环图来表示变量间的条件依赖关系,善于从不完全、不确定的信息中做出推理。
Wasterlain 等[19]使用朴素贝叶斯分类器,如图6 所示,假设每个变量Xi……Xn都有条件地独立于故障模式Xc,通过对大量数据的概率计算与分析确定最可能的分类。以PEMFC 堆栈阻抗谱上的多个频率作为输入变量,诊断从轻度干燥到中度水淹之间5 种不同等级的故障,并研究学习数据库的大小对诊断结果的影响。结果显示,诊断正确率随着学习数据库的增大而增大。贝叶斯网络作为故障诊断工具也被用于机械轴承、冷水机组等的故障诊断中[20-21]。由于对大数据集的依赖,其在PEMFC 的故障诊断领域应用较少,但也不失为一种有潜力的发展方向。
支持向量机(support vector machine,SVM)是一种基于统计学理论的工具,通过非线性映射将数据投影到高维空间中,并构造一个超平面来分离该空间中不同的类。在SVM 实现过程中需要确定惩罚因子C和核函数参数g,C决定了训练误差和SVM 分类器的泛化能力,g决定了样本数据在特征空间的分布形式,通常需要对其进行优化。该算法的计算复杂性不受样本空间维数的影响,善于解决高维问题,且泛化能力较强。
支持向量机可用于建立PEMFC 系统非线性多变量模型,模拟电堆行为,预测输出电压[22],此外也常作为分类器广泛应用于故障诊断领域,其诊断流程如图7 所示。
Li 等[23]以单电池电压为特征变量,研究水淹和膜干两种典型故障。比较主成分分析(principal components analysis,PCA)、核主元分析(kernel principal components analysis,KPCA)、费舍尔判别分析(Fisher discrimination analysis,FDA)、内核费舍尔判别分析(kernel Fisher discrimination analysis,KFDA)四种特征提取方法,比较高斯混合模型(Gaussian mixture model,GMM)、K 最近邻算法,支持向量机三种分类方法。结果表明,使用FDA 和KFDA 作为特征提取工具的错误率低于PCA 和KPCA,KNN 和SVM 作为分类器的错误诊断率低于GMM,且计算量也更少。
同样以单电池电压为特征变量,文献[24]利用FDA 和有向无环图支持向量机(DAGSVM)进行特征提取和分类,使用两个堆栈的数据进行验证,该方法能准确检测和隔离5 种故障。但来自未知故障类型的样本会被错误地归类到一个已知的故障类别中,因此这种方法通常需要一个包含大量故障类型数据的丰富数据集,这也是模式分类方法普遍存在的缺点。Li 等[25]使用FDA 和球面多类支持向量机(SSM-SVM)进行特征提取和分类,在高维空间中设置球边界,并使用增量学习方法来训练SSM-SVM,以此来识别新的故障模式,提高诊断性能。对于不同类型的故障和不同的燃料电池堆,诊断准确率都能保持在较高水平,只有当数据处于正常与故障状态之间时误报率较高。
除以单电池电压为特征数据,Li 等[26]还利用安装在PEMFC 堆栈周围的磁传感器获得磁场数据作为输入,用线性判别分析法和球面多类支持向量机进行特征提取和分类,以98.26%的诊断准确度实现了对七种故障状态的识别。
样本中存在无效或冗余数据,通常会影响诊断精度与效率,Han 等[27]用可能性模糊C 均值聚类算法(PFCM)来过滤样本,剔除隶属度低于90% 的样本点,利用人工蚁群算法(artificial bee colony,ABC)优化SVM 参数。针对燃料电池运行数据时序相关的问题,Li 等[28]同样提出以在滑动时间窗口中采样的电压序列作为诊断样本,用时间序列分析工具shapelet transform 进行特征提取,以球形多类支持向量机(SSM-SVM)进行分类,分类准确率达96.13%。
支持向量机相比于神经网络具有更好的泛化能力,相比于模糊逻辑具有更高的精度且不依赖于先验知识,善于解决高维、小样本问题,能准确区分水淹、膜干、气体泄漏、温度管理故障等多种故障类型。但由于核函数受条件限制,算法收敛较慢,通常需要选择合适的特征提取算法与优化算法来提高诊断性能,整体算法复杂度也有一定提升。
随机森林(random forest,RF)是一种有监督的集成学习算法,将单一的决策树组成一片森林来进行集体决策,以此提升分类器的性能。RF 能快速有效地处理具有高维特征的输入样本,评估各个特征的重要性,且容噪能力强,计算成本低,能够避免过拟合。其算法构建流程如图8 所示。
图8 RF算法流程图
目前随机森林算法在燃料电池故障分类领域的应用相对较少,Lin 等[29]以增量式主成分分析法进行特征提取,随机森林算法作为分类器,得到了一个高效且准确的氢燃料电池诊断模型。余嘉熹等[30]将随机森林算法用于大功率PEMFC 系统故障分类中,与SVM 和K 最近邻算法对比,随机森林算法分类准确率达94.4%,且计算时间最短。
表1 总结了各种算法的特点。
表1 故障诊断算法对比
机器学习方法已广泛应用于PEMFC 的故障诊断之中并取得了良好的效果,但要想在工程实际中更好地应用,仍需进一步的研究和改进。结合机器学习算法及PEMFC 系统的工作特点,其未来的发展趋势大致可概括为以下几点:
(1)复合故障诊断方法
目前的故障研究大都是在实验测试平台上完成,故障情况单一,且现有的诊断方法大都是对单独故障的分类。而实际工作环境更为复杂,各种外界干扰都会导致故障状态的变化,且一个故障的发生可能会使多个子系统偏离正常状态,不同的故障特征信息之间也会相互影响,增加诊断的复杂性。因此PEMFC 系统的复合故障研究以及故障严重性的诊断是值得进一步关注的问题。
(2)故障样本数据获取
机器学习算法用于故障诊断时大都要求足够的样本量用以训练,然而在工程实际中难以获得较为全面且高质量的系统故障样本数据,通常会存在噪声干扰等问题,这也是机器学习应用于故障诊断领域的一大挑战。
(3)PEMFC 系统自适应故障诊断策略
PEMFC 系统退化可由故障引起,也可由自然的老化效应引起,因此诊断策略应该能够区分故障及自然老化。且机器学习模型大都只能对已有故障类型进行分类,无法识别未知故障样本。目前已有少量文献对此进行研究,而在难以获得较为全面的系统故障数据的情况下,这也是一个重要研究方向。
(4)PEMFC 故障控制策略
目前机器学习方法的应用主要集中在一些特定故障的检测和分类,为使诊断程序更加完善且发挥机器学习方法优势,可进一步结合PEMFC 故障控制策略进行调控,改善其运行性能。
(5)混合算法的应用
在故障诊断中,没有哪一种单一的算法可以满足所有要求,从原始数据处理到特征提取、特征选择、分类,大量混合算法用于故障诊断之中,发挥各自的优势,这也是未来诊断算法的发展趋势。
(6)PEMFC 系统在线故障诊断技术
现有的故障诊断方法大部分仍停留在离线验证阶段,在实现在线诊断的过程中仍面临着诸如获得高精度、非侵入性且灵敏的传感器、设计高效准确的在线诊断方法等挑战。但随着PEMFC 的发展,在线故障诊断是势必要解决的问题。