马艳东,崔能西
(1.河北省科学院 应用数学研究所,石家庄 050081;2.河北省信息安全认证工程技术研究中心,石家庄 050081;3.石家庄精英中学,石家庄 050081)
道岔运行状态的稳定与否与列车运行安全息息相关。铁路电务部门从微机监测系统读取道岔动作电流数据,人工分析判断道岔运行状况。随着列车运行速度与行车密度的不断提高,这种单纯依靠人脑进行故障诊断的手段面临着越来越严峻的考验。
传统机器学习分类算法是以每类样本的误分类代价相等为前提,以识别准确率为最终目标,进行优化。不同的道岔故障类型对铁路相关部门带来的影响(代价)[1-3]有较大的不同。使用传统分类算法将无法有效处理这些数据。与BP神经网络(BPNN)相比,RBF神经网络(R BFNN)[4-5]不仅具有结构简单、收敛速度快、泛化能力强的特点,还具有优异的函数逼近能力、全局寻优能力。但RBFNN非代价敏感,无法直接应用到道岔故障诊断领域。本文通过建立基于代价敏感RBFNN模型,将基于遗传算法的RBFNN导向代价最小方向搜索,使其代价敏感化,并成功地将其应用到道岔故障诊断系统中。
道岔动作电流是由微机监测系统在转辙机搬动道岔时,实时采集电流数值按时间先后顺序组合而成的曲线如图1所示。通过对道岔电流动作曲线不同区段的仔细分析,可对其机械、电气、状态、时间等特性有个比较充分的判断。
图1 道岔动作电流曲线
曲线1为正常进行道岔搬动操作的道岔动作电流曲线。其他任何与曲线1不同的曲线都是发生某种故障的曲线。不同形状规律的曲线对应不同类型的道岔故障。例如,曲线2表明道岔在解锁过程中用时过长;曲线3表明在道岔闭锁阶段的阻力过大;曲线4表明转辙机处于抱死状态。道岔故障诊断系统就是通过区分道岔动作曲线所呈现的不同形状,来辨识其所蕴含的故障信息。
利用遗传算法[6]对RBFNN中心与宽度进行优化。ci、Widthi分别为第i个隐含节点的中心向量与宽度。数据维数为Ndim,隐含节点个数为Ncent。代价敏感RBFNN的染色体编码方案为:每个中心向量与其相对应的宽度组成“中心-宽度数据对”摆放在一起,不同的“中心-宽度数据对”依次排放,如图2所示。
图2 染色体编码方案
为使传统RBFNN敏感化,定义适应度函数如下:
其中,tx、ox为样本x的目标输出与实际输出;CV(tx)为将类别为tx的样本误分成其它类的代价;分别为网络在训练集与测试集上的误分类代价;α∈[0, 1]平衡因子,负责平衡学习与泛化性能的冲突。
2.3.1 最佳保留选择算子
为保证在遗传算法搜索结束时得到的最终结果一定是历次迭代中适应度值最高的个体,本算法将当前种群中适应度最小的个体复制到下一代种群中。
2.3.2 交叉与变异操作
交叉操作采用3点算术交叉方案:(1)以一定概率随机选择2个要进行交叉的染色体;(2)随机选取要交叉的3个位置;(3)针对这2个染色体对应的3个位置的分量,根据下面的公式进行算术交叉。其中,与分别为中心向量X与Y第i个位置分量在第t次迭代时的数值;β∈[0, 1]。
变异操作采用3点变异方案:(1)以一定概率随机选择要进行变异的染色体;(2)随机选取该向量的3个分量;(3)随机生成3个数,替换染色体的3个分量。
(1)在参数取值范围内,随机生成初始种群;(2)计算种群个体适应度;(3)根据适应度数值,对种群个体由小到大排序;(4)对种群个体,分别以不同的概率进行选择、交叉、变异、迁移操作;(5)重复步骤(2)~(5),直到达到最大迭代次数,或种群最佳适应度达到阈值。
该道岔故障诊断系统[7-8]分为离线学习与在线诊断两个模块。离线学习模块将历史数据按比例随机拆分成训练集与测试集;利用训练集按算法2.4生成代价敏感RBFNN(记为CS_RBF);在测试集上,判断网络的性能表现。如不满意,则重新拆分历史数据集,重新训练网络。否则,将其参数迁移到实时诊断模块;实时诊断模块将接收的实时数据输入CS_RBF,得到最终的故障类型。道岔故障诊断系统工作原理如图3所示。
图3 基于代价敏感RBFNN的道岔故障诊断系统工作原理图
(1)对历史数据采用min-max方法,进行标准化;(2)将上述数据集,随机拆分成训练集与测试集;(3)用训练集训练CS_RBF;(4)计算CS_RBF在测试集上性能表现。如果表现太差,则跳到步骤(2);(5)将CS_RBF参数拷到在线实时诊断模块;(6)对实时诊断结果进行判断。如果诊断正确,则进入下一条数据的诊断流程。否则,将该数据添加到历史数据集中,转入步骤(2)。
3.3.1 数据集描述
道岔动作电流数据采集自某车站的真实监测数据,经处理形成100维1 050条的数据集,包括启动电路断线、外线混线、继电器接触不良等12种类型。
3.3.2 实验方法
在本次仿真实验中,随机选择数据集的70%为训练数据,用来训练CS_RBF;其余数据为测试集,用来模拟实时数据以判断整个模型的最终表现。
CS_RBF采用Matlab工具实现,其相关参数如下:输入节点数为100;输出节点数为12;隐含层节点数为52;最大迭代次数为100,子种群数为6,子种群规模为10,交叉率为1,选择压力为2,变异概率为1,迁移概率为0.2。
为验证模型的有效性,与BPNN、标准RBFNN(STD_RBF)、ELM、SVM等分类器对比验证。选择分类精度、误分类代价、误识率等指标衡量各分类器的表现。其中,N为样本个数,Nt为分类正确样本数,Nf2n为故障样本分类成正常样本数,Nf为故障样本数。
3.3.3 实验结果
依据各类型道岔故障给铁路部门所造成的损失大小,电务专家根据经验,给定误分类代价向量CV=[144377648454]。
(1)适应度函数对算法搜索方向的影响
为验证适应度函数能否将搜索方向导向网络误分类代价最小方向,随着迭代次数的增加,分别记录表明种群整体性能的种群适应度均值与代表最优个体的适应度的值。如图4所示,随着迭代次数的增加,种群总体与个体表现都在不断提高。这说明该适应度函数起到了对搜索方向的监督作用,能够使种群向代价最小的方向搜索。
图4 最优解与种群均值的变化情况
(2)实验结果
实验结果如表1所示。由表1可知,在分类精度、误分类代价、误识率等指标上,STD_RBF的表现要好于ELM、SVM、BPNN等分类器。相对于STD_RBF,CS_RBF可保证在分类精度基本不变的情况下,网络的误分类代价与误识率都有明显提高。这说明CS_RBF不论是在识别精度,还是误分类代价与误识率上,都有着较大程度的提高。
表1 实验结果
针对道岔故障误分类代价不同,且难以实时、快速、准确地进行人工诊断这一现实,建立基于代价敏感RBFNN的道岔故障诊断系统。利用某站监测数据进行验证,证明该系统不仅能够获得比BPNN、ELM、SVM与标准RBFNN更高的识别精度,还在网络的误识率与误分类代价等指标上有着优秀的表现。本系统可帮助维护人员快速、准确地对道岔故障进行诊断,降低故障误分类的损失,减少故障处理时间,提高铁路行车的安全性。本系统已经在某电务段投入试运行,现场反应良好。
[1]陈振东,肖先勇,李长松,等.基于代价敏感极限学习机的电力系统暂态稳定评估方法[J].电力自动化,2016,36(3):118-123.
[2]付忠良.多标代价敏感分类集成学习算法[J].自动化学报,2014,40(6):1075-1085.
[3]廖元秀,周生明.误差在Cost-Sensitive分类中的应用[J].广西师范大学学报:自然科学版,2011,29(2).
[4]Friedhelm Schwenker,Hans A.Kestler,Günther Palm.Three learning phase for radial-basis-function networks[J].Neural networks 14 (2001) 439-458, 18 December 2000.
[5]段录平,周丽娟,王 宇.基于RBF神经网络的在线分类挖掘系统[J].铁路计算机应用,2007,16(3):40-42.
[6]葛继科,邱玉辉,吴春明,等.遗传算法研究综述[J].计算机应用研究,2008,25(10):2911-2916.
[7]梅 欢,马艳东,单九思,等. 基于样条插值与RBF网络的道岔故障诊断系统[J]. 计算机技术与发展,2017,27(5):160-163,169.
[8]李雅美,魏文军.基于模糊神经网络的道岔故障诊断系统研究[J].铁路计算机应用,2012,21(1):35-39.