集成自编码与PCA的高炉多元铁水质量随机权神经网络建模

2018-11-01 08:01:22周平张丽李温鹏戴鹏柴天佑

自动化学报 2018年10期

周平张丽李温鹏戴鹏柴天佑

高炉炼铁是钢铁工业的重要生产环节.高炉炼铁时,铁矿石、焦炭及溶剂按一定比例配成炉料,从炉顶进料口加入到炉内.铁矿石在高温、高压下,经过一系列复杂物理化学反应最终被还原成铁,以铁水的形式从高炉出铁口流出.铁水的质量(铁水温度、硅含量等)对后续转炉炼钢影响很大,因此有必要实时准确地监测高炉状态,来保障高炉的平稳运行以生产出质量合格的铁水.然而高炉炼铁是一个包含气、固、液三相混合和耦合交错,物理化学反应极其复杂的过程,其炉内环境极其恶劣,这些导致了操作人员难以对其内部运行状态的变化进行实时监测.因此有必要建立准确可靠的铁水质量模型来反映高炉当前和预期的内部温度和指标参数变化,为现场操作人员提供炉况和铁水质量信息[1−4].

目前常见的铁水质量模型有机理模型、知识推理模型和数据驱动模型[1−11].机理模型主要依赖于高炉炼铁过程的内部机理,从化学反应动力学和流体动力学的角度构建高炉内部的反应场,对反应场内的温度分布、物料运动状态等进行仿真,从而建立数学模型对高炉整个生产过程进行预测和控制[5−7].机理模型只能应用于相对平稳的炉况环境,且基于机理模型的高炉往往需要在实际应用中配备先进的测量仪器.但高炉为一大型密闭炉体,冶炼过程极其复杂,工况变化较大,现有检测设备水平有限,炉内过程难以直接测量.且机理模型描述的是铁水质量的静态特性,而高炉炼铁是一个极为复杂、大时滞、高度耦合的非线性动态时变系统,因此机理模型难以准确应用到实际高炉生产中.知识推理模型在应用过程中,完全依赖于系统集成的有限专家知识,无法应对复杂多样的实际冶炼过程[8−10].我国中小高炉很多,冶炼条件复杂多样,因此推理模型在我国大部分高炉上难以取得有效应用.数据驱动的铁水质量参数建模方法,不需要了解高炉内部发生的复杂变化,仅通过数学工具和智能算法对过去时间的数据进行处理,就可以建立铁水质量的预测模型,因此数据驱动铁水质量建模成为近年高炉炼铁过程建模研究的热点[1−4,11−20].

神经网络(Neural network,NN)是一种较为常见的数据驱动建模方法,它是对人脑神经系统进行抽象、简化和模仿所得到的复杂信息处理系统,具有能够以任意精度逼近连续函数的特性,特别适用于处理多因素、不精确的复杂信息[14].而高炉炼铁系统内部反应极其复杂,内部状态未知,仅可获得过程的输入输出数据.因此NN作为一种“黑箱建模”方法很适合应用于高炉系统的建模研究,即模型在构建时将仅依赖于系统的输入和输出数据,并直接探寻输入输出之间的关系,而不再关注高炉内部复杂的物理化学反应过程.常见的NN算法主要包括BP(Back propagation)神经网络和RBF(Radial basis function)神经网络[14−15],但是这些算法普遍存在着“过拟合”、易陷入局部极小的问题.另外,基于批学习的网络权值和偏差迭代调整造成网络训练时间长、网络学习前许多参数需要提前设定的问题[17].为此很多文献提出改进的神经网络建模方法,如文献[14]采用遗传算法优化NN参数,提高了模型精度并能避免算法陷入局部极小值,但是算法收敛速度较慢且仍存在过拟合问题.

近年,具有学习速度极快且泛化能力好的随机权神经网络(Random vector functional-link networks,RVFLNs)及其改进算法有效克服了传统神经网络的上述缺点,被广泛用于高炉炼铁过程的建模与控制[3,16−18].文献[16]采用经典RVFLNs算法对铁水质量进行建模,大大加快了计算速度,但是存在最优隐层节点数的选择问题,且易出现过拟合问题;文献[17]进一步采用在线序贯学习型RVFLNs实现多元铁水质量的在线软测量建模,但是当隐层节点选择不当时,会出现过拟合现象;文献[18]提出的增量型RVFLNs一定程度解决隐层节点的选择问题和过拟合问题,但是该方法中隐层节点数较多,网络结构过于复杂,计算效率低.毫无疑问,RVFLNs比BP等常规神经网络具有更高的计算效率,且RVFLNs及其改进算法都具有较高的模型精度,但这些算法仍然存在如下两方面问题:

问题1.传统RVFLNs的输入权值和隐层偏置在限定范围内随机选取,完全独立于建模数据,参数选取具有一定的盲目性,不能有效反映和利用建模数据的特性和内在关系;

问题2.现有RVFLNs算法仍然存在过拟合问题.过拟合是指模型学习时结构过于复杂,以至于模型对已知训练数据具有很好的学习效果,而对未知数据表现较差.过拟合会导致模型泛化能力差、鲁棒性不足,使模型在应用阶段不能很好地推广.

针对上述两方面问题,集成自编码(Autoencoder)和主成分分析(Principle component analysis,PCA)技术[21−25],提出一种新型的改进随机权神经网络算法,即AE-P-RVFLNs算法,并在此基础上建立高炉炼铁过程的NARX(Nonlinear autoregressive exogenous)模型,用于对难测多元铁水质量进行在线、可靠估计.首先,为了更好地揭示高炉炼铁过程的非线性动态特性以及更全面地反映铁水质量信息,预测模型采用NARX多输出动态结构;其次,为了在RVFLNs建模时尽可能反映和利用建模数据的特性和内在关系,引入Autoencoder前馈随机网络设计技术对输入数据进行训练,得到充分包含输入数据特性信息的AE-PRVFLNs输入权值;然后,利用PCA技术在保证不丢失原有大部分信息的前提下对AE-P-RVFLNs隐层输出矩阵进行降维,去除网络中无用的隐层节点,简化网络结构,提高模型泛化性能和计算效率;最后,基于我国华南某大型高炉实际数据建立基于AE-P-RVFLNs的多元铁水质量NARX模型,并和其他几类RVFLNs算法进行对比.结果表明,相对于其他铁水质量RVFLNs软测量模型,本文方法不仅具有更高的模型精度和更快的计算速度,还解决了RVFLNs存在的过拟合和泛化性能差的问题.

1 集成Autoencoder与PCA的AE-PRVFLNs算法

针对常规RVFLNs及其改进算法的上述缺点,提出一种集成自编码和PCA技术的新型随机权神经网络算法,即AE-P-RVFLNs算法.如图1所示,AE-P-RVFLNs算法主要包括两个阶段:Autoencoder前馈随机网络对输入数据的训练阶段和PCA对隐层输出矩阵的降维阶段.1)针对前述问题1,采用Autoencoder前馈随机网络,实现输入样本X→X网络映射,以此求得充分体现输入数据中特征信息和内在关系的X→X网络输出权值β.2)针对问题2,在构造输入空间X到输出空间Y,即X→Y的RVFLNs网络时,首先将βT作为X→Y映射RVFLNs网络的输入权值,然后采用PCA技术在不丢失原有大部分信息的前提下对RVFLNs隐层输出矩阵H进行降维,去除网络中无用隐层节点,避免隐层输出矩阵多重共线性问题,从而解决由于隐层节点过多导致模型过拟合和泛化能力差的问题;原高维隐层输出矩阵H经PCA降维后得到降维后的隐层输出矩阵,在此基础上计算输出矩阵降维后的输出权值.

1.1 通过Autoencoder的随机权前馈网络设计求取RVFLNs输入权值

传统RVFLNs的输入权值和隐层偏置在限定范围内随机选取,完全独立于建模数据,因而参数选取具有一定盲目性,不能有效反映和充分利用建模数据的有用信息.所提AE-P-RVFLNs将首先采用Autoencoder技术来确定网络的输入权值.Autoencoder最早由Rumelhart等于1986年提出,之后被广泛应用于图像和语音识别等领域[21−23].经典Autoencoder是一种无监督学习方法,通过反向传播算法让目标值等于输入值,即Autoencoder尝试逼近一个恒等函数,使得网络输出值等于输入值[21],即Autoencoder将输入样本压缩到隐含层,然后再在输出端重建样本,并在需要的时候用信息损失尽量小的方式将数据恢复出来.实际上,利用Autoencoder对无类标数据进行训练,可有效提取样本中的有用信息,显著改善后续计算效果.近年,文献[23]改变传统基于反向传播计算权值的Autoencoder方法,采用前馈随机网络设计思想,提前固定输入权值和隐层偏置随机选择范围,只需计算所构造网络的输出权值β即可.与传统神经网络的反向传播算法相比,Autoencoder的前馈随机网络设计避免大量重复的迭代训练,加快训练速度,其原理如图2所示,计算方法如下.

给定N组任意样本集合一个带有L个隐层节点,以φ(x)为激励函数的标准单隐层前馈神经网络可以表示为

式中,ω j=[ωj1,···,ωjn]和bj为图2所示Autoencoder前馈随机网络的输入权值和隐层偏置,βj=[βj1,···,βjn]T为图 2 所示网络的输出权值.

当fL以0误差逼近连续系统的N个样本时,即,则式(1)可以写成:

将式(2)写成矩阵形式:

图1 AE-P-RVFLNs结构Fig.1 The structure of AE-P-RVFLNs

图2 Autoencoder前馈随机网络结构Fig.2 Autoencoder feedforward random network structure

其中

通常网络隐层节点数会比训练样本少很多,从而H0不是方阵,显然式(3)所示方程组没有解.为了选取最合适的β尽量使式(3)成立,那么就需要采用最小二乘的方法求解上述方程组,如式(4)所示.

由式(4)可看出β包含建模输入数据的众多有用信息.因此,输入数据经过Autoencoder的前馈随机网络训练,并将得到的β作为后续随机网络的输入权值,将有效改善后续网络的计算效果和性能.注意到无论隐层节点数L大于等于输入变量个数n(即L≥n),还是L

1.2 基于PCA的RVFLNs隐层高维输出矩阵降维

在基本RVFLNs中,由于输入权值和隐层偏置的随机性,隐层输出矩阵可能出现多重共线性问题,导致网络中存在很多无用神经元节点,使网络结构变得复杂,从而严重制约网络的计算效率.针对该问题,基于文献[24]的思想,采用PCA技术对隐层高维输出矩阵进行降维,如图3所示.

图3 P-RVFLNs结构Fig.3 The structure of P-RVFLNs

如图3所示,基于PCA的RVFLNs输出矩阵降维基本思想是将原来高维隐层变量重新组合成一组互不相关的低维隐层变量,这些低维隐层变量尽可能多地反应原高维隐层变量所包含的信息,并丢掉一些次要的信息,从而在一定程度上经过隐层降维处理,大大简化RVFLNs的网络结构,提高计算效率.基于PCA的RVFLNs输出矩阵降维算法如下:

1)计算原高维隐层输出矩阵H的协方差矩阵:

2)计算特征值λi和特征向量1,2,···,L,并根据特征值λi大小按降序λ1>λ2>···>λL排列.

一般取累计贡献率达85%∼95%的特征值λ1,λ1,···,λD所对应的D(D≤L) 个主成分,如式(6)所示:

将上式表示成矩阵形式:

构造新的神经网络来实现X→Y的映射.用前述Autoencoder前馈随机网络计算得到的βT作为映射网络的输入权值,隐层偏置仍为bj,计算得到隐层输出矩阵H:

具有L个隐层节点的神经网络,按上述PCA降维方法求取转移矩阵G∈RL×D,则新的隐层输出矩阵为.经过PCA 降维后,新的隐层节点数由L变为D,新网络的输入权值通过下式求取:

注1.所提AE-P-RVFLNs算法,X→Y网络中的输入权值不是随机产生,而是由X→X的Autoencoder前馈随机网络训练得到.因而,相比于常规RVFLNs,AE-P-RVFLNs输入权值的选择更有依据性,能更好地提取输入数据的有效信息.经PCA将隐层输出矩阵降维后,去掉一些无用隐层节点,简化了网络结构,在不损失模型精度的前提下不但可提高计算效率,更为重要的是可有效避免过拟合问题.

1.3 算法实现步骤

第一阶段(X→X):采用Autoencoder前馈随机网络设计完成输入样本训练,得到AE-PRVFLNs网络的输入权值β:

1)给定X→X网络的输入权值为w、隐层偏置b、激活函数(x)和隐层节点数L;

2)计算X→X网络隐层输入矩阵H0;

3)根据式(4)计算X→X网络权值矩阵β.

第二阶段(X→Y):基于PCA的AE-PRVFLNs网络隐层输出矩阵降维:

1)用第一阶段求得的βT作为X→Y网络的输入权值,隐层偏置仍为b,据式(8)计算隐层输出矩阵H;

2)根据式(5)∼(7)计算转移矩阵G和降维后网络的隐层输出矩阵;

2 基于AE-P-RVFLNs的多元铁水质量NARX建模

2.1 高炉炼铁过程及铁水质量建模的必要性

高炉炼铁工艺流程如图4所示,由炉喉、炉身、炉腰、炉腹、炉缸5部分组成.高炉炼铁时,将矿石和焦炭按一定比例配成炉料,从炉顶进料口加入炉内,同时把煤粉和加热到1200◦C的富氧空气从炉腹底部的送风口鼓入炉内.在送风口附近,煤粉和热空气在高温作用下反应生成大量还原性气体,炽热的还原性气体在上升过程与下降铁矿石和焦炭在高温、高压作用下发生一系列复杂化学物理反应,最终将铁从铁矿石中还原出来.铁以高温(1500◦C)铁水形式从出铁口流出,铁矿石中的脉石、焦炭以及喷吹物中的灰分与石灰石等溶剂结合形成炉渣,随铁水一同排出.大量还原性气体在上升过程中经过一系列复杂反应,最终形成高炉煤气从炉顶回收,经重力除尘后作为热风炉、加热炉、焦炉等的燃料[1−4].

Fig.4 高炉炼铁工艺示意图Fig.4 Diagram of a typical BF ironmaking process

高炉炼铁的最终目的是高效率、低成本地生产出尽可能多的优质铁水.为了实现这一目标,就应实时准确地监测高炉内部状态,来保障高炉平稳运行,以生产出质量合格的铁水.然而高炉炼铁中不仅存在着诸多的操作工序、数百项的影响参数,且高炉内部环境极为恶劣,气、固、液三相并存,不同相态之间进行着复杂的动量、能量传递和复杂物理化学变化,因此很难监测高炉内部状态和实现高炉优化控制.实际生产中,通常采用铁水温度(Molten iron temperature,MIT)、硅含量([Si])、磷含量([P])和硫含量([S])来间接反映高炉内部状态和综合衡量铁水质量指标.铁水温度是表征高炉热状态、能量消耗和铁水质量的重要参数,铁水[Si]是反映铁水化学热的重要指标,而P和S是铁水中的有害元素.日常操作中应及时监测和掌握这4个质量指标数值及其变化趋势,预见性地采取调控措施.这对于稳定高炉热制度和出铁指标、减少炉况波动,提高生铁质量和降低焦比等都具有重要意义[1,3].由于铁水质量指标难以直接在线检测且离线化验过程滞后,必须建立铁水质量模型以实现铁水质量的在线软测量,这也是实现高炉铁水质量控制与运行优化的关键.

2.2 多元铁水质量建模过程

为了实现多元铁水质量的准确估计,提高模型泛化能力,避免过拟合,本文采用提出的AE-PRVFLNs算法建立多元铁水质量的动态软测量模型.高炉系统是个大时滞、强耦合的复杂非线性动态系统,常规的静态神经网络并不能很好地描述这一动态过程.由于NARX模型包含了输入输出变量的时序及时滞关系,能更好地逼近高炉炼铁系统的非线性动态特性[3],因此建立如下NARX模型:

式中,X为建模输入变量集,Y为待估计的铁水质量指标集,p和q分别为过程输入输出时序系数,根据所研究的高炉炼铁过程时序和时滞关系以及大尺度的铁水质量采样频率值,确定p=1,q=1.

采用我国华南某大型高炉2013年10月份的高炉本体数据与铁水质量数据(采样间隔为1h)进行仿真实验,根据该高炉炼铁工艺及相关仪器仪表设置,确定影响多元铁水质量指标的16个关键过程变量为:富氧率、透气性、炉腹煤气指数、鼓风动能、送风比、阻力系数、理论燃烧温度、热风温度、热风压力、富氧流量、炉腹煤气量、鼓风湿度、冷风流量、设定喷煤量、实际风速、炉顶压力等.考虑上述16个变量间具有很强的相关性,并且过多的建模变量会加大建模复杂度,影响模型预测性能,因此同样采用PCA技术对建模输入变量进行降维[14,17],计算分析结果如表1所示.可以看出,当选取累计方差贡献率大于98%为界限时,前6项成份的累计方差贡献率为98.723%,可以反映原来影响铁水质量指标的绝大部分信息,因而选取该6项成分为主成分.

经PCA降维后得到的主成分是原始高维物理变量的综合函数,没有实际物理意义,因此降维得到的主成分不能用于实际高炉系统质量建模与控制.在PCA分析体系中,因子载荷矩阵或正交旋转后的因子载荷矩阵反映了原始物理变量与各主成分的相互关系,因子数值越大表示相关的密切程度越高.因此通过计算因子载荷矩阵可选取因子数值较大的几个物理变量作为最终建模输入变量.由表2所示6个主成分的因子载荷矩阵可以确定选择炉腹煤气量x1(kg/t)、热风温度x2(◦C)、热风压力x3(kPa)、富氧率x4、鼓风湿度x5(RH)和设定喷煤量x6(m3/h)作为最终NARX建模的输入变量.NARX模型结构确定后,采用提出的AE-PRVFLNs算法训练式(10)所示多元铁水质量在线估计的NARX模型.

表1 PCA求取的各主成分特征值、方差贡献率以及累积方差贡献率Table 1 PCA to obtain the principal component eigenvalues,variance contribution rate and cumulative variance contribution rate

表2 因子载荷矩阵(由PCA提取的6个主成分)Table 2 Factor load matrix(Six principal components extracted by PCA)

2.3 建模效果及过拟合测试

图5 基于AE-P-RVFLNs的多元铁水质量NARX模型建模结果Fig.5 Modeling results of multicomponent hot metal mass NARX model based on AE-P-RVFLNs

为了验证模型的可行性,将建立的基于AE-PRVFLNs的铁水质量模型在某大型高炉进行测试.图5为所提方法在训练集上的建模效果,可以看出基于实际数据,建立的NARX模型取得良好的建模效果,模型输出值与实际值拟合非常好,且趋势基本一致.图6为所提方法基于新的过程数据对多元铁水质量的在线效果.为了从直观上说明所提方法的优越性,将其与其他类似方法进行对比研究.在这里,选用常规RVFLNs算法、单纯采用Autoencoder前馈随机网络进行输入权值确定的AE-RVFLNs算法以及单纯采用PCA进行网络输出矩阵降维的P-RVFLNs算法,进行相同数据集的预测对比实验,且各算法网络隐层节点均限定为50,并采用Sigmoidal函数作为激励函数.从图6可以看出,所提方法建立的模型在所有模型中获得了最好的预测结果和精确度,同时相对于其他3种对比方法,基于AE-P-RVFLNs的方法建立的模型预测曲线形状与实际曲线匹配最好,并且趋势基本一致.

基于工艺现场数据,计算所提AE-P-RVFLNs算法及三种对比算法的运算效率,并采用标准统计公式中的均方根误差(Root mean square error,RMSE)和平均绝对百分误差(Mean absolute percent error,MAPE)来对4种算法的估计性能和泛化性能进行定量评估,结果如表3所示.可以看出,所提AE-P-RVFLNs算法由于对输入权值预计算和对隐层输出矩阵进行降维处理,模型结构得到优化,使得最终建立的AE-P-RVFLNs模型具有较好的运算效率和更高的估计精度.同时,通过比较AE-PRVFLNs、P-RVFLNs、AE-RVFLNs、RVFLNs 4种算法的运算效率,可以看出通过引入PCA进行输出矩阵降维比通过采用Autoencoder进行输入权值确定更能改善RVFLNs算法的运算效率.

为了检验所提算法的泛化性能和解决过拟合问题的能力,进一步研究在逐一增加隐层节点数时,训练集和测试集均方根误差(RMSE)的变化情况,如图7所示.可以看到,当刚开始增加网络隐层节点数时,所提AE-P-RVFLNs算法的训练集和测试集RMSE均呈现明显下降趋势,而当网络隐层节点数继续增加时,训练集和测试集RMSE趋于平稳,未出现明显曲线交叉的过拟合现象.作为对比,本文又研究了常规RVFLNs算法以及AE-RVFLNs算法和P-RVFLNs算法的训练集和测试集RMSE随隐层节点数增加时的变化情况,分别如图8∼10所示.可以看出,随着隐层节点数的增加,三种对比算法的训练集RMSE都呈现下降趋势,而测试集RMSE则不同程度呈现上升趋势,因此三种对比算法均出现不同程度过拟合现象,即模型对已知训练数据具有较好的学习效果,而对未知的测试数据表现较差.另外,通过该三种对比算法的比较分析也可看出,相对于常规RVFLNs算法和AE-RVFLNs算法,P-RVFLNs算法的过拟合问题最弱.实际上,PRVFLNs算法只是在[P]建模时出现较明显过拟合和[Si]建模时出现轻微过拟合,而对其他两个铁水质量指标建模未出现过拟合问题.这显然应该得益于P-RVFLNs算法引入的PCA技术降低了高维隐层输出矩阵,避免隐层输出矩阵多重共线性问题.

图6 不同模型的多元铁水质量预测结果Fig.6 Comparison of multicomponent hot metal quality for different models

表3 不同算法相关统计指标比较Table 3 Comparison of statistical indicators for different algorithms

通过以上实验及其分析表明:所提AE-PRVFLNs算法通过采用Autoencoder前馈随机网络对输入数据进行训练而获得优化的网络结构参数,可最大程度提取和反应输入数据的特性信息;进一步引入PCA技术对高维隐层输出矩阵进行降维,避免隐层输出矩阵多重共线性问题,大大降低网络中的无用隐层结点个数,避免由于隐层节点过多导致模型过拟合和运算效率差的问题.即采用所提方法建立的模型具有较好的泛化性能、鲁棒性和运算效率,能够较好地进行实际工程应用.

注2.注意到,由于随机权神经网络隐层偏置等参数是在一定范围内随机选取的,为了保证实验结果更具说服力,以上对比实验的结果都是取10次实验的平均值作为最终的结果.另外,在研究RVFLNs和AE-RVFLNs的隐层节点与训练集RMSE、测试集RMSE的关系试验中,隐层节点增加到200时,测试集的RMSE过大导致图8和图9不能很清楚的展示训练集误差的变化情况,因此在这两个试验中(对应图8和图9)将最大隐层节点个数减小为100.

图7 逐一增加隐层节点数时所提AE-P-RVFLNs训练集和测试集RMSE变化曲线Fig.7 The RMSE curve of the training set and test set of the proposed AE-P-RVFLNs when the number of hidden nodes is increased one by one

图8 逐一增加隐层节点数时RVFLNs训练集和测试集RMSE变化曲线Fig.8 The RMSE curve of training set and test set of RVFLNs when the number of hidden nodes is increased one by one

图10 逐一增加隐层节点数时P-RVFLNs训练集和测试集RMSE变化曲线Fig.10 The RMSE curve of training set and test set of P-RVFLNs when the number of hidden nodes is increased one by one

3 结论

为了解决传统RVFLNs建模存在的过拟合和泛化能力差的问题,并在网络输入权值确定时充分利用建模输入数据信息,本文集成Autoencoder和PCA技术,提出一种新型的AE-P-RVFLNs算法,用于建立高炉炼铁过程多元铁水质量在线估计的动态NARX模型.相对于常规RVFLNs,所提AE-PRVFLNs算法实现时增加了两个关键设计步骤,即采用Autoencoder前馈随机网络对输入数据的训练阶段和采用PCA对隐层输出矩阵的降维阶段.所提算法的网络参数由于充分利用了输入数据信息、并显著优化网络结构,因而能够在保证模型精度的同时,有效提高网络运行效率.更为重要的是,所提AE-P-RVFLNs算法有效避免了RVFLNs存在的过拟合问题和多重共线性问题,因而基于所提方法建立的模型泛化性能好、鲁棒性强,能够在实际炼铁生产中进行工程应用.