董 雪,何 苗
(宝鸡文理学院 计算机学院,陕西 宝鸡 721000)
随着钢铁行业的不断发展,钢铁材料成为现代人类社会使用最广泛的材料之一,对于国民经济的持续提升具有重要作用。高炉炼铁的发展可直接影响钢铁行业的节能降耗,但是高炉炼铁过程中存在非线性、时间滞后以及大噪声等特性,可增加温度自动化控制的复杂程度。为此本研究采用数据挖掘方法对高炉温度特征进行提取,并建立各变量之间的隐含关系,对于钢铁行业的发展具有重要意义。
数据挖掘属于一种适应性综合方法,可代表待选模型的反复产生过程,其中待选模型的复杂度处于逐渐增加的状态。该方法的核心技术为GMDH,通过GMDH技术只需要完成初始输入函数以及传递函数等的指定,即可从观测样本中自动生成数据模型。为实现数据的深度挖掘,数据挖掘方法应满足三个核心条件:
(1)包含一个简单的初始组织;
(2)可使组织产生突变的机制(该机制主要在训练数据集的基础上提出假设);
(3)该方法内部应包含一个选择机制,将组织改善作为目标进行突变的评价(该机制主要在检测数据集的基础上对假设进行检验)[1]。
通过数据挖掘实现模型建立时,首先应将样本数据划分为训练集以及检测集,其中训练集中存在的高炉温度控制数据主要用于模型建立中,包括参数估计数据以及结构综合数据等:检测集中包含的数据仅在选择最优复杂度模型时被使用,在模型建立过程中不被使用。数据挖掘算法实际上是一种对数据进行分组处理的方法,由数据挖掘算法中的样本数据可完成各项数据挖掘技术的本质区分,数据挖掘算法整体流程如图1所示[2]。
数据挖掘算法整体流程主要在领域理论的基础上进行实现,其运作流程为:利用先验信息对数据挖掘模型知识提取能力进行整体提升,知识的提取主要通过数据和科学理论结合的方法实现。该方法在一定程度上对领域理论具有完善作用,将其应用于高炉温度控制中,可向高炉提供获取知识的方法或者新的理论范畴,有利于帮助高炉完成理论检测。
历史数据的数量及质量可直接决定高炉温度预测模型的性能。传统高炉冶炼在基本输入条件一定的情况下,数据异常以及数据缺失等情况发生的概率极高,易受到外界因素以及人为等因素的影响,从而产生低精度或者失效的测量数据,若将该数据直接应用于高炉温度预测系统中,可造成系统整体性能的大幅度下降,最终无法保证高炉炉温的精准控制。并且高炉温度控制预测模型建立过程中,系统内部各输入变量之间相互影响程度较大。为保证系统对高炉温度控制的精准性,应在温度控制之前完成高炉数据的预处理[3]。
通常情况下在高炉冶炼过程中,主要采用时间序列分析方法完成多输入变量的时间序列数据处理,或者利用记录仪以及观察测量方法对数据集合进行获取。但是该方法可使数据出现错误现象,不利于预测模型的精度。为保证数据集合的完整性,应将其剔除,对于各输入变量之间存在的耦合性,应对高炉数据进行归一化和主元分析处理。
由于高炉冶炼过程中产生的数据存在较严重的波动性,为此本研究采用异常值检验的方法,对高炉冶炼中的异常数据进行剔除。其异常值检验流程为:对高炉冶炼过程中的时间序列数据进行获取,对该项数据中的异常值进行检验,若时间序列数据中存在异常值的产生,应进一步判断异常值数据的产生时间;若异常值数据对于高炉温度控制预测模型建立的准确率以及预测精度影响较大,应采取剔除的方式对该项数据进行处理[4]。
本研究主要采取3σ准则(拉依达准则)对高炉冶炼过程中产生的异常数据进行处理,通常对高炉冶炼的精度要求为:若一组样本数据X={x1,...,xn}的偏差数值大于3σ的数值,应将该数值剔除,其3σ准则公式为
(1)
对于高炉时间序列数据的缺失问题,应严格按照数据的运行轨迹以及变化趋势,利用数据平滑处理方法对于数据缺损值进行推测。通过该方法有利于补足高炉时间序列数据的缺损数值,对于高炉温度控制预测模型的精准度具有重要提升作用[5]。
由于高炉冶炼过程中产生的测量数据存在量纲不同的问题,若量纲不同可直接造成测量数值的差异性,从而引发数据范围的不确定性。数据差异性的扩大可直接影响高炉温度控制预测模型的精准性,使该模型的精度无法满足工艺要求。为提升高炉温度控制预测模型的预测精度,从根本上解决该模型测量数据的差异性,本研究采用归一化的方法对采集数据进行处理。数据归一化处理方法主要指的是将系统内全部数据转化为[0,1]之间的数,实现计算偏差数据的消除[6]。为保证预测结果的可观察性,应对预测结果进行反归一还原,其公式为
(2)
数据挖掘时采用的样本数据库中存在较多变量,为保证系统可从大规模的数据集中挖掘出各变量之间的关联,本研究采用降维的方法进行样本数据的确定。降维方法实际上是对各变量进行预测,利用变量之间的相关结构实现预测变量个数的减少。该方法主要分为因子分析及主成分分析两种方法。
1)因子分析方法
该方法为描述各变量之间的相关性,对变量相关系数的结构进行分析,以此找到可以反映全部变量中少数个变量。通常情况下少数变量属于不可预测的变量,可将其称之为因子。在相关性分析的基础上,按照数据相关性的大小对变量进行分组,有利于提高组内变量的相关性,并降低不同组内变量的相关性[7]。
2)主成分分析方法
该方法实际上指的是一种统计方法,可将多个指标变量转换为几个相互独立的综合指标变量。为计算出每一个综合指标的数值,应严格遵循概率的角度要求,使几个综合指标变量之间形成不相关性。
本研究为确定影响高炉温度中的核心变量,利用Pearson相关系数对两个变量线性关系之间的统计量进行定义,以此对变量之间线性关系的强弱进行衡量。首先设(Xi,Yi)(i=1,2,...,n)为取自总体(X,Y)的样本,此时该样本的Pearson线性相关系数公式为
(3)
通过计算可知,高炉喷煤与温度之间属于负相关关系,当时间滞后步长为0时,可计算出喷煤与温度之间的相关系数为-0.396 6。随着滞后时间的不断延长,使喷煤与温度之间的相关性逐渐减弱,此时只针对滞后步长为0时刻的相关性进行综合考虑。选取6个影响高炉温度的输入变量,对其进行相关性分析,各输入变量的相关系数如表1所示[8]。
表1 各输入变量的相关系数
通过对表1中数据分析可知,与高炉温度相关的变量只有5个,其中喷煤、风温以及煤气利用率均为影响高炉温度的直接因素,富氧率以及炉顶温为英系那个高炉温度的间接因素。
BP神经网络算法主要包含输入层、隐含层以及输出层,其信号传递流程为:通过输入层对输入信号进行输出,使其经过隐含层到达输出层。本研究主要采用BP神经网络算法对高炉预测模型进行建立与优化,将该算法应用于多元回归模型以及多元时间序列模型中,并采用MISO结构对模型进行建立ωji,BP神经网络算法的拓扑结构如图2所示。
图2中,x1,x2,...,xn为BP神经网络算法的输入值;O1为BP神经网络算法的预测值;ωij和ωj1为BP神经网络算法的网络权值[9]。
模型建立的主要步骤共分为8个步骤:
(1)首先应完成BP算法中输入输出阈值、权值以及学习速率等变量的初始化,该算法的数据列为(x,y),输入节点数n=6,隐含节点l=7,输出节点数m=1。
(2)结合输入变量x、连接权值以及阈值对隐含层的输出进行计算,其公式为
(4)
式中:H为BP神经网络算法的输出;l和f为隐含层的节点数和激励函数,激励函数的公式为
(5)
(3)完成BP神经网络算法预测值O1的计算,预测值O1的公式为
(6)
(4)结合预测输出值O以及实际输出值y对该网络的误差e进行计算,误差公式为
e1=y-O1
(7)
(5)实现对权值的更新
ωij=ωij+ηHj(1-Hj)x(i)ωj1e1
(i=1,2,...n;j=1,2,...l)
ωj1=ωj1+ηHje1(j=1,2,...l)
(8)
式中:η为学习率。
(6)对节点阈值a和b进行更新,其公式为
(9)
(7)判断BP神经网络算法是否迭代结束,若系统仍处于迭代中,应返回步骤(2)[10]。
(8)完成BP神经网络模型的仿真校验,通过上述公式对模型的命中率进行计算,其中BP神经网络多元回归模型的命中率为88.42%、BP神经网络多元时间序列模型的命中率为90.53%。两个模型的平均相对误差分别为0.48%、0.46%,高炉温度预测模型的精度分别为2.678 3、2.634 8。综上所述,BP神经网络多元时间序列模型各方面性能更优秀,其精度缺陷主要源于BP神经网络自身存在的过于依赖初始权值的选取以及收敛速度慢等问题。
本研究主要采用遗传算法对BP神经网络模型进行优化,其优化流程为:首先对BP网络进行优化,优化方式主要包括确定BP神经网络、优化遗传算法以及预测BP神经网络。优化的主要内容为初始权值以及阈值,有利于提高BP神经网络的预测输出能力。
优化步骤包括7部分:
(1)首先应完成种群的初始化,在高炉温度内部输入输出变量已知的情况下完成网络结构的确定。
(2)利用训练数据对BP神经网络进行训练,以此得到控制系统的预测值,计算出期望值与预测值之间的误差绝对值,将其作为适应度值F,适应度值F公式为
(10)
式中:n为输出节点;yi为第i个节点的期望输出;oi为第i个节点的预测输出;k为系数。
(3)利用适应度比例法完成选择概率pi的计算。
(11)
(4)选用实数编码完成交叉操作。
(12)
式中:b为[0,1]之间的任意数。
(5)选取第i个个体的第j个基因aij,完成变异操作。
(13)
式中:f(g)=r2(10g/Gmax);r2为任意数;g为当前迭代次数。
将遗传算法中各参数设置为:种群规模数10,进化次数50次,交叉概率0.4,变异概率0.2。
(6)对权值及阈值进行实时更新,以此获取最佳优化结果。
(7)经过优化后的BP神经网络多元回归模型的命中率为92.63%、BP神经网络多元时间序列模型的命中率为93.68%。两个模型的平均相对误差分别为0.44%、0.43%,高炉温度预测模型的精度分别为2.568 1、2.549 4。综上所述,在高炉炉况波动较小时,BP神经网络多元时间序列模型各方面性能更优秀,可使误差较小。但是高炉炉况波动较大时,BP神经网络多元时间序列模型各方面性能不如回归模型。
由于高炉冶炼过程中产生的数据存在较严重的波动性,本研究为提高对高炉温度控制的精准性,在高炉温度控制系统中应用数据挖掘方法,并采用异常值检验、归一化、相关性分析等方法,对高炉冶炼中的异常数据进行剔除,实现数据的预处理。通过BP神经网络对高炉温度控制预测模型进行建立,利用遗传算法实现模型的优化。优化结果表明,BP神经网络多元时间序列模型各方面性能更优秀,可使误差较小。但是高炉炉况波动较大时,应采取BP神经网络多元回归序列模型。