秦国辉,刘 伟,刘旭丹
(黑龙江省科学院科技孵化中心,哈尔滨 150090)
大型沼气工程日渐成为利用厌氧发酵技术开发绿色生物质能源的热点和重点,是消除畜禽养殖废弃物污染的重要手段之一,其经济及环境效益显著[1]。然而,目前尚无精确的在线测量手段来测量发酵过程中关键生物参量,因此无法建立发酵过程模型来预测沼气产量。这直接影响发酵过程控制和优化水平的提高,制约了沼气工程的发展[2]。因此,通过实时可测量变量进行建模,对沼气产量进行预估就显得非常重要。
针对牛粪高温厌氧发酵过程的特点,本文主要研究了将最小二乘支持向量机(Least Squares Support Vector Machines,LS—SVM)这种基于支持向量机(Support Vector Machine,SVM)改进后的快速算法,应用到牛粪高温厌氧发酵这一生化过程中来。基于实验数据的仿真结果表明,该方法能够通过多批次的样本数据的学习,建立沼气产量的在线预估模型。
众所周知,最小二乘法(Least Squares,LS)是解决多元函数回归的经典方法。Suykens等人[3-4]在SVM的基础上引进了LS,将不等式约束改为等式约束,避免了求解耗时的QP问题,并将求解优化问题转化为求解线性方程,从而很大程度上降低了运算时间,为在线估计创造了有利条件。而且相对于常用的线性不敏感损失函数,LS-SVM不再需要指定逼近精度ε,只是LS-SVM的解不具有稀疏性。
用于函数估计最小二乘支持向量机的算法推导如下:
根据式(1),定义拉格朗日函数:
其中,拉格朗日乘子αk∈R。对上式进行优化,即对w,b,ek,αk的偏导数等于 0,可以得到矩阵方程:
同时将Mercer条件代入到Ω =ZZT,可得:
因此,式(1)的分解可以通过解式(4)和式(5)获得最小二乘支持向量机函数为:
其中:Ψ(x,xk)是核函数,目的是从原始空间抽取特征,将原始空间中的样本映射为高维特征空间中的一个向量,以解决原始空间中线性不可分的问题。
本文用于建模分析的数据来自牛粪高温厌氧发酵工程,采集发酵温度、PH值、固体浓度、进料量和出料量等数据,将其中一部分样本数据作为训练集,剩余的样本作为测试集。所有的仿真计算实验在1台Pentium850MHz内存2GB的计算机上进行,编程语言使用Matlab7.0。
LS-SVM方法中有两个重要的参数γ和σ2需要调整[5]。γ为正则化参数即惩罚系数,用于控制函数的拟合误差,γ值越大,拟合误差越小,相应的训练时间也就越多,但γ过大会导致过拟合;σ2是核函数参数,代表着带宽,随着σ2的变小,拟合误差会变小,相应的训练时间也就变长,但σ2过小会导致过拟合[6]。目前关于对参数的选择还没有一套系统有效的方法,本文以牛粪高温厌氧发酵这一具体过程,对拟合误差、预测误差及训练时间随γ和σ2的变化趋势进行了仿真,仿真实验结果如图1、2所示。
从图1、2中我们可以很清楚地得到其基本方法,首先将σ2固定,让γ不断增大,因为随着γ的增大,拟合误差和预测误差都会先变小,当预测误差首次出现极小值时即停止训练,相应的γ值作为选定值。然后将此γ值作为初值,用同样的方法训练得到σ2,于是LS-SVM的参数(γ,σ2)即可确定。这样得到的(γ,σ2)不仅保证了预测误差小即模型的推广能力好,而且训练时间短,可以适应实时在线预报的要求。
图2 核函数参数σ2对拟合误差,预测误差和训练时间的影响Fig.2 Effect of kernel function parameterσ2 on fitting error,prediction error and training time
选取4批次数据,对其中2-4批次的样本数据分别建立沼气产量在线预报模型。当一共有i批次的样本时,取前i-1批次进行训练并计算拟合误差,第i批次用来检验模型的推广能力并计算预测误差。表1列出了所建预报模型的预测误差。
从表1中可以看出预报模型的精度很高,而且通过批次的增加预测误差还将慢慢变小,说明模型还有一定的自学习能力。为了全面检验模型的推广能力,再采用交叉验证法进行仿真,即任取4批数据中的3批按上述方式训练预报模型,第4批次作为检验,分别计算每次的拟合误差、预测误差和训练时间,列于表2。
表1 沼气产量模型的预报误差Tab.1 Predictive error of biogas output
图1 正则化参数γ对拟合误差,预测误差和训练时间的影响Fig.1 Effect of regularization parameterγ on fitting error,prediction error and training time
表2 交叉验证法建立4批次的沼气产量在线预报模型的性能比较Tab.2 Performance comparison of predictive biogas output using cross-validation of 4 batches
从表2得知虽然训练样本改变,但所建预报模型的预测误差变化并不大,说明此方法有一定的鲁棒性,而且训练时间都很短,可以对相关变量进行实时预报。图3列出了对样本数据的在线预报沼气产量模型和实际生产数据的比较结果。
由图3可知,所建立的预报模型有较高的精度,这表明在发酵过程操作条件下,仅通过几个输入变量就可以实现对沼气产量进行准确的在线预报。
图3 沼气产量在线预测模型数据与实际数据对比Fig.3 Comparison of predictive biogas output with the actual results
需要指出的是,实际生产中一般是无法得到沼气产量的准确估计的,必须考虑更多的过程因素。但本文所提出的方法仍旧适用,在实际应用中,只需将输入实际工况所要估计的相关数据,而且可以选取多个可测变量作为LSSVM的输入来实现对沼气产量的估计。
牛粪发酵过程是一个复杂的生化工程,建立其沼气产量精确预测模型对生化过程的优化控制具有十分重要的作用。本文采用LS-SVM建模方法,建立了牛粪厌氧发酵过程变量在线预报模型,在对数据的要求方面远远低于神经网络和多元回归等传统方法。通过仿真实验获得了LS-SVM参数调整策略。仿真结果表明此模型具有很强的拟合、泛化能力和学习能力,对样本依赖程度低,可以较合适地描述时变和非线性的特性,适合复杂的发酵预估,具有广泛的应用前景。本研究是具有实用价值的预测方法,进一步指导大型沼气工程的智能控制,是我们下一步研究的工作。
[1]张智焕.复杂系统预测控制算法及其应用研究[D].浙江大学,2002:17-20.
[2]王建林,于涛.发酵过程生物量软测量技术的研究进展[J].现代化工,2005,25(6):22 -25.
[3]Xiong ZH,Zhang J.Neural network model based on-line re-optimization control of fed-hatch processes using a modified iterative dynamic programming algorithm[J].Chemical Engineering and Processing,2005,44(4):477 -484.
[4]Hamrita T.K and Wang S.Patten recognition for modeling and online diagnosis of bioprocesses,IEEE Trails,On Industry Applications,2000,36(5),1295 -1299.
[5]刘国海,周大为,徐海霞,等.基于SVM的微生物发酵过程软测量建模研究[J].仪器仪表学报,2009,30(6):1228 -1232.
[6]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26(1):34-42.