发酵罐KPCA与SVR软测量技术的研究

2018-04-11 02:58李浩光于云华沈学峰
自动化仪表 2018年2期
关键词:青霉素建模样本

李浩光,于云华,沈学峰,黄 磊

(1.中国石油大学胜利学院,山东 东营 257061;2.中国石油大学(华东)信息与控制工程学院,山东 东营 257061)

0 引言

青霉素发酵过程具有较强的非线性、时变性和不确定性,发酵过程中的基质浓度等关键生物参数因缺乏专用传感器,难以实现实时在线测量[1-4]。

针对生物发酵过程的复杂性、多样性,以及发酵过程中各过程变量与重要输出变量之间存在的非线性关系[5-9],提出了一种基于核主成分分析-支持向量机回归(kernel principal component analysis-support vector regression,KPCA-SVR)的非线性回归软测量方法。该方法采用核函数为高斯核函数(Gaussian kernel function,GKF)的核主成分分析(kernel principal components analysis,KPCA)法,将数据映射到高维空间中,并对映射后的数据作非线性特征提取;再利用支持向量机回归(support vector regression,SVR)法建立软测量模型,对菌体浓度、基质浓度和产物浓度等变量进行预测。试验结果表明,与常规方法比较,基于KPCA-SVR的软测量模型能够更好地跟踪真值的变化趋势,且具有更高的预测精度,可以实现青霉素反应过程中关键变量的实时在线测量。

1 KPCA特征提取算法的原理

主成分分析(principal components analysis,PCA)是一种无监督线性特征提取方法,常用于高维数据的降维。而KPCA是一种无监督非线性特征提取方法。KPCA将核映射方法引入主成分分析,能够有效处理非线性数据;通过非线性函数变换,将获取的数据映射到高维特征空间中进行处理,以捕捉原始数据的非线性分布特性[10-12]。生物发酵过程中获取的辅助变量与输出变量也存在非线性的关系,采用KPCA方法可以构建适用于发酵过程的回归预测模型。

若原始空间为Rn,输入数据X有m个样本,其中各样本为n维,则X=[x1,x2,…,xm],xi=[xi1,xi2,…,xin],i=1,2,…,m。定义H为高维特征空间(Hilbert泛函空间),假设映射Φ:Rn→H,则对任意xi∈Rn,可以通过非线性变换Φ将其投影至高维空间:

xi→Φ(xi)

(1)

定义核函数:

K=Φ(X)TΦ(X)=[k(xi,xj)]m×m

(2)

式(2)中:

k(xi,xj)=〈Φ(xi)T,Φ(xj)〉=Φ(xi)TΦ(xj)

(3)

将非线性函数Φ投影至H空间,求得协方差矩阵:

(4)

设协方差矩阵C的特征值为λ、特征向量为V,则:

λV=CV

(5)

存在由特征向量V={Φ(x1),Φ(x2),…,Φ(xm)}构成的子空间,则必然存在α={α1,α2,…,αm},并满足:

(6)

对式(5)作如下变换:

λ[Φ(xk)×V]=Φ(xk)CVk= 1,2,…,m

(7)

根据式(4)、式(6)、式(7),可得:

(8)

再将式(8)整理后得到:

(9)

将式(2)、式(3)代入式(9),化简可得:

mλα=Kα

(10)

由此可解出特征值λ和关于K矩阵的特征向量α。

在计算协方差矩阵前,首先需要进行数据中心化处理。因此,在上述计算中,K需要经过中心化才能进行下一步计算,即计算特征向量和特征矩阵。经过数据中心化之后的K矩阵变为:

(11)

核函数需要满足Mercer条件。常见的核函数如下。

①线性核函数:K(x,y)=xTy+1。

②多项式核函数:K(x,y)=(xTy+1)p。

④sigmoid核函数:K(x,y)=tanh(axy+c)。

2 支持向量机回归的原理

SVR是基于统计学习理论发展而来的一种方法,在涉及小样本数、非线性和高维数据空间的问题时具有一定的优势。该方法通过升维,在高维空间中构造线性决策函数。为适应训练样本集的非线性,传统的拟合方式一般是在线性方程中加入高阶项。但该方法存在过拟合的问题。SVR算法采用核函数的方法可以避免这一问题。因此,使用核函数代替线性方程中的线性项,可以实现算法“非线性化”,进而实现非线性回归[13-15]。

对于分类问题,支持向量机相当于标记样本为有限集。支持向量机回归的问题就是标记集合为不可数。其训练集表示如下:

S={(x1,y1),(x2,y2),…,(xi,yi)|xi∈Rn,yi∈R}

SVR可分为线性SVR和非线性SVR两种。

(1)线性SVR:对于给定的样本集S及∀ε>0,若空间Rn中超平面f(x)=+b(w∈Rn,b∈R)满足|yi-f(xi)|≤ε、∀(xi,yi)∈S,则称f(x)=+b是样本集合S的ε-线性回归。

ε-线性回归问题等价于以下优化问题:

(12)

引入松弛变量,并使用Lagrange 乘子法,得到式(12)的对偶形式:

(13)

(2)非线性SVR:对于空间Rn中线性不可分样本集S,使用非线性函数φ将S变换至高维特征空间,并在该高维特征空间中进行线性回归,再变换至原始空间Rn中。其对偶优化如式(14):

(14)

非线性SVR实现方法如下。

①寻找一个核函数K(s,t),使得K(xi,xj)=<φ(xi),φ(xj)>。

(15)

③计算b:

(16)

④构造非线性函数:

(17)

3 软测量模型的建立

3.1 试验数据的获取

根据青霉素发酵机理以及生产经验,选取时间、温度、反应热量、通气量、搅拌速度、发酵罐压力、溶氧量值、反应器体积、热水流速、冷水流速、CO2浓度、葡萄糖添加率、基质添加率作为模型的输入量,基质浓度、菌体浓度、青霉素浓度作为模型的输出量。试验共采集了15个发酵批次的数据,采样间隔时间为4 h,获得3个离线输出参量(产物浓度、菌体浓度、基质浓度) 。本文将发酵生产过程中离线化验的测量值作为预测模型的输出真值。为保证模型包含足够多的数据量,通过多项式插值法得到每隔15 min的在线检测数据,建立青霉素发酵数据库。青霉素发酵试验单个批次的发酵时间大约为180~200 h。由于采集到的样本数据来自于不同的批次,为便于建立数学模型,应首先对样本数据进行归一化预处理[11]。

3.2 模型建立

青霉素发酵过程采用基于KPCA特征提取的SVR分析,软测量模型如图1所示。

图1 软测量模型

首先,选取训练样本集,进行归一化预处理。选取KPCA的核参数,对归一化预处理后的数据KPCA进行特征提取,消除输入变量之间的相关性,提取有效信息,并降低特征空间的维数。再将提取得到的非线性主成分作为SVR的输入,建立数学模型。测试集用来检验所建模型的预测能力。将测试集样本代入模型计算,得到测试集样本所对应的预测结果。在测试时,使用留一法来进行交叉验证,以检验所建模型的预测与泛化能力[12]。本试验使用的数据分析软件为Matlab 2016b。

3.3 试验及结果分析

为了检验所建KPCA-SVR模型的准确性及其泛化能力,采用测试样本集对该模型的性能进行试验验证。KPCA-SVR模型预测结果如图2所示。

图2 KPCA-SVR模型预测结果

从图2中可以看出,采用KPCA-SVR软测量建模的输出预测值(软测量值),能够很好地跟踪发酵反应过程的真值(离线测量值)。以图2(b)为例,模型预测值在上升过程中能够跟踪真值的变化,具有较好的跟踪性能,证明了KPCA-SVR的软测量模型能够较准确地输出预测值。即使只有15个批次的总样本量,KPCA-SVR仍具有较好的泛化能力。

为检验KPCA-SVR方法的预测性能,将该方法与其他几种常规的回归预测方法进行了对比试验。试验中使用了偏最小二乘回归(partial least squares regression,PLSR)、主成分回归(principal component regression,PCR)、主成分-支持向量机回归(principal component analysis-support vector regression,PCA-SVR)、反向传播神经网络(back propagation artificial neuronal network,BPANN)等几种预回归测方法,并采用相关系数、平均相对误差和最大相对误差这3个预测性能的评价指标来比较几种回归模型的预测效果。多种预测方法性能对比如表1所示。

表1 多种预测方法性能对比

由表1可以看出,KPCA-SVR方法预测得到的产物浓度值的最大相对误差为8.2%、平均相对误差为4.3%、相关系数为0.95,为几种回归方法中最优的性能指标。该方法所得预测值与真值具有较好的相关性,预测值具有较高的精度,可以为青霉素发酵罐在线实时控制提供可靠的参数依据。

4 结束语

针对发酵过程中某些生化参数难以通过专用传感器实时在线测量的问题,本文将KPCA与SVR相结合,建立了青霉素发酵过程中三个参量浓度的软测量模型。首先,利用KPCA对样本数据进行特征提取,剔除数据中的冗余信息,提取得到包含有效信息的主成分,达到特征降维的目的;然后,利用SVR建立青霉素发酵过程的预测模型,并与其他常规建模方法进行对比试验。试验结果表明,KPCA-SVR软测量模型的测量精度高、跟踪性能好、泛化能力强。与其他方法相比,KPCA-SVR具有更高的预测精度,在一定程度上为青霉素的优化生产提供了参数保证,是一种有效的软测量建模方法。该软测量方法可以满足青霉素发酵过程产物浓度的测量要求,同时也可以用于其他类似的生化发酵过程测量。

参考文献:

[1] 薛尧予,王建林,于涛,等.基于改进 PSO 算法的发酵过程模型参数估计[J]. 仪器仪表学报,2010,31(1):178-182.

[2] 王博,孙玉坤,嵇小辅,等.基于PSO-SVM逆的赖氨酸发酵过程软测量[J]. 化工学报,2012,63(9):3000-3007.

[3] 黄永红,孙丽娜,孙玉坤,等.海洋蛋白酶发酵过程生物参数的软测量建模[J].信息与控制,2013,42(4):506-510.

[4] 曹鹏飞,罗雄麟.化工过程软测量建模方法研究进展[J].化工学报,2013,64(3):788-800.

[5] 黄丽,孙玉坤,嵇小辅,等.基于CPSO与LSSVM融合的发酵过程软测量建模[J].仪器仪表学报,201l,32(9):2066-2070.

[6] 吴文元,熊智华,吕宁.支持向量回归在乙烯裂解产物收率软测量中的应用[J].化工学报, 2010,61(8):2046-2050.

[7] 唐志杰,唐朝晖,朱红求.一种基于多模型融合软测量建模方法[J].化工学报,2011,62(8):2248-2252.

[8] 刘国海,周大为,徐海霞,等.基于SVM的微生物发酵过程软测量建模研究[J].仪器仪表学报,2009,30(6):1228-1232.

[9] 孙玉坤,王博,黄永红,等.基于聚类动态LS-SVM 的L-赖氨酸发酵过程[J].仪器仪表学报,2010,31(2):404-409.

[10]唐勇波,桂卫华,彭涛.变压器油中气体的多核核主元回归预测模型[J].电机与控制学报,2012,16(11):92-98.

[11]张学工.模式识别[M].3版.北京:清华大学出版社,2010.

[12]严衍禄,陈斌,朱大洲.近红外光谱分析的原理、技术与应用[M].北京:中国轻工业出版社,2007.

[13]THEODORIDIS S,KOUTROUMBAD K.模式识别[M].4版.北京:电子工业出版社,2010.

[14]VLADIMIR N V.统计学习理论的本质[M].张学工,译.北京:清华大学出版社,2000.

[15]瑞明.支持向量机理论及其应用分析[M].北京:中国电力出版社,2007:152-153.

猜你喜欢
青霉素建模样本
用样本估计总体复习点拨
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
猪青霉素过敏怎么办
细菌为何能“吃”青霉素
基于PSS/E的风电场建模与动态分析
规划·样本
不对称半桥变换器的建模与仿真
随机微分方程的样本Lyapunov二次型估计
青霉素的发明者—莱明
三元组辐射场的建模与仿真