基于稀疏最小二乘支持向量机的软测量建模

2015-08-20 07:31刘瑞兰徐艳戎舟
化工学报 2015年4期
关键词:训练样本适应度向量

刘瑞兰,徐艳,戎舟

(1 南京邮电大学自动化学院,江苏 南京 210003;2 河南省轻工业学校,河南 郑州 450006)

引 言

支持向量机(support vector machine,SVM)是由Vapnik 等[1-3]提出的基于统计学习和结构风险最小化原理的建模方法,该方法在有限样本情况下,同时兼顾算法的经验风险和推广能力,广泛应用于解决模式分类问题[4-6]和回归建模问题[7-10]。标准的支持向量机采用求解二次规划问题的求解方法,最终求出包含少量支持向量的模型,但是算法的复杂度随着样本个数的增加而增加。Suykens 等[11]在标准SVM 的目标函数中用误差平方和项取代误差的绝对值项,提出了最小二乘支持向量机(least square support vector machine,LSSVM)方法,由于采用等式约束,LSSVM 采用求解线性方程组的方法求解,但是如果训练样本多,求出的LSSVM 模型规模庞大,每个训练样本都是支持向量,不具有标准支持向量机的稀疏性解。针对这一问题,文献[12-13]采用剪枝方法实现对最小二乘支持向量的稀疏,即先求出非稀疏解,得到一系列核系数,删除核系数小的样本,然后对剩下的训练样本重新建模,反复迭代直到满足要求。文献[14]提出了一种改进的稀疏化方法,但仍然以剪枝方法为基础,在重新建模时考虑总的训练样本的残差平方和,而不是稀疏后保留的训练样本的残差平方和,从而提高模型的推广能力。文献[15]提出通过在特征空间中寻找样本的最大无关组来解决解的稀疏性问题。

最小二乘支持向量机的预测精度与正则化参数和核函数参数的选取有一定的关系,在最小二乘支持向量机的应用中,常用的参数选择方法有经验法[15]、网格搜索法[10]和智能算法如遗传算法[16-18]和差分进化算法等[19]。经验法通过试凑进行赋值,带有一定的盲目性,而网格搜索法计算量很大,智能算法可以缩短计算时间,但是大多数文献要么采用智能方法进行最小二乘支持向量机的稀疏化,而参数采用经验法选择;要么仅仅采用智能方法进行正则化参数和核参数的优化,根本就不考虑稀疏化问题。

本文采用遗传算法对最小二乘支持向量机同时进行稀疏化和参数优化:假设每个训练样本包含一个是否为支持向量的概率属性,该概率大小可以通过遗传算法来优化,从而将上述稀疏化和参数优化统一为多维参数的优化问题。将本文提出的方法建立了PX(ParaXylene)氧化过程中对羟基苯甲醛(4-carboxy-benzaldchydc,4-CBA)含量的软测量模型,比较了稀疏前后模型的训练精度和验证精度。

1 最小二乘支持向量机

最小二乘支持向量机方法用如下形式的函数对未知函数进行估计

其中,x∈Rn,y∈R,非线性函数φ(·) :Rn→Rnh将输入空间映射为高维特征空间。

满足约束

为此,可以定义如下Lagrange 函数

其中,αk是 Lagrange 乘子。分别求出L(w,b,e,α)对w,b,e,α的偏微分,可以得到式(2)的最优条件如下

将其中的ek和w用αk和b表示,则有

其 中,y=[y1,…,yN]T,1=[1 ,…,1]T,α=Ω是一个方阵,其第k行l列的元素为选择γ>0保证矩阵

可逆,则可以得到α和b的解析表达式

将式(8)代入式(5),求出w,从而得到非线性逼近模型为

其中,K(x,xk)是核函数,常用的核函数有线性核、高斯核和多项式核函数等。正则化参数γ和核函数参数的大小会影响到模型的预测精度。

从式(9)可以看出,函数逼近模型的项数为训练样本总数加1,如果训练样本数较多,则模型规模庞大,影响模型的应用。

2 最小二乘支持向量机的稀疏化及参数优化

本文采用遗传算法进行最小二乘支持向量机稀疏化及参数优化,实质是将问题转化为一个(N+m)维的多维参数优化问题,前N维用来稀疏化操作,后m维用于正则化参数和核函数参数的优化。先定义一个包括稀疏率和训练误差及测试误差在内的适应度函数,然后对每个训练样本赋予一个[0,1]区间内的随机数,该随机数表示该训练样本是否是支持向量的概率,如果某个概率小于0.5 表示对应样本不是支持向量,将该样本作为测试样本放入测试样本集,否则即为支持向量,放入保留的训练样本集中。将保留的训练样本集和后m维的优化参数建立最小二乘支持向量机模型,计算适应度函数,直到找到使适应度函数最小的一组样本,则该样本建立的模型与所有训练样本都作为支持向量机相比,模型规模要小,即实现了稀疏化。

2.1 适应度函数的定义

最小二乘支持向量机的稀疏化过程实质是将总的训练样本动态地分为两部分,一部分为稀疏后保留的样本,称为保留的训练样本集,另一部分为稀疏化后删除的样本,称为测试样本集,因此适应度函数应该包含3 部分:其一为保留的训练样本集的平均训练误差,表示模型的训练精度;其二为测试样本集的平均预测误差,表示模型的预测能力;其三包括稀疏化率,表示稀疏化的程度,本文用保留的样本数除以训练样本总数,该值越小越好。定义适应度函数如下

其中,N为训练样本总数,M为稀疏后保留的样本数,yi为保留的训练样本的输出值,yˆi为保留的训练样本的估计值,yj为测试样本的输出值,yˆj为测试样本的估计值。

2.2 稀疏化及参数优化步骤

最小二乘支持向量机的稀疏化及参数优化的步骤如下所示。

(1)确定种群维数,种群维数为训练样本的总个数加上需要优化的参数个数m。优化参数的个数视核函数类型而定,如果是线性核,需要优化的只有正则化参数γ,如果是RBF(radical basis function)核函数,则需要优化的参数为正则化参数γ和核函数参数σ。

(2)确定种群的上下限,前N维的上下限为[0,1],后面m维的上下限根据具体的样本值而定。

(3)确定种群的大小,根据给定的种群上下限,随机给每个个体赋初值。

(4)对每个个体前N维对应的概率与0.5 进行比较,选出M个样本作为保留的训练样本,进行最小二乘支持向量机建模,并以每个个体最后m维的数据作为建模需要的参数,根据式(10)计算适应度函数,保留适应度函数最小的个体,循环条件是否满足,如果满足退出,否则转步骤(5)。

(5)对种群进行选择、交叉和变异操作,然后转步骤(4)。

(6)将整个循环中适应度最小的一个个体对应的保留的训练样本建立的最小支持向量机模型作为最终模型。

3 应用实例

3.1 PX 氧化过程简介

PX 氧化[20-21]是在反应温度为190℃左右,压力为1.258 MPa,在钴、锰等催化剂作用下以醋酸为溶剂,用空气中的氧气将PX 氧化为TA(terephthalic acid,对苯二甲酸),TA 进一步纯化后得到PTA(purified terephthalic acid,精对苯二甲酸)的过程。PX 氧化反应主要由4 个反应组成,除原料PX 和最终产品 PTA 外,还有其他中间产物:TALD(p-tolualdehyde,对甲基苯甲醛)、PT(p-toluic acid,对甲基苯甲酸)和4-CBA。其中4-CBA 含量是PTA产品中的重要质量指标。根据文献[19-20]对反应机理的研究,4-CBA 含量过低,则氧化反应程度加深,副反应加剧,能耗及醋酸、PX 单耗增加。4-CBA含量过高,则PTA 产品的质量达不到要求。为了节能降耗,并保证PTA 的产品纯度,非常有必要对4-CBA 含量进行实时监控。

表1 稀疏前后不同核函数的模型比较Table 1 Comparison of sparse models and non-sparse models with different type kernel

4-CBA 含量无法用常规的传感器在线测量,而是通过实验室分析化验出来,化验时间比较长;同时由于化验成本较高,其采样间隔较长,如某工厂对4-CBA 含量的采样周期为8 h,每天固定在0 点、8 点和16 点采样,因此一天最多只有3 个滞后数小时的4-CBA 含量的分析值。需要采用软测量技术在线估计4-CBA 含量。

3.2 软测量模型输入变量的选择

影响4-CBA 含量的因素较多,本文依据文献[21-22]选择氧化反应器物料进料流量、催化剂浓度、氧化反应器液位、氧化反应器温度、氧化反应器尾氧含量、第三冷凝器排出水量、第一结晶器温度、第一结晶器尾氧含量、反应生成的二氧化碳含量、反应生成的一氧化碳含量共10 个过程变量作为软测量模型的输入变量。输出量为4-CBA 的含量,单位为mol·kg-1。

3.3 工业数据仿真结果

本文采用的数据来源于某化工厂,总共收集了177 组样本,样本按时间顺序排列,取前面120 组样本作为训练总样本(training samples,TS),后面57 组样本作为验证模型有效性的验证样本(validation samples,VS),种群数为100,样本稀疏化概率的范围为[0,1],γ和σ的取值范围均为[0.01,1000],迭代次数500 次,交叉概率0.25,变异概率0.08,选择方法为轮盘赌。分别采用线性核和RBF 核,对120 个训练样本进行稀疏化。算法程序在CPU 为2.6 GHz、内存为4 GB 的电脑运行,经过多次运行后,选择最好的结果如表1所示,表1中的误差均为平均相对误差。从表中可以看出,稀疏前样本数为120,也即模型规模有121 项,不论是线性核还是RBF 核,模型训练误差都很小,但是验证误差相比而言较大;稀疏后,只剩下16 个样本(线性核)和17 个样本(RBF 核),稀疏化率接近87%,模型规模大幅度减小,与稀疏前相比,模型训练误差有所变大,但是验证误差却比稀疏前要小,这说明对于最小二乘支持向量机而言,并非训练样本越多越好,因为训练样本越多,意味着模型越复杂,从而降低了模型的推广性能。从表1还发现,无论稀疏前后,非线性核的验证误差比线性核的大,也就是说对于同等规模的训练样本建立的模型,线性核的推广能力比RBF 核要好,这是因为本文的过程数据是静态数据,在静态工作点附近基本是线性的,线性核与过程的状态更匹配。表2给出了从程序的运行时间上比较稀疏前后模型的性能。从表中可以看出,用遗传算法进行稀疏化所用的时间远大于直接建模所用的时间,而稀疏模型投入运行后,对同样规模的验证样本所需要的计算时间要小。因此引入遗传算法稀疏化增加了建模所用的时间,但是由于建模是离线进行的,不影响模型的在线投运。

为了进一步验证算法的稳定性,将稀疏算法程序(线性核情况)经过5000 次运行,计算稀疏化率、训练误差和验证误差的平均值和方差分别86.67%±0.025、0.0376±0.0064 和0.0397±0.0092。方差比较小,表明本文提出的方法稳定性较好。

表2 稀疏前后建模和验证时间比较Table 2 Running time comparison of sparse models and non-sparse models/s

图1和图2分别给出了在线性核情况下,稀疏前后模型的输出比较。

4 结 论

提出了基于遗传算法的最小二乘支持向量机的稀疏化和参数优化方法,并将该方法应用于工业PX 氧化过程4-CBA 含量的软测量中,工业数据仿真结果表明,用本文提出的方法稀疏化率高,自动 完成正则化参数和核函数参数的优化,稀疏化后模型的预测结果更好。

图2 稀疏前后最小二乘支持向量机模型验证结果Fig.2 Validation results of sparse LSSVM model and non-sparse LSSVM model

[1]Vapnik V,Levin E,Le Cun Y.Measuring the VC dimension of learning machines [J].Neural Computation(S0899-7667),1994 (6):851-876

[2]Vapnik V.The Nature of Statistical Learning Theory [M].New York:Springer,1995

[3]Vapnik V.Statistical Learning Theory [M].New York:John Wiley,1998

[4]Cao Wei (曹巍),Zhao Yingkai (赵英凯),Gao Shiwei (高世伟).Multi-class support vector machines based on fuzzy kernel cluster [J].CIESC Journal(化工学报),2010,61 (2):420-424

[5]Wang Anna (王安娜),Li Yunlu (李云路),Zhao Fengyun (赵锋云),Shi Chenglong (史成龙).Novel semi-supervised classification algorithm based on TSVM [J].Proceedings of CSEE(中国电机工程学报),2011,32 (7):1546-1550

[6]Yang Zhimin,He Junyun,Shao Yuanhai.Feature selection based on linear twin support vector machines [J].Procedia Computer Science,2013,17:1039-1046

[7]Wendy Flores-Fuentes,Moises Rivas-Lopez,Oleg Sergiyenko,et al.Combined application of power spectrum centroid and support vector machines for measurement improvement in optical scanning systems [J].Signal Processing,2014,98:37-51

[8]Wang Bo (王博),Sun Yukun (孙玉坤),Ji Xiaofu (嵇小辅),et al.Soft-sensor modeling for lysine fermentation processes based on PSO_SVM inversion [J].CIESC Journal(化工学报),2012,63 (9):3000-3007

[9]Li Jin (李瑾),Liu Jinpeng (刘金朋),Wang Jianjun (王建军).Mid-long term load forecasting based on simulated annealing and SVM algorithm [J].Proceedings of CSEE(中国电机工程学报),2011,31 (16):63-66

[10]Wang Zhanneng (王占能),Xu Zuhua (徐祖华),Zhao Jun (赵均),Shao Zhijiang (邵之江).Coal-fired power plant boiler combustion process modeling based on support vector machine and load data division [J].CIESC Journal(化工学报),2013,64 (12):4496-4502

[11]Suykens J A K,Vandewalle J.Least squares support vector machine classifiers [J].Neural Processing Letters,1999,9 (3):293-300

[12]Suykens J A K,Lukas L,Vandewalle J.Sparse approximation using least squares support vector machine//IEEE Intenational Symposium on Circuits and Systems [C].Geneva,Swizerland,2000:757-760

[13]Suykens J A K,De Brabanter J,Lukas L,Vandewalle J.Weighted least squares support vector machines:robustness and sparse approximation [J].Neurocomputing,2002,48:85-105

[14]Cawley Gavin C,Talbot Nicola L C.Improved sparse least-squares support vector machines [J].Neurocomputing,2002,48:1025-1031

[15]Gan Liangzhi (甘良志),Sun Zonghai (孙宗海),Sun Youxian (孙优贤).Sparse least squares vector machine [J].Journal of Zhejiang University:Engineering(浙江大学学报:工学版),2007,41 (2):245-248

[16]Zhang Chunxiao (张春晓),Zhang Tao (张涛).Oil holdup modeling of oil-water two-phase flow using thermal method based on LSSVM and GA [J].CIESC Journal(化工学报),2009,60 (7):1651-1655

[17]Chen Lei (陈磊).Genetic least squares support vector machine approach to hourly water consumption prediction [J].Journal of Zhejiang University:Engineering(浙江大学学报:工学版),2011,45 (6):1100-1103

[18]Shang Wanfeng (尚万峰),Zhao Shengdun (赵升吨),Shen Yajing (申亚京).Application of LSSVM optimized by genetic algorithm to modeling of switched reluctance motor [J].Proceedings of CSEE(中国电机工程学报),2009,29 (12):65-69

[19]Lin Bihua (林碧华),Gu Xingsheng (顾幸生).Soft sensor modeling based on DE-LSSWM [J].Journalof Chemical Industry and Engineering(China) (化工学报),2008,59 (7):1681-1685

[20]Li Xi (李希),Xie Gang (谢刚),Hua Weiqi (华卫琦).Key problems and research program for PTA process domestic development [J].Polyester Industry(聚酯工业),2001,14 (1):1-7

[21]Wang Lijun (王丽军).Studies on the kinetics ofp-xylene oxidation and the reactor simulation [D].Hangzhou:Zhejiang University,2001

[22]Liu Ruilan (刘瑞兰),Mou Shengjing (牟盛静),Su Hongye (苏宏业),et al.Modeling soft sensor based on support vector machine and particle swarm optimization algorithms [J].Control Theory and Applications(控制理论与应用),2006,23 (6):895-900

猜你喜欢
训练样本适应度向量
改进的自适应复制、交叉和突变遗传算法
向量的分解
聚焦“向量与三角”创新题
人工智能
一种基于改进适应度的多机器人协作策略
宽带光谱成像系统最优训练样本选择方法研究
融合原始样本和虚拟样本的人脸识别算法
基于稀疏重构的机载雷达训练样本挑选方法
向量垂直在解析几何中的应用
基于空调导风板成型工艺的Kriging模型适应度研究