许晓磊,聂文惠,曹 菲
(江苏大学 计算机科学与通信工程学院,江苏 镇江 212013)
HAFBPS对发酵法生产透明质产量的预测
许晓磊,聂文惠,曹菲
(江苏大学 计算机科学与通信工程学院,江苏 镇江 212013)
摘要针对发酵生产透明质酸产量进行的预测方法困难的问题。提出一种基于粒子群算法的支持向量机模型,对发酵产物透明质酸的产量进行预测。支持向量机的精确度主要取决于惩罚系数和核参数的设定,为了提高其预测的精确度,将惩罚系数和核参数看成是一定空间范围的解,利用粒子群算法对其全局优化运算。通过比较HAFBPS和同类方法的仿真实验结果,得出基于粒子群算法的支持向量机模型在对发酵产物透明质酸的预测上具有更高的精确度。
关键词粒子群算法;参数优化;支持向量机;预测;透明质酸
透明质酸最先是由牛眼玻璃体中分离得到的物质,比其他同类型分子携带水分的能力强500倍,是公认的最佳保湿成分,广泛用于保养品,化妆品和医疗中[1]。在生物体内是一种相容性好的多聚糖。但是透明质酸的发酵是一个复杂的非线性的过程,对于其中一些重要变量的测量难实现实时在线测量。本文主要研究以支持向量机和粒子群算法来建立模型对发酵产物透明质酸的产量进行预测。支持向量机是一个基于小样本的优秀机器学习的算法。文献[2]用遗传算法来计算支持向量机的参数,也证明了使用遗传算法能够提高可靠性。但遗传算法计算过程过于复杂,针对不同的优化问题需要设计不同的组合方法。粒子群算法相对比较易于实现,文献[3~5]在航空蓄电池电量预测和遥感图像精度预测及钻具失效模型的预测中运用了粒子群算来提高计算的精度。文献[6~7]在短期汛期的天气预测和在陀螺仪寿命预测中运用支持向量机。粒子群算法可较好地搜索一定区域范围内的全局最优解。本文中运用支持向量机来构建透明质酸的预测模型,并利用粒子群算法来对其参数进行优化。实验结果表明,该方法具有较高的预测精度,给透明质酸的预测分析提供了一种有效的方法。
1相关内容介绍
1.1支持向量机
在1992年Vapnik等提出一种基于统计学方法SVM(支持向量机)。该方法具有小样本学习能力强、预测误差小等特点。使用支持向量机做回归预测,是通过非线性映射将数据点映射到高纬度特征空间,构建最优线性回归函数
f(x)=(w·φ(x))+b
(1)
式中,w为模型的权值,φ(x)为非线性功能函数;b为分类超平面阈值。在特征空间中,对于误差的限制条件为
(2)
函数(1)作用是将非线性函数转化为高维特征空间中线性函数。
由于该线性函数并不能将所有点均分开,引入松弛变量ξ≥0;将限制条件的方程(2)改写为
yi[w·φ(xi)+b]-1+ξ≥0
(3)
最优决策的超平面应满足使被分类的点距离分类函数的最短距离最大,即使得如下函数(4)值最小
(4)
γ为惩罚系数表示对偏离点惩罚的力度;ξ为松弛变量。
引入拉格朗日乘子,使对式(4)的求解转化为对偶优化求解问题
(5)
(6)
定义核函数:k(xi,xj)表示为将非线性点群映射到特征空间的函数。则得到最优模型表示为
(7)
不同核函数可以构造出不同支持向量机模型,本文采用的核函数是径向基高斯核函数(RBF)[8-9]
(8)
1.2粒子群算法
参数(C,σ)是影响支持向量机性能的关键参数,这两个参数通常是通过经验选取的方法,但这种方法无法保证选取的参数是全局最优,随机性较大,对支持向量机的性能影响比较大。
1995年,Eberhart博士和kennedy博士收到鸟类觅食行为的启发,提出了粒子群算法。其基本思想是随机定义几个粒子,每一个粒子是n维空间的一个点也是作为所需优化参数的一个解。定义一个适应度函数来判断每个粒子的优势度。
在每一次的迭代中,粒子群通过追踪每个粒子来更新两个变量,一个叫全局最优解gbest,一个叫粒子最优解Pbest。Pbest是一个粒子历次迭代的最好的值,gbest是所有粒子中的最好的值。每一个粒子每次迭代的速度和位置的更新根据如式(9)所示。
(9)
(10)
式中,k表示迭代的次数;C1和C2为两个常数,表示加速因子,范围在0~2之间;rand()是0~1之间的随机数;W表示惯性权重,惯性权重是随着迭代的次数线性递减,表示为
(11)
其中,i表示当前迭代的次数;imax表示设定最大的迭代次数;w为设定的惯性权重值;wmax表示惯性权重设定上限;Wmin表示惯性权重设定下限。
1.3HAFBPS模型
定义透明质酸样本实例{xi,yi},i=1,2,…n,y是透明质酸发酵产量,x是影响发酵产物的因素。利用支持向量机建立对透明质酸产量预测的模型为
(12)
式中,Hi表示透明酸的样本,0≤α≤C(惩罚因子),用于控制预测误差超出样本的惩罚程度;K是核函数;b是阈值。
HAFBPS(Hyaluronic Acid Forecasting Based on Pso and Svm)模型构建步骤[10-12]:(1)获取训练样本{xi,yi};(2)确定支持向量机的核参数;(3)利用粒子群算法优化求解;(4)构建SVM模型;(5)利用样本进行模型测试。
粒子群算法可较好地在大范围搜索空间找到最优或接近最优解的解。由式(12)可看出,参数(C,σ)对支持向量机的精确度影响至关重要的,所以使用粒子群算法来优化选取支持向量机的参数。HAFBPS模型的实施步骤如下[9]:(1)设定粒子群算法的初始参数,初始速度、粒子的数量、惯性权重、C1、C2、最大迭代次数和最大速度;(2)设定搜索解的范围即确定(C,σ)的大致的范围;(3)定义适应度函数,计算每一个粒子的适应度,选出最优解。定义适应度函数为
(13)
vc≥vmax,i≥imax
(14)
不满足跳出循环条件,则转入步骤(4);否则得到最优参数解(C,σ),建立PSO-SVM模型。
2应用与实验
影响发酵的过程的因素很多,如温度、pH值、溶氧、转速、泡沫、原料、罐压等。在发酵过程中,温度过高过低会影响生物的生长和活性影响,同样微生物发酵环境的pH值对微生物的成长也是至关重要的,氧是发酵生物生长的营养,含氧过高过低均对微生物的生长进程产生较大影响,因此这些参数都是影响预测结果关键的因素。
在实验过程中,发现转速对微生物的发酵也有较大的影响,电机的转速的快慢使发酵的产物有明显的变化,还有一些因素对产物的发酵液有一些影响,如补料的流量、罐压等。
变量过多导致建模的维数偏高,训练数值的时间开销过大,不利于实践应用,利用关联度分析法来检测影响因素对发酵产物的相关性,选出对发酵结果影响最高的影响因子。
关联分析公式如下
(15)
其中,r值越接近1,代表检测的变量和预测结果直接的关联度越大相关性越大,反之则越小。
表1 各种影响因素和产物之间的关联度的结果
在本次实验中,PSO-SVM模型各项参数设定为:vmax=30,i=50,C1=2,C2=2,n=20,ε=0.02,w根据式(10)有0.9线性衰减。(C,σ)的参数范围为(0,100),(0,500)。PSO优化SVM模型的最优解为σ=0.228 8,C=15.003 1。图1是测试模型的预测值和实际值的比较结果;图2是实际值和PSO-SVM模型的估计结果的比较;图3是运用GA-SVM模型来作对比,种群POP中个体数量初始化为30,交叉概率是0.7,变异概率是0.5。
图1 实际值和SVM模型的估计结果的比较
图2 实际值和PSO-SVM模型的估计结果的比较
图3 实际值和GA-SVM模型的估计结果的比较
结果显示标准SVM的模型的平均相对误差是0.277 8,GA-SVM的模型的平均相对误差是0,223 8,经过PSO优化参数得到的SVM模型的平均相对误差是0.194 6。实验结果说明在透明质酸的预测中PSO-SVM比SVM的预测的准确性更好。
3实验总结
(1)SVM可描述温度、pH、溶氧、CO2的浓度,搅拌功率和发酵产物之间的非线性关系,粒子群算法可较好的全局搜索最优解,以保证SVM模型的精度。PSO-SVM在发酵产物透明质酸产量上可进行预测;
(2)对于透明质酸产物的预测,目前还有过多的研究,其影响因素也比较复杂,本文在考虑时间开销同时选取影响因子最大的因素,如何在最大化考虑影响因素的同时,降低其时间开销和模型复杂度是下一步的研究方向。
参考文献
[1]Kim K S,Kim J,Park K,et al.Real-time bioimaging of hyaluronic acid derivatives using quantum dots for biopharmaceutical delivery applications[C].Molecular:4th International Conference on Nano, IEEE,2010.
[2]Xin Y I,Hui L I,Feng J.Sorting of communication signals based on optimized SVM by GA[J].Informatization Research, 2010,36(3):49-57.
[3]Xie J,Li W,Hu Y.Aviation lead-acid battery state-of-health assessment using PSO-SVM technique[C].Beijing: 5th IEEE International Conference: Software Engineering and Service Science (ICSESS),2014.
[4]Bhandari K A,Manthalkar R R.A new watershed segmentation (NWS)and particle swarm optimization (PSO-SVM) techniques in remote sensing image retrieval[C].Shanghai: 3rd International Conference on Reliability, Infocom Technologies and Optimization (ICRITO),2014.
[5]Li B,Yang M.Analysis model of drilling tool failure based on PSO-SVM and Its application[C].Shanghai: Fourth International Conference on IEEE:Computational and Information Sciences,2012.
[6]Wang J,Xing Y,Cheng L,et al.The prediction of mechanical properties of cement soil based on PSO-SVM[C].Beijing: International Conference on Computational Intelligence and Software Engineering, IEEE, 2010.
[7]徐国平.基于支持向量机的动调陀螺仪寿命预测方法研究[D].上海:上海交通大学, 2008.
[8]Fei X U,Weiya X U,Liu K,et al. forecasting of rock mechanical behaviors based on PSO-SVM model[J].Chinese Journal of Rock Mechanics & Engineering, 2009,A02(z2):3699-3074.
[9]Shen Y.Application of support vector machine to short-term climate prediction during the flood season of sanming prefecture[J].Atmospheric Science Research & Application, 2009,31(1):24-26.
[10] Delian M A.Forecasting analysis of dam break flood of shanxi reservoir[J].Water Resources & Power,2010 (4):52-55.
[11] Wen-Tao M A.Evaluation of rock slope stability based on PSO and LSSVM[J].Rock & Soil Mechanics, 2009, 30(3):845-848.
[12] Sun L,Zhang Y,Rina S. Research on the fouling prediction of heat exchanger based on support vector machine optimized by particle swarm optimization algorithm[C].Beijing: International Conference on Mechatronics and Automation,IEEE,2009.
Prediction of the Production of Transparent Material by HAFBPS
XU Xiaolei, NIE Wenhui, CAO Fei
(School of Computer Science and Communication Engineering, Jiangsu University, Zhenjiang 212013, China)
AbstractCurrently, there is no good method for the production of hyaluronic acid forecast. This paper presents a model of particle swarm algorithm, HAFBPS, to predict the production of hyaluronic acid. The accuracy of SVM depends on the set of penalty coefficient and nuclear parameters. In order to improve its accuracy and efficiency, we transform the penalty coefficients and parameters into a solution of the space using particle swarm algorithm to optimize its operation in the global scope. Comparison of the results show that HAFBPS have higher accuracy on prediction of hyaluronic acid.
KeywordsPSO; optimization; SVM; prediction; hyaluronic acid
收稿日期:2015- 11- 12
基金项目:江苏省科技型企业创新基金资助项目(BC2014212);江苏省普通高校研究生科研创新计划基金资助项目(1293000491)
作者简介:许晓磊(1989-),男,硕士研究生。研究方向:数据预测。聂文惠(1968-),男,副教授。研究方向:数据库理论与应用等。
doi:10.16180/j.cnki.issn1007-7820.2016.07.007
中图分类号TP301.6
文献标识码A
文章编号1007-7820(2016)07-022-04