近红外光谱结合遗传算法优化的RBF神经网络对中药萃取物含量的预测

2017-03-24 06:45任玉林
关键词:欧前胡素蛇床子

曲 楠,窦 森,任玉林

(1.吉林农业大学资源与环境学院,吉林 长春 130118;2.吉林大学化学学院,吉林 长春 130012)

近红外光谱结合遗传算法优化的RBF神经网络对中药萃取物含量的预测

曲 楠1,窦 森1,任玉林2

(1.吉林农业大学资源与环境学院,吉林 长春 130118;2.吉林大学化学学院,吉林 长春 130012)

建立了基于近红外漫反射光谱(NIR)定量预测中药蛇床子CO2超临界萃取(SFE)物中2种主要成分蛇床子素和欧前胡素含量的新方法.将高效液相色谱(HPLC)分析结果作为参考值,通过遗传算法(GA)和径向基函数(RBF)神经网络相结合,建立中药蛇床子萃取物的光谱数据和萃取物中蛇床子素和欧前胡素含量之间的定量模型.NIR光谱数据经标准归一化(SNV)预处理后所建GA优化的RBF网络模型(GA-RBF)为最优,其蛇床子素和欧前胡素测试集的均方根误差(RMSE)分别为0.476 4%和0.305 6%,相关系数(R)分别为0.990 8和0.987 0,均优于偏最小二乘(PLS)模型的处理结果.该方法具有快速、无损、精确的优点,为中药材复杂体系中化学组分定量测定提供了一条新途径.

近红外光谱;神经网络;遗传算法;蛇床子;CO2超临界萃取

蛇床子为伞形科植物蛇床的成熟果实,具有壮阳、燥湿、祛风和杀虫的功效,作为中药已有数百年的历史.[1]其中蛇床子素和欧前胡素为其主要成分,常用的测定方法有气相色谱法[2]和HPLC法[3],这些方法都需要经过复杂的样品准备和预处理,测定成本高且效率较低.近红外光谱分析技术是近20年来迅速发展的一种检测方法,具有快速、非破坏、无污染等特点,已在食品、化工和药物分析等多个领域得到广泛的应用[4-11],同时也为中药质量的快速分析提供了一种新的方法.目前,在中药的近红外光谱分析中,最常用的定量分析方法为主成分回归(PCR)和PLS[12-13]方法,这2种方法都属于多元线性回归方法.由于中药组成复杂,待测成分经提取、炮制、煎煮等中药生产方式,导致其内部有效组分的复杂多变.因此,应用多元线性回归方法对中药的近红外光谱数据进行定量分析往往很难得到理想的结果[14].

最近几年,人工神经网络在中药近红外光谱分析中的应用得到了越来越多的关注,其通用逼近属性使之可以处理复杂的非线性映射问题[15-18],建立中药主要成分的近红外漫反射(NIR)光谱数据和所分析药品特征的映射关系,对于处理强非线性的中药NIR光谱数据,这种方法有着传统方法无可比拟的优越性.径向基函数(RBF)网络是一种前馈人工神经网络,它的优点是网络结构简单、学习速度快、逼近能力强和不易陷入局部极值点等.同时,它也存在一定的不足,比如在网络拓扑结构和系统参数的选择时,需要凭借经验和主观认识,要想得到最优的网络拓扑结构通常是非常困难的.而应用遗传算法(GA)可实现网络拓扑结构的最优化搜索[19],因此,本文提出一种基于GA的RBF网络两级训练算法,并将NIR光谱分析技术与GA优化的RBF网络相结合,通过GA自动优化RBF网络拓扑结构参数和NIR光谱波段,实现了对中药蛇床子CO2超临界萃取物中2种主要组分蛇床子素和欧前胡素含量的定量预测.实验结果表明,该方法快速、简便、准确,可发展成为一种快速无损定量分析中药材主要成分的新方法.

1 实验部分

1.1 仪器与软件

仪器:UV-3101型紫外-可见近红外分光光度计;ISR-3101积分球漫反射检测器(日本岛津);HA221-50-06型超临界流体萃取机(江苏南通华安超临界萃取有限公司);LC-10A高效液相色谱仪;SPD-7A紫外-可见检测器;C-R7A数据处理机(日本岛津).

软件:所有的计算软件包括GA-RBF神经网络、PLS和光谱预处理(SNV,MSC和导数)都是在MATLAB(版本R2006a,MathWorks公司)环境中编写.

1.2 样品制备与测定

将蛇床子药材800 g粉碎至0.8~1.7 mm,投入萃取釜中,得黄绿色膏状萃取物.萃取条件:萃取压力25 MPa,萃取温度50℃,萃取时间3 h,解析压力6.5 MPa,解析温度60℃.测定条件:Shim-pack柱,250 mm×4.6 mm,柱温30℃,检测波长322 nm,流速1.0 mL/min,乙腈-水(V(乙腈)∶V(水)=65∶35) 为流动相.

在上述色谱条件下,以蛇床子素和欧前胡素为对照品,用HPLC的标准方法[20]测定样品中的二组分含量,并作为参考值.

1.3 NIR光谱采集与数据处理

将待测样品装在光谱仪积分球的样品池内,并填平、压实.光谱带宽为12 nm,中速扫描,每间隔1 nm 采集一个光谱数据,NIR光谱测量范围为801~2 500 nm,共1 700个数据点.在上述条件下,每个样品扫描10次,取平均值为该样品原始光谱.

将90个样本光谱数据随机分为训练集、监控集和测试集3组.其中训练集60个样本,监控集20个样本,测试集10个样本.

2 结果与讨论

2.1 近红外光谱

训练集萃取物的NIR光谱见图1,不同浓度蛇床子CO2超临界萃取物的NIR光谱重叠严重,用传统的光谱方法难以定量分析,实现准确分析必须结合化学计量学方法.对光谱信号进行预处理,本文主要采用了标准归一化(SNV)、多元散射校正(MSC)和导数预处理方法,以实现对光谱测量数据中有效信息的充分提取,从而提高模型的可靠性及对待测样品分析结果的准确性.

2.2 GA-RBF网络建模与评价

RBF网络是由输入层、隐含层和输出层组成的3层前馈神经网络.n输入、m输出和k个隐含层节点的RBF网络的数学模型为

其中cj为第j个基函数中心向量,σ为基函数宽度.

线性最小二乘方法可以确定RBF网络的权值矩阵.为优化网络拓扑结构,应用GA对RBF网络进行离线训练.通过遗传操作计算最优的宽度参数和基函数中心.

RBF网络个体采用RMSE准则评价作为适应度评价网络的优劣.均方根误差为

其中:CREF为标准方法测定的样本参考浓度,CNIR为样本预测浓度,N为样本数.

计算过程中,采用监控集和训练集并集的RMSE作为网络的适应度函数.这种方法可以有效避免训练集过拟合,提高网络的预测性能.通过选择、交叉和变异等标准遗传操作对网络种群进行训练,算法经过多次迭代,网络种群的适应度不断提高,最终得到优化的RBF网络参数和参与计算的光谱波段区域.

2.3 SNV光谱构建GA-RBF网络模型

首先使用SNV光谱数据构建GA-RBF网络模型来区分光谱的特征及分析蛇床子样本主要成分的浓度.在建立SNV优化的GA-RBF网络模型时,为缩减计算时间和提高RBF神经网络的预测精度,采用GA自动选择最优光谱波段.GA优化的波段区域作为RBF网络的输入变量.因为蛇床子有2种主要成分,所以网络有2个输出节点.

实验过程中应用GA优化RBF网络的拓扑参数.GA的参数选择:种群规模为40,进化代数为400,选择比率为0.8,交叉概率为0.85.

为了使算法尽快收敛,变异概率采用自适应变化的策略,即根据种群的目标函数均值动态调整变异概率.

个体网络的目标函数采用监控集与训练集并集的RMSE进行评价,监控集RMSE的应用可以防止训练过程的过拟合.在算法迭代的过程中,自动计算优化的RBF网络参数和参与计算的光谱波段区域.RMSE值与进化过程的关系如图2所示.图2中点线和实线分别表示每一代种群的平均RMSE值和最小RMSE值.算法经过400次迭代后收敛,目标函数的平均值和最小值均逐渐稳定.RMSE的最小值为0.567 5%,此时,训练集和监控集的RMSE分别为0.267 0%和0.591 9%.图3和4分别为RBF网络宽度参数和隐含层节点数的进化过程,GA自动搜索到最优RBF网络的基函数宽度为0.488 3,隐含层节点数为45个.优化得到的光谱波段为8个光谱波段区域:2 351~2 400 nm,2 151~2 200 nm,1 901~2 100 nm,1 751~1 850 nm,1 551~1 600 nm,1 351~1 400 nm,1 251~1 300 nm和901~950 nm.

图1 训练集萃取物的NIR光谱

图2 RMSE的进化过程(SNV光谱)

图3 网络宽度参数的进化过程(SNV光谱)

图4 网络隐含层节点数的进化过程(SNV光谱)

2.4 其他预处理光谱的GA-RBF网络模型

基于SNV预处理光谱的GA-RBF网络模型建模流程建立了MSC、一阶导数和二阶导数预处理光谱的GA-RBF网络模型.表1列出了不同预处理方法所构建GA-RBF网络模型的最优光谱区域和RBF网络拓扑参数.在训练过程中,各种光谱数据GA-RBF网络模型的相关系数R和RMSE如图5所示.不难看出,使用SNV光谱建立的GA-RBF网络模型有最大的相关系数R和最小的RMSE值,这意味着SNV预处理光谱比其他预处理光谱更适宜构建GA-RBF网络模型.

表1 最优光谱区域和RBF网络拓扑参数

图5 GA-RBF神经网络训练过程中的R和RMSE数据

为了进一步验证GA-RBF神经网络的可靠性,对测试集样本进行预测.图6和7为SNV光谱建立的GA-RBF网络模型测试集样本的预测浓度和参考浓度的线性关系图,其他光谱的预测浓度和参考浓度的线性关系图略.均方根误差RMSE和线性相关系数R列于表2.从计算结果可以看出,经GA优化的RBF网络有能力以较高的精度预测蛇床子样本2种主要成分的浓度.

图6 蛇床子素SNV光谱构建GA-RBF模型测试集预测浓度和参考浓度的线性关系

图7 欧前胡素SNV光谱构建GA-RBF模型测试集预测浓度和参考浓度的线性关系

不同光谱主要成分数据集GA-RBFRRMSE/%PLSRRMSE/%原始蛇床子素训练集0.98850.62340.97320.9311监控集0.98550.6586测试集0.97070.64330.96711.0229欧前胡素训练集0.97960.29700.96620.3820监控集0.97510.3723测试集0.96670.31830.95660.3270SNV预处理蛇床子素训练集0.99640.35170.98090.8101监控集0.99220.4634测试集0.99080.47640.98330.5918欧前胡素训练集0.99380.16490.97960.2981监控集0.99030.2089测试集0.98700.30560.97380.3074MSC预处理蛇床子素训练集0.99590.37420.97620.8810监控集0.98470.6579测试集0.98120.54480.97250.8039欧前胡素训练集0.99300.17450.97230.3463监控集0.98300.2802测试集0.97830.23820.97050.3009一阶导数预处理蛇床子素训练集0.99490.41730.98000.8139监控集0.98770.5829测试集0.98460.56200.97740.5858欧前胡素训练集0.99370.16570.97500.3288监控集0.98590.3027测试集0.98350.20010.97270.2862二阶导数预处理蛇床子素训练集0.98920.61440.97590.9306监控集0.98680.6060测试集0.98070.53590.97010.9557欧前胡素训练集0.98020.29410.97180.3645监控集0.98210.2968测试集0.97920.30260.96450.3070

2.5 PLS模型预测组分含量

在PLS模型的建立中,90个样本被分成2个集,即训练集和校正集.将GA-RBF模型的训练集和监控集样本作为PLS模型的训练集,GA-RBF模型的测试集样本作为PLS模型的校正集.使用交互验证法确定PLS模型的最佳主成分数.原始光谱、SNV、MSC、一阶导数和二阶导数光谱建立的最佳PLS模型的主成分数依次为3,3,3,2和1.不同PLS模型训练集和校正集样本的蛇床子素和欧前胡素含量的RMSE和R分别列于表2.从表2可见,SNV预处理光谱的最优PLS模型预测结果好于其他模型,这与GA-RBF模型的结果相同.通过比较PLS模型和GA-RBF模型可以发现,后者的预测结果明显好于前者,这说明GA-RBF模型的抗干扰、抗噪音以及强大的非线性转换能力优越于PLS模型.

3 结论

NIR漫反射光谱结合GA-RBF网络模型对蛇床子SFE萃取物中主要成分蛇床子素和欧前胡素进行同时和非破坏定量分析是可行的.实验结果证明:SNV预处理方法为最优预处理建模方法,其蛇床子素和欧前胡素测试集的RMSE分别为0.476 4%和0.305 6%,R分别为0.990 8和0.987 0,均优于PLS模型的处理结果.通过和PLS模型预测结果的比较可知,应用GA自动优化RBF网络结构参数和NIR光谱波段,增强了RBF网络对中药蛇床子萃取物NIR光谱数据与主要成分之间的复杂非线性映射关系的描述能力.该方法为中药材复杂体系中化学组分定量预测提供了一条新途径.

[1] ZHOU J,SUN X L,WANG S W.Micelle-mediated extraction and cloud-point preconcentration of osthole and imperatorin from Cnidium monnieri with analysis by high performance liquid chromatography[J].J Chromatogr A,2008,1200:93-99.

[2] FIGUEROA M,CRUZ I R,CRUZ B R,et al.Constituents,biological activities and quality control parameters of the crude extract and essential oil from Arracacia tolucensis var multifida[J].J.Ethnopharmacol,2007,113:125-131.

[3] LIU R,FENG L,SUN A,et al.Preparative isolation and purification of coumarins from cnidium monnieri(L) cusson by high-speed counter-current chromatography[J].J Chromatogr A,2004,1055:71-76.

[4] 刘宏欣,张军,王伯光,等.水中总氮的无损快速分析[J].光学精密工程,2009,17(3):525-530.

[5] FENG X D,SU R,XU N,et al.Portable analyzer for rapid analysis of total protein,fat and lactose contents in raw milk measured by non-dispersive short-wave near-infrared spectrometry[J].Chem Res Chinese Universities,2013,29(1):15-19.

[6] LIU T,BAO C F,REN Y L.Determination of quality properties of soy sauce by support vector regression coupled with SW-NIR spectroscopy[J].Chem Res Chinese Universities,2011,27(3):385-391.

[7] 范如芹,杨学明,张晓平,等.东北黑土不同组分有机碳的近红外光谱测定[J].光谱学与光谱分析,2012,32(2):349-353.

[8] NI Y N,MEI M H,KOKOT S.Analysis of complex,processed substances with the use of NIR spectroscopy and chemometrics:classification and prediction of properties-the potato crisps example[J].Chem Intell Lab Syst,2011,105:147-156.

[9] QU N,MI H,WANG B,et al.Application of GA-RBF networks to the nondestructive determination of active component in pharmaceutical powder by NIR spectroscopy[J].Journal of the Taiwan Institute of Chemical Engineers,2009,40:162-167.

[10] QU N,ZHU M C,REN Y L,et al.Adaptive neuron-fuzzy inference system combined with principal components analysis for determination of compound thiamphenicol powder on near-infrared spectroscopy[J].Journal of the Taiwan Institute of Chemical Engineers,2012,43:566-572.

[11] 张卓勇.光谱学方法结合化学计量学用于癌诊断研究[J].光谱学与光谱分析,2015,35(9):2388-2392.

[12] 詹雪艳,赵娜,林兆洲,等.校正集选择方法对于积雪草总苷中积雪草苷NIR 定量模型的影响[J].光谱学与光谱分析,2014,34(12):3267-3272.

[13] REN G X,CHEN F.Simultaneous quantification of ginsenosides in american ginseng(panax quinquefolium) root powder by visible/near-infrared reflectance spectroscopy[J].J Agri Food Chem,1999,47:2771-2775.

[14] 刘全,瞿海斌,程翼宇.用于渗漉提取过程分析的中药有效组分近红外光谱快速测定法[J].化工学报,2003,54(11):1586-1591.

[15] Zhang Y X,Li H,Hou A X,et al.Artificial neural networks based on principal component analysis input selection for quantification in overlapped capillary electrophoresis peaks[J].Chem Intell Lab Syst,2006,82:165-175.

[16] MI H,GUO Y,LI W L,QU N,et al.Application of short-wave near-infrared reflectance spectroscopy in controlling extract of fructus cnidii using supercritical carbon dioxide[J].Chem Res Chinese U,2007,23:116-119.

[17] QU N,LI X,DOU Y,et al.Nondestructive quantitative analysis of erythromycin ethylsuccinate powder drug via short-wave near-infrared spectroscopy combined with radial basis function neural networks[J].European Journal of Pharmaceutical Sciences,2007,31:156-164.

[18] QU N,ZHU M C,MI H,et al.Nondestructive determination of compound amoxicillin powder by NIR spectroscopy with the aid of chemometrics[J].Spectrochimica Acta Part A,2008,70:1146-1151.

[19] 秦国华,谢文斌,王华敏.基于神经网络与遗传算法的刀具磨损检测与控制[J].光学精密工程,2015,23(5):1315-1321.

[20] 中华人民共和国药典委员会.中华人民共和国药典[M].北京:化学工业出版社,2005:219.

(责任编辑:石绍庆)

Rapid concentration determination of extractant fromcnidiummonnierivia near-infrared spectroscopy combined with GA-RBF neural network

QU Nan1,DOU Sen1,REN Yu-lin2

(1.College of Resources and Environment,Jilin Agricultural University,Changchun 130118,China; 2 College of Chemistry,Jilin University,Changchun 130012,China)

A new method for a quantitative prediction of osthol and imperatorin as active ingredients ofcnidiummonnieriobtained by means of extraction with supercritical carbon dioxide was proposed based on near-infrared(NIR) diffuse reflectance spectra.High performance liquid chromatography(HPLC) was used to determine the concentration osthol and imperatorin ofcnidiummonnierifor reference.A quantitative analysis model about the spectral characteristics of thecnidiummonnieriextract and the content of osthol and imperatorin in the extraction was established by combining genetic algorithm(GA) with radial basis function(RBF) neural networks.The optimal network parameters and near infrared spectral region were constructed automatically by using GA.The results of the experiment were turned out that the standard normalization(SNV) was the optimal pretreatment method of modeling and showed that the root-mean-square-errors(RMSE) of osthol and imperatorin for test set were 0.476 4% and 0.305 6%,respectively.The correlation coefficients(R) for test set were 0.990 8 and 0.987 0,respectively.That was more superior to the results of partial least squares(PLS) model.The method was fast,nondestructive and accurate.It provided a new way for quantitative determination of chemical composition in complex systems of thecnidiummonnieri.

near-infrared spectroscopy;neural networks;genetic algorithm;cnidiummonnieri;supercritical carbon dioxide(SFE)

1000-1832(2017)01-0098-07

10.16163/j.cnki.22-1123/n.2017.01.019

2016-09-07

国家自然科学基金资助项目(41571231);吉林省教育厅“十二五”科学技术研究项目(吉教科合字[2015]第199号);吉林省科技发展计划项目青年科研基金项目(20150520118JH).

曲楠(1980—),女,副教授,主要从事光谱分析及化学计量学研究.

O 655 [学科代码] 150·25

A

猜你喜欢
欧前胡素蛇床子
欧前胡素对酪氨酸酶的抑制作用及机制
蛇床子素药动学特征及其代谢产物研究进展
一测多评法测定无硫和低硫白芷中5种香豆素类成分的含量
蛇床子素渗透泵控释片制备工艺的优化及其体外释药行为
欧前胡素对Aβ1-42致阿尔茨海默病模型小鼠海马组织氧化应激反应的影响
欧前胡素下调MCL-1提高口腔鳞癌干细胞顺铂敏感性实验研究
HPLC法测定辛芳鼻炎胶囊中新橙皮苷、柚皮苷、欧前胡素和异欧前胡素的含量
蛇床子素-TPGS固体分散体制备研究
中药蛇床子临床应用概述
HPLC法测定骨刺消痛胶囊中欧前胡素的含量