多种光谱变量筛选算法在红参提取近红外建模中的应用

2021-08-17 02:51:10郑恩让
光谱学与光谱分析 2021年8期
关键词:提取液皂苷波长

陈 蓓,郑恩让*,郭 拓

1. 陕西科技大学电气与控制工程学院,陕西 西安 710021 2. 陕西科技大学电子信息与人工智能学院,陕西 西安 710021

引 言

红参属于传统的名贵中药材,国内外广泛应用于中医临床和中药制剂,具有补气、 安神、 强心、 抗癌等功效[1]。在红参提取过程中,由于原料来源、 年份、 工艺、 提取过程质量的控制等差异,会影响中药材的利用率、 药物杂质的浸出量和中成药药效成分的含量,引起红参提取物成分含量的批间差异,对后续产品的质量产生重要的影响[2]。按照《中国药典》2020年版有关规定[3],用高效液相色谱(HPLC)法测定红参中人参皂苷含量来评估红参的质量,该方法具有很高的准确度,但需要化学试剂和一系列的样品预处理[4],过程相对复杂、 污染环境且耗时较长,无法满足红参提取生产过程现场监控的需求。

近年来,近红外光谱技术由于环保和快速性等优点,已经成功地应用于食品[5]、 制药[6]、 化工[7]等领域。刘唤等[8]对近红外光谱技术在红参质量控制方面的研究进行了详细的综述,肖雪等[9]利用近红外光谱测定了红参提取过程中的人参皂苷的成分含量,对1提和2提过程分别建模,含量较低的Rc模型精度有待完善。以上研究证明了近红外光谱技术在红参提取过程中对人参皂苷含量监测的可行性,但建模都依赖于仪器本身自带的光谱分析软件,精度无法满足实际需要。吕晓菡等[10]在用近红外检测辣椒素的含量中,采用SPA,UVE和CARS三种方法提取特征波长再PLS建模,并于全光谱进行了对比分析。但多种智能的光谱筛选算法结合近红外光谱技术,应用于中药提取过程建模鲜有研究。

本文在红参乙醇回流提取过程中,在线采集提取液的近红外光谱,结合高效液相测定的人参皂苷含量参照值,以提取液中高含量的Rg1和含量低的Rc为对象,剔除异常样本,进行光谱预处理,利用竞争适应性重加权采样法、 无信息变量消除法、 随机蛙跳算法和连续投影算法优选波长变量,再建立PLS模型,实现红参提取生产过程中质控成分的在线监控,选出最优的波长筛选算法,并对比验证了该算法的稳健性,为实现快速简便的红参提取液质量监测提供技术参数。

1 实验部分

1.1 仪器和材料

SupNIR4510型近红外光谱仪(聚光科技(杭州)有限公司),Ultimate3000型高效液相色谱仪(美国Thermo公司),Mill-Q纯水系统(美国Milllipore公司),XS-105型电子天平(Mettler-Toledo公司),Matlab2018(美国MathWorks公司),红参药材样品(神威药业有限公司),人参皂苷Rg1和Rc对照品(成都曼斯特生物科技有限公司),乙腈(色谱纯,美国Fisher公司)。

1.2 数据采集

药材经过选择,清洗,精制等初步处理,通过与一定浓度的乙醇水溶液加热回流提取。采用NIRS在线仪器对红参提取过程进行监控。采集了提取过程中的三批样本,所有样本均为前两次提取过程的提取液,总共128个。光谱仪的扫描范围为1 000~2 499 nm,每四分钟采样一次,分辨率为1 nm,采用透射方式,每个样品扫描三次,将平均值作为最终原始光谱数据,并将导出数据存储在EXCEL表格中。

在近红外光谱仪监控的同时,对所采集的红参提取液进行HPLC分析。以提取液中人参皂苷含量高的Rg1、 和含量低的Rc为参考对象,使用比色法在207 nm的检测波长为下进行测量,并读出待测样品的含量,将其作为近红外光谱分析的对照值。

1.3 建模方法和评价

近红外光谱分析技术是一种间接的分析手段,采集光谱数据的同时,必须通过国家标准的方法检测出成分含量作为参考值,剔除异常点和对光谱进行预处理,然后应用光谱筛选算法优选波长变量,再应用偏最小二乘(partial least squares,PLS)建立定量模型并评价可行性,最后再用所建模型对未知的样品进行定量分析,红参提取液的人参皂苷成分建模的步骤如图1所示。

1.3.1 光谱波长变量筛选

近红外光谱包含有关样品性质的丰富信息,每个光谱都包含了许多波长点,但其存在谱带宽、 不同组分的峰信息重叠且彼此干扰,因此直接用近红外光谱建模是困难的,必须先进行特征波长优选,然后才能将其用于定量建模。本文中采用的特征波长筛选算法有竞争适应性重加权采样法、 无信息变量消除法、 连续投影算法、 随机蛙跳算法。

竞争适应性重加权采样法(competitive adaptive reweighted sampling, CARS)是由梁逸曾教授的课题组在2009年提出的[11]。当CARS使用MC采样时,在每次迭代中都会再次随机选择校正集样品,使用指数衰减函数强制选择波长,然后使用自适应性重加权方法优化波长变量,挑选交互验证均方根误差最小的变量子集。无信息变量消除法[12](uninformative variable elimination,UVE)基本原理是在原始近红外光谱之后添加人工白噪声信号,再根据噪声信号的稳定性给定一个阈值,然后删除波长变量中比此阈值小的变量,并保留其余的波长变量。连续投影算法[13](successive projection algorithm,SPA)属于前向选择变量算法,首先选择一个波长变量作为初始值,计算该变量在其余变量上的投影,将最大投影向量对应的波长作为新的待选变量,依次迭代,直到内部交互验证均方根误差达到最小,能最大限度地消除光谱变量之间的共线性。随机蛙跳算法(random frog, RF)是一种后启发式群体优化算法,是Eusuff等[14]为解决组合优化问题而提出的。该算法也是以优化校正模型的预测精度为目标,把各波长在循环计算中被选择的概率作为基准,通过循环迭代,选择概率最高的前十个特征波长建立预测模型。

图1 红参提取近红外光谱技术建模过程流程图Fig.1 Flow chart of NIRS modeling process ofred ginseng extraction

1.3.2 模型评价

采用下列评价参数[15]:

(1)交叉验证均方根误差和预测均方根误差

(2)决定系数R2

(3)预测相对分析误差(residual predictive deviation, RPD)

式中,n为校正集或者验证集的样本数量,ypi为模型预测值,yi为样本真实值。通常,好的定量分析模型应具有较低的RMSECV和RMSEP,较高的R2和RPD值。

2 结果与讨论

2.1 数据预处理

将在线采集到的128个红参提取液样本光谱,用matlab软件画出原始光谱如图2所示。两次提取液人参皂苷含量差距较大,但从光谱数据中并不能直接区分。

图2 128份红参样品的近红外原始光谱图Fig.2 NIR spectra of 128 red ginseng samples

异常样本的存在会在一定程度上影响模型的适应性和准确性,采用蒙特卡洛采样法剔除4个奇异数据,剩余124个样本用作建模。并根据KS(Kennard-Stone)法,按照3∶1对数据集分类,分得校正集93个样本,验证集31个样本,样本的具体划分结果及数据统计如表1所示,校正集和验证集的浓度范围、 平均值和标准差也非常接近,满足了对建模样本进行划分的要求。

表1 样本划分统计表Table 1 Statistical table of sample division

对于红参提取液的原始光谱,选择不同的波段并利用标准正态变换(SNV)、 多元散射校正(MSC)、 求导、 卷积、 差分等10种方法对光谱进行预处理,并建立PLS模型验证。对比最终选择1 000~2 099 nm波段作为建模的全光谱,1 100个波长,标准正态变换(SNV)预处理方法用来建模。

2.2 筛选特征波长

将SNV预处理后的红参提取液的近红外全光谱数据,再利用CARS,UVE,SPA和RF四种方法进行波长筛选,从图3中可以看出来,四种分析方法,筛选出的波长数目和分布各不相同。

四种方法筛选出的特征波长数目分别为: 57,430,8和10,波长数目大幅度下降,从全光谱的1 100个,分别下降为全光谱的5.2%,39.1%,0.7%和0.9%。

2.3 建模分析对比

2.3.1 不同光谱筛选算法建模效果对比

利用前面提到的四种特征波长筛选算法提取的特征波长,分别建立PLS模型,建模效果对比如表2所示。

图3 人参皂苷Rg1含量检测波长优选分布对比图Fig.3 Comparison of optimal detection wavelength distribution of ginsenoside Rg1 content

表2 不同的特征波长筛选算法PLS模型对红参皂苷含量建模及性能评价结果Table 2 Different characteristic wavelength variable selection and performanceevaluation results of red ginsenoside content based on PLS model

从表2对比可以看出,全光谱经UVE,CARS和SPA三种算法筛选后,建模波长数目大大降低,简化了模型,但精度有所下降; 利用RF算法筛选后,不仅剔除了冗余波长和干扰变量,建模效率和精度还得到了提高。

为了进一步验证和对比建模的效果,以红参提取液中含量较高的人参皂苷Rg1为例,将验证集数据输入不同光谱筛选方法下的PLS模型,得到散点图如图4所示。

散点图上点落在对角线上表示建模预测所得的预测值和真实值相同,样本点值越接近于对角线说明预测结果越准确。从图4可以看出,左下为第二次提取液,右上为第一次提取液,两次红参提取液的浓度差距明显。加入波长筛选四种方法,建模精度都有所提升,特别是图4(b) RF-PLS模型的样本点更接近于对角线,预测能力比其他几种方法的精度高,并且对于两次提取液Rg1含量预测RF-PLS建模精度都很高,可以进一步证明RF波长筛选算法是一种有效的近红外光谱定量分析建模方法。

图4 不同建模方法人参皂苷Rg1含量预测集散点图Fig.4 Distribution diagrams of ginsenoside Rg1 content predicted by different modeling methods

2.3.2 不同波长筛选算法的稳健性分析

为了对比不同的波长筛选算法的稳健性,在原始光谱、 全光谱、 SNV预处理后的全光谱三种光谱数据上采用波长筛选算法进行对比建模,以RF和CARS两种波长筛选算法为例,在红参提取液近红外建模性能结果如表3和表4所示。

将表3和表4中数据对比可以看出,对三种光谱数据采用两种波长筛选算法建模后,光谱范围和光谱预处理方法,对CARS算法的建模性能影响较大,RPD数值变化范围达2.2以上,对RF波长筛选算法变化较小,RF波长筛选后PLS建模,整体性能都较好,模型评价参数针对不同的光谱处理跳跃性不大,说明RF算法具有很好的稳健性。

表3 RF算法对不同光谱PLS建模性能评价结果Table 3 PLS modeling and performance evaluation of different spectra based on RF algorithm

表4 CARS算法对不同光谱PLS建模性能评价结果Table 4 PLS modeling and performance evaluation of different spectra based on CARS algorithm

3 结 论

猜你喜欢
提取液皂苷波长
HPLC-PDA双波长法同时测定四季草片中没食子酸和槲皮苷的含量
特产研究(2022年6期)2023-01-17 05:06:16
亚麻木脂素提取液渗透模型建立与验证
HPLC-MS/MS法同时测定三七花总皂苷中2种成分
中成药(2018年9期)2018-10-09 07:19:04
穿山龙提取液不同纯化方法的比较
中成药(2018年2期)2018-05-09 07:20:06
HPLC法测定大鼠皮肤中三七皂苷R1和人参皂苷Rb1
中成药(2017年9期)2017-12-19 13:34:40
双波长激光治疗慢性牙周炎的疗效观察
HPLC法同时测定熟三七散中13种皂苷
中成药(2017年6期)2017-06-13 07:30:34
山香圆叶提取液纯化工艺的优化
中成药(2017年4期)2017-05-17 06:09:28
日本研发出可完全覆盖可见光波长的LED光源
中国照明(2016年4期)2016-05-17 06:16:15
便携式多用途光波波长测量仪
物理实验(2015年9期)2015-02-28 17:36:46