李珊珊,张付杰, ,李丽霞,张 浩,段星桅,史 磊,崔秀明,李小青
(1.昆明理工大学现代农业工程学院,云南 昆明 650500;2.江苏大学电气信息工程学院,江苏 镇江 212000;3.中国人民解放军69223部队,新疆 阿克苏 842300)
天麻是兰科植物天麻的干燥块茎,又称定风草、水洋芋,既是一种名贵的中药材,也是保健食品。天麻具有息风止痉、平抑肝阳、祛风通络等药效[1],主要用于治疗肝风内动[2]、眩晕头痛,还可用于治疗高血压、小儿惊风等,具有重要的药用价值和临床价值。天麻的产地主要分布于云南、四川、贵州、陕西等地区[3],云南昭通天麻的产量和质量位居中国榜首,并且以其较高的药用保健价值在国内外畅销。研究表明,天麻中的有效药用成分是酚类,包括天麻素、对羟基苯甲醇(天麻苷元)、4-羟苄基甲醚、4-(4-羟苄氧基)苄基甲醚[4-5];在这些成分中,通常以天麻素和对羟基苯甲醇二者的含量评估天麻的药效和价格,是衡量天麻品质的重要指标[6]。因此测定天麻中天麻素和对羟基苯甲醇的含量十分必要。传统天麻有效成分含量的检测为化学分析,如高效液相色谱法[7]、气相色谱法、紫外-可见分光光度法、液相色谱-质谱联用法、超高效液相色谱法[8]、超高效液相色谱-三重四极杆串联质谱法[9-10]等;这些检测方法存在破坏样本、操作复杂、污染环境及检测周期长等弊端[11],无法满足大批量、快速检测的要求,因此,亟需一种快速高效低成本的检测技术评估天麻质量。
近红外光谱技术以创新性和非破坏性的优势在我国农产品检测[12-14]和食品领域[15-19]有着广泛的应用,同时也在中药材质量监控、含量检测等方面应用较多。Zhang Cihai等[20]采用近红外光谱技术结合化学计量学建立了定量分析甘草中多糖含量的方法。Li Xiaoting等[21]采用傅里叶近红外光谱仪测定灵芝孢子粉中灵芝粉的含量,选择最小和最大归一化方法对光谱进行预处理,然后采用偏最小二乘法进行分析。Chen Chen等[22]基于近红外光谱建立支持向量回归模型对红枣进行光谱分析,检测红枣中环磷酸腺苷的含量。Wu Lun等[23]采用近红外光谱并结合化学计量学快速预测五味子中的多糖含量,预测模型中,最优模型校正集的均方根误差(root mean square error of calibration,RMSEC)为0.0012,决定系数R2为0.9976;预测集的均方根误差(root mean square error of prediction,RMSEP)为0.0024,决定系数R2为0.9922,相对分析误差为11.36。Ma Longhui等[24]采用近红外光谱快速测定铁皮石斛中总多酚含量和抗氧化活性的含量,采用竞争性自适应重加权抽样-偏最小二乘(competitive adaptive reweighted sampling-partial least squares,CARS-PLS)模型进行预测,结果表明总多酚含量的R2与RMSEP分别为0.8412和0.2905,抗氧化活性的R2与RMSEP为0.9062和0.1028。近红外光谱技术在中药材有效成分含量检测具有广阔的应用前景,但在天麻中的应用鲜有报道。天麻中的成分含量有多种官能团,官能团在近红外光谱区域内有多个吸收峰,根据这一原理,本研究提出利用近红外光谱技术检测天麻中的有效成分。通过采集天麻的光谱数据,获取表征天麻素含量和对羟基苯甲醇的光谱信息,预测天麻中的二者成分含量。
综上所述,本研究采用便携式近红外光谱仪(900~1700 nm)采集光谱,基于原始光谱数据和预处理后的光谱数据,采用CARS和迭代保留信息变量(iteratively retains informative variables,IRIV)提取特征波长,并对比两种特征提取算法的建模结果。利用人工兔优化算法(artificial rabbits optimization,ARO)进行最小二乘支持向量回归(least squares support vector regression,LSSVR)模型参数的优化,根据决定系数和均方根误差(root mean square error,RMSE),建立并选择天麻素及对羟基苯甲醇的最佳预测模型,以期为天麻的有效成分含量快速检测提供理论依据。
所有天麻样品于2022年8月采自云南昭通市。将采集后的天麻清洗并自然干燥,选取126 个天麻作为实验样品。将干燥后的天麻样品分别放入粉碎机粉碎,打磨成粉,过200 目筛,放入密封袋中,进行编号。
YCNIR-1便携式近红外光谱仪 云南小宝科技有限公司;乐祺电子天平(精度0.01 g)昆山优科维特电子科技有限公司;1500A型多功能粉碎机 永康市红太阳机电有限公司;1260高效液相色谱仪 安捷伦科技(中国)有限公司。
1.3.1 光谱数据提取与有效成分含量测定
天麻的有效成分测定及光谱采集流程如图1所示。
图1 天麻的有效成分测定和光谱信息采集Fig.1 Determination of active components and collection of spectral information of Rhizoma Gastrodiae
1.3.1.1 高效液相色谱法测定
利用高效液相色谱仪测定样本的天麻素、对羟基苯甲醇含量。以十八烷基硅烷键合硅胶为填充剂;以乙腈为流动相A,以体积分数0.1%磷酸溶液为流动相B,进行梯度洗脱。流速0.8 mL/min;柱温30 ℃;取天麻样品0.5 g,加入体积分数50%甲醇溶液25 mL,制作药材参照物溶液;另取同一天麻样本粉末约0.5 g,制作供试品溶液,分别精密吸取参照物溶液、供试品溶液各3 µL,注入液相色谱仪进行测定。获得2 种溶液的色谱图,根据色谱图220 nm波长处的波峰面积进行对比,分别求得标样曲线和供试样品溶液的质量浓度,通过计算获得各样品的天麻素、对羟基苯甲醇质量分数。
图2 ARO算法流程图Fig.2 Flow chart of ARO algorithm
1.3.1.2 近红外光谱数据采集
按照密封袋的编号将126 份样品每份取10 g,放入样品盒中,用样品盒盖压平表面,保持平整,准备采集光谱。在光谱扫描之前,仪器先预热30 min,再对天麻样本进行光谱扫描。为减小误差,每个样本扫描3 次,计算其平均值作为原始光谱数据进行建模。参数设置:分辨率10.53 nm,固定曝光时间2.54 ms,波长个数228,波长范围900~1700 nm。光谱仪通过蓝牙与手机连接,手机通过USB连接到电脑上,导出数据。在光谱采集过程中,实验室环境温度保持在25~26 ℃。
1.3.2 样本集选择与分析
选择具有代表性的样本不但可以减少建模的工作量,同时也可以提高模型的稳定性和可靠性。本研究采用SPXY算法完成样本集划分方法。根据上述方法,将126 份天麻样本按照2∶1的比例划分,其中84 个样本作为训练集,42 个样本作为测试集。划分的数据集中天麻素和对羟基苯甲醇的含量数据统计如表1所示。
表1 校正集和预测集中天麻素和对羟基苯甲醇的含量数据统计Table 1 Data statistics for the contents of gastrodin and 4-hydroxybenzyl alcohol in correction set and prediction set
1.3.3 算法介绍
1.3.3.1 特征波长选择算法
虽然全波长数据可以进行建模,但是所获取的全波长数据中存在冗余变量,影响模型的稳定性[25]。因此,采用以下特征选择方法从全光谱数据中提取特征波长变量。
CARS是蒙特卡洛采样和PLS模型回归系数相结合的一种特征变量选择算法[26]。在运算过程中,每次选择新的子集是通过保留PLS模型中回归系数绝对值权重较大的,删除权重较小的点,然后在新子集的基础上建立PLS模型,最终将PLS模型交互验证均方根误差(root mean square error of cross validation,RMSECV)最小的子集作为特征波长。
IRIV是用于数据降维和特征选择的算法,其主要思想通过多次迭代,根据变量的信息相关性和信息价值进行变量选择[27]。每次迭代的目的是保留强信息变量和弱信息变量,同时消除无信息变量和干扰变量,最终得到最佳的变量组合。
1.3.3.2 LSSVR
LSSVR是一种基于支持向量机的回归方法,常用于解决回归问题[28]。与传统的支持向量回归相比,LSSVR使用一组线性方程组替代SVR的二次规划问题,因此在计算复杂度和预测精度上表现更好。
1.3.3.3 基于ARO的定量模型
ARO算法是2022年提出的一种智能优化算法,主要灵感来源于兔子的生存策略[29]。ARO算法包括勘探算子、开发算子以及勘探到开发的转换,采用一种自适应的搜索策略,能够根据当前的搜索状态进行调整,具有寻优能力强、收敛速度快的特点。目前尚未发现ARO算法应用在LSSVR模型的参数优化中,在LSSVR中,正则化参数γ用来平衡训练集的误差和模型的复杂性,核函数密度σ2决定了模型的精度,这两个参数不是相互独立的,二者共同作用决定模型精度的高低。因此,本研究采用ARO算法优化LSSVR模型的γ和σ2,优化LSSVR的流程图如图2所示。
在本研究中,采用ARO算法在LSSVR中的参数优化的步骤如下:
1)初始化兔子群体,包括位置和速度信息;
2)计算兔子的适应度值,即LSSVR模型的RMSE;
3)根据适应度值,采用勘探算子、开发算子、勘探到开发的转换等算子进行兔子群体的更新和优化;
4)重新执行步骤2和3,直到满足停止准则。
本研究选取LSSVR模型作为天麻素、对羟基苯甲醇含量的预测方法,以决定系数R2、RMSE作为模型的评价指标。R2越大,其值越接近1;RMSE越小,其值越接近0,表明模型的预测能力和鲁棒性越好。R2和RMSE的计算分别如式(1)和式(2)所示:
式中:yi、i分别为样本的真实值、模型预测值;N为样本集的数量;为实际值的平均值。
采集的天麻光谱数据存在外界环境的干扰和大量噪声的影响,并且会有基线漂移的现象,因此需要通过预处理的方法消除外界因素对光谱信息的影响[30]。使用The Unscrambler X 10.4(64-bit)软件对光谱数据进行预处理,其中,卷积平滑(Savitzky-Golay,SG)可以去除噪声,标准正态变量变换(standard normalized variable,SNV)可以校正在光谱采集过程中因散射现象等引起的光谱误差。考虑到不同预处理方法的不同作用,选择2 种预处理结合作为提高原始光谱信噪比的方法。其中,SG的阶数设置为1,平滑窗口大小设置为30,此后的数据处理均基于此预处理方法。由图3可以发现,曲线间间距变小,噪声和散射现象均得到改善。光谱曲线有4 处明显的吸收峰,分别在1000、1200、1480、1600 nm波长附近,这是因为天麻素、对羟基苯甲醇含有羟基和醚键等官能团[31]。从图中可以看出,950 nm与1480 nm波长处的吸收带与碳水化合物O—H拉伸的二级倍频和一级倍频有关。1100~1250 nm波长附近吸收峰是天麻素C—O键伸缩振动引起。在1180~1250 nm波长处有明显的波峰,对应于天麻素中O—H的拉伸一级倍频,在1480~1620 nm波长处具有明显的吸收峰,与苯环骨架振动吸收有关。1450~1510 nm波长附近的吸收峰归因于C—H和C—C拉伸振动的组合[32]。
图3 光谱数据预处理Fig.3 Spectral data preprocessing
2.2.1 基于CARS的天麻素的特征波长选择
在CARS特征选择过程中,蒙特卡洛采样次数设置为50,采用五折交叉验证法,天麻素和对羟基苯甲醇的特征选择过程如图4所示。在采样初期,样本变量的数目迅速减少,波长数量的变化趋势随着采样运行次数的增加逐渐减小(图4a)。图4b为RMSECV的变化趋势图,RMSECV先减小后增大。天麻素和对羟基苯甲醇的RMSECV分别在1~18 次和1~23 次采样中逐渐减小,不能表征天麻素和对羟基苯甲醇含量的信息被删除。在采样19 次和24 次后,随着一些信息被删除,RMSECV逐渐变大。在图4c中,蓝色位置为最佳采样,此时RMSECV最小,所选择的波长组合最佳。经过CARS的特征选择后,天麻素和对羟基苯甲醇分别选择了44 个和30 个特征波长。所选择的特征变量分布如图5所示。
图4 CARS特征选择过程Fig.4 Feature selection by CARS
图5 CARS所选特征波长分布Fig.5 Distribution of feature variables selected by CARS
2.2.2 基于IRIV的特征波长选择
本研究选用IRIV的交叉验证次数为5,最大主成分数为10。天麻素和对羟基苯甲醇的迭代过程中保留的变量数如图6所示。在IRIV的特征选择过程中,随着迭代次数的增加,保留的变量数逐渐减少,最后趋于稳定。天麻素光谱数据在第6次迭代后,通过删除无用变量和干扰变量,保留了49 个强信息变量和弱信息变量,之后为反向消除,通过比较每个变量消除后模型的RMSECV是否降低,决定是否删除该变量。对羟基苯甲醇的光谱数据在第7次迭代后,保留了37 个强信息变量和弱信息变量。最终天麻素和对羟基苯甲醇数据分别反向消除了19 个和13 个波长变量,分别得到了27 个波长变量和24 个波长变量,分别占全波长数目的11.8%和10.9%。
图6 IRIV特征选择Fig.6 feature selection by IRIV
将CARS、IRIV选择的特征变量作为LSSVR的输入,天麻素、对羟基苯甲醇的含量作为模型的输出,进行LSSVR定量模型的建立,建模结果如表2所示。对比表中特征选择算法,CARS、IRIV这两种特征选择方法可以将天麻素、对羟基苯甲醇的光谱信息进行筛选,保留了能够表征天麻素、对羟基苯甲醇的有用信息,简化了模型,比全波段的LSSVR模型性能更好。天麻素、对羟基苯甲醇的最佳特征选择算法均为CARS,CARS-LSSVR在天麻素、对羟基苯甲醇成分含量的预测中表现出更高的精度,天麻素和对羟基苯甲醇的R2p分别为0.8573和0.8643,RMSEP分别为0.0660和0.0643。
表2 基于全波段和特征选择的LSSVR建模结果Table 2 Modeling results using LSSVR based on full band spectra or feature selection
虽然特征选择后的精度有所提高,但是仍然可以进一步提升。本研究引入智能优化算法ARO对LSSVR模型参数进行优化,并与PSO、GWO的建模结果进行比较,如表3所示。3 种算法的最大迭代次数设置为100,种群规模大小设置为30,参数γ与σ2的范围设置为[0.01,1000]。
表3 基于CARS的不同算法的建模结果Table 3 Modeling results using different algorithms based on CARS
通过建模对比可以发现,引入优化算法后的预测结果高于优化前,说明经过ARO算法优化后LSSVR建立的模型能够提高模型的精度,ARO算法在寻优速度、寻优能力上优于PSO、GWO,ARO的预测效果最好。天麻素、对羟基苯甲醇的最佳预测模型为CARS-AROLSSVR,其分别为0.9696和0.9577,RMSEP分别为0.0140和0.0200,CARS-ARO-LSSVR模型的预测如图7所示。
图7 天麻素(A)和对羟基苯甲醇(B)的CARS-ARO-LSSVR预测效果Fig.7 Modeling results using CARS-ARO-LSSVR for gastrodin (A) and 4-hydroxybenzyl alcohol (B)
本研究提出了一种基于近红外光谱的快速检测方法,建立了天麻中天麻素和对羟基苯甲醇含量的检测模型,用于对天麻中有效成分含量的预测。分别采用CARS、IRIV算法对SG-SNV预处理后的光谱数据进行特征波长提取,建立近红外光谱与天麻素、对羟基苯甲醇含量的LSSVR模型,同时采用ARO算法进行模型参数优化,其中天麻素、对羟基苯甲醇的最佳预测模型为CARS-ARO-LSSVR,其R2p分别为0.9696和0.9577,RMSEP分别为0.0140和0.0200。综上,近红外光谱结合CARS-ARO-LSSVR对天麻中有效成分含量的预测可行,本研究可为天麻快速检测装置的研发提供部分理论依据,同时也为其他中药材的快速检测研究提供一定理论参考。