基于SSA-SVR的葡萄糖定量分析研究

2022-12-22 09:46郭洪瑞曹汇敏张朱珊莹
漯河职业技术学院学报 2022年6期
关键词:预处理葡萄糖光谱

郭洪瑞,曹汇敏,2,3*,张朱珊莹,2,3*,李 龙,薛 宇,塔 娜,李 肖,周 丹

(1.中南民族大学 生物医学工程学院,湖北 武汉 430074;2.认知科学国家民委重点实验室,湖北 武汉 430074;3.医学信息分析及肿瘤诊疗湖北省重点实验室,湖北 武汉 430074)

0 引言

葡萄糖作为一种随处可见的有机化合物,在人体健康、农业生产、医疗药品等方面有着重要的作用[1-5]。在葡萄糖定量分析领域,常用的光学检测方法主要有红外光谱法[6]、偏振光旋光法[7]、拉曼光谱法[8]、光学相干断层成像法[9]。红外光谱(Infrared Spectroscopy,IR)因其无损伤、高灵敏度、无污染等特点被广泛应用。汪明圆等人[10]采用近红外光谱和互因子分析方法(Mutual factor analysis,MFA)对血清中低浓度葡萄糖进行定量分析,预测集相关系数(Rp)和预测集均方根误差(RMSEP)分别为0.9833 mmol/L和0.07 mmol/L。Fuglerud S S等人[11]采用近红外光谱法对血糖检测的影响因素进行研究,使用偏最小二乘回归(Partial least squares regression,PLSR)方法建模RMSEP达到1.6 mmol/L。同时发现人体中高于生理水平的乳酸和乙醇会对葡萄糖的检测有较大的影响。Wang C Y等人[12]利用近红外高光谱成像技术针对水溶液中0~1000 mg/dL的葡萄糖浓度进行PLSR预测,预测集决定系数(RP2)和RMSEP分别为0.9902和37.5 mg/dL,证明近红外高光谱成像技术在葡萄糖定量中的可行性。Zavala O D A 等人[13]使用 PLSR、支持向量回归(Support Vector Regression,SVR)、人工神经网络(Artificial Neural Networks,ANN)对细胞培养过程中的葡萄糖、乳酸盐、谷氨酰胺等物质浓度进行研究,其中针对葡萄糖浓度检测模型的PLSR、SVR、ANN的RMSEP分别为3.37×10-5cell/mL、2.29×10-5cell/mL、1.32 ×10-5cell/mL,证明SVR 和 ANN的有效性。

本文以葡萄糖仿体溶液(样本A)和葡萄糖及白蛋白仿体溶液(样本B)为研究对象,采集其红外光谱数据,建立定量分析模型。通过四种数据集划分方法、五种预处理方法及其组合、两种建模方法,探讨数据集划分方法、预处理方法及定量模型的影响关系,研究葡萄糖高精准定量的方法。

1 实验部分

1.1 光谱数据采集

通过母液配置法,配置两种仿体溶液,材料为Thermo超纯水系统制备的超纯水、费森尤斯卡比华瑞制药有限公司的英脱利匹特脂肪乳注射液、上海麦克林生化科技有限公司的无水葡萄糖试剂和卵清蛋白试剂。样本A:葡萄糖仿体溶液,其中葡萄糖浓度范围为0~500 mg/dL,以20 mg/dL和50 mg/dL为梯度,共计30个样本。样本B:葡萄糖与白蛋白混合仿体溶液,其中葡萄糖浓度范围为0~500 mg/dL,以50 mg/dL为梯度;白蛋白为0~2000 mg/dL,以500 mg/dL为梯度,共计40个样本。

对两种样本的红外光谱数据进行采集,扫描时使用硒化锌(ZnSe)水平衰减全反射附件,扣除的背景是以纯仿体溶液和二氧化碳为背景。设备为傅里叶变换中近红外光谱仪,型号为布鲁克INVENIO S,光谱扫描范围为4000~600 cm-1,数值为扫描16次的平均值,分辨率为4 cm-1。由于光谱数据的冗余性,实验只采用光谱范围在3000~600 cm-1的数据。

1.2 数据集划分

采用等间隔划分法(RANK)、Kennard Stone(KS)法、双向(Duplex)法、SPXY(sample set partitioning based on joint x-y distance)法四种划分方法划分数据,校正集与预测集的比例为3∶1,然后建立葡萄糖定量分析模型(PLSR和SVR),通过模型评价数据集划分方法的优劣。

1.3 数据预处理

光谱的信息冗余会给后续的建模带来干扰,因此采用小波变换滤波(Wavelet Transform,WT)、直接正交信号校正(Direct Orthogonal Signal Correction,DOSC)、Savitzky Golay(SG)滤波、散射校正(Multivariate Scatter Correction,MSC)、标准正态变量变换(Standard Normal Variate,SNV)五种方法对光谱数据进行预处理,比较其对建模的影响。同时,无预处理记作RAW。

1.4 建模方法

1.4.1 偏最小二乘回归

对于PLSR模型[14],首先按照划分方法和3:1的划分比例将数据集划分为校正集与测试集,然后经过预处理方法处理后,采用留一交叉验证法确定的最佳主因子数,主因数的搜索范围为1~20,然后获取在最佳主因子数下的模型,使用最佳模型对测试集数据进行预测。

1.4.2 基于麻雀搜索算法的支持向量回归

根据Cortes和Vapnik的支持向量机思想,衍生出支持向量回归(SVR)算法。SVR算法也被开发出ε-SVR、ν-SVR、LSSVR 等多种衍生算法,其中ε-SVR为基础的算法之一。目前,SVR的核函数大多使用这四种,它们分别是线性(Linear)核函数、多项式(Polynomial)核函数、径向基(Radial Basis Function,RBF)核函数、Sigmod核函数[15,16]。RBF核函数公式如下:

根据文献[17]可得出,RBF核函数在处理非线性问题有着较好的稳定性。因此,本研究采用RBF核函数进行建模。利用台湾大学林志仁(Chih-Jen Lin)教授等人研发的LIBSVM工具包建立模型[18],实验中设置的主要参数如表1所示。

表1 实验中设置的主要参数

随着仿生群智能算法的出现[19],根据麻雀的觅食和反捕食行为,薛建凯等人提出一种新型的群智能优化算法——麻雀搜索算法(Sparrow Search Algorithm,SSA)[20]。该算法通过模拟麻雀发现食物并引导方向、其他麻雀加入捕食队伍、提高种群适应度、发现危险采取安全措施等行为实现其对食物的搜索,即参数的搜索。

假设麻雀群内有麻雀N只,则经过t次迭代后发现者麻雀处于d维空间中的位置为

其中,T为最大迭代的次数;α为随机数,取值范围是(0,1];Q为随机数,取值服从正态分布;R2为当前轮次的预警值;ST为当前轮次的安全值;L为1×d的单位矩阵。

同样,经过t次迭代后加入者麻雀处于d维空间中的位置为

其中,xwtd为之前轮次的最差位置;xbdt+1为当前轮次的最优位置;A为取值1或-1、大小1×d的矩阵;A=A+T(AAT)-1。

在所有的加入者麻雀中,大约有10%~20%的预警者。当遇到危险时,它们会进行反捕或者撤退。经过t次迭代后,这些预警者麻雀处于d维空间中的位置为

对于SVR模型,首先按照划分方法和3∶1的划分比例将数据集划分为校正集与测试集,然后经过预处理方法处理后,SSA算法中的适应度为超参搜索过程中SVR模型的RMSEP,待SSA算法确定最优的参数c、参数g和参数p,得到最优的参数下的SVR模型。最后使用最佳模型对测试集数据进行预测。

1.5 模型评价指标

测量值与真实值之间的相关系数R和均方根误差RMSE,其计算公式如下:

2 结果与讨论

2.1 不同数据集划分方法结果对比分析

不同数据集划分方法会对模型的实验结果有所影响。因此,针对两种无预处理的数据集,采用四种划分方法,进行PLSR和SVR建模预测,划分比例为3∶1。

2.1.1 PLSR模型结果分析

表2为四种划分方法下的PLSR模型结果。从表2中可以看出,样本A模型效果最好的为SPXY法,RMSEP为10.8284 mg/dL;样本B模型效果最好的为KS法,RMSEP为6.4114 mg/dL。同时发现,SXPY法和Duplex法下的模型预测表现比较稳定,但前者表现较好。

表2 PLSR模型结果对比

2.1.2 SVR模型结果分析

表3为四种划分方法下的SVR模型结果。由表3可知,样本A模型效果最好的为SPXY法,RMSEP为10.4970 mg/dL;样本B模型效果最好的为SPXY法,RMSEP为10.4134 mg/dL。不难看出,SPXY法下的SVR模型预测效果依旧稳定,且效果良好。

表3 SVR模型结果对比

2.1.3 实验结果分析

图1为在不同的样本和建模方法下不同划分方法的模型RMSEP结果。从图1中可以看出,划分方法、样本、建模方法之间存在相互影响关系,即在建模时需要优选划分方法。同时,SPXY法在四种划分方法下的模型表现比较稳定,且预测效果较好。所以在探讨不同预处理方法下模型的优劣问题时,数据集划分方法统一选用SPXY法。

图1 不同划分方法的模型RMSEP结果对比图

2.2 不同预处理方法结果对比分析

为了更好地建立模型,需要对预处理方式进行选择。将WT、DOCS、SG、SNV、MSC、RAW五种预处理方法按照单一和两两组合(考虑顺序)的方式,得到26种预处理方法。为了方便探讨预处理方法之间的关系,数据集划分方法选用SPXY法。

2.2.1 单独预处理方法结果对比分析

图2中的折线为无预处理下模型的RMSEP值,位于折线下方的方法对模型预测效果有所提升,位于折线上方的方法对模型预测效果有所下降。从图2中可以分析出,SG对SVR和PLSR模型的改善最为明显,WT和DOCS几乎无改善,然而SNV和MSV方法对模型呈完全负优化。SNV和MSC两种算法都是消除固体颗粒导致的散射现象,由于样本的配置和光谱的采集比较严苛,采集到的红外光谱数据中存在较少的散射现象,因此两种预处理方法反而对数据造成了干扰。

图2 单预处理方法下的SVR和PLSR模型RMSEP对比图

2.2.2 组合预处理方法结果对比分析

五种预处理方式按两两组合(考虑顺序)得到20种组合预处理方式,如表4所示,然后采用PLSR和SVR对其进行建模并分析。为了便于比较组合预处理与原预处理方法的效果,列出组合预处理方法的第一种预处理方法,如表5所示。表4和表5将用于图3和图4的绘制。

表4 20种组合预处理方法表

表5 组合预处理方法的第一种预处理方法表

图3为组合预处理方法下PLSR模型的RMSEP结果对比图,其中圆点为表5中预处理方法下的RMSEP结果。从图3可以看出,SG与DOCS(即组3和组4)、DOCS与WT(即组7和组8)、SG与WT(即组17和组18)的组合顺序对模型效果影响不大。对于样本A,效果最好的模型是WT+SG,RMSEP为8.0169 mg/dL,RP为0.9987;对于样本B,效果最好的模型是 SG+DOCS,RMSEP 为 7.9836 mg/dL,RP为0.9985。在剩余组合方法中,针对样本A有30%的方法对模型优化作用,RMSEP降低的范围一般在0.4705~2.8141 mg/dL,只有 SNV+MSC模型的RMSEP降低13.8237 mg/dL;针对样本B,有近一半对模型有微小的优化,RMSEP降低的范围一般在0.1066~2.1436 mg/dL,只有MSC+SNV模型的RMSEP降低19.0178 mg/dL。

图3 组合预处理方法和单一预处理下PLSR模型的RMSEP结果对比图

图4为SVR模型的RMSEP结果对比图,其中圆点为表5中预处理方法下的RMSEP结果。从图4中可以分析出,MSC+SG(即组9)、SNV+SG(即组16)、MSC+WT(即组13)、WT+SG(即组18)四种组合预处理方案都对模型有所提升。对于样本A,效果最好的模型是WT+SG,RMSEP为3.4351 mg/dL,RP为0.9998;对于样本B,效果最好的模型是SG+WT,RMSEP为5.9545 mg/dL,RP为0.9992。同时发现,一半以上的组合预处理与单一预处理相比,对模型都是负影响,其中DOCS+MSC的模型影响最为明显,对于样本A,RMSEP提升76.9222 mg/dL;对样本B,RMSEP提升275.2664 mg/dL。

图4 组合预处理方法和单一预处理下SVR模型的RMSEP结果对比图

2.2.3 实验结果分析

表6为SPXY划分方法下各样本模型的RMSEP排名前五的结果。从表6中不难发现,对于单一背景样本A,不管采用PLSR还是SVR建模,最优的预处理都是WT+SG。此时PLSR模型的RMSEP为8.0169 mg/dL,RP为0.9987;SVR模型的RMSEP为3.4351 mg/dL,RP为0.9998。对于复杂背景样本B,PLSR模型的最优预处理方法是SG+DOCS,其 RMSEP为7.9836 mg/dL,RP为 0.9985;SVR模型的最优预处理为SG,其RMSEP为5.2247 mg/dL,RP为0.9993。整体来看,在SPXY划分方法下,SVR模型对于单一背景还是复杂背景,模型效果要优于PLSR模型。同时发现,针对不同的建模方式和样本,最优模型采用的预处理方法也不同,需要寻找最优组合。

表6 SPXY法划分方法下的PLSR和SVR模型结果

2.3 不同建模方式结果对比分析

采用样本A和样本B两种数据集、四种数据集划分方法、六种预处理方式(包含RAW)及其组合预处理方法、两种建模方法,得到2×4×26×2=416种组合模型。将每种数据集的每种模型效果排名前五的结果进行展示,如表7所示。

表7 不同建模方式的实验结果部分展示

从表7看出,PLSR模型的最优预处理方法为DOCS与SG组合,SVR模型的最优预处理为WT与SG组合。与表6的结果不同,说明划分方法、预处理、建模方法存在相互影响关系。因此,针对不同样本,需要探究数据集划分方法、预处理方法、定量模型的最佳组合。另外,从表7还可以看出,样本A最佳PLSR模型采用的是RANK划分方法、SG+DOCS预处理方法,其模型的RMSEP为5.7079 mg/dL,RP为0.9998;样本A最佳SVR模型采用的是SPXY划分方法、WT+SG预处理方法,其模型的RMSEP为3.4351 mg/dL,RP为0.9998;样本B最佳PLSR模型采用的是KS方法、DOCS+SG预处理方法,其模型的RMSEP为5.8532 mg/dL,RP为0.9990;样本B的最佳SVR模型采用的是RANK划分法、SG+WT预处理方法,其模型的RMSEP为3.6813 mg/dL,RP为0.9998。无论哪种样本,SVR模型效果都要优于PLSR模型。

3 结论

采用单一背景和混合背景两组葡萄糖红外光谱数据,利用PLSR和SVR方法建立葡萄糖定量回归模型。同时,从四种数据集划分方法与五种预处理方法中探寻最佳组合。研究结果表明,针对不同样本,需要探究数据集划分方法、预处理方法、定量建模的最佳组合。对于样本A,最佳定量分析模型是SPXY-WT+SG-SVR模型,优于最佳PLSR模型,RMSEP降低1.9980 mg/dL;样本B最佳组合为RANK-SG+WT-SVR模型,优于最佳PLSR模型,RMSEP降低2.1718 mg/dL。由此可以看出,无论是单一背景样本还是混合背景样本,SVR模型效果都要优于PLSR模型。因此,SVR模型更适用于红外光谱的葡萄糖定量分析研究,研究结果为红外光谱数据集定量分析提供一种思路。

猜你喜欢
预处理葡萄糖光谱
基于三维Saab变换的高光谱图像压缩方法
葡萄糖漫反射三级近红外光谱研究
糖耐量试验对葡萄糖用量的要求
基于预处理MUSIC算法的分布式阵列DOA估计
葡萄糖对Lactobacillus casei KDL22发酵及贮藏性能的影响
浅谈PLC在预处理生产线自动化改造中的应用
星载近红外高光谱CO2遥感进展
多发性肺硬化性血管瘤18~F-脱氧葡萄糖PET/CT显像1例
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法