基于SiPLS-SPA波长优选的血红蛋白定量分析研究

2023-01-31 12:19高西娅张朱珊莹卢翠翠蒙泳吉曹汇敏郑冬云谢勤岚
光谱学与光谱分析 2023年1期
关键词:波段波长区间

高西娅,张朱珊莹*,卢翠翠,蒙泳吉,曹汇敏,郑冬云,张 莉,谢勤岚

1.中南民族大学生物医学工程学院,湖北 武汉 430074 2.认知科学国家民委重点实验室,湖北 武汉 430074 3.医学信息分析及肿瘤诊疗湖北省重点实验室,湖北 武汉 430074

引 言

血红蛋白、葡萄糖、白蛋白、乳酸等人体生理信息的检测对疾病的预防和诊断具有重要的意义,因此各种生理参数的检测技术被广泛研究[1-3]。光谱学因为高灵敏度、高选择性以及能够检测多种生物医学参数应用比较广泛[4],其中,红外光谱技术是一种无损、快速用于分析生理参数的指纹技术[5]。但光谱数据背景复杂,有效信息微弱,建立一个精准的定量分析模型,需要提取尽可能多的有效信息并剔除无效和干扰信息,波长优选可以去除光谱中无关波长,提取测量样品中与目标成分相关的有效信息,解决光谱重叠的问题,并且压缩信息,提高检测效率。通常波长选择可以分为五个大类,分别为组合区间偏最小二乘法(synery interval patial least squares,SiPLS)、连续投影策略(successive projections algorithm,SPA)、波长区间、智能优化算法和模型集群分析策略。

SiPLS是间隔区间偏最小二乘法的改进算法,SiPLS是将光谱区间等间隔划分为N个区间,对区间进行任意数量组合,通过交叉验证均方根误差(RMSECV)选择最优组合方式从而实现波段优选,可以去除无效光谱并尽可能多的保留有效光谱信息。SPA算法通过计算波长的投影,把投影最大的波长选为特征波长[6-7],选出的特征波长解释性好,增强定量模型的稳定性。

李明等[8]基于近红外光谱原理,采用SiPLS-PLS模型选择最佳波长对电子烟油中烟碱含量进行预测,与全谱PLS相比,提高了准确性。孔庆明等[9]构建了多种玉米秸秆粗蛋白定量分析模型,发现基于SiPLS的特征优选方法可快速地测定粗蛋白含量,模型最优。有研究提出BiPLS结合SiPLS的组合权值预测模型对水体化学需氧量(COD)进行检测,与其他模型相比,显著地提高了预测精度。李冠稳等结合SPA算法从全波段光谱中筛选特征变量,并采用全波段和特征波段建立模型,提高了模型运算效率,模型预测能力较全波段有所提高[10]。

虽然SiPLS波长选择方法的光谱有效信息存在连续性,选择出的特征波长比其他方法也更加稳定;连续投影算法也可以有效地去除大量的无效光谱,最大程度地降低变量之间的共线性,这是其他算法所不具备的,但SPA在全谱中选择特征光谱时计算量很大,因此为了减小计算量,提高模型的预测效率,在计算SPA之前先利用SiPLS选择光谱的最优波段,可以大大减少SPA的计算量。本工作采用串联思路,提出组合区间偏最小二乘(SiPLS)和连续投影算法(SPA)串联SiPLS-SPA的波长优选算法。波长选择的串联也可以在一定程度上补足算法之间的缺陷,优化波长选择提高波长选择的能力。最后通过SiPLS-SPA选出的特征波长,建立PLS定量模型。通过实验验证及结果分析,该方法可以提高检测精度,缩短检测时间,提高检测效率,具有较好的优越性。

1 实验部分

1.1 红外光谱数据

1.1.1 血液样本数据

以人体血液为研究对象,对血液中的血红蛋白进行定量分析,血液样本采用Karl Norris在2010年IDRC枪战中收集的近红外光谱透射数据。共190个样本,血红蛋白浓度范围为10.3~17.3 g·dL-1。

血液样本的光谱采集使用NIRSystems 6000光谱仪,采集1 100~2 498 nm范围内的光谱数据,采样间隔为2 nm,共记700个波长点。采用垂直光路模式进行测量,石英窗口和一个直径为2 cm的不锈钢圆筒做为样品池。血液样本通过网址:http://www.idrc-chambersburg.org/shoutout2010.html下载,血液样本原始光谱图见文献[11]。

1.1.2 血红蛋白仿体溶液数据

通过母液配置法配制了150个血红蛋白仿体溶液(血红蛋白溶入10%的intralipid注射液)样本,血红蛋白浓度范围为1~150 g·L-1,配制样本时采用了由Thermo超纯水系统制备的超纯水、华瑞制药有限公司生产的20%的英脱利匹特脂肪乳注射液(也称intralipid注射液,即文中的仿体溶液)和Biosharp公司生产的牛血清血红蛋白,纯度为99%。

光谱采集使用型号为Solidspec-3700的UV-VIS-NIR分光光度计(产于日本津岛公司),光谱采集范围为600~1 800 nm,采样间隔为1 nm,检测单元为积分球,采用吸收值的方式测定,重复测量3次。血红蛋白仿体溶液样本原始光谱图见文献[11]。

1.2 基于SiPLS-SPA-PLS的预测模型

采用SiPLS-SPA获取优选波长,然后建立PLS模型,以此提高预测模型的准确性,并缩短预测时间,提高效率。建模流程如图1所示。

图1 SiPLS-SPA-PLS流程图

原始光谱数据经过SiPLS-SPA波长筛选剔除无关波长变量,减少干扰,并尽可能多地提取测量样品中与目标成分相关的有效信息。然后将优选的特征波长做为PLS模型的输入以构建SiPLS-SPA-PLS预测模型。建模完成后,用预测集对模型进行检验,依据评价指标判断模型的优劣。SiPLS方法优选出的波长更加稳定,连续投影算法可以有效地去除大量的无效光谱,但SPA在全谱中选择特征光谱时计算量很大,因此在SPA之前先利用SiPLS选择光谱的最优波段,可以减少计算量,提高效率。最后采用SiPLS-SPA选出的特征波长,建立PLS模型,构建SiPLS-SPA-PLS定量模型,并用两组光谱数据验证模型。

1.3 模型评价指标

为了直观地判断建立的模型是否可靠。使用了三种评估参数进行判断,分别是相关系数(R)、均方根误差(RMSE)以及交叉验证均方根误差(RMSECV)。如果建立的模型R越接近1,RMSE和RMSECV越接近于0,说明模型越可靠,反之需要对模型进行优化。

相关系数指待测样品测量值与真实值之间关系密切程度的评价指标,如式(1)所示

(1)

均方根误差表示待测样品测量值与其真实值之间的误差,包括校正集均方根误差(RMSEC)和预测集均方根误差(RMSEP),RMSEP如式(2)所示。

(2)

另外,采用留一交叉验证确定PLS模型的最佳主因子数。交叉验证均方根误差(RMSECV)数学表达式见式(3)

(3)

式(3)中,n为留一交叉验证分组中预测集的数目,RMSEPi为每个预测集的均方根误差。

2 结果与讨论

2.1 样本划分

建模样本集有血液样本和仿体溶液样本。血液样本集有186个样本(剔除异常样本4个),由于预测集的数量至少为校正集数量的0.4倍(2∶5)以上才可以保证模型的稳定性和可靠性,因此在比例为2∶5~1∶1即比例区间为[0.4, 1]中对数据集划分比例进行优化选择。以RMSEC,RMSEP,RMSECV,Rc,Rp各项指标进行综合评价。

分别采用SPXY法、K_S法、duplex法在不同比例下划分数据集,然后通过PLS建模结果分析划分方法的优劣。通过实验结果,优选SPXY数据集划分方法,最佳比例为0.48(60/126),即校正集126个,预测集60个。

仿体溶液采用了与血液样本相同的划分比例0.48,即校正集101,预测集49,在此前提下对SPXY法、K_S法、duplex法等三种数据集划分方法进行比较,优选出SPXY作为数据集划分方法。

2.2 光谱预处理

由于预处理会影响特征波长优选算法的性能从而影响模型的最终定量分析结果,在进行特征波长优选之前,遍历了SavitzkyGolay一阶求导滤波(S_G1)+小波变换、小波变换+S_G1、标准正态变量变换(SNV)+S_G1三种预处理方法,得到经SNV+S_G1预处理后再进行特征波长优选模型的预测效果最好,因此采用SNV+S_G1的预处理方法。

2.3 血液样本结果分析

2.3.1 血液样本SiPLS波段优选结果分析

用SiPLS进行波段优选时划分区间数和区间组合数太大会引入多余的噪声,太小则会忽略某些有效信息显著区间从而降低模型精度。为了避免这种情况,将组合数的范围设为2~7组,间隔为1。将区间划分数设为10~17,间隔为1。对不同区间划分数下的区间进行组合并一一进行建模比较,最终取最小RMSEP对应的组合为最佳组合数和最佳划分区间数。

在SiPLS算法中,划分区间数和区间组合数之间没有确定的规律可循,如图2和表1所示,当区间划分数为14,区间组合数为5时,得到的RMSEP值最低,因此确定最佳区间划分数为14,最佳区间组合数为5组,组合区间分别是第1,2,6,7和11这5个区间。

图2 不同区间划分数在最优组合数下的RMSEP对比图

表1 不同区间划分数下的最优区间组合数

与全谱PLS建立的模型相比,经过SiPLS波段优选后无论划分区间数是多少,在最佳组合区间组合数下,模型的RMSEP都有下降(见表2),说明优选波段会提升模型的预测能力。从表2中也可以看到,区间划分数为14,区间组合数为5时,模型的均方根误差最低为0.194 7,所以把1 100~1 298,1 600~1 798以及2 100~2 198 nm的波段作为最优波段。SiPLS模型从700个光谱变量中优选出250个变量。

表2 原始光谱在不同区间划分数对应最佳组合数下的SiPLS选取的最优波段及其PLS建模结果

2.3.2 血液样本SPA波段优选结果分析

血液样本利用SPA法在全谱波段中筛选出的最优特征波长分布位置如3所示,共有16个。因为近红外光谱的吸光度是待测样本中所有组成成分吸光度的叠加,从图3中看出存在明显的吸收峰如1 400~1 600,1 900~2 100和2 400~2 500 nm三个波段,这些吸收峰为包含目标定量成分在内的所有物质吸光度的总和,也包括干扰成分。在对血红蛋白成分进行定量时,选择出的特征波长大多数在光谱中较为平滑的位置,说明此位置含有血红蛋白的特征吸收峰。吸收峰越大,吸收强度越大。SPA在全谱中选择的特征波长大部分分布在光谱相对平滑的部分,只有1 452,1 958,2 080,2 416,2 448和2 498 nm这几个特征波长处于波谱较大的吸收峰上。

图3 血液中SPA选择的特征波长分布

2.3.3 血液样本SiPLS-SPA波段优选结果分析

SiPLS-SPA波段优选是利用SPA方法在SiPLS算法筛选出的250个变量中进一步筛选。SPA选择的变量数变化时,模型的预测能力也随之变化,图4显示血液样本RMESP随SPA选择变量数的变化,在变量数为7之前,RMSEP急剧下降,变量数在7~15之间整体呈下降趋势,变量数为15个之后RMSEP的值变换减缓且不明显,变量数为28时选择出的特征波长最优。

图4 血液样本RMESP随SPA选择变量数的变化图

血液样本经过SiPLS优选后的特征波长分布如图5所示。在图5的基础上,也就是血液样本经过SiPLS优选后,再经过SPA算法选择出的28个最优特征波长,如图6所示,分别为1 144,1 190,1 210,1 226,1 260,1 264,1 606,1 638,1 656,1 662,1 670,1 676,1 690,1 694,1 706,1 712,1 718,1 730,1 746,1 752,1 772,1 790,1 798,2 112,2 120,2 148,2 156和2 158 nm。大致分布在1 144~1 264,1 606~1 798和2 112~2 158 nm三个波段。经过SiPLS和SiPLS-SPA筛选出来的特征波长刚好处于较为平滑的波段区域,在这些区域可以看到所选择出来的特征波长区域刚好处于有微小吸收峰的位置。证明这两种方法可以较为准确地对波段进行筛选。

图5 血液样本SiPLS选择的特征波长分布图

图6 血液样本SiPLS-SPA选择的特征波长分布图

分别用SiPLS-SPA-PLS,SiPLS,SPA-PLS和PLS建立定量模型,通过预测集的相关系数和均方根误差进行比较,从表3中可以看出与全谱PLS建模相比,经过特征波段优选后定量分析结果全部优于全谱分析效果。SiPLS的RMSEP比全谱下降了29.1%,但变量数有250个,算法复杂性高。SPA-PLS虽然变量数只有16个,但RMSEP偏高。只有SiPLS-SPA筛选出的波长建模后效果最优,RMSEP比全谱下降了32.8%,预测集相关系数提高了1.2%,且变量数只有28个,算法复杂度降低。总之,SiPLS-SPA-PLS模型可以更加准确地优选出特征波长,提高模型预测能力和效率。

表3 血液样本不同方法波段优选后PLS建模结果对比

2.4 血红蛋白仿体溶液样本结果

在血红蛋白仿体溶液样本中,利用SiPLS进行波段优选时,将组合数范围设为2~8,间隔为1。将区间划分数设为10~25,间隔为1。最终确定血红蛋白仿体溶液样本的最佳区间划分数为12,最佳区间组合数为8。利用SiPLS方法可以在1201个波长变量中筛选出800个变量。

利用SiPLS-SPA方法对血红蛋白仿体溶液进行特征波长筛选时,RMESP随SPA选择变量数变化趋势如图7所示,变量数为41时优选出的特征波长最优。即SiPLS-SPA可以在800个光谱变量中优选出41变量,去除大量无关波长变量。

图7 血红蛋白仿体溶液样本RMESP随SPA选择变量数的变化图

SiPLS-SPA在血红蛋白仿体溶液中选择出的41个特征波长如图8所示,大致分布在600~900,1 018~1 390和1 600~1 700 nm波段内。

图8 血红蛋白仿体溶液SiPLS-SPA选择的特征波长分布图

对比SiPLS-SPA-PLS,SiPLS,SPA-PLS和PLS在血红蛋白仿体溶液中建立的模型,根据预测集相关系数和均方根误差RMSEP从表4中可以看到,SiPLS-SPA-PLS法仍然优于SPA-PLS,SiPLS和全谱PLS,是最优的预测模型,与血液中的结果相同。SiPLS的RMSEP比全谱下降了35.2%,但变量数有800个,算法复杂性高。SPA-PLS变量数只有8个,但是RMSEP偏高。SiPLS-SPA筛选出的波长建模后的RMSEP比全谱下降了40%,预测集相关系数提高了0.3%,且变量数只有41个,算法复杂度降低。进一步说明SiPLS-SPA这种波段优选方法能够较好地选择出特征波长,提高模型的预测准确性,SiPLS-SPA-PLS定量模型可以实现对血红蛋白的精准定量分析。

表4 血红蛋白仿体溶液不同方法波段优选后PLS建模结果对比

2.5 两个样本优选波段分析

由于血液样本的光谱波长范围为1 100~2 498 nm,血红蛋白仿体溶液光谱数据范围为600~1 800 nm,为了所比较的光谱区间保持一致性,表5中的光谱数据范围选取的是两个样本在重叠光谱波段(1 100~1 800 nm)优选的特征波长。考虑不同样本设备不同造成的差距,从表5中可以看到,SiPLS-SPA方法在两种样本中筛选出来的血红蛋白特征波长大致分布在相同区间,且并不是在吸光度较大的峰值区域,说明吸光度较大的峰值区域并不一定能更好地预测,SiPLS-SPA法能够比较稳定且准确地筛选出最优波长,从而提高定量模型的预测精度。

表5 两个样本SiPLS-SPA筛选出的波长分布

3 结 论

针对血红蛋白精准检测问题,以血液样本和血红蛋白仿体溶液样本为研究对象,采用SPXY样本划分方法,SNV+S_G1数据预处理方法,利用SiPLS-SPA特征波长优选后建立PLS定量模型。结果表明:(1)构建全谱PLS,SPA-PLS,SiPLS以及SiPLS-SPA-PLS四种血红蛋白预测模型,两种样本数据的处理结果显示,SiPLS-SPA-PLS模型都是最优的。(2)将SiPLS和SPA两种波段优选算法串联构成SiPLS-SPA的波长优选方法,从血液样本700个光谱变量中提取出28个有效特征变量,从仿体溶液1 201个光谱变量中提取出41个变量,可以有效提取变量,减少无关波长,去除无用噪声,提高检测速度和效率,并提高预测精度。(3)SiPLS-SPA波长优选方法在两种样本中筛选出来的血红蛋白特征波长大致分布在相同区间,且并不是在吸光度较大的峰值区域,说明吸光度较大的峰值区域并不一定能更好地预测,该方法能够比较稳定且准确地筛选出特征波长。

猜你喜欢
波段波长区间
你学会“区间测速”了吗
最佳波段组合的典型地物信息提取
全球经济将继续处于低速增长区间
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块
基于频域分析方法的轨道高低不平顺敏感波长的研究
日本研发出可完全覆盖可见光波长的LED光源
区间对象族的可镇定性分析
日常维护对L 波段雷达的重要性
RP—HPLC波长切换法同时测定坤泰胶囊中6个成分的含量