韩 筠
(广东海洋大学数学与计算机学院,广东 湛江 524088)
糖尿病是一组以高血糖为特征的代谢性疾病,目前尚无根治方法。我国是糖尿病大国,截至2017年我国糖尿病人群约为1.14亿,居世界首位,未来50年内糖尿病及其并发症仍将是我国一个严重的公共卫生问题[1]。研究表明,良好的血糖监测能够有效的诊断和预防糖尿病的发生,减缓糖尿病并发症的发生和发展[2]。糖化血红蛋白(HbA1c)是评价长期血糖水平的“金标准”,它不易受其他因素(进食、用药等)的影响,能客观反映高血糖状态。因此,HbA1c的快速准确检测对糖尿病筛查、诊断和治疗都具有重要意义。目前的HbA1c临床检测方法较为繁琐,不便于大人群的血糖筛查,研发快速简便的HbA1c的检测新方法具有重要意义。HbA1c是血液中葡萄糖与血红蛋白发生非酶促糖化反映,经不可逆重排后形成的,这一过程涉及一系列非酶促反应(Maillard reactions,美拉德反应)[3]。在临床实践中,健康人的HbA1c含量大约在4.0%~6.0%,HbA1c>6.0%为糖尿病表型阳性的患者[4]。近红外光(NIR)是介于可见光(Vis)和中红外光(MIR)之间的电磁波,由分子振动的非谐振性使分子振动从基态向高能级跃迁时产生,反映含氢基团X-H(如C-H、N-H、O-H等)振动的倍频和合频吸收[5]。NIR技术是一项绿色环保的分析技术,对大多数类型的样品,不需要进行预处理(或仅需简单制样)便可进行测量,具有检测快速且无污染的优势,已成功应用于很多领域[6-8]。由于葡萄糖和血红蛋白(Hb)分子均含有含氢基团X-H,它们对近红外光产生吸收,因此,NIR光谱已成功应用于无试剂快速分析血液葡萄糖和Hb[6]。血红蛋白被糖化的过程(美拉德反应)涉及了许多含氢基团X-H,它们对NIR产生吸收,所以,NIR具有分析HbA1c的理论依据。但由于HbA1c是糖化血红蛋白相对于总血红蛋白(Hb)的百分比,是一个相对性指标,其大小与光谱吸收值(吸光度)不具备直接的线性相关性,不满足朗伯-比尔定律,在采用NIR光谱分析时,不能直接建立HbA1c与吸光度的定标预测模型,这对建模体系提出了挑战。因此,到目前为止,采用NIR光谱直接定量分析HbA1c的相关研究尚少。文献[3]基于NIR和折射率测量方法,研究了糖化血红蛋白模拟溶液(配制不同葡萄糖浓度的血红蛋白和白蛋白水溶液)的光学特性,还未直接应用到直接测量糖化血红蛋白(即HbA1c)。采用了一种间接分析方法:基于绝对性指标血红蛋白(Hb)和血红蛋白的绝对含量(Hb?HbA1c)的定量分析,实现相对性指标HbA1c的定量分析。由于血液样品是包含有多组分和背景的复杂体系,其光谱中存在待测目标以外的吸收干扰及光谱测量本身的系统噪音干扰,因此,适当的光谱预处理是需要的。通过对比实验,采用对人血液样品取得良好预测效果的Savitzky-Golay(SG)平滑方法对光谱进行预处理。研究表明[7, 8],特征波长筛选对NIR分析是非常重要的,它可以大大降低模型的复杂性同时提高模型的预测效果。采用移动窗口偏最小二乘(MW-PLS)和等间隔多元线性回归(EC-MLR)两种方法对Hb和Hb?HbA1c两个指标进行波长筛选,以得到高精度的定量分析模型。
共收集到200份人外周血样品,用双蒸水配制成2倍溶血液样品用于光谱测定。采用BC-3000Plus全自动血细胞分析仪(深圳麦瑞公司,中国)测量这些样品的Hb值;采用ADAMSTM A1c HA-8160 糖化血红蛋白自动分析仪(ARKRAY公司,日本)测量这些样品的HbA1c值。将这些常规方法得到的测量值作为后面光谱分析的参考值。指标Hb和HbA1c的测量值统计分析总结在表1中,根据HbA1c临床截断值(6.0%),阴性(正常对照)样品有98份,阳性样品有102份。
表1 指标Hb和HbA1c的测量值统计分析
采用XDS Rapid ContentTM型近红外光栅光谱分析仪(FOSS公司,丹麦)和透射样本附件进行光谱采集,探测器为Si(400~1100 nm)和PbS(1100~2498 nm)。在780~2498 nm范围内采集光谱,间隔为2 nm,共860个波长点,实验室温度为251℃,湿度为46%RH。
图1 200个人溶血液样品的近红外光谱图
为了使所建立的模型具有好的稳健性,采用多次建模的思路。具体步骤如下:首先,从200个样品中随机挑选出28个阴性样品和32个阳性样品作为检验样品,余下的140个样品作为建模样品,检验样品不参与建模过程;其次,将建模样品中的70个阴性样品和70个阳性样品随机划分35个阴性样品和35个阳性样品到定标集,余下的作为预测集,这个过程重复100次,对每一次划分都进行建模和优化,将筛选出的100个模型的预测结果的平均值作为最终预测结果来筛选最优模型;最后,用没参与建模过程的检验样品对优选的模型进行重新检验,以确保模型的稳定可靠。指标Hb和Hb?HbA1c采用相同的建模过程独立地进行定量分析,通过测量这两个指标可间接获得相对百分比HbA1c的预测值。
移动窗口偏最小二乘方法(MW-PLS)是一种性能良好,被广泛使用的连续波长筛选方法[10]。它将N个连续的波长作为一个窗口,该窗口的位置和大小可以改变,在每个窗口都建立PLS模型,根据模型预测效果筛选最优分析波段。该方法的参数有起始波长(B),波长个数(N)和PLS因子个数(F)。B和F的设置如下:B∈{780,782,…,2498},F∈{1,2,…,30},为了减少程序耗时又不失代表性,N的设置如下:NHb∈{1,2,…,450}∪{460,470,…,860},NHb•HbA1c∈{1,2,…,200}∪{215,230,…,860}。对定标集、预测集的每一次划分,在每一个参数组合(B,N,F)确定的波长组合内建立PLS模型,根据最小M_SEPAve选择最优波段。
EC-MLR是一种选择等距离离散波长组合的方法,它包括波长起点(B)、波长数(N)和波长间隔(G)三个参数,通过设置参数以移动窗口的模式选择所有等间隔离散波长组合。根据各参数组合对应的MLR预测效果确定筛选结果。EC-MLR方法的搜索范围可以是全谱,也可以根据样品的吸收特征筛选部分谱。本文采用的是在全谱区域进行搜索,B,N和G的设置如下:B∈{780, 782,…,2498},N∈{1,2,…,50},G∈{1,2,…,100}。对定标集、预测集的每一次划分,在每一个参数组合(B,N,G)确定的波长组合内建立MLR模型,根据最小M_SEPAve选择最优波长组合。
图1是200个人溶血液样品的近红外光谱图。作为比较,首先在全谱区建立Hb和Hb·HbA1c两个指标的PLS模型。在建模之前,采用1阶导数、3次多项式、13个平滑点的SG平滑模式对光谱进行预处理。模型的预测结果汇总在表2中,结果表明,Hb的预测值和临床测量值有较高的相关性,但Hb·HbA1c的预测值和临床测量值相关性不够理想。此外,模型采用了860个波长,较为复杂。
为了降低模型的复杂度,同时提高预测精度,采用MW-PLS方法进行特征波长筛选。分别根据最小M_SEPAve值,筛选Hb和Hb·HbA1c的最优MW-PLS模型,相应参数和预测结果(M_SEPAve, M_RP,Ave, M_SEPSD, M_RP,SD)总结在表3中。结果表明,Hb的最优MW-PLS模型对应的起点波长(B)和波长个数(N)分别为948nm和413,相应的波段为948~1772 nm;Hb·HbA1c的最优MW-PLS模型对应的B和N分别为1480nm和180,相应的波段为1480~1838 nm。Hb的最优模型所采用的波长个数(413)不足全谱波长个数(860)的一半,而Hb·HbA1c的最优模型所采用的波长个数(180)不足全谱波长个数的四分之一,因此,模型的复杂度大大降低了。由表2和表3可以看出,与全谱区的最优PLS模型相比,两个指标的最优MW-PLS模型对应的预测均方根误差平均值M_SEPAve均明显降低了,尤其是对于指标Hb·HbA1c。
表2 指标Hb和Hb?HbA1c的全谱区PLS模型的预测效果
表3 指标Hb和Hb?HbA1c的最优MW-PLS模型的预测效果
采用上面讨论的EC-MLR方法选择等间隔离散波长组合。得到的Hb的最优模型所对应的起点波长(B),波长个数(N)和波长间隔(G)分别为1532nm,8和10,相应的波长组合为1532、1552、1574、1594、1614、1634、1654和 1674 nm;Hb?HbA1c的最优模型所对应的B,N和G分别为1572nm,12和9,相应的波长组合为1572、1590、1608、1626、1644、1662、1680、1698、1716、1734、1752和1770 nm。两个指标最优模型的预测结果总结在表4中。
由表3和表4可以看出,MW-PLS和EC-MLR两种方法的预测结果是接近的。与最优MW-PLS模型相比,最优EC-MLR模型采用了更少的波长,Hb和Hb?HbA1c的最优EC-MLR模型分别采用了8和12个波长,因此,模型复杂度显著降低。值得注意的是,两个指标的最优EC-MLR模型所采用的等间隔离散组合波长均包含在最优MW-PLS模型的波段内。这表明,两种方法对应的光谱吸收区域是一致的,波长选择是合理的。
表4 指标Hb和Hb·HbA1c的最优EC-MLR模型的预测效果
分别采用两种方法的最优模型计算60个检验样品的Hb和Hb·HbA1c的预测值。其中,采用最优MW-PLS模型得到的两个指标的检验预测均方根误差和预测相关系数(V_SEP、V_RP)分别为3.1 g L-1、0.966和0.60 g L-1、0.949;采用最优EC-MLR模型得到的V_SEP和V_RP分别为3.4 g L-1、0.961和0.72 g L-1、0.940。结果表明,两个模型均取得了较高的检验预测精度,两个指标的预测值与临床测量值均有很高的相关性。由于在建模过程中,考虑了模型的稳健性(通过对定标集、预测集的多次划分克服模型对部分样品的依赖),所以筛选出的模型对于随机挑选出来的样品也能取得较为理想的检验效果。
基于Hb和Hb·HbA1c的预测值可以计算出相对百分比HbA1c的预测值。MW-PLS方法得到的HbA1c的检验预测均方根误差和预测相关系数(V_SEP、V_RP)分别为0.44%和0.918;EC-MLR方法得到的HbA1c的V_SEP和V_RP分别为0.50%和0.908。采用两种方法算出的60个检验样品的HbA1c的预测值和临床测量值均高度相关。结果表明,通过NIR光谱同时定量分析两个绝对性指标间接实现相对性指标的定量分析的方法是可行的,进一步证实了近红外光谱定量模型建立前,特征波长的筛选是必要的。
基于指标Hb和HbA1c的内在联系,采用一种间接分析方法实现了近红外光谱对HbA1c的测定。为了得到稳定可靠的定量分析模型,采用MW-PLS和EC-MLR两种方法,基于定标集和预测集的多种不同划分,筛选Hb和Hb·HbA1c的特征波长。两种方法所选出的波长模型均取得了理想的预测效果。其中,EC-MLR的最优模型采用了较少的波长,且这些波长包含在MW-PLS最优模型所采用的波段内,表明两种方法所对应的光谱吸收区域是一致的,波长选择是合理的。
进一步,由Hb和Hb·HbA1c的预测结果可算出HbA1c的预测值。结果表明两种方法得到的HbA1c的预测值跟临床测量值都有很高的相关性。因此,采用NIR光谱间接测定糖化血红蛋白(HbA1c)是可行的。与传统的HbA1c的检测方法相比,基于NIR光谱的检测技术,具有简便快速、精度适中、无需化学试剂等优点,是非常适合于糖尿病大人群筛查的一种简便新技术。这对于预防糖尿病及其并发症的发生和发展,提高人口素质具有重要意义,具有广阔的应用前景。此外,这种基于两个绝对性指标的同时快速测定间接实现相对性指标的快速测定的技术可以应用到近红外光谱分析其他领域的相对性指标中,这在一定程度上拓宽了近红外光谱技术的应用范围。