基于傅里叶近红外特征光谱的血流感染致病菌鉴别研究

2017-12-19 08:54王建明李祥辉李玉榕
关键词:铜绿单胞菌波长

王建明, 王 武, 李祥辉, 李玉榕

(1. 福州大学电气工程与自动化学院, 福建 福州 350116; 2. 福建省医疗器械和医药技术重点实验室, 福建 福州 350002; 3. 福建医科大学医学技术与工程学院, 福建 福州 350004)

基于傅里叶近红外特征光谱的血流感染致病菌鉴别研究

王建明1, 2, 王 武1, 2, 李祥辉3, 李玉榕1, 2

(1. 福州大学电气工程与自动化学院, 福建 福州 350116; 2. 福建省医疗器械和医药技术重点实验室, 福建 福州 350002; 3. 福建医科大学医学技术与工程学院, 福建 福州 350004)

利用傅里叶变换近红外光谱(FT-NIR)收集1 000~1 852 nm范围内3种常见病原菌大肠杆菌(ATCC 25922)、 金黄色葡萄球菌(ATCC 29213)、 铜绿假单胞菌(ATCC 27853)的近红外透射光谱, 采用竞争性自适应重加权算法(CARS)对波长变量进行筛选, 并分别结合偏最小二乘判别分析(PLS-DA)、 最小二乘-支持向量机(LS-SVM)建立鉴别模型. 比较两种鉴别模型在进行波长变量优选前后的性能发现, 采用全波段建模的PLS-DA与LS-SVM两种模型的预测性能较低; 利用CARS对波长变量进行筛选后, 对优选的24个特征波长分别建立两种鉴别模型, 模型预测性能明显提高, 其中以LS-SVM模型最优, 3种病原菌准确率分别为85.0%, 100%和100%. 研究结果表明, 利用CARS能够有效去除光谱无用信息, 减少模型复杂度, 增强模型预测性能, 结合LS-SVM可为临床利用近红外快速检测血流感染病原菌提供一种新的方法.

血流感染; 傅里叶变换近红外光谱; 偏最小二乘判别分析; 最小二乘-支持向量机; 竞争性自适应重加权算法; 病原菌鉴别

0 引言

血流感染是由于病原微生物侵入人体血液中并繁殖, 释放出毒素与代谢产物引起全身感染、 中毒症状的常见感染性疾病, 具有发病急、 死亡率高的特点, 致死率高达35.0%[1], 目前随着各种广谱抗生素、 免疫制剂等抗菌药物的滥用, 因病原菌感染血液的患者逐年增加, 发病率仅次于呼吸道和泌尿道感染[2].

血流感染病原体的鉴定中, 准确地识别病原菌对于临床诊断和治疗、 减少抗菌药物滥用、 降低患者死亡率方面有很大的帮助. 微生物鉴定方法包括表型鉴定法和分子遗传学鉴定法两大类. 血培养法属于表型鉴定法, 根据微生物的形态、 生理生化特性和营养特性[3], 虽然鉴定的结果准确、 可靠, 但血培养周期长, 往往导致诊断不及时而引起患者进一步的感染, 不利于临床早期诊断[4-5]. 分子遗传学鉴定法如聚合酶链反应(polymerase chain reaction, PCR)对微生物的DNA序列进行分析已经得到广泛认可, 但存在操作复杂、 专业程度高、 试剂昂贵、 耗时长等缺点, 因此极大限制了PCR方法的广泛应用[6].

光谱技术具有分析速度快、 操作简单、 效率高等特点, 逐步应用于微生物的快速鉴定. 近年来, 分子振动类光谱, 如傅里叶变换红外光谱(FT-IR)、 傅里叶变换近红外光谱(FT-NIR)、 拉曼光谱(Raman spectra)等, 在化学、 生物和医学等领域广泛应用, 逐渐发展成为新一代检测技术[7]. 目前, FT-NIR结合化学计量学对于微生物的分类和鉴定有一定研究, 如Rodriguez-Saona等[8]利用FT-NIR技术结合PCA在快速评估大肠杆菌、 解淀粉芽孢杆菌、 绿脓杆菌、 蜡样芽孢杆菌、 无害李斯特菌污染过的液体等有着良好的效果. Alexandrakis等[9]通过近红外光谱结合PCA、 PLS-DA、 软独立模式分类(soft independent modeling of class analogies, SIMCA)对5种不同的细菌种间鉴定, 其中PLS-DA模型对5种不同细菌悬液种间鉴定以及假单胞菌的属内种间鉴定准确率达到了100 %.

由于近红外光谱信息重叠严重并且带有噪声, 提取有用信息、 剔除无关变量能够加强模型的预测性能. 常见的波长选择方法主要有区间偏最小二乘法[10]、 组合间隔偏最小二乘法[11]、 载荷值法[12]、 回归系数法[13]、 遗传算法[14]、 退火算法[15]等, 其中区间偏最小二乘法和组合间隔偏最小二乘法能够得到光谱的特征区间但无法确定关键变量, 载荷法与回归系数法需要根据主观经验进行阈值的选择, 遗传算法和退火算法搜索过程耗时并且不稳定. 竞争性自适应重加权算法(competitive adaptive reweighted sampling, CARS)是一种新近提出的变量选择理论, 该方法能够对光谱无用信息进行有效去除同时保证减少共线性变量, 最终得到对应预测性能最佳的特征波长变量组合. 本研究以血流感染中最常见革兰氏阳性菌的金黄色葡萄球菌、 革兰氏阴性菌的大肠杆菌和铜绿假单胞菌3种病原菌为研究对象, 结合偏最小二乘判别分析(partial least squares-discriminant analysis, PLS-DA)、 最小二乘-支持向量机(least square-support vector machine, LS-SVM)两种模型进行鉴别, 分析比较CARS变量筛选对两种鉴别模型性能的影响.

1 实验部分

1.1 菌种与培养基

菌种:Escherichiacoli(E.coli, ATCC 25922) 大肠杆菌;Staphylococcusaureus(S.aureus, ATCC 29213) 金黄色葡萄杆菌;Pseudomonasaeruginosa(P.aeruginosa, ATCC 27853) 铜绿假单胞菌.

培养基: 哥伦比亚血琼脂平板.

1.2 微生物培养及样品制备

将4 ℃环境下储存的3种标准菌株取出, 在符合生物安全保护的要求下进行无菌操作, 将3种标准菌株置于哥伦比亚血琼脂平板上, 在37 ℃下恒温培养24 h, 观测菌种的生长情况, 如未生长, 应当继续培养. 待生长完, 用无菌接种环收集单独的孤立菌落, 并直接用质量分数为0.9%的无菌生理盐水作为稀释剂, 配置标准菌株实验样本. 采用人血清作为稀释剂, 在实验前需要进行钝化补体等一系列预处理, 存在干扰因素多、 操作复杂等缺点, 因此实验直接用生理盐水稀释. 本研究参考临床微生物检验方法, 将致病菌落稀释至生理盐水中, 继而采集标本的近红外光谱图, 既保证包含病原菌的全部信息, 又能有效降低检测背景信号.

1.3 光谱采集

在温度25 ℃、 湿度30%左右条件下, 利用Nicolet 6700傅里叶变换近红外光仪(Thermo Fisher公司, 美国)采集150例样品病原菌悬液的透射光谱图, 扫描范围1 000~1 852 nm, 分辨率为16 cm-1, 扫描32次. 在采集每例样品谱图之间, 将石英比色皿用75%(体积分数)乙醇处理, 防止交叉污染.

1.4 光谱预处理与模型建立

将收集的光谱图数据导入Matlab(Version R2010a, 美国), 对光谱数据进行预处理, 采用多元散射校正方法对光谱进行基线校正, 消除基线漂移的影响. 并利用K-S算法[12]将3种病原菌悬液各50组的光谱数据随机选取30组作为校正集, 剩余20组做预测集, 依次交替, 确保所有样本均被预测模型验证. 对校正集的数据分别建立PLS-DA、 LS-SVM鉴别模型. 校正集与预测集样本分布如表1所示.

表1 校正集和预测集Tab.1 Calibration group and prediction group

1.5 CARS变量优选

CARS算法是模拟达尔文进化论中“适者生存”原则进行筛选波长变量, 算法分为以下4步:

1) 采用蒙特卡罗采样(MCS)法采样N次, 每次从样品集中随机抽取80%的样本作为校正集, 建立PLS模型.

2) 设大肠杆菌、 金黄色葡萄球菌、 铜绿假单胞菌标签分别为1、 2、 3, 建立标签矩阵y(m×1)与光谱矩阵X(m×p)的PLS模型, 其中m代表样本数,p为变量数.

其中:b=Wc=[b1,b2, …,bp]T,W代表组合系数,c为回归系数,e为预测残差;b中第i个元素的绝对值|bi|(1≤i≤p)代表第i个波长变量对y的贡献率, 其值越大表示对应波长变量在预测样本种类中越重要.

利用指数衰减函数强行去除|bi|较小的波长变量, 在MSC第i次采样后, 变量点的保留率通过下式得到:

其中:a与k计算如下:

本研究的病原菌样本波长变量数为597, 设定MSC采样次数为50次, 因此,a和k分别为1.12和0.116.

3) 采用自适应重加权采样技术(ARS)筛选波长变量, 其中筛选每个变量点的标准如下:

4) 每次新产生的变量子集建立PLS模型, 选取RMSEC值最小的变量子集为最优变量子集.

2 结果与讨论

2.1 病原菌悬液近红外光谱分析

图1 大肠埃希氏菌、 金黄色葡萄球菌、 铜绿假单胞菌近红外光谱图 Fig.1 FT-NR spectra of E. coli, S. aureus and P. aeruginosa

图1为大肠杆菌、 金黄色葡萄球菌和铜绿假单胞菌在1 000~1 852 nm范围内经过MSC预处理后的光谱图. 从图1可看出, 大肠杆菌和铜绿假单胞菌的光谱几乎完全重叠, 金黄色葡萄球菌的光谱在1 400及1 600 nm的吸收峰明显高于前两者. 其中1 400 nm附近为O-H键的第一倍频的吸收峰, 1 600 nm附近为N-H的一级倍频峰. 大肠杆菌和铜绿假单胞菌属于革兰氏阴性菌, 而金黄色葡萄球菌属于革兰氏阳性菌, 两者在细胞壁组成上有显著差异, 革兰氏阳性菌的细胞壁由一层厚而致密的肽聚糖和磷壁酸构成, 革兰氏阴性菌的细胞壁是一层薄薄的肽聚糖层, 肽聚糖的主要成分为N-乙酰葡萄糖胺和N-乙酰胞壁酸, 这两种物质结构中存在大量O-H及N-H共价键, 这与光谱结果一致. 而在1 724~1 785 nm和1 111~1 333 nm范围内, 3种病原菌的平均光谱几乎是重叠的, 微生物信息主要集中在1 333~1 852 nm, 但也可以看出3种病原菌存在微乎其微的差异, 需要进一步借助化学计量学来进行辨识.

2.2 基于PLS-DA与LS-SVM鉴别模型

偏最小二乘判别分析(PLS-DA)是一种用于判别分析的多变量统计分析方法, 适用于样本之间存在多重共线、 自变量数目多、 样本观测数少的场合. 最小二乘-支持向量机(LS-SVM)是经典支持向量机(SVM)方法的改进, 能够进行线性非线性的多元建模, 与SVM相比, 训练时间更短, 泛化能力更强. 两种模型的详细流程参考文献[16-17]. 将3种病原菌的全波段(1 000~1 852 nm)样本分别建立PLS-DA与LS-SVM鉴别模型, 如表2所示.

从表2得出, PLS-DA模型对3种病原菌的预测准确率分别为90.0%, 100%和76.7%, 而LS-SVM模型的预测准确率分别为80.0%, 100%和66.7%, 可以看出两种鉴别的预测性能有待提高, 由于全光谱的波长变量多达597个, 部分变量包含了无关信息, 造成模型冗余, 导致预测精度降低. 所以降低模型的复杂度, 提取与样本有关的信息波长变量能够得到更好的分类模型.

表2 PLS-DA和LS-SVM模型鉴别结果Tab.2 Discriminant results of PLS-DA model and LS-SVM model

2.3 基于CARS的波长变量优选

利用CARS对三种病原菌的波长变量进行优选, 所提取的最大因子数由蒙特卡洛交叉验证得到, 蒙特卡洛采样次数为50次, 采用10折交叉验证进行PLS建模, 波长变量的筛选过程如图2所示. 图2(a)、 (b)和(c)代表随着采样的次数的增加, 波长变量数的变化、 交叉验证均方根误差(RMSECV)的变化和波长变量回归系数变化. 由图2看出, 随着采样次数的增加, 波长变量数是逐渐减少, 体现出CARS中剔除波长变量是按照指数衰减趋势先粗选后精选过程. RMSECV在前24次采样过程中呈现下降趋势而后逐渐升高, 表明先剔除了对于建模无用的波长变量导致RMSECV下降, 而24次后剔除了有关波长变量导致RMSECV上升. 波长变量回归系数对应RMSECV的最小, 选取RMSECV最小的波长变量组合作为3种病原菌的鉴别特征波长, 24个波长变量依次为: 1 256, 1 257, 1 258, 1 259, 1 261, 1 262, 1 267, 1 268, 1 269, 1 272, 1 274, 1 286, 1 287, 1 288, 1 289, 1 291, 1 413, 1 596, 1 630, 1 670, 1 677, 1 685, 1 696, 1 751 nm.

将CARS所提取的特征波长采用PLS-DA与LS-SVM建模方法, 鉴别结果列于表3. 由表3可以看出, 经过CARS的变量筛选, 两种模型的预测性能分别得到了提升, 其中PLS-DA模型对于3种病原菌的预测准确率分别为90.0%、 100%和85.0%, 而LS-SVM的预测准确率分别为85.0%、 100%、 100%. 由此可以看出, 选取特征的波长变量不仅能够减低模型复杂度并且能够加强鉴别模型预测精度, 从预测准确率看, LS-SVM模型鉴别能力更强. 由于临床中血流感染的病原菌种类众多, 以常见的3种病原菌为例, 实际中临床的多种血流感染病原菌利用CARS方法也能够得到相应特征波长变量, 为临床中利用近红外检测提供一种思路.

图2 CARS变量筛选过程图Fig.2 Diagram of CARS variable selecting process

表3 经CARS筛选后PLS-DA和LS-SVM模型的鉴别结果Tab.3 Discriminant results of PLS-DA model and LS-SVM model after variable selecting by CARS

3 结语

不同种类的病原菌在分子组成上差异会反应在近红外光谱图上, 研究证明了利用FT-NIR技术结合化学计量学分析方法来快速鉴定细菌种类是可行的. 以3种常见病原菌大肠杆菌、 铜绿假单胞菌、 金黄色葡萄球菌为研究对象, 分别建立PLS-DA、 LS-SVM两种鉴别模型, 并利用CARS对波长变量进行优选, 比较两种模型对变量优选前后模型的预测性能. 结果证明, 基于全波段建模, 由于模型里含有无用的波长变量, 两种模型的预测性能较低. 借助CARS进行变量优选, 对比PLS-DA与LS-SVM 模型发现, 两种模型的预测性能均得到提升, 其中LS-SVM有较好预测性能, 3种病原菌的准确率分别为85.0%, 100%和100%, 说明CARS能够剔除光谱中无信息变量, 同时能够对共线性的变量进行压缩去除, 降低模型的复杂性. 研究表明, 基于近红外光谱技术结合CARS变量优选与LS-SVM模型能够有效鉴别病原菌, 为实验室快速诊断提供了一种快速鉴定病原菌的方法, 不仅可以指导临床合理使用抗菌药物, 而且可以为临床感染性疾病的诊断、 治疗和流行病学调查以及院内感染的监控提供可靠的依据.

[1] 赵忆文, 朱召芹, 蔡金凤, 等. 上海某医院 2011 年 1至 5月住院病例2 044 份血及体液标本血培养结果分析[J]. 检验医学, 2014, 29(2): 100-103.

[2] 阿祥仁, 赵生秀. 血流感染病原学诊断对临床诊疗的意义[J]. 中华检验医学杂志, 2014, 37(1): 76-77.

[3] MAQUELIN K, KIRSCHNER C, CHOO-SMITH L P,etal. Identification of medically relevant microorganisms by vibrational spectroscopy[J]. Journal of Microbiological Methods, 2002, 51(3): 255-271.

[4] KARCHMER A W. Nosocomial bloodstream infections: organisms, risk factors, and implications[J]. Clinical Infectious Diseases, 2000, 31(Supp4): S139-S143.

[5] 毛美丽, 汪瑞忠. 血培养单、 双侧采血阳性率比较及病原菌分布和耐药性分析[J]. 检验医学, 2009, 24(12): 911-913.

[6] SAFDAR N, FINE J P, MAKI D G. Meta-analysis: methods for diagnosing intravascular device-related bloodstream infection[J]. Annals of Internal Medicine, 2005, 142(6): 451-466.

[7] YUE T L, WANG J, YUAN Y H,etal. Rapid identification of microorganisms based on Fourier transform near infrared spectroscopy[J]. Spectroscopy and Spectral Analysis, 2010, 30(11): 2 945-2 949.

[8] RODRIGUEZ-SAONA L E, KHAMBATY F M, FRY F S,etal. Rapid detection and identification of bacterial strains by Fourier transform near-infrared spectroscopy[J]. Journal of Agricultural and Food Chemistry, 2001, 49(2): 574-579.

[9] ALEXANDRAKIS D, DOWNEY G, SCANNELL A G. Detection and identification of bacteria in an isolated system with near-infrared spectroscopy and multivariate analysis[J]. Journal of Agricultural and Food Chemistry, 2008, 56(10): 3 431-3 437.

[10] NORGAARD L, SAUDLAND A, WAGNER J,etal. Interval partial least-squares regression (iPLS): a comparative chemometric study with an example from near-infrared spectroscopy[J]. Applied Spectroscopy, 2000, 54(3): 413-419.

[11] 蔡健荣, 万新民, 陈全胜. 近红外光谱法快速检测猪肉中挥发性盐基氮的含量[J]. 光学学报, 2009, 29(10): 2 808-2 812.

[12] LIU F, HE Y, WANG L,etal. Feasibility of the use of visible and near infrared spectroscopy to assess soluble solids content and pH of rice wines[J]. Journal of Food Engineering, 2007, 83(3): 430-435.

[13] WU D, HE Y, FENG S. Short-wave near-infrared spectroscopy analysis of major compounds in milk powder and wavelength assignment[J]. Anal ChimActa, 2008, 610(2): 232-242.

[14] JOUAN-RIMBAUD D, MASSART D L, LEARDI R,etal. Genetic algorithms as a tool for wavelength selection in multivariate calibration[J]. Analytical Chemistry, 1995, 67(23): 4 295-4 301.

[15] KALIVAS J H, ROBERTS N, SUTTER J M. Global optimization by simulated annealing with wavelength selection for ultraviolet-visible spectrophotometry[J]. Analytical Chemistry, 1989, 61(18): 2 024-2 030.

[16] ERIKSSON L, JOHANSSON E, KETTANEH-WOLD N,etal. Multi-and megavariate data analysis: principles and applications[M]. Umea: Umetrics Academ, 2001.

[17] WU D, HE Y, FENG S J,etal. Application of infrared spectra technique based on LS-support vector machines to the non-destructive measurement of fat content in milk powder[J]. Journal of Infrared and Millimeter Waves, 2008, 27(3): 180-184.

ResearchonidentificationofbacteriainbloodstreaminfectionsbasedonFT-NIRcharacteristicspectrumselection

WANG Jianming1, 2, WANG Wu1, 2, LI Xianghui3, LI Yurong1, 2

(1. College of Electrical Engineering and Automation, Fuzhou University, Fuzhou, Fujian 350116, China;2. Fujian Key Lab of Medical Instrument and Pharmaceutical Technology, Fuzhou, Fujian 350002, China;3. Medical Technology and Engineering College, Fujian Medical University, Fuzhou, Fujian 350004, China)

Fourier transform near-infrared spectroscopy (FT-NIR) was used to collect the range from 1 000 to 1 852 nm near-infrared spectra of the three common pathogen bacteria which includedEscherichiacoli,Pseudomonasaeruginosa, andStaphylococcusaureus. Competitive adaptive reweighted sampling (CARS) algorithm to be used to select the characteristic wavelength variables which were used to build the PLS-DA model and LS-SVM model. Moreover, performance of PLS-DA and LS-SVM model built by the characteristic wavelength variables were also compared with PLS-DA and LS-SVM model built by full spectra. Studies showed that full spectra model had poor prediction performance due to some wavelength variables contains irrelevant information. The prediction performance of PLS-DA model and LS-SVM had improved significantly by using 24 characteristic wavelengths selected by CARS. Meanwhile, LS-SVM model achieved the optimal performance which the correct rate of three pathogen bacteria was 85.0%, 100%, 100% respectively. The results showed that CARS can remove useless information, reducing model complexity, enhanced model prediction performance and combined with LS-SVM can accurately identify clinical pathogens.

bloodstream infections; FT-NIR; PLS-DA; LS-SVM; CARS; pathogen bacteria discriminate

10.7631/issn.1000-2243.2017.05.0713

1000-2243(2017)05-0713-06

O657.33

A

2016-08-29

王 武(1973-), 教授, 主要从事网络控制、 生物建模等方面的研究, wangwu@fzu.edu.cn

国家自然科学基金资助项目(61403319); 福建省科技厅国际合作资助项目(2015I003); 福建省教育厅科技资助项目(JK2014001)

(责任编辑: 洪江星)

猜你喜欢
铜绿单胞菌波长
槲皮素改善大鼠铜绿假单胞菌肺感染
双波长激光治疗慢性牙周炎的疗效观察
持续性根尖周炎中牙龈卟啉单胞菌的分离与鉴定
共代谢基质促进铜绿假单胞菌降解三十六烷的研究
日本研发出可完全覆盖可见光波长的LED光源
便携式多用途光波波长测量仪
铜绿假单胞菌金属酶及整合酶的检测
齐口裂腹鱼肠道气单胞菌的分离鉴定
铜绿假单胞菌的分布及耐药性分析
适用于波长交换光网络的波长旋转图模型设计