潘琨琨, 张朝霞, 秦 洁, 吕小毅
(新疆医科大学1第一临床医学院, 乌鲁木齐 830011, 2第一附属医院检验科, 乌鲁木齐 830054, 3新疆大学, 乌鲁木齐 830000)
自1989 年以来,丙型肝炎(HCV)感染已成为全世界关注的问题。 据 WHO 报道,全球有 1.7 亿感染者,流行率约为3%[1-2]。HCV感染后病情隐匿,50%~80%会转变成慢性肝炎,如不进行合理治疗,10~20 年后有10%~30%会发展成为肝硬化,1%~5%甚至会发展为肝癌[3-4],严重危害患者的健康和生命。影响抗病毒治疗效果的因素很多,丙肝的不同基因亚型与干扰素,直接抗病毒药物的抗病毒效果有一定的相关性[5-6]。1993年Simmonds等通过对NS5B区扩增测序后进行系统进化树分析确定了6种基因型及一系列基因亚型。我国慢性丙型肝炎患者基因亚型分布总体上主要以1b亚型为主,流行率超过 HCV 感染病例的 70%;由于检测丙肝的基因亚型,在确定抗病毒药物治疗剂量、疗程、疗效判断方面具有重要的指导意义[7]。故本文试图以拉曼光谱检测手段分析HCV患者血清帮助诊断及初步1b分型鉴别有重要意义。
拉曼光谱是印度物理学家拉曼在1928年研究纯苯溶液的光散射现象时发现的,能反映物质内部分子的振动和转动能级等结构信息。每一种物质分子都有自己特定的拉曼光谱,可根据不同样品特性选择不同的激发波长,且不受水溶液影响。将任何一种物质材料作为散射物质,几乎都可以得到相应的拉曼光谱。既往在测量时发现待测物质的拉曼光谱可能被其自身发出的强烈荧光所覆盖[8-9]。这一现象曾经限制了拉曼光谱在物质检测领域的应用,但经过十几年的发展,将拉曼光谱检测技术与红外,先进的电子光学及计算机技术相结合。使应用拉曼光谱检测物质的技术逐步提升,并因其简单(不需要复杂的前期处理),微量和快速等优点在医学领域被广泛开展[10]。目前拉曼光谱技术已用于HCV的诊断[11]及乙肝诊断[12]等体内多种肝炎的早期诊断。但利用非表面增强拉曼光谱检进行HCV分型的报道较少见。本研究通过将拉曼光谱技术与统计学方法学相结合,研究探讨血清拉曼光谱的特点,建立了HCV诊断模型和1b亚型的鉴别。
1.1 样品制备实验样本:选取原始数据共424例,其中健康对照组200例,HCV患者实验组224例,其中1b 139例,其他数据79例(包括:2a: 55例,3a: 17例,3b: 7例),6例未检出,每例数据测试3次,然后取平均值。以上所有血清标准样本均来自新疆医科大学第一附属医院,参与本研究的所有受试者都被详细告知实验目的,并在研究开始时签署书面知情同意书。本研究经伦理审查委员会批准,遵循赫尔辛基宣言的指导原则,具体信息见表1。血清样本受试者禁食过夜至少8 h后,每人采集获得5 mL外周血样品至没有任何抗凝血剂的采血管中。待血液充分凝固后以3 000 r/min转速充分离心10 min除去血细胞,纤维蛋白原等成分获得血清。收集500 μL于EP管中并保存在-80℃环境下待测量。待测标本制备:将待测样本于22℃环境下静置30 min,待样本充分溶解后,用毛细血管(泰州市宇杰医疗器械有限公司)吸取30 μL血清,随后进行测量[13]。
1.2 拉曼光谱采集将血液充分凝固后以3 000 r/min转速充分离心10 min,除去血细胞,纤维蛋白原等成分获得的血清成分用于拉曼测量。本实验采用激光拉曼光谱仪(LabRAM HR Evolution RAMAN SPECTROMETER,HORIBA Scientific Ltd.),其最低波数10 cm-1,光谱分辨率≤0.35 cm-1,光谱范围50~9 000 cm-1,并配备有开放式显微镜。于50倍物镜下观察并记录拉曼光谱。测量开始前,采用质控品硅片于532 nm处激光条件下,记录在300~3 000 cm-1拉曼位移范围内光谱数据,以进行对仪器的校准。随后进行样本测量,使用激光拉曼光谱仪(HORIBA Scientific Ltd.)在532 nm处产生激光。光谱记录在300~3 000 cm-1拉曼位移范围内,光谱分辨率为5 cm-1,记录时间1.0 s。每个毛细管样本在不同位置分别测量3次。获得图谱使用HORIBA Scientific的新版光谱分析软件包LabSpec 6进行记录分析并转换为数据,取均值后进行进一步处理。
表1 患者基本信息
1.3 数据处理实验采集的拉曼光谱用自适应迭代重加权惩罚最小二乘(airPLS)算法扣除荧光背景处理,采用偏最小二乘算法(PLS)模型进行模型构建及支持向量机分类算法(SVC)判别分析。数据分析使用软件Matlab 2016a、origin 2018。
1.4 数据分析
1.4.1 对HCV诊断的数据分析 在数据统计分析之前,已将所有原始图像利用LabSpec 6软件进行处理分析获得原始数据。对原始数据取均值后使用Matlab软件绘图,图1a中红线表示224例丙肝样本的平均谱图,黑线表示200例正常样本平均谱图,图1b显示了扣除背景前所有光谱数据的谱图,其中红线表示224例丙肝样本的平均谱图,黑线表示200例正常样本平均谱图,从图中可以明显看出荧光背景对数据的影响较大,因此扣除荧光背景很有必要,采用airPLS(自适应迭代重加权惩罚最小二乘)算法扣除荧光背景如图1c,并采用origin2018软件对拉曼光谱归一化处理。得出HCV患者血清与非HCV感染者拉曼光谱数据之间存在差异如图1d。对扣除荧光背景后的数据使用PLS(偏最小二乘)算法进行降维处理,共提取5个主成分进行分析,图2为降维后的散点图,其中训练集297例(健康145例、HCV 152例),测试集127例(健康55例、HCV 72例),使用网格寻优法对支持向量机算法(SVM)中相关参数c、g(惩罚因子、核函数)进行寻优,获得等高线图,见图3a,最终采用SVM算法对数据进行判别分析,得到特异性、灵敏度及总判别正确率,最后采用ROC曲线进行评价PLS算法及SVM对数据的分类统计分析得出的结果,见图3b。
1.4.2 对HCV 1b型及其他型鉴别的数据分析 对1b型及其他型数据合计218例的原始数据取均值后使用Matlab软件绘图,图4a中红线表示139例b型样本的平均谱图,黑线表示其他数据79例(包括2a: 55例,3a: 17例,3b: 7例)样本平均谱图,从图中可以看出存在较大荧光背景噪声干扰,图4b显示了扣除背景前所有光谱数据的谱图,其中红线表示在扣除背景前的218例样本的谱图,蓝线表示扣除背景后的218例样本谱图,从图中可以明显看出荧光背景对数据的影响较大,因此扣除荧光背景很有必要。并用自适应迭代重加权惩罚最小二乘(airPLS)算法扣除荧光背景见图4c,并对扣除荧光背景后的数据使用偏最小二乘(PLS)算法进行降维处理,共提取6个主成分进行分析,图5为降维后的散点图。对降维后的6个主成分数据使用支持向量机(SVM)算法进行判别分析,建立训练集和测试集,其中训练集152例(1b: 88例、其他:64例),测试集66例(1b: 51例、其他:15例)。使用网格寻优法对SVM中相关参数c、g(惩罚因子、核函数)进行寻优,获得等高线图见图6a,最终采用SVM算法对数据进行判别分析,绘制测试集分类结果图,根据测试集分类结果见图6b。
注:a:未扣除背景所有拉曼数据平均谱图,红线表示224例丙肝样本的平均谱图,黑线表示200例正常样本平均谱图,从图中可以看出存在较大荧光背景噪声干扰,因此使用airPLS算法来扣除荧光背景。b:扣除背景前所有光谱数据的谱图,其中红线表示224例丙肝样本的平均谱图,黑线表示200例正常样本平均谱图,从图中可以明显看出荧光背景对数据的影响较大,因此扣除荧光背景很有必要。c :扣除背景后所有拉曼数据的平均谱图,红线表示224例丙肝样本的平均谱图,黑线表示200例正常样本扣除背景后的平均谱图。d :采用origin2018软件对拉曼光谱进行画图得出健康人与HCV患者血清拉曼光谱数据之间存在差异。
注:a: PLS-1、PLS-2、PLS-3 3个主成分的得分散点图,b: PLS-3、PLS-4、PLS-5 3个主成分的得分散点图,二个图中红色点表示表示224例丙肝样本主成分得分,蓝色点表示200例正常样本主成分得分。
注:a:不同的c g 值对应的是交叉验证准确率,等高线图越往右准确率越高;b:采用ROC曲线进行评价。
注:a: 红线表示139例b型样本的平均谱图,黑线表示其他数据79例(包括:2a 55例,3a 17例,3b 7例)样本平均谱图,从图中可以看出存在较大荧光背景噪声干扰,因此使用airPLS算法来扣除荧光背景,b: 显示了扣除背景前所有光谱数据的谱图,其中红线表示在扣除背景前的218例样本的谱图,蓝线表示扣除背景后的218例样本谱图,从图中可以明显看出荧光背景对数据的影响较大,因此扣除荧光背景很有必要。c: 中显示了139例b型样本及他数据79例(包括:2a 55例,3a 17例,3b 7例)样本扣除背景后的平均谱图。d: 采用origin2018软件对拉曼光谱进行画图得出1b亚型与其他亚型拉曼光谱血清数据的差异。
注:对数据进行预处理,使用pls算法进行降维,经10折交互检验后提取6个最优主成分,图a: PLS-1、PLS-2、PLS-3 3个主成分的得分散点图,b: 为PLS-2、PLS-3、PLS-4 3个主成分的得分散点图,c: PLS-4、PLS-5、PLS-6 3个主成分的得分散点图,3个图中红色点表示139例b型样本主成分得分,蓝色点表示其他数据79例(包括:2a 55例,3a 17例,3b 7例)样本主成分得分,从图中可以大致看出1b型与其他型可以进行区分,为此进行进一步诊断。
注:a:不同的c g 值对应的是交叉验证准确率,等高线图越往右准确率越高;b: 采用SVM算法对数据进行判别分析,绘制测试集分类结果图。
2.1 HCV诊断结果
2.1.1 2组血清的拉曼光谱的外形比较 图1a和1b可以得出未使用airPLS算法来扣除荧光背景前存在较大荧光背景噪声干扰,图1c为扣除荧光背景后,从图中可以明显得出荧光背景对数据的影响较大,因此扣除荧光背景很有必要。从降维后的散点图2也可以大致看出HCV与正常人可以进行区分。图1d得出HCV组血清与正常组血清拉曼光谱拉曼峰较类似,只是存在峰强度差异,特别是在1007、1155 、1508 cm-1处存在明显差异。
2.1.2 统计学分析结果 图3a可以找出最优的c=32,g=1;最后计算丙肝诊断的特异性97.424 9% (227/233)与灵敏度93.406 6%(85/91),总判别正确率为96.296 3%(312/324)。ROC曲线下面积(AUC)为=0.981 7,表明统计方法具有较高的可靠性。
2.2 HCV 1b型和非1b型鉴别结果
2.2.1 2组血清的拉曼光谱的外形比较 图4a和4b可以得出未使用airPLS算法来扣除荧光背景前存在较大荧光背景噪声干扰,图1c为扣除荧光背景后,从图中可以明显得出荧光背景对数据的影响较大,因此扣除荧光背景很有必要。从降维后的散点图5也可以大致看出HCV与正常人可以进行区分。如图4d得出HCV血清与正常人血清拉曼光谱拉曼峰较类似,只是存在峰强度差异,特别是在1 007、1 154、1 519 cm-1位移处存在明显差异。
2.2.2 统计学分析结果 图6a可以找出最优的c=90.509 7, g=1.414 2;最后计算丙肝1b亚型鉴别准确率为100%(51/51),其他型鉴别准确率为93.333 3%(14/15),误诊`例。总准确率为98.484 8%,总误诊1例,如图6所示。
目前对于HCV诊断的方法包括抗体检测法、抗原检测法、HCV核酸检测法,虽然这些方法对于诊断丙肝都很成熟,但每种检测方法都有不足,抗体检测法在感染后45~68 d早期窗口期检测灵敏度不足,且无法区分急慢性HCV(进行性活动性、病毒性)。同时对于来自免疫受损的患者,受低免疫应答而导致不能产生足够抗体的可能性无法避免。抗原检测法中丙肝抗体试剂制备较为单一,受HCV抗原分型、变异等影响,可发生抗原抗体反应结合不充分,进而出现假阴性结果,影响灵敏度。HCV-RNA检测对实验室要求高,实验操作复杂,仪器昂贵,且对检验技术人员要求高,否则由于操作不当造成RNA酶降解导致假阴性结果出现。另经治疗血清抗体转阳之后,血清中病毒载量降至极低水平,也可是使结果为阴性。激光拉曼光谱技术是一种无创、快速、高灵敏度的光谱检测方法。本研究结果表明,2组血清拉曼光谱拉曼峰较类似,只是存在峰强度差异,通过airPLS-pls-svc模型分析可以对HCV进行诊断,结果与Sohail等[11]基本相符合,通过ROC曲线下面积表明统计方法具有较高的可靠性。但是激光拉曼光谱在诊断HCV方面存在以下局限性:(1)本研究中血清样品的数量尚偏少,虽然研究结果令人鼓舞,但需大宗样本来检验可能存在的结果偏倚;(2)本研究未将乙肝患者、艾滋病患者及细菌感染患者的血清样本纳入对比研究,故结果较局限,今后需开展其他的血清拉曼光谱对比研究;(3)本研究未用临床化学检验的干扰评价(EP7)方案做干扰实验,评价是否胆红素血,脂血及溶血标本对检测结果有影响。
由于我国慢性HCV肝炎患者基因亚型分布总体上主要以HCV1b亚型为主,流行率超过 HCV 感染病例的 70%;该研究对HCV1b亚型鉴别准确率为100%,因此对于HVC1b亚型的鉴定有重要意义。但在激光拉曼光谱诊断HVC1b亚型的临床应用方面,本研究存在以下局限性:(1)本研究虽能有效区分HCV1b亚型和其他分型血清并诊断HCV,但目前尚未知区分他们的血清成分或生物大分子;(2)本研究未将HCV的其他亚型类型进行区分,今后需开展其他亚型的血清拉曼光谱研究。(3)本研究未通过ROC曲线下面积表明统计方法的可靠性。
总之,本研究初步证明拉曼光谱可应用于HCV诊断和HCV1b亚型的鉴定,为研发HCV新型诊断和分型技术奠定了基础。