常 伟,丁明翠,焦 洁,王 威,姚 武
1)平煤神马医疗集团总医院疾控中心 河南平顶山 467000 2)郑州大学公共卫生学院劳动卫生与职业病学教研室 郑州 450001 3)河南省职业病防治研究院 郑州 450052
尘肺病是由于在生产过程中长期吸入生产性粉尘,从而引起的以肺组织纤维化为主的全身性疾病。目前在我国接尘工人中尘肺病的发病率依然很高,且尚无有效的治疗方法。尘肺病的主要诊断依据依然是传统的高仟伏胸片,如果胸片质量不合格则会导致漏诊或误诊[1]。近年来,随着医学影像技术的进步,数字化X线摄影(digital radiography,DR)凭借图像质量较好、操作方便快捷、信息准确、辐射小等优点而被广泛应用于尘肺病的筛查[2],但DR体检成本较高,且目前我国使用的DR种类、型号各不相同,没有统一的参数设置[3]。另外,由于放射性危害的存在,部分职工可能对胸片检查存在抵触情绪[4]。因此,建立一种全新的尘肺病筛查模型,改进尘肺病的二级预防措施,对尘肺病的防治具有一定的现实意义。
支持向量机(support vector machines, SVM)在理论基础方面具有较强的优势,而且对未知的样本具有较好的泛化能力,在包括医学在内的许多领域都有应用[5-6]。研究[7]表明,包括转化生长因子β1(transforming growth factor-β,TGF-β1)、结缔组织生长因子(connective tissue growth factor,CTGF)、血小板源性生长因子(platelet derived growth factor,PDGF)在内的多种细胞因子对肺成纤维细胞分裂增殖过程的调控以及胶原蛋白的合成、降解均起着关键作用,在尘肺病的发生发展过程中扮演着重要角色。本研究拟基于人血清TGF-β1、CTGF、PDGF含量建立尘肺病筛查的SVM模型,为尘肺病的筛查提供科学依据。
1.1研究对象选取在平顶山煤业集团职业病医院就诊,并按照《尘肺X线诊断标准》(GBZ70-2009)确诊的70例男性尘肺病(矽肺29例,煤工尘肺41例)患者(尘肺病组),均排除免疫性疾病、肺部疾病或其他纤维化疾病;工种主要为采矿工、煤尘工、掘进工,年龄(65.5±5.4)岁,接尘年限为(26.41±6.38) a。另选取在河南省某医院体检的77例健康男性(对照组),排除有粉尘接触职业史者,排除有心、脑、肝、肾、肺等脏器的器质性疾病者或有其他纤维化疾病者,年龄(60.1±8.2)岁。
所有研究对象均取晨起空腹静脉血2 mL于非抗凝采血管内,室温静置30 min后3 000 r/min离心10 min,收集血清并置于-80 ℃保存备用。
1.2检测方法采用ELISA法检测血清中TGF-β1、CTGF、PDGF含量,严格按照人血清TGF-β1试剂盒(深圳晶美生物科技有限公司)和人血清CTGF、PDGF试剂盒(上海船夫生物科技有限公司)操作说明书步骤操作。
1.3模型的构建血清TGF-β1、CTGF、PDGF的含量均不服从正态分布,对数据进行常用对数变换使其服从正态分布。采用SPSS Clementine软件中的Partition节点,将所有样本按3∶1的比例进行随机分割,分为训练集(n=106)和预测集(n=41),为确保结果具有可重复性,将随机种子数设置为1234567。
Fisher判别分析模型的构建:Fisher判别函数是输入变量的线性函数,公式如下:y=a1x1+a2x2+a3x3+…+apxp,判别系数ap表示各输入变量对于判别函数的影响,y表示样本在低维Y空间中的某个维度。Fisher判别分析模型的主要参数如下,Use partitioned data: no; method: Enter; Mode: Expert; Prior probabilities: All groups equal; Use covariance matrix: Within-groups。
SVM模型的构建:SVM模型的主要参数设置如下,Use partitioned data:no;Mode:Expert;Kernel type:Polynomial;Gamma: 1;Stopping criteria:1.0×10-3。
1.4模型的评价采用诊断试验的方法对模型进行评价。评价的指标主要包括准确度、灵敏度、特异度、阳性预测值、阴性预测值、受试者工作特征曲线下面积(area under receiver operating characteristic curve,AUC)。
1.5统计学处理采用SPSS 21.0处理数据。采用两独立样本t检验比较2组血清TGF-β1、CTGF、PDGF含量的差异。采用MedCaLcV11.6.0.0软件比较两种模型的AUC。检验水准α=0.05。
2.1对照组和尘肺病组血清中3种细胞因子含量的比较结果见表1。尘肺病组血清TGF-β1和PDGF含量高于对照组,但血清CTGF含量2组间差异无统计学意义。
表1 对照组和尘肺病组血清3种细胞因子含量的比较 μg/L
2.2两个模型的诊断结果及模型评估诊断结果见表2、3。模型评估结果见表4。Fisher判别分析模型和SVM模型预测尘肺病的灵敏度均较高,为95.0%,而SVM模型的特异度和准确度均高于Fisher判别分析模型,且阳性预测值和阴性预测值也较高。Fisher判别分析模型和SVM模型的AUC均大于0.8,说明两种模型的准确度都较好;SVM模型的AUC大于Fisher判别分析模型(Z=3.181,P=0.002)。
表2 Fisher判别分析模型预测结果
表3 SVM模型预测结果
表4 两种模型对预测集的诊断结果
肺纤维化的形成是纤维原性细胞因子和抗纤维原性细胞因子作用失衡的结果[8]。现有的研究[9-11]表明,包括TGF-β1、CTGF在内的细胞因子在肺组织纤维化的发生发展中扮演着重要的角色。TGF-β1被认为是一种关键的促纤维化细胞因子,并且作为重要的刺激信号在肺纤维化、肾纤维化、肝纤维化等的发生发展过程中发挥着关键作用[9,12-13]。TGF-β1可以在损伤部位周围通过募集成纤维细胞,从而刺激未成熟的成纤维细胞的增生分化,最终直接造成细胞外基质的沉积;成纤维细胞受刺激后还会导致蛋白酶产生抑制或降解,进一步参与纤维化的发生发展[10]。另有研究[11-12]证明PDGF和CTGF可能通过刺激成纤维细胞的增殖分化从而产生促纤维化作用,进一步导致纤维化疾病或增生性疾病的发生。目前的研究结果提示这3种细胞因子可能通过相互作用而在肺纤维化过程中发挥着关键作用。本研究结果显示,尘肺病组血清TGF-β1和PDGF的表达水平均高于对照组,与上述研究一致,但未发现CTGF的表达水平在两组之间的差异,这可能是因为本研究样本量较少,具体原因不明,有待进一步探讨。
尘肺病常常由于早期没有明显的症状或只有轻微的症状,肺功能也没有太大变化而被患者忽视。然而,肺组织一旦受损,所形成的肺纤维化是不可逆转的,且目前国内外均无有效的针对性治疗药物。因此,尘肺病的筛查及生物检测十分重要。肺纤维化的发生发展涉及多种因子的调控,单一的生物标志物对尘肺病的筛查价值有限,联合多种生物标志物建立尘肺病辅助筛查模型,在临床应用上具有一定的意义。目前数据挖掘在医学上大多应用于疾病的辅助诊断,其可以通过降低主观性判断的失误率,从而为医生提供较好的辅助诊断。Fisher判别分析模型作为一种传统的判别分析方法,在分析非线性数据时由于分析时输入变量之间需要满足许多条件,比如变量之间相互独立、变量之间不存在交互作用且符合正态分布,因此,Fisher判别分析应用时存在一定的局限性。SVM的理论是建立在统计学习理论的VC维理论和结构风险最小化原理的基础上,其在处理小样本数据、高维模式识别以及非线性问题中具有很多优势,能够保证结果找到的极值解是全局最优,而不是局部最小值,从而保证了对样本的泛化能力。SVM算法在处理小样本数据、高维模式识别以及非线性问题中更具优势[14]。
本研究基于人血清中3种与肺组织纤维化密切相关的细胞因子,建立了SVM模型与Fisher判别分析模型,结果显示两种模型的AUC均大于0.8,说明两种模型的准确度均较好。Fisher判别分析模型和SVM模型的灵敏度均为95.00%,这可能是因为预测集的样本量偏小,SVM模型自身的优势未能充分发挥出来。而SVM模型的特异度和准确度均高于Fisher判别分析模型。此外,SVM模型的AUC达到了0.9以上,预测效果亦优于Fisher判别分析模型,由此也体现了SVM模型相比传统的Fisher判别分析模型更具优势。
该模型仍处于初步探索阶段,目前仍面临一些问题:①疾病鉴别诊断问题。3种细胞因子均与纤维化有关,因此存在肺、肝、肾纤维化的鉴别诊断问题,需要引入特异性指标来鉴别。②3种细胞因子的检测方法均采用试剂盒法,临床应用需要进一步完善标准和质量控制。③模型的稳定性需要大量样本进行检验。尘肺病患者例数较少,接下来可进一步通过增加尘肺病患者例数,从而建立更加完善的尘肺病筛查模型。
综上所述,本次研究建立了基于人血清TGF-β1、PDGF、CTGF含量的尘肺病筛查支持向量机模型,对于尘肺病的筛查具有一定的实际应用价值。