基于大数据建立临床肺结核综合诊断数学模型的研究

2018-04-09 00:44温保江周正华梁志勇李军温文沛郭卉欣

结核与肺部疾病杂志 2018年1期

温保江　周正华　梁志勇　李军　温文沛　郭卉欣

当前，我国基层机构实验室病原学诊断肺结核的阳性率仅为30%左右，诊断的规范性和准确性不足，且由于肺结核临床表现复杂多样，出现了对菌阴肺结核过诊率较高的现象[1]。因此，在肺结核诊断中，大部分患者的确诊需要依靠其他间接诊断项目进行综合诊断[2]。综合诊断需基于患者临床诊疗中的所有信息，包括病症发生、发展过程中的基础疾病史、治疗史、接触史、临床过程中的局部及全身症状、试验性治疗结果，以及影像学、病原学、免疫学、血清学检查等资料综合分析做出诊断。笔者通过基于大数据建立临床肺结核综合诊断模型的研究，以提高结核病的诊断效能。

对象和方法

一、研究对象

从广东省清远市慢性病防治医院结核病区和呼吸病区每个月(2016年1月至2017年12月)按照分层随机抽样方法选取临床检查项目资料完整的患者15～20例，共计345例。最终确诊初治活动性肺结核患者198例(肺结核组)，其中男92例(46.46%)、女106例(53.54%)，年龄10～94岁，平均(48.67±36.18)岁；非肺结核患者147例(非肺结核组，含陈旧性肺结核)，其中男77例(52.38%)、女70例(47.62%)，年龄19～88岁，平均(57.74±30.85)岁。

收集所有患者临床资料，包括胸部X线摄影(胸片)表现(病灶范围、有无空洞)、结核菌素皮肤试验(PPD试验)、血白细胞(WBC)计数、血清白蛋白、痰涂片、痰培养、痰GeneXpert MTB/RIF检测(GeneXpert)、结核感染T细胞斑点试验(T-SPOT.TB)检查结果，以及临床症状体征(咳嗽、咯血、体质量下降、乏力)和相关病史(结核病病史、吸烟史、糖尿病病史)等临床资料数据。

病灶范围的数据记录采用双肺6分法(即左右肺各上中下三个肺野)，用1～6数字赋值患者的病灶范围大小；空洞的数据只记录有或无空洞存在，赋值1表示有、0表示无；PPD试验的结果数据记录赋值0表示阴性、1表示弱阳性、2表示阳性、3表示强阳性(含有水疱)；WBC计数、血清白蛋白用实际结果数据表示；痰涂片、痰培养、痰GeneXpert检测、T-SPOT.TB检测，以及临床症状体征(咳嗽、咯血、体质量下降、乏力)和相关疾病史(如结核病病史、吸烟史、糖尿病病史等)等各项结果数据均赋值0表示阴性(无)，赋值1表示阳性(有)。具体见表1。

二、研究方法

1.肺结核诊断标准：按照《肺结核诊断和治疗指南》[3]中综合诊断的方法。

2.检验项目: (1)T-SPOT.TB: 采用免疫斑点法的γ-干扰素释放试验(IGRA)，严格按照英国牛津结核感染T细胞检测试剂盒说明书进行[2]。(2)血清白蛋白：采用溴甲酚绿法[2]，在全自动生化分析仪日常维护并定标后，将收集的新鲜血清放入仪器中进行检测；正常值：成人40～55 g/L。(3)WBC计数: 采用电子血细胞计数仪。正常值：成人4×109～10×109/L。(4)痰涂片：采用萋-尼染色镜检法[4]，将痰标本进行涂片，痰膜干燥后固定，滴加碳酸复红，火焰加热到出现蒸汽后，脱离火焰，保持染色5 min，再用5%盐酸乙醇脱色及亚甲基蓝复染，自然干燥后进行镜检。(5)痰培养：采用改良罗氏固体培养法[4]，将1～2倍的4% NaOH溶液加入痰标本前处理管中，涡旋振荡，静置15 min，在每支培养基接种0.10～0.15 ml处理后的痰标本，接种后37 ℃恒温培养箱内培养。(6)痰GeneXpert检测：采用半巢式全自动实时荧光定量PCR检测方法[4]，取1 ml痰液样本，按照1∶2体积，加入2 ml样品处理液，在涡旋混合器上振荡5 s，室温放置15 min，用吸管吸取2 ml处理好的标本到试剂盒中即可进行测试。

3. 其他项目：(1)胸片：分为两个观察指标，一是肺结核病灶部位。观察肺部病灶侵范肺野的范围大小[5]；二是空洞病灶形成。因为肺结核病理性增殖超过一定程度易发生坏死溶解而形成空洞，在肺部疾病中具有一定的特征性[5]。(2)PPD试验：采用国际通用的皮内注射法，由护士操作将卡介菌纯蛋白衍生物(BCG-PPD)0.1 ml(5 IU)缓缓注入患者左前臂掌侧中部中央皮内，使局部出现6～8 mm大小的圆形橘皮样皮丘[3]。由护士专人负责PPD试验结果观察测量记录，采集72 h的皮肤硬结大小[(横径+纵径)/2 mm]数据。皮试液全部使用有效期内的卡介菌纯蛋白衍生物BCG-PPD(成都生物制品研究所生产)。(3)临床症状：肺结核典型的临床症状有咳嗽、咯血、胸痛、呼吸困难、消耗性体质量下降，以及全身结核中毒表现(如低热、纳差、乏力等)，本研究选择了咳嗽、咯血、体质量下降、乏力等观察项目。

表1　各项临床资料在两组患者中的分布情况

注括号外数值为患者例数，括号内数值为构成比(%)

三、统计学分析

采用SPSS 19.0软件包对两组患者的各项检查项目指标数据进行统计学分析。肺结核组赋值1，非肺结核组赋值0，对两组病例样本应用非条件logistic 回归模型分析，探索肺结核组和非肺结核组两组样本人群具有独立鉴别诊断(无交互性，P<0.05)的临床资料及检查项目。以肺结核组和非肺结核组两组样本为训练样本(即对含有两种不同疾病的各自特质属性的样本，可通过判别分析方法建立起一个判别函数式)[6]，应用Fisher精确概率法准则下的判别分析方法(Discriminant)，建立判别两组患者的数学函数模型；采用两组函数值Z的95%可信域重叠区间的中点值C为分界值C(见图1), 当个体Z≤C时，判为非肺结核疾病；当Z≥C时，判为肺结核。最后，用常规诊断方法对所建判别函数模型的判别结果作回顾性考核[7]，估计其假阳性率、假阴性率和总错判率。回归模型中各变量在两组之间差异的统计推断，均以P<0.05 为两组间差异有统计学意义。

结　　果

1.两组患者临床检查项目情况：通过两组患者临床数据(表1)建立非条件logistic回归模型，利用模型找到具有独立区分性的临床资料及检查项目(为P<0.05的变量)。具体见表2。

从表2分析显示，肺结核组与非肺结核组患者在性别(X1)、结核病病史(X5)、血白细胞计数(X8)、GeneXpert检测(X11)、痰培养(X13)、T-SPOT.TB检测(X14)、PPD试验(X15)、体质量下降(X17)等8个变量差异有统计学意义(P值均<0.05)，具有独立的鉴别性作用；其中在GeneXpert检测(X11)、痰培养(X13)、T-SPOT.TB检测(X14)、PPD试验(X15)、体质量下降(X17)项目上，肺结核组比非肺结核组差异性更明显(β值均>0，即该5种临床特点是肺结核鉴别诊断中的阳性表现；在GeneXpert检测(X11)、痰培养(X13)、T-SPOT.TB检测(X14)、体质量下降(X17)项目上，OR值均>2，对诊断肺结核具有显著优势。同时，在性别(X1)、结核病病史(X5)、血白细胞(X8)项目上非肺结核组比肺结核组鉴别性显著增强(β值均<0)，即该3种临床观察项目是诊断非肺结核疾病的有意义指标。

表2　两组患者临床观察项目数据的非条件logistic回归模型分析

2.建立肺结核组与非肺结核组患者的判别函数模型：对训练样本数据运行SPSS 19.0软件包中分析功能中的判别分析(Discriminant)，可得如下判别函数式中各项的系数，见表3。

则判别函数模型表达式[8]为：Z=-0.620-0.424X1+0.386X4-1.286X5+…+0.255X15+0.559X17

3.计算分界值C和建立判别准则；把多变量的分类问题，转换成对于单个变量Z的分类问题，只需确定一个分界值C，当个体Z≤C时，判为非肺结核疾病；当Z≥C时，判为肺结核，见表4、图1。为确定分界值C，本研究取两组患者Z值的95%可信区间之间中点值C，两类各自错判的机会近似相等，便于操作。

4.判别函数模型的回顾性考核结果:使用同份样本对所建函数模型进行回顾性考核。考核获得较高符合率时，才能认为此判别准则有较强的判别能力，具体见表5。

表5中考核结果显示，建立的判别函数模型对非肺结核的错判率为16.33%，准确判别率为83.67%；对肺结核的错判率为20.71%，准确判别率达79.29%。

判别界值C=-0.493～-0.500 图1　两组Z值95%可信域重叠区间的中点值C示意图

讨　　论

当前，我国基层医院肺结核诊断患者中有病原学依据的比率不高，约为30%左右，大部分病原学检测阴性的肺结核患者主要是依靠临床医师对患者疾病特点的综合分析后的经验性诊断，其主观性大，误诊率高[9]，尤其是参加工作时间不长缺乏经验的年轻医生。过高的误诊率已影响了疾病预防控制部门对地区疫情的准确评估，无论是临床需要上，还是公共卫生管理需要上看，如何提高肺结核的诊断质量已成为迫切需要解决的科学问题。本研究应用大数据信息，使用包括痰涂片、痰培养检测病原体结果在内的全面的临床数据信息，研究提出肺结核诊断的数学诊断模型，所建立的诊断函数模型对非肺结核疾病的准确判别率为83.67%；对肺结核的准确判别率达79.29%，达到实践应用的标准，为提高肺结核诊断质量提出创新性思路。

表3　训练样本建立判别函数的各项系数

表4　两组患者利用Z值判别分界值的确定

表5　两组患者判别函数模型预测的回顾性考核结果

本研究结果显示，肺结核与其他呼吸道疾病比较，在临床表现上具有一定的特征性差异，如肺结核组与非肺结核组在性别、结核病病史、WBC计数、 GeneXpert检测、体质量下降、痰培养、 T-SPOT.TB检测、PPD试验等表现不同；尤其在GeneXpert检测、痰培养、 T-SPOT.TB、体质量下降方面，肺结核比非肺结核的临床表现显著增强。在WBC计数方面，非肺结核组比肺结核组诊断意义显著增强，而结核病患者在PPD试验、体质量下降方面的诊断意义增强，在WBC计数上表现不突出，这可能与肺结核是消耗性感染性疾病有关，体现了肺结核慢性增殖性炎症的病理特点[10]。而对于非结核性疾病而言，出现WBC计数升高而血清白蛋白处于正常水平，则体现了急性炎性的特点表现[11-12]。本研究所建立的基于大数据下(即系统全面的临床信息)把握权重较大的检查指标构建肺结核的诊断数学模型，判别准确率达80%以上，个体测得Z值越大，越倾向于结核病诊断，为临床医师提供科学的新诊断工具。

活动性肺结核患者在抗结核药物治疗后，机体会在一段相当长的时间内呈阳性状态，再逐渐下降，这一状态会影响临床医师对某一疾病的诊断印象，所以在结核病临床综合诊断中应注意陈旧性肺结核或过去潜伏感染造成假阳性的因素。本研究发现，作为新诊断技术的T-SPOT.TB在肺结核组患者中的阳性优势比是非肺结核组患者的5.769倍(OR值)，而PPD试验仅为1.503倍(OR值)。临床医师凭借基于患者各方面临床表现的综合印象而作出稍显主观性的诊断决策，势必存在误诊和漏诊的机会[13]。尽管目前T-SPOT.TB检测还不能有效鉴别结核潜伏感染和活动性结核病，部分存在斑点数重叠现象[14]，但因其在结核病诊断中的敏感度和准确度均较PPD试验更高，在检测结核感染方面具有高敏感度、高特异度，且具有体外全血检测的优势，将其作为当前结核医疗领域中比较热点的新诊断技术[11]，并作为结核感染筛查和结核潜伏感染筛查的重要检测手段[15-16]，对结核病的诊断仍具有重要意义。因此，在大数据理念下的肺结核综合诊断模型中，T-SPOT.TB检测结果应是一个值得重视的指标。

本研究是通过大数据应用，利用统计学方法对缺乏特征性病原学诊断依据(结核分枝杆菌阳性依据)的疾病，拟合临床专家综合诊断思维方式所建立起来的计量化诊断模型，其影响因素包括训练样本充足与否，最优方法应是一半用于学习性建立判别函数式，另一半用于对模型的诊断效能进行前瞻性考核[17]。对高于80%的正确判别率视为可在实际工作中应用。本研究所建模式对肺结核的准确判别率达79.29%，对非肺结核的准确判别率为83.37%，提示本研究样本量不足，对模型的准确性、实用性存在一定的影响，需在后续研究中加以改进，以不断提高肺结核诊断数学模型的诊断效能。因其函数模型的各系数的调整依赖高质量的临床病例资料的增加补充，具有学习性智能性质，为未来诊断模型的软件化开发应用拓展宽广的前景，更好地服务于结核病防治工作。

志谢广州市胸科医院医学信息统计师梁国添硕士对本研究统计学内容进行了审核

[1] 屠德华.痰涂片阴性肺结核流行病学意义的评价.中华结核和呼吸杂志,2005，28(10):670-671.

[2] 府伟灵,徐克前.临床生物化学检验.5版.北京：人民卫生出版社，2012.

[3] 中华医学会结核病学分会.肺结核诊断和治疗指南.中华结核和呼吸杂志，2001,24(2):70-74.

[4] 赵雁林，中国防痨协会基础委员会.结核病实验室诊断技术培训教程.北京：人民卫生出版社,2014.

[5] 温文沛,许庆敏，梁国添. 涂阴肺结核综合诊断数学模型建立及初步评价.广东医学,2011,32(7):845-847.

[6] 屠德华,潘毓萱,朱莉贞.痰菌阴性肺结核的诊断和治疗座谈会纪要.中华结核和呼吸杂志,1995,18(6):324-327.

[7] 方积亁. 判别分析的验证.生物医学研究的统计方法.北京：高等教育出版社，2007：421-422.

[8] Greco S, Girardi E, Navarra A,et al.Curren evidence on diagnostic accuracy of commercially based nucleic acid amplification tests for the diagnosis of pulmonary tuberculosis. Thorax,2006,61:783-790.

[9] Flores LL, Pai M, Colford JM Jr,et al. In-house nucleic acid amplification tests for the detection ofMycobacteriumtuberculosisin sputum specimens: meta-analysis and meta-regression.BMC Microbiol, 2005,5:55.

[10] 彭卫生,王英年,肖成志. 新编结核病学. 北京:中国医药科技出版社,1994:332.

[11] 温文沛,孔庆端.现代医师心理人格数学模型的建立及测评.医学与哲学(临床决策论坛版),2010,31(8):64-66.

[12] 温文沛,谭耀驹,许婉华,等.初治肺结核患者外周血CD4+/CD8+T细胞、IgG/IgM抗体与感染程度的相关性.广东医学,2007,28(8):1268-1270.

[13] 秦光祖,阎萍,徐茹,等.三指标联合检测对痰涂片阴性肺结核诊断价值的探讨.中国防痨杂志,1997,19(2):94-95.

[14] 李辉.恒温扩增技术在结核病诊断中的应用.结核病与肺部健康杂志,2017，6(2)：102-105.

[15] 张志勇,毛志方,王芹. 三种检测方法在结核感染诊断中的比较研究. 基层医学论坛,2017,21(7):845-846.

[16] 田瑞雪,马丽萍,武红莉,等. γ-干扰素释放试验在结核诊断中的价值. 临床荟萃，2017,32(6):507-510,514.

[17] 杨建蓉,杨红. T-SPOT.TB 和TST 在结核诊断中的临床意义. 医学综述, 2015,21(12):2279-2281.

基于大数据建立临床肺结核综合诊断 数学模型的研究

对象和方法

结 果

讨 论

基于大数据建立临床肺结核综合诊断数学模型的研究

结　　果

讨　　论