靳岩青,聂艳聪,王晓霞,*,仇丽霞,毛小琦,池艳春,韩 涛
(1山西医科大学公共卫生学院统计教研室,太原 030001;2山西医科大学第二医院风湿免疫科;*通讯作者,E-mail:yljdwxx@163.com)
类风湿关节炎(rheumatoid arthritis,RA)是一种以侵蚀性、对称性多关节炎为主要临床表现的慢性、全身性自身免疫性疾病[1]。除关节受累之外,还可造成多系统、多脏器损害,常见的并发症包括类风湿结节、心血管疾病以及肺部疾病[2]。因肺部含有丰富的胶原纤维和血管,故是RA较易侵犯的脏器之一,而发病率最高的为间质性肺疾病(interstitial pulmonary diseases,ILD)。目前RA-ILD的发病机制并不明确,且发病比较隐匿,早期难以发现,易被忽略。有研究发现,尽管RA的总体病死率在下降,但RA-ILD的病死率却在升高,RA-ILD患者病死率比RA高2~10倍[3]。因此早期发现RA患者是否合并ILD极其重要,目前一致认为肺活检是确诊ILD的金标准,但其属于侵入性操作,患者的配合度低,在临床开展比较困难,故探索RA-ILD患者的危险因素,提高其早期诊断率,及时进行干预势在必行。本研究回顾性分析RA患者的临床资料,应用随机森林算法和多因素Logistic回归算法共同探索RA-ILD的影响因素,为RA-ILD的预防提供参考依据。
研究对象为2018年12月至2021年10月在该院风湿免疫科确诊为类风湿关节炎的住院患者。纳入标准:年龄≥18岁;出院诊断以类风湿关节炎为主要诊断;病历资料完整;多次住院患者收集首次住院相关资料。排除标准:合并有干燥综合征、系统性红斑狼疮等其他结缔组织病者;合并其他肺病者,如肺部感染、肺结核、慢性阻塞性肺部疾病、支气管扩张等;合并有恶性肿瘤者;有慢性心、肝、肾功能不全的患者;妊娠期或哺乳期妇女。经His系统进行筛选,最终收集到有效的RA患者病历资料712份。在所有RA患者中,根据胸部CT结果以及临床表现,将其分为RA-N-ILD组和RA-ILD组,其中RA-ILD的患者189例,占比为26.54%。本研究已获得山西医科大学第二医院伦理委员会批准:(2022)YX第(108)号。
共纳入临床指标45项,包括一般资料、实验室指标以及既往用药史(醋酸泼尼松、甲氨蝶呤、来氟米特)。一般资料包括年龄、性别、BMI、吸烟史、饮酒史、高血压史、糖尿病史、病程、晨僵时间、肿胀关节数、疼痛关节数。实验室指标:血常规(白细胞、血小板、红细胞、血红蛋白、嗜酸性粒细胞)、血清球蛋白、血清总蛋白、血清白蛋白、乳酸脱氢酶、血清尿酸、血沉、C-反应蛋白、免疫球蛋白(IgA、IgM、IgG)、类风湿筛查(类风湿因子、抗CCP抗体、抗角蛋白抗体、ANA、抗环瓜氨酸抗体、APF、抗RA33抗体、抗着丝点抗体、抗增殖细胞核抗原抗体)、细胞因子(IL-2、IL-4、IL-6、IL-10、IL-17、TNF-α、INF-γ)。
Boruta算法属于随机森林算法中的一种,其主要目的是筛选与因变量相关的重要的特征变量,并进行排序。Boruta函数是通过循环的方式评价各变量的重要性,在每一轮迭代中,对原始变量和影子变量进行重要性比较。如果原始变量的重要性显著高于影子变量的重要性,则认为该原始变量是重要的;如果原始变量的重要性明显低于影子变量的重要性,则认为该原始变量是不重要的[4]。具体步骤如下:首先,它通过创建混合数据的所有特征(即影子特征)为给定的数据集增加了随机性;然后,它训练一个随机森林分类的扩展数据集,并采用一个特征重要性措施(默认设定为平均减少精度),以评估每个特征的重要性;在每次迭代中,它检查一个真实特征是否比最好的影子特征具有更高的重要性(即该特征是否比最大的影子特征得分更高),并且不断删除它视为非常不重要的特征;最后,当所有特征得到确认或拒绝,或算法达到随机森林运行的一个规定的限制时,算法停止。在本研究中Boruta算法经过99次迭代后达到随机森林运行的一个规定限制。
在712例RA患者中,其中RA-N-ILD患者为523例(73.46%),RA-ILD患者为189例(26.54%)。男性患者210例中,93例(44.30%)患者合并有ILD,女性RA患者502例中,96例(19.10%)合并有ILD,可见男性RA患者的ILD发病率远高于女性。在两组患者的一般临床资料比较中,单因素分析结果显示,男性、年龄、吸烟史、饮酒史、疼痛关节数差异有统计学意义(均P<0.05),其余变量差异无统计学意义(均P>0.05,见表1)。
表1 两组患者一般资料情况比较
经过99次迭代后,Boruta算法的特征变量筛选结果见图1。在本研究中,重要变量排序依次为年龄、性别、TNF-α、血清白蛋白、INF-γ、IL-17、吸烟史、IL-4、乳酸脱氢酶、IL-10以及IL-2。
其中绿色表示重要变量,红色表示不重要变量,黄色为Tentisive变量(即暂定变量),蓝色代表阴影属性的最小、平均和最大Z值。EO:嗜酸性粒细胞;ESR:血沉;RF:类风湿因子;AKA:抗角蛋白抗体;ANA:抗核抗体;抗CCP抗体:抗环瓜氨酸肽抗体;PCNA:抗增殖细胞核抗原抗体;APF:抗核周因子
将随机森林算法所筛选出来的重要变量以及暂定变量作为解释变量,是否合并间质性肺疾病作为结局变量,方法为向后LR回归,α入=0.05,α出=0.1,检验水准为α=0.05,进行多因素回归分析。虽纳入模型的变量有8个,但差异有统计学意义(P<0.05)的只有6个。结果显示,男性RA患者的ILD风险是女性的2.735倍(OR=2.735,95%CI 1.869~4.002);年龄每增加1岁,RA患者的ILD患病风险会增加5.0%(OR=1.050,95%CI 1.031~1.069);TNF-α每增加1 pg/ml,患病风险会增加4.4%(OR=1.044,95%CI 1.014~1.075);IL-17每增加1 pg/ml,患病风险会增加1.4%(OR=1.014,95%CI 1.003~1.024,见表2);而血清白蛋白水平增高、INF-γ增高可能起到保护性作用。
表2 类风湿关节炎并发间质性肺疾病多因素Logistic回归分析
随机森林是Leo Breiman于2001年提出的一种智能化机器学习算法,具有高度并行化,不易发生过拟合且泛华能力强等优势[5]。而Boruta算法作为随机森林算法的一种特征变量筛选的算法,与其他传统算法相比,不仅可以考虑多个变量之间的关系,还能处理变量之间的相互作用。其目标是筛选出所有与因变量具有相关特征的集合,意义在于可以帮助我们更全面理解与因变量相关的影响因素。研究指出,随机森林在医学数据分析中有很大的优势,在基因、蛋白、药物等领域都有广泛的研究[6]。近几年,在我国随机森林模型已被广泛用于肿瘤学[7]、内分泌[8]、神经病学[9]、泌尿科学[10]等众多领域。而在风湿领域,随机森林算法的应用较少,基于随机森林算法的优势,本研究应用Boruta算法对变量进行筛选,与Logistic回归共同分析RA-ILD的影响因素。在712例RA患者中,合并有ILD疾病者189例,患病率为26.54%。
经特征变量筛选后,对于变量重要性排序依次为年龄、性别、TNF-α、血清白蛋白、INF-γ、IL-17、吸烟史、IL-4、乳酸脱氢酶、IL-10以及IL-2。经多因素Logistic回归分析显示男性、高龄、IL-17以及TNF-α升高为RA患者合并ILD的独立危险因素,而血清白蛋白和INF-γ升高为保护性因素。大量研究证实,高龄、吸烟史、高滴度的RF、高滴度的抗CCP抗体与RA-ILD显著相关[11,12]。经特征筛选,年龄、吸烟史、性别为重要变量,且多因素回归分析中,性别、年龄为独立危险因素,与既往研究一致。我们的研究结果发现乳酸脱氢酶与RA-ILD的发生无相关性,与He等[13]的研究一致,但在他们的回顾性研究中发现乳酸脱氢酶是干燥综合征合并间质性肺疾病的独立危险因素。血清白蛋白是一种负性急性期反应蛋白,具有多重保护作用,能够阻止内皮细胞凋亡,对抗氧化,以及减少血小板凝集,从而发挥保护血管的作用[14]。研究表明,在特发性肺纤维化患者中,低蛋白血症可能是炎性反应和成纤维细胞活动的标志[15,16]。且在我们的研究中也发现,血清白蛋白水平的增高是RA-ILD的保护性因素之一。在既往RA-ILD影响因素分析中,很少将细胞因子作为影响因素纳入研究,我们的创新之处在于将细胞因子作为解释变量进行探索,特征变量筛选结果显示,对于RA-ILD影响较大的细胞因子主要有TNF-α、INF-γ、IL-17、IL-4、IL-10,IL-2。经多因素回归分析,TNF-α、IL-17为RA-ILD的独立危险因素,而INF-γ为保护因素。但细胞因子参与RA患者并发ILD的具体发病过程以及发病机制并不明确,仍需进一步探索研究。TNF-α是一种由激活的巨噬细胞、自然杀伤细胞和T淋巴细胞释放的细胞因子。在Ancochea等[17]研究中发现,与RA-N-ILD患者相比,RA-ILD患者TNF-α水平显著增高,且肺泡巨噬细胞具有高反应性。同时,在Gosset等[18]研究中证实了TNF-α参与了RA-ILD的过程。我们的Logistic结果也证实了TNF-α是RA患者并发ILD的独立危险因素。IL-4是Th2型细胞的标志性因子,主要是由Th2细胞分泌,但也可来源于嗜酸性粒细胞,肥大细胞以及嗜碱性粒细胞。杨春萍等[19]的研究表明,IL-4可能在肺纤维化发生发展中起重要促进作用,且Shen等[20]发现,相较于RA-N-ILD患者,RA-ILD患者血清IL-4水平较高,认为其在RA患者并发ILD过程中发挥着重要作用。但在本研究中,经多因素回归分析后,并未发现IL-4与ILD的相关性。IL-17是一种重要的上游致炎症细胞因子,其表达水平在RA患者和RA-ILD患者中有显著差异,在Zhang等[21]研究中发现,与正常的肺组织相比,ILD患者的IL-17表达水平显著升高,且表明IL-17在ILD过程中起直接作用,我们也发现高水平的IL-17可能为RA并发ILD的危险因素。然而,对于IL-10、INF-γ以及IL-2在RA患者并发ILD疾病中研究并未有相关报道,而本研究多因素Logistic回归分析发现INF-γ水平升高是RA患者并发ILD的保护性因素,这需进一步研究证实。
综上,经Boruta算法筛选出较为重要的影响因素依次为年龄、性别、TNF-α、血清白蛋白、INF-γ、IL-17、吸烟史、IL-4、乳酸脱氢酶、IL-10以及IL-2。多因素Logistic回归结果显示,男性、高龄、IL-17以及TNF-α水平升高为RA患者合并ILD的独立危险因素。虽然细胞因子在RA并发ILD中研究较少,具体机制并不明确,但通过本次研究,可以为临床RA患者并发ILD的预防和早期干预提供参考依据。
本研究存在一定的局限性,主要包括以下几个方面:①本研究是单中心样本研究,不具有代表性;②虽有严格的纳排标准,但仍属于回顾性调查,难以保证因果的时序性;③调查对象来源于住院患者,无法避免选择性偏倚。因此拟进行下一步的研究,包括:课题组将计划严格按照纳排标准收集至少3个三级甲等医院的RA患者临床资料进行进一步分析,建立RA患者的临床数据库,当符合纳排标准时,由专门的数据录入员将患者信息实时录入,保证临床资料的真实性与完整性。为降低RA患者的ILD发病率以及致死率,课题组将基于RA患者临床资料构建风险预测模型,旨在尽早识别并发ILD的RA患者,把握疾病的发展动态。