基于生物信息学的结节病诊断标志物的筛选及实验验证

2021-11-22 09:15潘彬张晋福王国栋余觅张维黄飞李小燕何杰孙建
国际呼吸杂志 2021年21期
关键词:结节病差异基因外周血

潘彬 张晋福 王国栋 余觅 张维 黄飞 李小燕 何杰 孙建

1成都医学院临床医学院第一附属医院呼吸与危重症医学科 610500;2牟平区中医医院病理科,烟台 264100;3成都医学院临床医学院第一附属医院病理科 610500

结节病是一种由免疫反应介导的系统性疾病,非干酪性坏死性肉芽肿是其主要病理特征,但目前尚不清楚具体发病原因[1]。结节病患者的发病年龄较为年轻,以20~40岁居多,主要累及肺部,可出现双侧肺门淋巴结肿大,肺部弥漫性浸润改变等影像学特征[2-3]。曾有研究结果表明结节病是由环境、遗传、感染等诸多因素共同作用而引起的异常免疫反应,但其发病机制可能与CD4+T 细胞的激活,趋化因子驱动活化的T 细胞向肺部聚集有关[4]。陈凤芳等[5]研究表明固有免疫和适应性免疫系统都参与了结节病的发病过程,Ⅱ期结节病患者的血清中血管紧张素转化酶、白细胞介素2 受体(interleukin-2R,IL-2R)及肿瘤坏死因子α 等免疫相关的炎症因子相较于正常对照组均有升高。Miyata等[6]认为血清IL-2R 的浓度高低与经气管镜超声引导针吸活检术 (endobronchial ultrasound guided tranbronchial needle aspiration,EBUSTBNA)确诊的结节病分期密切相关,但研究样本量小,有待进一步确定。由于结节病所涉及到的免疫机制较多,且部分患者无典型的临床表现,个体病程也长短不一[7];同时,临床也缺乏可靠的分子诊断标志物,因此早期诊断出结节病变得十分困难,容易出现漏诊及误诊的现象。

近年来,随着生物信息分析学、转录组学、基因组学等多组学生物技术的发展,国内外已经建立了多个公共数据库如GEO,ICGC,TCGA 等,数据库中包含了疾病相关的临床标本资料、基因芯片表达、基因突变等信息[8]。同时,R 软件的开发为大数据的提取、分析和数据的具象化提供了开源的编程平台,现已经广泛运用于生物信息学分析[9]。本研究通过R 软件分析GEO 数据库中结节病相关的基因芯片数据,筛选结节病患者外周血与正常对照组外周血差异的核心基因,并加以实验验证,以期为结节病的诊断和治疗寻找新的靶标。

1 资料与方法

1.1 数据下载 通过GEO 数据下载结节病患者外周血的表达谱数据。GSE18781 数据集[10]基于GPL570平台,包括25例健康对照组外周血样本和12例结节病患者外周血样本;GSE34608 数据集[11]基于GPL6480平台,包括18 例健康对照组外周血样本和18例结节病患者外周血样本。

1.2 数据预处理及差异基因的鉴定 采用R 软件的affy包读取GSE18781和GSE34608两个数据集的原始数据,通过RMA 算法进行原始数据的校正和标准化处理。然后用Perl软件将GPL570 和GPL6480平台所对应的基因注释文件将前两个数据集中的探针矩阵进行注释,接着使用SVA 包去除批次效应后,将两个数据集进行合并。使用分位数-分位数图(Q-Q 图)展示去除批次效应后的效果,PCA 主成分分析图展示样本间校正效果。使用R 软件中limma包进行合并数据集的差异基因分析,以校正后P值<0.05,|log2FC|>1 作为阈值。而差异基因的热图则通过pheatmap 包绘制。

1.3 GO 和KEGG 通路富集分析 GO 包括细胞组 分 (cellcomponents, CC ) 分 子 功 能(molecularfunction, MF )、 生 物 学 过 程(biologicalprocess,BP)共3个方面。京都基因和基因组百科全书(KEGG)富集分析是从分子水平上分析生物系统高层次功能,多个信号通路均涵盖其中。为进一步分析差异基因的功能,对本研究中筛选出的差异基因采用R 软件中的clusterprofile包进行GO 富集分析和KEGG 通路富集分析,若P<0.05则表明该富集分析结果有统计学意义。

1.4 诊断生物标志物的筛选 利用LASSOlogistic回归和随机森林两种算法降维并筛选差异基因,两种算法所筛选出的基因取交集,将交集的基因作为结节病的分子诊断标志物,通过ROC 曲线对其诊断效能进行评价。利用glmnet包完成LASSO-logistic回归算法,使用10折交叉验证来确定最小λ值,当λ最小时,所对应的基因即被筛选出来。随机森林算法是机器学习的一种方法,本质是一种装袋集成算法 (bagging),该算法采取bagging抽样技术从原始训练集中进行抽样,然后对抽取样本构建多个相互独立的评估器,评估器会把每个差异基因作为一个变量,根据每个变量的权重生成一个变量重要性值 (variableimportance,VIMP),根据值的大小确定基因分辨结节病的重要性[12]。采用Random Forest包实施随机森林算法设定阈值VIMP>0.01的基因被筛选出来。两种算法筛选出的基因取交集。

1.5 诊断生物标志物的评估 ROC分析作为一种评价诊断准确度的常用方法,其特点是可把敏感度和特异度结合起来。本研究通过Medcalc软件绘制出ROC曲线以评估筛选出的基因的诊断效能,进而确定结节病的生物标志物。

1.6 生信分析结果的实验验证

1.6.1 标本来源 选取成都医学院第一附属医院2017年7月至2020年10月收治的肺结节病患者50例作为结节病组,50例肺结节病患者均无肺外结节,选取在同一时期进行体检的50例健康志愿者作为对照组,2组一般临床资料见表1。结节病组中肺结节病0期7例,Ⅰ期23例,Ⅱ期15例,Ⅲ期5例,将0期和Ⅰ期合并为A 组,将Ⅱ期与Ⅲ期合并为B 组,对照组为C 组。分别抽取3组人群的外周血2 ml,采样后的静脉血液离心后,取适量上清液置于-80 ℃冰箱保存,将所有患者的血清收集齐后一次性检测。本研究通过本院伦理委员会审批 (2021CYFYIRB-BA-14-01),所有患者及其家属均知情同意并签署知情同意书。

表1 2组一般资料比较

1.6.2 观察指标 采用双抗体夹心酶联免疫吸附测定 (enzyme-linked immunosorbent assay,ELISA)法检测病例组及对照组血清SPOCK2 水平。试剂盒采用上海酶联生物科技有限公司生产的,生产编号为TMl060212,并通过Medcalc软件通过绘制ROC曲线对SPOCK2基因诊断肺结节病的效能进行验证。

1.7 统计学分析 联合使用R 软件及Medcal软件进行统计学分析。正态分布的计量资料数据以±s表示。多组比较采用单因素方差分析,两两比较采用Bonferroni法,P<0.05为差异有统计学意义。

2 结果

2.1 数据预处理及差异基因的鉴定 GSE18781和GSE34608 2组数据集基于表达矩阵数据去除批次间差异后的效果如Q-Q 图所示 (图1),其结果表明样本分位数点的连线近似于一条直线,提示2组样本之间的批次差异已经去除。2组数据集合并且标准化之后以主成分分析图PCA 展现 (图2),结果显示2组数据集合并并标准化后样本聚类更加显著,表明样本来源可靠。数据预处理后,R 软件根据设定的阈值从合并的数据集中提取出了761个差异基因。差异基因的热图,见图3。

图1 GSE18781和GSE34608 2组数据集去除批次效应后的Q-Q 图

图2 PCA 聚类图,红色代表对照组血清样本,绿色代表结节病组血清样本

图3 差异基因表达的热图

2.2 功能和通路富集分析 GO 分析的结果表明,差异基因显著富集在T 细胞激活,淋巴细胞的激活,淋巴细胞的分化等生物学过程 (BP);细胞成分(CC)方面主要有免疫突触、特异性颗粒、远端轴突等;分子功能 (MF)方面主要有DNA 结合转录抑制因子的激活,GTP 酶的激活,核苷酸三磷酸调节器的激活等 (图4)。依据KEGG 通路富集分析结果得知,差异基因主要富集于T 细胞受体通路,原发性免疫缺陷,NF-κB,m TOR 等信号通路(图5)。

图4 GO 富集通路

图5 KEGG 通路富集图

2.3 诊断生物标志物的选择 当λ最小值为0.004时最优的模型构建成功,经LASSO-logistic回归算法筛选出15个可作为结节病的诊断标志物 (图6),它们分别为SPOCK2,ENGASE,SPOUT1,CLIC2,MAN1B1,HEMGN,P2RY14,PPDPF,CD274, CD8A, LRRN3, PEX6, BATF2,DOCK4,C1QA。随机森林算法提示当随机森林生成了200个不同的树时,随机森林构建的模型误差最小(图7A)。当树的个数等于200,构建模型生成每个基因的变量重要性的值 (图7B),结果显示变量重要性值>0.01的基因有SPOCK2,DND1,SRRT。两种算法取交集筛选出SPOCK2为最终的诊断生物标志物(图8)。

图6 LASSO 建模示意图 A:回归系数分布的剖面图;B:采用10折交叉验证选择最小λ值

图7 随机森林图 A:树数为200个时模型的误差;B:模型计算出的基因变量重要性值

图8 LASSO 回归模型和随机森林算法筛选出的基因

2.4 SPOCK2作为诊断结节病生物标志物的评估合并的芯片数据集中显示SPOCK2在对照组中表达量低于结节病组 (P<0.05),见图9A,ROC曲 线 提 示 AUC=0.985 (95%CI:0.924 ~1.000),特异度=0.9,敏感度=1,见图9B,说明SPOCK2有较强的识别结节病的能力。

图9 A 为SPOCK2 在GSE18781 和GSE34608 合 并 数 据集中对照组和结节病组表达的差异;B为SPOCK2诊断结节病的ROC曲线

2.5 实验验证生物信息分析结果 ELISA 检测显示,肺结节病A 组外周血SPOCK2 浓度为(3.24±0.18)μg/L,肺结节病B 组外周血SPOCK2浓度为 (5.03±0.12)μg/L,均明显低于健康对照组 (9.31±0.59)μg/L,差异有统计学意义(F=37.360,P<0.05),见图10 A,肺结节病A 组患者血清SPOCK2蛋白浓度明显低于B组(P<0.05)。对A 组肺结节病和B 组肺结节病分 别 绘 制ROC 曲 线 (A 组:AUC=0.836(95%CI:0.736~0.909)特异度=91.30%,敏感度=76.47%;B 组:AUC=0.681 (95%CI:0.567~0.780)特异度=79.55%,敏感度=55.56%),见图10B,10C,说明SPOCK2蛋白浓度对0~Ⅰ期肺结节病有较强的识别能力。

图10 A 肺结节病患者外周血中SPOCK2蛋白浓度测定结果,A 组为0-Ⅰ期,B组为Ⅱ~Ⅲ期,C组为对照组;10B为SPOCK2诊断0~Ⅰ期肺结节病的效能在临床样本中的验证结果;10C为SPOCK2诊断Ⅱ~Ⅲ期肺结节病的效能在临床样本中的验证结果。a P <0.05

3 讨论

近年来,随着临床医生对结节病认识的不断提高以及检查技术的不断更新,结节病逐渐受到研究者的重视[13]。结节病是一种复杂的免疫性疾病,其发病率在不同人群间有着明显差别,发病率较高的是非洲人群,主要受累器官为皮肤,而亚洲人群相对较低,但超过90%的结节病都会累及肺脏[14]。虽然部分肺结节病患者有一定的自愈趋势,但中青年人发病居多,个体差异较大,10%~30%患者病程可能转为慢性病程并出现肺功能进行性损害,终末期甚至可出现严重肺纤维化和呼吸衰竭[15-16]。结节病患者胸部CT 的典型表现为双侧肺门、纵隔淋巴结增大,密度均匀,边界清晰,呈土豆样;以及肺部浸润并多呈现网格状、结节状或者片状的阴影[17]。正电子发射断层 positron emission tomography,PET)/X 线计算机断层 (computer tomography,CT)组合系统可提示累及多器官的不典型结节病的病灶定位区域[18],但其价格昂贵;目前临床主要借助影像学改变和超声引导下经支气管 镜 针 吸 活 检 术 (transbronchial needle aspiration,TBNA)后的病理组织检查诊断肺结节病[19];但肺结节病的影像学改变也缺乏特异性,不典型的肺结节病与其他肺间质性肺疾病鉴别难度较大,而EBUS-TBNA 活检在基层医院难以开展,因此寻找肺结节病相关分子标志物,对于早期干预肺结节病具有重要的临床意义。

本研究采用生物信息学方法分析发现,在43例结节病和30例健康对照组外周血样本的基因表达谱之间存在显著的差异,这些表达上具有差异的基因参与了多种生物学过程和功能,如免疫反应、炎症反应、GTP酶的活性等。随机森林和LASSO回归两种算法筛选出核心基因为SPOCK2,ROC曲线提示AUC 值为0.985,提示SPOCK2具有一定的鉴别结节病的能力。为了进一步验证生物信息分析的结果,本研究收集了50例肺结节病患者和50例健康对照组外周血清样本进行实验验证,根据肺结节病分期不同进行分析,ELISA 结果显示0~Ⅰ期肺结节病患者及Ⅱ~Ⅲ期肺结节病患者外周血样本中的SPOCK2均低于健康对照组,且血清SPOCK2蛋白浓度对0~Ⅰ期肺结节病有较强的识别能力,与生物信息分析结果一致。上述现象提示SPOCK2可能在结节病的发病机制中发挥着保护作用。SPOCK2 也称之为或睾丸蛋白聚糖(testican-2),是骨黏连蛋白(osteonectin)家族的细胞外基质钙黏连蛋白,包含有硫酸软骨素和硫酸乙酰肝素两个侧链,编码424个氨基酸的糖蛋白,由信号肽、卵泡抑素样结构域、钙离子结合结构域、甲状腺球蛋白样结构域和两个黏多糖附着位点的C端区域组成[20]。SPOCK2最初是从人脑组织中的cDNA 文库中成功克隆出来的,随着研究的逐渐深入,SPOCK2 在肺、肾、前列腺、肾上腺及卵泡等组织中均可检测到,有研究发现SPOCK2与人乳腺癌、前列腺癌、结肠癌的发病也存在密切的相关性[21-22],说明SPOCK2 具有广泛的生物学功能。陈涛等[23]研究表明SPOCK2与基质金属蛋白酶16 (matrix metalloproteinase 16,MMP-16)存在着协同作用,共同促进肺泡和肺血管的形成,在肺的发育中发挥着重要作用,同时在高氧刺激时对肺组织起保护作用。Ahn等[24]研究表明过表达SPOCK2质粒转染的肺泡上皮细胞可有效阻止病毒附着和防止病毒进一步进入宿主细胞,其中唾液酸N-聚糖和硫酸乙酰肝素共价连接在SPOCK2核心蛋白上是抗病毒活性的关键。

因为流感病毒的神经氨酸酶作用于裂解SPOCK2的唾液酸化部分,从而SPOCK2阻止了病毒的进一步扩散。对一项关于结节病病因的研究指出,结节病的发生可能与人体长期暴露于微生物气溶胶环境中密切相关,这些微生物包括结核分枝杆菌、病毒、真菌等病原微生物。病原微生物的感染可能是结节病发展进程的启动因素,激活了结节病的免疫机制[25],这一现象与本研究生信分析所得出的结节病差异基因富集在多个免疫相关生物学功能的结果一致。由此推测,SPOCK2 的下调可以减弱肺泡上皮细胞对于病原微生物的抵抗能力,从而增加肺组织感染病原微生物的机会,导致了肺内异常免疫功能的激活,增加了患肺结节病的风险。随着病情的进展,免疫反应的增强,SPOCK2可能对肺泡上皮细胞抵御病原微生物的调控能力也逐渐增强,因此本研究中Ⅱ~Ⅲ期肺结节病患者血清SPOCK2的浓度高于0~Ⅰ期肺结节病,但具体机制需进一步实验证实。

本研究采用多种生物信息学及机器学习方法处理了基因芯片表达谱的数据并进行了分析,但仍有一些不足之处:(1)虽然合并了2个GEO 数据集的数据,但是因为结节病发病率相对较低,公共数据中可下载的芯片较少,可能对结果造成一定偏倚;(2)合并的两个GEO 数据集均只是笼统的说明标本来源于结节病,原始数据中未标明是具体哪个器官或者系统的结节病,而临床验证的标本均采用肺结节病,不同部位的结节病的可能有所差异;(3)肺结核与肺结节病是临床需要鉴别的病理表现为肉芽肿性疾病的两种主要疾病,本课题组因实验条件的限制,未收集到肺结核及纵隔淋巴结结核患者血清样本,无法分析SPOCK2在肺结核和肺结节病中的差异,因此本研究的结论还需要进一步进行完善和探讨。

综上所述,本研究通过合并两个GEO 数据集的基因芯片表达谱,采用多种生物信息学分析方法筛选及临床验证得到的结节病差异基因SPOCK2,可作为鉴别肺结节病的分子标志物,为肺结节病的发病机制和靶向治疗提供一定的理论基础。

利益冲突 所有作者均声明不存在利益冲突

猜你喜欢
结节病差异基因外周血
18F-FDG PET/CT在结节病诊断中的应用价值
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
以胸腔积液为首发表现的胸膜肺结节病一例报告及文献复习
结节病合并隐球菌病的研究进展
紫檀芪处理对酿酒酵母基因组表达变化的影响
皮下结节型结节病1例
白血病外周血体外诊断技术及产品
结肠炎小鼠外周血和结肠上皮组织中Gal-9的表达
慢性荨麻疹患者外周血IL-17和IL-23的表达及临床意义
SSH技术在丝状真菌功能基因筛选中的应用