欧阳锦,罗 亭,余石群,黄邵鑫,汪 鑫
(1.南昌大学江西省预防医学重点实验室,南昌 330006;2.九江学院基础医学院精准预防医学实验室,江西 九江 332000)
肺癌是癌症相关死亡的主要原因,在全球范围内发病率呈上升趋势[1]。其症状多出现较晚,确诊时已处病变的晚期,发现于晚期的非小细胞肺癌患者的5年生存率平均只有14%,而接受治疗的I期患者的5年生存率可达83%[2]。因此,提高肺癌早期诊断率是改善肺癌患者预后的重要方法。基于TNM分期,目前非小细胞肺癌患者的5年生存率估计在IA期的73%到Ⅳ期的13%之间[3]。TNM分期仍然是临床肺癌复发率和生存率的预测依据,但目前对肺癌患者的确诊和病变范围(国际TNM分类/分期)的判断仍必须通过活检来确认[4]。影像学结果在肺癌临床分期的准确分类上存在潜在的缺陷和局限性[5],如CT影像用于肺结节的检测虽具有一定的价值,然而很难准确判断肺结节的性质[6]。近来,采用免疫组织化学、突变图谱和微阵列方式对肿瘤个体进行分析已应用于肿瘤临床分期领域[7]。例如,癌胚抗原、神经元特异性烯醇化酶等分子标志物已被应用于临床检测,然而其灵敏度和特异度有限[8],很少应用于肺癌早期诊断中。
基因表达数据库(gene expression omnibus,GEO)是来自高通量微阵列实验基因表达数据的公共存储库[9]。借助该数据库,利用生物信息学工具挖掘肿瘤的分子标志物,可缩短对肿瘤标志物的研究时间,节约研究成本。基于CT扫描的附加诊断标志物的开发证实可用于肺癌分期预测[6]。在临床环境中,评估选定的潜在基因表达可使临床医生能够根据每个人的遗传物特征在影像结节大小的基础上做出更准确的分期诊断,并在总体存活率、进展时间和治疗反应方面显著改善治疗效果[10]。本研究从GEO中筛选2个肺癌相关芯片数据集,通过分析建立一个基于影像分析结果(肺结节最大直径≤3 cm)的基因研究网络,筛选确定与肺癌诊断密切相关的基因,建立诊断模型和预测列线图。
以“肺癌”“TNM”为关键词进行检索,从GEO(http://www.ncbi.nlm.nih.gov/geo/)数据库下载肺癌队列的基因表达谱和CT信息。以GSE13213数据为训练队列,从肺癌患者中纳入54例小结节(T1期,最大直径≤3cm)患者;以GSE43580数据为验证队列,共入选38例小结节(T1期,最大直径≤3 cm)肺癌患者。按其分期分为2组:早期(Ⅰ期)组和中晚期(Ⅱ、Ⅲ和Ⅳ期)组[11]。预测模型构建流程见图1。
图1 诊断预测模型分析流程图
1.2.1 肺癌分期的差异表达基因分析
以|log2FC|>1和P<0.05为筛选标准,用R4.0.3软件中的LIMMA软件包进行肺癌分期的差异表达基因分析。使用在线工具ClustVis(https://biit.cs.ut.ee/clustvis/)绘制热图和火山图。将获得的差异表达基因分别导入在线软件draw Venn diagrams(http://bioinformatics.psb.ugent.be/webtools/Venn/),获得2个队列取交集后的重叠差异(共差异)基因及韦恩图。
利用Metascape对训练队列中差异表达的基因进行GO(Gene Ontology)与KEGG(Kyoto Encyclopedia of Gene and Genome)功能分析。GO分析为涵盖分子和细胞生物学众多领域的基因注释提供了结构化和受控的词汇表和分类[12]。利用String数据库对差异表达的基因构建蛋白质-蛋白质相互作用网络,在Cytoscape软件中可视化。
1.2.2 肺癌分期的预测基因筛选及分析
在共差异基因的基础上,利用R软件进行基因分析、分类预测和比较,并筛选区分早、中晚期肺癌的预测基因。利用受试者工作特征曲线(ROC)分析这些预测基因的诊断价值。
差异表达基因分析结果显示,54例训练队列和38例验证队列分别获得161个和437个与肺癌分期相关的差异表达基因。训练队列中,与中晚期组比较,早期组107个基因表达上调和54个基因表达下调。基因表达的热图见图2A。验证队列中,与中晚期组比较,早期组193个基因表达上调,244个基因表达下调。基因表达的热图见图2B。在2队列中,2组的基因表达模式不同。基因表达的火山图,见图2C和图2D。韦恩图比较2个队列的基因差异表达,发现有7个重叠(共)差异表达基因。见图2E。
训练队列中161个差异表达基因进行GO功能注释的结果显示,这些基因的功能分为3类即生物过程(图3A)、分子功能(图3B)和细胞成分(图3C)。在这3个类别中,差异表达基因主要富集的条目分别是“含胶原蛋白的细胞外基质”“受体调节活性”和“腺体发育”。
A:训练队列热图;B:验证队列热图;图2 基因差异表达分析
C:训练队列火山图;D:验证队列火山图;E:韦恩图(左为高表达;右为低表达)。
训练队列的差异基因进行KEGG富集分析发现,所有差异表达基因主要富集于4类通路即谷胱甘肽代谢、补体和凝血级联、造血细胞谱系和胆汁分泌(图3D)。“癌症通路”是谷胱甘肽代谢中最大的一组,其次是“谷胱甘肽代谢”和“肝细胞癌”。
A:GO富集:生物过程;B:GO富集:分子功能;C:GO富集:细胞成分;D:KEGG富集。图3 训练队列差异表达基因的功能富集结果
蛋白质-蛋白质相互作用网络分析结果显示了重要的模块,其中度值表示节点的大小。这些包括了在模块中识别的所有重要的蛋白质。该模块由141条边定义,涉及82个节点。SOX2、CCND1、AR、CD19、BMP2、WNT3a、NR0B2、C8A、CD38、FGG、ITIH2、HPGDS和POU2AF1是连接最高的节点。蛋白质-蛋白质相互作用网络分析见图4。
图4 蛋白质-蛋白质相互作用网络分析模型图
单因素Logistic回归分析结果显示,在训练队列2组的7个共差异表达基因中,尽管基因SLC16A14和LHX2在训练队列2组间存在差异,但在2个队列中的表达模式不同,故其在该研究中不具价值;年龄、性别2组中亦无显著差异(均P>0.05);基因ZNF257表达与肺癌的病理分期相关,训练队列(OR=2.26;95%CI:1.29~3.96)、验证队列(OR=1.44、95%CI:0.99~2.10)。基因SOX2、KCNJ16和GSTA1的表达与肺癌分期呈负相关。见表1。
表1 基线资料及单因素Logistic回归分析
基于4个基因(SOX2,KCNJ16,GSTA1和ZNF257)建立的全模型线性回归方程在训练和验证队列中分别为AUC=-5.225 02-0.725 56×SOX2-0.231 60×KCNJ16-0.550 36×GSTA1+1.400 61×ZNF257和AUC=3.450 09-0.398 41×SOX2-0.379 06×KCNJ16-0.038 51×GSTA1+0.350 74×ZNF257。ROC分析结果显示,训练队列中全模型的灵敏度为83.3%,特异度为92.9%,AUC值为0.917;在验证队列中全模型的灵敏度为85.7%,特异度为87.5%,AUC为0.836。见表2。
表2 肺癌病理分期风险值预测
进一步研究构建了一个包含4个基因的诊断列线图(图5)。如图所示,基于LOG转化后的ZNF257、SOX2、KCNJ16和GSTA1基因表达值位于每个变量轴上。例如,在小结节肺癌患者中,如果SOX2基因表达值为-3,则可以从SOX2轴到点条画一条向上的垂直线,以获得45分。其他指标也可以这样操作,假设GSTA1表达值为-4时的得分为50分,KCNJ16表达值为-1时的得分为15分,ZNF257表达值为2时的得分为70分,即总分为180分(45分+50分+15分+70分)。最后,小结节肺癌中晚期的风险约为90%。
图5 预测肺小结节患者中晚期风险列线图
肿瘤分子标志物的确定在肺癌早期诊断中具有重要意义。前期研究[13]发现,多种肿瘤基因(P53、NY-ESO-1、Survivin、c-myc、Cyclin B1、GBU4-5、CAGE、P16、SOX2和HUD)的自身抗体在肿瘤诊断中表现出很好的特异性,但其敏感性均较差。此外,EarlyCDT®-Lung测试[14]检测了7种肿瘤相关自身抗体即P53、NY-ESO-1、CAGE、GBU4-5、HUD、MAGEA4和SOX2,发现其特异性达90%但仅识别47%的肺癌。虽然,自身抗体的组合可提高诊断的敏感性,但又会影响其特异性。因此,有必要开发具有更高的敏感性和特异性的肺癌早期诊断方法。
本研究的诊断模型预测是基于GEO数据库中的CT诊断结果(结节直径≤3 cm),筛选确定与肺癌诊断密切相关的基因。在纳入的小结节肺癌患者中,通过Logistic回归分析和多变量分析,获得由4个差异表达的基因(ZNF257、SOX2、KCNJ16和GSTA1)组成的可用于诊断的预测模型。该模型的特异度和灵敏度分别为92.9%、83.8%,其模型预测的灵敏度明显高于传统的肿瘤标志物[15]。而且纳入的基因数量少,易于操作。本研究结果还显示,ZNF257表达上调和SOX2、KCNJ16、GSTA1表达下调均与肺癌恶性程度增加有关。细胞因子SOX2调控着细胞的自我更新和分化[16]。GSTA1可能是肺癌早期诊断和治疗的靶分子[17]。已有研究[18]证实KCNJ16表达下调与多种肿瘤的发生有关,但其在肿瘤进展中的复杂调控机制仍有待探讨。其余的基因ZNF257尚未被报道与癌症有关,还需要进一步研究它们的生物学功能[19]。值得注意的是,通路富集分析表明,包括GSTA1在内的3个下调的基因与药物代谢-细胞色素P450通路、肿瘤发生和化学致癌通路密切相关[20]。此外,本研究基于这4个基因绘制了一个便于临床使用、准确度高的诊断列线图,该图可预测CT筛查到的小结节肺癌患者的恶性风险。然而,该诊断模型的确切的诊断价值和稳定性,仍需在临床患者中进一步验证。
综上所述,本研究基于GEO数据库结合CT影像结果获得了由4个差异表达基因组成的诊断模型及诊断预测列线图,而且该诊断模型具有较好的特异度和灵敏度,诊断预测列线图也具有预测CT筛查到的小结节肺癌,提示其在小结节肺癌的早期诊断中具有一定的潜在价值。