杨惠敏,何斐,胡志坚
近年来,以二代测序技术为代表的高通量测序技术快速发展,基因组、转录组及表观遗传组组学数据应运而生。在肺癌研究中,高通量测序技术应用于各个方面,特别是治疗药物和靶点及预后判断等,并且出现了新的研究热点。
疾病的产生是一个持续的多步骤连锁事件,单组学数据难以全面解释疾病的发生过程。当前全基因组检测技术已可以检测到基因组、转录组和表观基因组等多个层面的数据。虽然每一种组学技术都能够准确、全面地揭示一个单向水平上的大量信息,但这种简化方法无法评估多个分子层之间的交叉,缺乏解决分子标记和癌症特征表型之间的偶然关系的能力,并且单一组学并不能解释一生中疾病风险的变化。生命过程中基因组层间的互补效应和协同作用只有通过对多个分子层的综合研究才能得到。通过它们之间线性或非线性关系等可以将三者联系到一起,进而使多组学数据的整合分析成为可能[1]。关联三个层面组学数据的整合分析可以有效去除单个层面的随机事件,并观察到真正的候选疾病候选因子在各个层面的不同变化,从而探究这些候选疾病因子的作用机制,找到最有效的治疗措施[2]。多组学联合分析已广泛应用于各疾病邻域,在肺癌中也有研究,以DNA或基因分子水平作为基础的多组学研究尤为重要,因此本文就肺癌的基因组、转录组及表观基因组等基于基因水平组学的联合研究进展作简要综述,其主要的生物标志物见表1。
基因表达是一个复杂的多因素调控过程。顺式作用元件本身不能编码蛋白质,对基因表达调控起作用的是外部的转录因子和表观遗传修饰等反式调控元件[25]。因此,基因表达数据和表观基因组数据的整合有助于了解信号通路活性、转录因子和基因组靶标之间的作用关系,对探索疾病发生发展至关重要。
DNA甲基化在基因的转录和转录后调控、微小RNA(microRNA,miRNA)基因表达调控和长链非编码RNA(long non-coding RNA,lncRNA)的转录后调控中发挥着关键作用。DNA异常甲基化是一种表观遗传改变,基因启动子区的异常甲基化是抑癌基因及其他基因失活的最常见机制之一[26]。尽管分析单个基因的DNA甲基化可能是选择性治疗的关键,但是不覆盖整个基因组的分析具有局限性。Kwon等[3]首次结合全基因组甲基化谱和基因表达谱来识别肺鳞癌中受DNA甲基化调控的基因。Selamat等[4]整合DNA甲基化和mRNA表达数据,分析结果表明吸烟者与从不吸烟者肺腺癌DNA甲基化谱的比较显示差异不大,仅发现LGALS4在吸烟者中显著高甲基化而表达下调。Yin等[27]侧重了肺鳞癌和肺腺癌的差异甲基化位点和差异甲基化基因,结果显示不同的肺癌病理类型具有不同的甲基化状态,特异性差异甲基化发生的表达水平也存在显著性差异。
某些条件下,miRNA可以正向调节基因表达,但其内在机制尚未阐明。Ma等[5]基于非小细胞肺癌的癌-癌旁成对样本的miRNA-mRNA表达谱,构建了miRNA-mRNA相互作用网络,249个mRNA中有105个被miR-1207-5p、miR-1228和miR-939下调。HDAC4、MED1、SPN和ST8SIA2在肺癌中受多个miRNA的调控,说明多个miRNA的联合作用可能在肺癌中发挥重要作用。Yang等[6]研究表明,基于mRNA和miRNA的整合分析可为非小细胞肺癌的发生和发展提供更多潜在的分子标志物。Zhang等[7]则利用差异表达的mRNA和靶向miRNA分别构建小细胞肺癌和非小细胞肺癌的miRNA-mRNA网络,结果显示,miR-16和miR-124可能分别是小细胞肺癌和非小细胞肺癌新的诊断和预后标志物。
表1 基因组、转录组及表观基因组联合分析的主要生物标志物Table 1 Major biomarkers of integrative analysis of genome,transcriptome and epigenome
LncRNA是非编码RNA的一种类型,在表观遗传学调控、细胞周期调控和细胞分化调控等生命活动中发挥重要作用。研究发现lncRNA在多种肿瘤中异常表达,且表达失调的lncRNA可作为肿瘤促进或抑制因子[28]。Wang等[8]检测了16对肺鳞癌组织及正常组织的全基因组lncRNA和mRNA表达水平并利用定量反转录-聚合酶链反应(qRT-PCR)在47例患者中验证lncRNA表达水平,共有2 748个上调探针和852个下调探针在肿瘤组织中差异表达显著。亚组分析发现,46个和18个lncRNA探针分别在吸烟和中分化肿瘤中特异性差异表达。Chen等[9]则从GEO下载人类肺癌mRNA和lncRNA表达谱数据,进行差异表达分析。结果显示,差异表达的lncRNA靶基因几乎包含所有来自mRNA的差异表达基因,并且这些失调的lncRNA在功能富集方面表现出更全面的损害。
CircRNA不易被核酸外切酶RNase降解,且具有高度保守性和组织、时序、疾病特异性,从而有望成为潜在的肿瘤诊断标志物和治疗靶点[29]。目前circRNA的研究尚处于起步阶段,对其功能和机制尚不明确。circRNA主要作为竞争性内源RNA(ceRNA)在细胞中起到miRNA海绵的作用[30],进而解除miRNA对其靶基因的抑制作用,升高靶基因的表达水平调控mRNA。Cheng等[10]通过上海生物技术公司人ceRNA阵列分析,阐明了肺鳞癌circRNA和mRNA的共表达谱,发现circTP63显著上调FOXM1。通过miRanda预测发现circTP63竞争性结合miR-873-3p,进而消除miR-873-3p对靶基因FOXM1的内源性抑制作用。
虽然DNA甲基化和miRNA可分别调控基因的表达,但也有研究表明DNA甲基化和miRNA可相互调控、互为靶向作用,并进一步影响其靶基因的表达,从而促进肿瘤细胞形成。miRNAs的5’调节区的DNA高甲基化是肿瘤中miRNAs表达沉默的机制之一[31]。因此,肿瘤中miRNAs的异常甲基化调控可能是肿瘤成因的新机制之一,这意味着miRNAs启动子区的甲基化对于肿瘤的发生发展和预后同样具有重要作用。Yang等[32]利用TCGA对肺腺癌的DNA甲基化及mRNA和miRNA的表达数据进行多组学分析,得出PAK1、FGFR2与肺腺癌患者的生存有关。有研究[12]利用miR-seq发现miR-224在非小细胞肺癌(NSCLC)组织中显著上调,进一步研究发现启动子低甲基化可激活ERK信号通路参与调控miR-224在NSCLC中的表达。
Feng等[13]对12对非小细胞肺癌的癌和癌旁组织进行了lncRNA、mRNA表达和DNA甲基化的全基因组分析,表明LOC146880在NSCLC中可能发挥致癌转录本的作用。TRANSFAC预测发现转录因子SP1能结合到LOC146880启动子区,通过转录调控影响其表达。该研究同时将表观遗传和转录关联起来,更全面地理解lncRNA在非小细胞肺癌中的作用。Feng等[14]也做过类似分析,识别了非小细胞肺癌中与lncRNA/mRNA表达相关的差异甲基化(DM)位点,评价了非小细胞肺癌中DNA甲基化和基因表达以及编码和非编码基因之间的同步变化。
研究发现,某些lncRNA、circRNA和premRNA均可发挥microRNA海绵作用[33]。miRNA与lncRNA之间既可以直接相互作用,也可以通过其他分子(特别是蛋白质或蛋白质复合物)间接影响肿瘤的发生和发展,揭示miRNA和lncRNA相互作用在肿瘤发生中的作用可以为肿瘤的诊断和治疗提供新思路。Wang等[34]通过TCGA数据库分析非小细胞肺癌的癌组织及正常组织间差异表达的miRNA、lncRNA、mRNA,构建ceRNA调控网络,部分基因可能成为治疗NSCLC患者的新靶点,但研究主要方法是生物信息学技术,网络和功能还需要进一步的验证。通过全基因组范围分析,识别潜在的功能性circRNA-miRNA-mRNA调控网络,在肝癌[35]、非酒精性脂肪肝[36]等疾病中已见研究,但是三者全基因组范围的调控网络分析在肺癌中尚未见报道。Jin等[15]对肺癌病例和健康对照组的血液样本进行RNA测序,检测了miRNA、circRNA和mRNA以及lncRNA,采用通路富集分析建立以miRNA为目标的内源性竞争网络,筛选重要节点进行生物信息学预测,构建了转录因子调控网络。因此,lncRNA/circRNA-miRNAm RNA网络的发现可能会使我们对癌症的病因、转移机制以及潜在的治疗靶点有更全面的认识。但多分子水平联合,调控网络复杂,仍需进一步研究。
基因组水平的改变在于DNA序列的变化,而表观基因组水平的改变不涉及DNA序列的变化,这两个数据的整合基础在于两者互为因果关系。
目前,遗传畸变与表观遗传改变二者的结合机制尚不清楚;然而,基因损伤与甲基化模式的改变之间似乎既有直接作用,也有间接作用[37]。因此,将遗传和表观遗传变异联系起来的图谱可能被用来识别新的临床病理标志物,用于各种癌症的诊断和治疗。Son等[16]分别比较基因组杂交技术(array comparative genomic hybridization,aCGH)和甲基化芯片分析的20对非小细胞肺癌患者癌和非癌组织样本全基因组范围内的异常DNA拷贝数和甲基化情况。研究发现,HOXA9同时具有高甲基化和DNA拷贝数异常,在癌组织中呈现低表达,并且定量反转录-聚合酶链反应(qRTPCR)、甲基化抑制剂 5-氮杂脱氧胞苷(DAC)实验及pCMV-ACHOXA9转染实验的结果均与该发现一致,提示HOXA9可能是肺癌发病机制和诊断的潜在候选基因。
单核苷酸多态性(single-nucleotide polymorphisms,SNPs)可以改变miRNA的性质,从而影响个体对癌症的易感性。miRNA基因中的SNP被认为通过以下三种方式影响其功能:通过初级转录本的转录或通过pri-miRNA和pre-miRNA处理或通过对miRNA-mRNA相互作用的影响[17]。Chin等[18]发现了第一个miRNA结合位点SNP,它可以单独预测中度吸烟史人群中NSCLC风险的显著增加。Pu等[19]的研究进一步表明了miRNA相关多态性可能通过改变靶基因的miRNA调节与NSCLC患者的临床结果相关。另有研究分析miRNA基因多态性与肺癌遗传易感性及预后的关联[20]。lncRNA的SNPs与肺癌遗传易感性及预后关联研究也有报道[38]。
转录组测序得到的差异基因表达谱广泛用于疾病遗传基础研究。但是单独使用转录组测序会遇到很大困难,源于许多差异表达基因在人群中的个体差异,这些基因和疾病并没有直接联系。通过整合基因组和转录组数据为复杂疾病研究提供了一个新策略。
多水平分子谱的综合分析可以区分出在癌症易感性和转移中基于单一数据无法揭示的相互作用。DNA拷贝数变异(CNVs)是指肿瘤组织中经常观察到的染色体片段的拷贝数变化。研究表明,CNV可能与某些基因表达水平的变化有关[8,11-39]。据估计,CNVs在基因表达可遗传变异中所占的比例大于15%[40]。虽然单独使用基因表达改变已被证明是临床诊断和预测的一种精确和可行的工具[41],但并不一定能揭示分子功能参与癌症机制。Iranmanesh等[21]通过对CNV和与预后相关的全基因组mRNA表达的整合分析构建的CNV/mRNA调控网络为肺癌预后中潜在的CNV调控转录机制提供了重要的依据。
在蛋白质编码区域上的突变会引起氨基酸序列的改变和基因表达改变。但有研究表明,非蛋白质编码区域的SNP重要性不亚于编码突变[42]。Sereewattanawoot等[22]利用肺腺癌细胞株进行多组学测序,在被认为具有启动子或增强子功能的区域也检测到许多体细胞SNP。利用结合位点分析法(ChIP-Seq)和RNA测序,分析调控区突变位点及其靶转录本的突变体和参考等位基因频率有无差异。结果发现,137个潜在的调控区突变影响了146个RefSeq转录本的转录调控,至少有84个SNV破坏了潜在的转录因子结合位点。
三个组学数据涉及到多个层面的生物学过程,涉及大量复杂的生物调控网络还需大量的后续研究。Bjaanæs等[23]综合分析突变、甲基化和mRNA的相关数据,确定了一个基于DNA甲基化水平的预后指标,可以将患者分为预后良好或较差的组,为了解癌症在基因组、表观基因组和转录水平上发生的异常,Suzuki等[24]进行的肺癌综合多组学分析的数据集为基因组、转录组和表观基因组畸变之间相互作用的生物学解释提供有价值的基础。
通过整合多种类型的组学数据以及异质性的生物学网络,能够帮助我们全面地认识肺癌发生发展各阶段分子水平的改变,为治疗药物和靶点及预后判断等提供新思路。然而目前仍存在局限性:第一,实验和技术方面,对于相同类型的组学分析,通常可以使用多个技术平台,例如,不同制造商的微阵列和测序平台被用于转录组和表观基因组关联研究,它们通常具有不同的基因组区域和特征;第二,生物样本方面,组织和细胞类型特异性导致了多组研究中组织和细胞类型的选择和组织的异质性的问题;第三,寻找多组学之间的关联,对数据整合分析方法的研究还需要进一步研究;第四,多组学之间相互联系、相互调控的机制复杂,尚待研究。综上,整合分析多组学高通量测序数据筛选疾病靶点,在科学理论和技术操作的层面都需要更加系统深入的研究。