基于RNA-Seq的子宫内膜癌灶与癌旁组织差异表达基因分析

2022-05-12 02:20杨冰琪王竞州庞槐袁成钢张君王翠喆
关键词:差异基因测序通路

杨冰琪,王竞州,庞槐,袁成钢,张君,王翠喆

(石河子大学医学院/新疆地方病与民族高发病教育部重点实验室,新疆 石河子 832000)

子宫内膜癌(Endometrial Cancer,EC)是发生于子宫内膜上皮,最常见的女性生殖道恶性肿瘤。我国癌症中心2019年最新统计数据显示,EC在我国女性生殖系统恶性肿瘤中发病率居第二位,死亡率居第一位[1]。欧美等国最新数据亦显示,EC在女性生殖系统恶性肿瘤中发病率居第三位[2]。因EC在早期无明显症状,且检查手段多为有创性,不易普及,发现时多为中晚期,且预后较差[3]。

EC可分为I型和II型,肥胖是 Ⅰ 型子宫内膜癌发生的高危因素。在2012年,全球有大约 31% 的子宫内膜癌病例与超重相关。一组结合了七项前瞻性研究的数据显示:在18至25岁期间,BMI每增加5个单位,Ⅰ 型子宫内膜癌的相对危险就增加42%[4]。大量的临床资料表明,围绝经期女性体重增加与EC发生的风险呈正相关,且与预后不良密切相关[5]。然而,肥胖导致EC发生发展的具体分子机制,目前尚不十分明确。因此,寻找肥胖相关I型EC发生发展的潜在分子机制,将为I型EC的早期诊断、治疗及改善预后提供新的思路和理论依据。

转录组测序(RNA sequencing, RNA-Seq)技术可用于分析差异表达基因,因其技术成熟和成本较低,近年来在肿瘤领域广泛应用。本研究旨在运用RNA-seq技术筛选受试个体EC癌灶及癌旁组织中的差异表达基因,并运用生物信息学技术进一步对筛选出的差异基因进行功能和通路富集分析。将为进一步探索Ⅰ 型EC发生发展的相关作用机制提供理论依据,同时为寻找EC的新型治疗靶标奠定基础。

1 资料与方法

1.1 临床样本来源及收纳标准

4例受试个体的一般资料、生化指标、EC癌灶及癌旁组织于2019年收集自石河子市石河子大学第一附属医院妇科。收纳标注:住院部未接收治疗且经EC根治手术的子宫内膜组织及血液样本,新鲜组织样本经-80 ℃处理保存,所选样本均有对应切缘,且所选样本临床资料收集整理完整并获得患者及家属知情同意。本研究方案通过了石河子大学医学院第一附属医院伦理委员会的审查,并批准实施(批准编号:2019-011-01)。

1.2 构建文库与测序

基于真核生物的mRNA和部分长链非编码RNA(lncRNA)的3’端具有poly A尾结构,通过poly A尾抓取RNA。使用VAHTS Universal V6 RNA-seq Library Prep Kit制备文库。步骤如下:约1ug的起始量总RNA进行去rRNA处理,通过RNA片段化和逆转录反应将RNA反转为合适大小的cDNA。经第二条链合成和末端修复(包括5’末端磷酸化和3’末端加A),两端加测序接头完成文库制备。接着对total RNA文库进行扩增及磁珠纯化,使用Agilent 4200生物分析仪检测文库质量,并且通过Qubit 2.0荧光光度计和qPCR绝对定量反应检测文库浓度,然后在Illumina HiSeq XTen 平台上进行2x150bp双端测序。

1.3 测序数据分析

双端测序得到原始吸测序数据(Raw Data)后,使用trimmomatic软件对数据进行过滤,接下来进行去接头序列以及低质量reads处理,再使用STAR、bowtie2等软件比对序列并评估测序质量,从而获得高质量数据(Clean Data),并将Clean Data与参考基因组进行比对,得到BAM文件。对于检测到的 mRNA,进一步使用htseq-count软件剔除比对质量低于10的reads,并计算mRNA表达count矩阵。过滤掉在多数样本中不表达的基因,并进行标准化。随后对EC癌灶及癌旁组织进行基因表达量计算。

1.4 筛选差异表达基因

基于预处理的表达矩阵分析样品间差异表达基因,通过edge R、DESeq2等软件分析,并以P<0.05且| log2(FC)|>1作为条件筛选。

1.5 分析差异表达基因通路富集分析

通过cluster Profiler软件对差异表达基因进行Gene Ontology(GO)功能富集分析和Kyoto Encyclopedia of Genes and Genomes (KEGG)通路富集分析。

2 结果

2.1 受试个体一般资料及生化指标

4例受试个体一般资料及生化指标分析结果显示:所有受试个体均为超重及肥胖个体(BMI>24),结果见表1。

表1 受试个体一般资料及生化指标

2.2 组织样本数据处理和质控结果

原始count数据存在不同文库测序深度造成的差异,此外不同基因在样本中的表达也存在异常值,为了使数据之间具有可比性,我们对数据进行标准化。对获取的count数据以counts per million(CPM)值过滤,去除在大多数样本中不表达的基因(CPM<1的样本数>0.5*样本数)。采用基于负二项分布的DESeq2软件包对过滤后的计数数据进行标准化处理,校正后各样本基因表达值中位数基本在同一水平。本实验共8个样本,样本信息如表2所示。图1展示了样本原始read count值和经过标准化后read count值的箱线图及密度图,箱线图中经过滤及标准化的基因表达值中位数在同一水平,相比过滤与标准化之前有明显的差异。密度图展示了样本的表达情况,图中各样本的表达峰值在同一水平,不同组之间具有可比性,符合后续分析条件。

表2 样本信息

图1 基因表达箱线密度图

经counts值层面的标准化,我们采用主成分分析方法评估样本间关系。主成分分析是从一组地位相同的众多变量抽象出互不相关的主成分,每一个主成分代表一个侧面,少数几个主成分就包含了原始变量的大部分信息。我们以主成分分析方法评估样本间关系,以及评估原始数据的中的极端值。如图2所示,图中组间具有一定的差异性,组内有较好的一致性,且未见异常样本,说明从样本采集到获取测序数据全流程是可靠的,可重复的,可用于后续分析。

图2 主成分分析图

2.3 基因表达差异分析

我们使用R软件DESeq2包比较癌灶和癌旁组织间的基因表达水平差异。以P<0.05且|log2(FC)|>1作为条件,共筛选出2 451个差异表达基因,包含1 697个在EC癌灶组织中上调的基因和754个下调的基因(图3)。

图3 EC癌灶与癌旁组织RNA-seq结果分析

2.4 差异基因GO功能富集分析

通过对差异表达基因做GO功能注释,进一步挖掘了各个基因所代表的生物学意义。此次分析中,我们将GO系统分为生物学过程(biological process, BP)、分子功能(molecular functions, MF)、细胞组分(cellular components, CC)。GO功能分析结果显示,上调基因主要富集于26个条目:细胞-细胞粘附调节、有丝分裂核分裂、有丝分裂姐妹染色单体分离、白血球细胞-细胞粘附、有丝分裂中期/后期过渡细胞循环、T细胞活化的正向调节、染色体分离的调节、T细胞活化的调控、调节淋巴细胞激活、微管、内质网伴侣复合物、脱氧核糖核酸包装复合体、细胞-细胞连接、核小体、细胞顶端部分、中间体、细胞皮质、细胞皮层部分、微管结合、错误折叠蛋白结合、蛋白质折叠中的蛋白质结合等(图4A、B);下调基因主要富集于29个条目:肌肉系统进程、细胞-底物粘附、细胞外基质组织、多细胞生物信号转导、整合素介导的信号通路、细胞基板结、灶性粘连、肌丝、含胶原的细胞外基质、肌纤维膜、钙通道复合体、运输复合体、肝素结合、糖胺聚糖结合、肌动蛋白结合、钙离子跨膜转运蛋白活性、细胞外基质结构成分、离子通道活性等(图4C、D)。以上结果提示:EC的发生发展与细胞间粘附调节、有丝分裂进程、错误蛋白折叠结合等一系列生物学进程密切相关。

A, B:上调的差异基因;C, D:下调的差异基因。图4 GO功能富集分析

2.5 差异基因KEGG功能富集分析

为进一步明确上述差异表达基因所存在的关键信号通路,我们对差异表达基因集进行KEGG数据库的生物通路富集分析,结果显示,上调基因KEGG功能富集主要在以下15条通路:系统性红斑狼疮、中性粒细胞细胞外陷阱形成、病毒致癌作用、细胞周期、Hippo信号通路、B细胞受体信号通路、细胞凋亡、轴突导向、p53信号通路、细胞粘附分子等(图5A、B);下调基因KEGG功能富集主要在以下15条通路:致心律失常性右心室心肌病、肥厚型心肌病、扩张型心肌病、细胞外基质受体相互作用、灶性粘连、促性腺激素释放激素分泌、钙信号通路、昼夜夹带、心肌收缩、糖尿病并发症中的AGE-RAGE信号通路、蛋白质消化和吸收等(图5C、D)。以上结果提示:EC的发生发展与病毒致癌、细胞周期、Hippo信号通路、细胞凋亡、p53信号通路等密切相关。

A-B:上调的差异基因;C-D:下调的差异基因。图5 KEGG功能富集分析

3 讨论

EC作为女性三大恶性肿瘤之一,常见于围绝经期妇女,常伴有肥胖、糖尿病及高血压等代谢性病症[6]。与多数肿瘤相同,EC的治疗手段以手术治疗为主,以激素治疗与放化疗等治疗手段为辅,但效果欠佳[7]。近年来,随着新型靶向药物的出现,精准治疗与个体化治疗方案已成为治疗EC的新方向。已有研究表明,多种因素共同作用可导致EC的多阶段致病过程,其中可能与多种基因的异常表达密切相关[8]。

本研究通过使用RNA-Seq技术筛选EC癌灶与癌旁组织中的差异表达基因后发现,EC癌灶与癌旁组织之间存在2 451个差异表达基因,包含1 697个上调基因和754个下调基因(P<0.05且|log2(FC)|>1)。随后对以上基因进行GO功能富集分析和KEGG通路富集分析,结果提示:差异基因主要与细胞间粘附调节、有丝分裂进程、错误蛋白折叠结合等一系列生物学进程密切相关,并富集在病毒致癌、细胞周期、Hippo信号通路、细胞凋亡、p53等信号通路。

已有研究指出,Hippo信号通路可影响多种癌症的发展进程,Hippo通路下游的核心因子,在雌激素相关的EC中高表达,其核内表达水平与肿瘤浸润、分期分型、复发转移密切相关[9-10]。p53作为一种常见的抑癌基因,可修复细胞内DNA损伤,调节细胞周期,调控转录基因,导致细胞凋亡或衰老,从而抑制多种细胞癌变[11]。已有研究报道,p53突变后,CN-H型EC模型更易复发和远处转移[12-13]。本研究进一步证实:Hippo信号通路、p53信号通路在EC中的关键性,提示上述信号通路可能是EC预防与治疗的重要靶标之一。

本研究亦发现,中性粒细胞胞外诱捕网(Neutrophil extracellular traps, NETs)和病毒致癌相关通路高富集于EC癌灶组织中,且这两条通路富集到的差异表达基因多为组蛋白簇。已有研究表明:多种肿瘤的病理切片中均有大量NETs,而肿瘤相关中性粒细胞和细胞外染色质积累可形成NETs,以促进癌症发生[14-15]。此外,HMGB1和组蛋白通过 TLR4/9信号通路促进 NETs 生成[16-18],发挥促进肿瘤生长并诱导结肠癌转移病灶形成[19],但目前尚未有文献提出NETs信号通路在EC发生发展中的具体作用。因此,NETs信号通路有望成为预防与治疗EC的新靶点。

综上,本研究基于RNA-seq技术分析比较了EC癌灶及癌旁组织中的差异表达基因,发现EC的发生发展与多条通路密切相关,其中Hippo信号通路、p53信号通路和NETs信号通路可能在Ⅰ 型EC发生发展过程中发挥重要作用。本研究将为进一步探索EC发生发展的提供理论依据,同时为寻找治疗 Ⅰ 型EC的新型药物作用靶点提供新的思路和方向。

猜你喜欢
差异基因测序通路
两种高通量测序平台应用于不同SARS-CoV-2变异株的对比研究
小檗碱治疗非酒精性脂肪肝病相关通路的研究进展
Wnt/β-catenin信号转导通路在瘢痕疙瘩形成中的作用机制研究
生物测序走在前
外显子组测序助力产前诊断胎儿骨骼发育不良
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
基因测序技术研究进展
紫檀芪处理对酿酒酵母基因组表达变化的影响
SphK/S1P信号通路与肾脏炎症研究进展
通路快建林翰:对重模式应有再认识