黄世芳,陈埏芳,施 颖,钟 绿,汤绍辉△
(暨南大学附属第一医院 1重症医学科,2消化科,广东广州510630)
结直肠癌(colorectal cancer,CRC)是消化系统常见的恶性肿瘤之一,全世界CRC发病率呈明显上升趋势[1]。尽管CRC的治疗取得一定进展,但中晚期CRC患者5年生存率仍不乐观[2-3]。CRC的发生发展与遗传因素、环境因素以及它们之间的相互作用密切相关,而原癌基因激活、肿瘤抑制基因失活和细胞信号通路功能异常被认为是CRC发生的重要机制[4-5],但其详细分子机制尚未完全明确。
癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库是美国国家癌症研究所(National Cancer Institute,NCI)和美国国家人类基因组研究所(National Human Genome Research Institute,NHGRI)于2006年共同开发的研究项目,旨在采用高通量基因组测序技术对肿瘤标本进行全基因组分析,包括差异表达基因、单核苷酸多态性、拷贝数变异、长链非编码RNA、甲基化数据等,从而在分子水平上挖掘出与肿瘤发生发展、预后相关的基因变异及信号通路[6-9]。高通量测序技术将有助于寻找新的CRC分子治疗靶点及CRC早期诊断和预后监测的分子标志物,这对改善CRC患者预后具有重要意义。
本研究通过对TCGA数据库中大样本CRC组织基因表达谱RNA测序(RNA sequencing,RNA-Seq)数据进行生物信息学分析,挖掘与CRC预后密切相关的新基因,对筛选出的新基因进行验证和功能研究,为临床上CRC诊治提供参考资料。
1.1 数据来源 将纳入TCGA数据库中的410例CRC样本和30例CRC癌旁组织样本分别用编号进行区分。这些样本有完整的mRNA高通量测序结果,且有相应的临床病理学信息资料。基因表达数据级别为level 3。官方授权可以公开发表利用TCGA数据库的分析研究结果。
1.2 组织标本 22例CRC及配对的癌旁组织[男14例,女8例,年龄(61.1±10.5)岁;右半结肠7例,左半结肠6例,直肠9例;中分化腺癌21例,黏液腺癌1例]收集于暨南大学附属第一医院胃肠外科2018年5~9月住院的CRC患者手术切除标本,诊断均经病理组织学检测证实。组织标本收集后立即放入超低温冰箱保存备用。本研究由暨南大学附属第一医院医学伦理委员会批准。
1.3 细胞株 人结肠癌细胞株SW480、HT29、SW620和HCT116,人正常结肠上皮细胞株HCoEpiC,人胚肾细胞株293T,均购于ATCC。
2.1 生物信息学数据处理
2.1.1 CRC基因表达数据的获取 TCGA访问主页为https://cancergenome.nih.gov/。进入数据下载页面,癌症类型为colorectal cancer,选择TCGA-COAD、Transcriptome Profiling、Gene Expression Quantification和HTSeq-Counts类型数据,进入数据获取页面。RNA的表达数据为level 3级别,同时勾选Metadata和Manitest文件,利用GDC Data Transfer Tool下载所需数据。
2.1.2 差异表达基因的筛选及聚类分析 利用R语言R 3.3.1进行数据分析,筛选差异表达基因。设定差异基因的筛选阈值:Padj<0.05,|log2(fold change)|>1。其意义为:mRNA在肿瘤组织与正常组织表达有差异的校正后P值<0.05,改变倍数>2。同时采用heatmap包对差异表达基因进行聚类分析。
2.1.3 差异表达基因的生存分析 使用R-survival包对富集于生物学过程中的差异表达基因进行生存分析并绘制生存曲线图。首先对基因的表达量按中位数进行分组,表达量高于中位数的为高表达组[CCDC78(coiled-coil domain containing 78)高表达组、PGGHG高表达组和TSPEAR高表达组],表达量低于中位数的为低表达组(CCDC78低表达组、PGGHG低表达组和TSPEAR低表达组)。将差异基因表达量数据和生存数据整合在一起,采用Kaplan-Meier法计算生存时间及累积生存率,结合log-rank检验比较生存率的差异,过滤条件为P<0.01。
2.2 RT-qPCR实验 取1×106个培养细胞,加入1 mL TRIzol,吹打混匀使细胞充分裂解;人体组织标本(10~20 mg)加入液氮充分研磨呈粉末,加入1 mL TRIzol,收取细胞裂解产物。按照说明书提取RNA,测定RNA浓度,逆转录RNA成cDNA后进行RT-qPCR检测。采用2-ΔΔCt法计算目的基因表达量。引物通过Primer 5软件设计,由苏州金唯智公司合成。CCDC78的上游引物序列为5'-CAAGGAGCTGGTCGACATT-3',下游引物序列为5'-AGCCGAAGGATCTCACTCT-3';PGGHG的上游引物序列为5'-CTTGACTCTGGGCAGCTTTA-3',下游引物序列为5'-CTCAAATCCCTCTCCTGTTCTC-3';TSPEAR的上游引物序列为5'-GAGCGATCCTCAGAGAGTTTAC-3',下游引物序列为5'-GAGCTGAAGGTGAACAGACA-3';GAPDH的上游引物序列为5'-GGAGTCAACGGATTTGGTCGT-3',下游引物序列为5'-GCTTCCCGTTCTCAGCCTTGA-3'。
2.3CCDC78siRNA(siCCDC78)的筛选 检索GenBank中人 CCDC78的 mRNA序列(NM_001031737.2),按照siRNA设计原则,设计CCDC78_001、CCDC78_002和CCDC78_003共3对siRNA,另设计1对无任何靶基因的阴性对照siRNA(negative control siRNA,NC siRNA)作为阴性对照,均委托苏州金唯智公司合成,序列见表1。培养SW480细胞至汇合度为30%~50%,按照Lipofectamine™RNAiMAX转染试剂说明书转染siRNA。用RT-qPCR法检测siRNA的干扰效率,引物同前,每个样本同时扩增3个复管,并连续进行3次实验。
表1 CCDC78 siRNA候选序列Table 1.Candidate sequences of CCDC78 siRNA
2.4 pLVX-shRNA2-Puro-shCCDC78慢病毒载体的构建 (1)筛选得到的高效沉默CCDC78基因的siRNA为CCDC78_001(序列见表 1),相应的CCDC78基因靶序列为5'-CCT ACA TGA GCA GCA TGA GGC-3'。(2)设计CCDC78_001的shRNA序列:上游为5'-GAT CCG CCT ACA TGA GCA GCA TGA GGC CTC GAG GCC TCA TGC TGC TCA TGT AGG TTT TTT G-3',下游为 5'-AAT TCA AAA AAC CTA CAT GAG CAG CAT GAG GCC TCG AGG CCT CAT GCT GCT CAT GTA GGC G-3'。克隆载体pLVX-shRNA2-Puro的酶切位点为BamH I+EcoR I。(3)双链CCDC78_001的制备:将表达CCDC78_001的上游序列和下游序列等体积混合后,煮沸5 min,自然冷却至室温。取pLVX-shRNA2-Puro载体行BamH I与EcoR I双酶切,酶切产物与双链CCDC78_001连接,构建成pLVX-shRNA2-Puro-shCCDC78慢病毒载体。挑取酶切鉴定正确的阳性克隆进行测序验证,测序引物为U6-F(5'-TAC GAT ACA AGG CTG TTA GAG AG-3')。
2.5 慢病毒包装及滴度测定 将含有目的基因的慢病毒载体pLVX-shRNA2-Puro-shCCDC78及其阴性对照载体pLVX-shRNA2-Puro分别用293T细胞进行慢病毒包装,产生高滴度慢病毒,分别称为rLV-shRNA2-Puro-shCCDC78及其阴性对照rLV-shRNA2-Puro慢病毒。主要过程如下:将重组慢病毒载体及两种辅助包装质粒(pHelper 1.0及pHelper 2.0载体)采用脂质体法共转染293T细胞;转染后8 h更换为完全培养液,培养48 h后,收集富含慢病毒颗粒的细胞上清液,对其浓缩后得到高滴度的慢病毒浓缩液,在293T细胞中测定并标定病毒滴度,取最佳病毒滴度做后续实验。
2.6 慢病毒感染SW480和HT29结肠癌细胞株 感染前24 h,取对数生长期的SW480和HT29细胞按每孔2×105接种于24孔板,置于37℃、5%CO2培养箱内培养。24 h后,细胞密度达40%~50%时,加入慢病毒及合适浓度的polybrene。实验分为shCCDC78组(感染rLV-shRNA2-Puro-shCCDC78的SW480和HT29细胞)及shNC组(感染rLV-shRNA2-Puro的SW480和HT29细胞)。每组设3个复孔。感染12 h后弃上清液,更换为新鲜的完全培养液,72 h后在倒置荧光显微镜下观察绿色荧光蛋白表达情况,挑选荧光强度大的阳性克隆孔逐级扩大培养,即可得到沉默CCDC78表达的稳定细胞株,用于后续实验。
2.7 稳转细胞株CCDC78 mRNA表达的检测 培养shCCDC78组和shNC组SW480细胞,48 h后收集细胞,按TRIzol试剂盒说明抽提细胞总RNA,逆转录成cDNA并进行实时荧光定量PCR,检测CCDC78的mRNA表达,引物同前。
2.8 CCK-8法检测细胞活力 常规培养shCCDC78组和shNC组SW480和HT29细胞,取生长状态良好的2组细胞以每孔7×104接种于96孔板,37℃、5%CO2培养箱常规孵育过夜,收集各个时点(24、48和72 h)的细胞,在避光条件下每孔加入10 μL CCK-8溶液,将培养板放到培养箱内孵育1 h,然后将96孔板中的培养液移至酶标板中;酶标仪检测450 nm处的吸光度(A)。
2.9 Transwell实验检测细胞迁移与侵袭 迁移实验主要步骤如下:培养上述2组细胞48 h后,细胞计数并调整细胞密度,使每种细胞的密度为3×108/L;取细胞悬液100 μL加入Transwell小室,即每孔3×104个细胞,下室加入600 μL完全培养液;在37℃、5%CO2孵育24 h后,取出小室,弃去培养液,用棉签擦去上室未迁移的细胞,4%多聚甲醛固定20 min,0.1%结晶紫染色10 min,PBS洗涤3次并晾干,显微镜下观察6个视野细胞并拍照计数。对于细胞侵袭实验,首先用Matrigel包被Transwell小室底部膜的上室面,置于37℃孵育30 min使Matrigel聚合成凝胶,使用前进行基底膜水化,其余步骤同迁移实验。
使用SPSS 23.0统计软件,实验数据以均数±标准差(mean±SD)表示,两组间差异采用Student'st检验,多组间差异采用单因素方差分析,生存分析采用Kaplan-Meier法,以P<0.05为差异有统计学意义。采用GraghPad Prism 7作图。
从TCGA数据库中下载410例CRC组织样本和30例癌旁组织样本的RNA-Seq数据,使用DESeq2包进行差异基因筛选,筛选出在CRC与癌旁组织之间有显著差异表达的基因数目为4 017个,其中表达上调的基因有1 653个,表达下调的基因有2 364个,见图1。Kaplan-Meier生存分析结果显示,有69个基因与CRC患者预后差密切相关(P<0.01),其中表达上调的基因有36个。这36个基因中有11个目前尚未在肿瘤研究中被报道,分别是ELFN1-AS1、CCDC78、PGGHG、AGAP3、DPP7、ADAMTSL2、TSPEAR、PCED1A、RNU6-403P、GABRD和BICDL1,见表2。其中RNU6-403P是一个假基因,而ELFN1-AS1是一个lncRNA[10]。因此,我们选择其中表达上调倍数前3位的基因CCDC78、PGGHG和TSPEAR做进一步研究。生存分析结果显示,这3个基因高表达与患者生存期缩短显著相关,见图2。
Figure 1.Volcanic map of differentially expressed genes between colorectal cancer tissues and adjacent tissues.Padj:adjusted probability.Red dots represent significantly up-regulated genes,green dots represent significantly down-regulated genes,and black dots represent genes with insignificantly differential expression.图1 结直肠癌组织与癌旁组织间差异表达基因的火山图
表2 11个尚未在肿瘤研究中报道的表达上调基因Table 2.Eleven up-regulated genes not yet reported in cancer studies
RT-qPCR结果显示,与正常结肠上皮细胞株HCoEpiC相比,3个上调基因(CCDC78、PGGHG和TSPEAR)的mRNA表达水平在人结肠癌细胞株中显著上调(P<0.01),见图3,其上调趋势与TCGA数据库中的RNAseq数据一致。于是,我们选择表达上调倍数最大的CCDC78基因做进一步研究。
Figure 2.Kaplan-Meier curves for overall survival time of the colorectal cancer patients with different CCDC78(A),PGGHG(B)and TSPEAR(C)expression levels.图2 CCDC78、PGGHG和TSPEAR基因表达水平与结直肠癌患者预后的关系
Figure 3.Relative mRNA expression levels of CCDC7,PGGHG and TSPEAR in colon cancer cell lines(HCT116,SW620,SW480 and HT29)and normal colon epithelial cells(HCoEpiC)detected by RT-qPCR.Mean±SD.n=3.**P<0.01 vs HCoEpiC.图3 结肠癌细胞和正常结肠上皮细胞中CCDC78、PGGHG和TSPEAR mRNA的表达水平
RT-qPCR结果显示,CCDC78 mRNA在CRC组织中的表达水平显著高于配对癌旁组织(P<0.01),见图4。
4.1 siCCDC78筛选结果 RT-qPCR结果显示,转染CCDC78_001、CCDC78_002及CCDC78_003这 3对siRNA的SW480细胞中CCDC78 mRNA表达量均有不同程度的降低,其中100 nmol/L的CCDC78_001抑制效率最高,达69%(表3),因此将此siRNA用于后续研究。
4.2 pLVX-shRNA2-Puro-shCCDC78慢病毒载体构建及其慢病毒包装结果 将载体及两种病毒包装辅助质粒共转染293T细胞,转染后48 h,在荧光显微镜下观察细胞的转染效率,显示几乎所有293T细胞均发出较亮的绿色荧光,采用倍比稀释法检测病毒滴度为1.0×1011TU/L。
4.3 稳转细胞株CCDC78 mRNA表达水平 与shNC组相比,稳定沉默CCDC78表达的shCCDC78组SW480细胞中CCDC78 mRNA的表达水平显著降低(P<0.01),见图5。
Figure 4.Relative CCDC78 mRNA expression level in colorectal cancer tissues and matched adjacent tissues was detected by RT-qPCR.Mean±SD.n=22.**P<0.01 vs adjacent.图4 结直肠癌组织和配对癌旁组织中CCDC78 mRNA的表达水平
表3 CCDC78 siRNA的筛选结果Table 3.Results of CCDC78 siRNA screening
4.4 沉默CCDC78对结肠癌细胞活力、迁移与侵袭的影响 与shNC组相比,shCCDC78组结肠癌细胞活力显著降低,迁移和侵袭细胞数均显著减少(P<0.01),见图6~8。这说明稳定沉默CCDC78表达可显著抑制结肠癌细胞活力、迁移和侵袭。
Figure 5.Relative CCDC78 mRNA expression level in SW480 cells with stable silencing of CCDC78 was detected by RT-qPCR.Mean±SD.n=3.**P<0.01 vs shNC group.图5 稳转细胞株中CCDC78 mRNA的表达水平
TCGA数据库包含了海量的基因测序信息,包括基因组、蛋白质组、转录组、表观组和临床资料等相关数据[11-12]。利用生物信息学分析工具,从中探寻肿瘤差异性表达基因,分析其与疾病的临床相关性,可为恶性肿瘤生物标志物和药物靶标的筛选提供重要线索。Hou等[13]利用TCGA中的379例CRC患者的基因表达数据,通过共表达分析、基因互作网分析、生存分析等综合分析方法确定了潜在的与CRC预后相关的因素,包括9个DNA甲基化位点、6个miRNA及11个mRNA;Yang等[14]利用TCGA数据库交叉验证了 miR-15b、miR-215、miR-145、miR-192、let-7g等miRNA与CRC患者总体生存的相关性,显示let-7g可以作为预测CRC患者预后的因子之一;Yang等[15]利用TCGA数据库,经相关分析发现SLC17A9可能在CRC的进展中发挥重要作用,并可能作为CRC预后评估的独立生物标志物。
本研究利用TCGA数据库中410例CRC样本的RNA-Seq数据,采用生物信息学数据处理方法,鉴定了69个与CRC患者预后差密切相关的基因,其中CCDC78是CRC患者显著高表达的基因之一,CCDC78高表达与CRC患者生存期缩短显著相关(P=0.002 07),目前在人类肿瘤研究中尚未见报道。由于TCGA数据库中肿瘤标本数据主要来自美国患者,我们采用RT-qPCR技术检测结肠癌细胞株(4个细胞株)及中国人CRC标本(n=22)中CCDC78 mRNA的表达水平,结果显示,结肠癌细胞株和CRC标本中CCDC78的表达也显著上调,与TCGA数据库中的RNA-Seq数据一致,进一步表明CCDC78基因异常表达参与CRC的发生发展。
Figure 6.CCDC78 gene silencing significantly inhibited the viability of SW480 and HT29 colon cancer cells.The cell viability was detected by CCK-8 assay.Mean±SD.n=3.**P<0.01 vs shNC group.图6 沉默CCDC78表达显著抑制SW480和HT29结肠癌细胞的活力
Figure 7.CCDC78 gene silencing significantly inhibited the migration ability of SW480 and HT29 colon cancer cells.The migration ability was detected by Transwell assay.Mean±SD.n=3.**P<0.01 vs shNC group.图7 沉默CCDC78表达显著抑制SW480和HT29结肠癌细胞的迁移能力
Figure 8.CCDC78 gene silencing significantly inhibited the invasion ability of SW480 and HT29 colon cancer cells.The invasion ability was detected by Transwell assay.Mean±SD.n=3.**P<0.01 vs shNC group.图8 沉默CCDC78表达显著抑制SW480和HT29结肠癌细胞的侵袭能力
CCDC78基因定位于16p13.3,是一个蛋白编码基因,包含12个外显子。CCDC78在肺、脾、脑、淋巴结、胃、大肠、小肠等24种人类组织中表达,其中在肺和脾高表达,在淋巴结、胃、大肠和小肠中等表达,在食管、肝脏和胰腺表达水平很低。CCDC78 mRNA(NM_001031737)长度为1 611 bp,CCDC78蛋白含有438个氨基酸。检索国内外相关文献显示,CCDC78基因可能参与肌肉功能调节,其突变是导致先天性肌病的遗传学病因之一[16],未见CCDC78基因表达异常与人类肿瘤及其它疾病相关的报道,其详细生理功能也尚不明确。CCDC78是一个新发现的基因,相关研究很少,在实验设计时,我们未能找到与CCDC78蛋白完全匹配的商业化抗体,因此在本研究中未能进行蛋白表达方面的实验,有待今后进一步研究。
为了进一步探讨CCDC78基因异常表达在CRC发生中的作用,我们采用RNA干扰技术,观察敲减CCDC78基因表达对结肠癌细胞株功能的影响。结果显示,稳定沉默CCDC78表达可显著抑制SW480和HT29结肠癌细胞株的活力、迁移和侵袭。结合前述来自TCGA数据库CRC标本的生物信息学分析数据,这些结果提示CCDC78可能是一个新的与CRC预后差相关的癌基因,抑制CCDC78表达有望成为CRC分子靶向治疗的潜在新靶点。据我们所知,本研究是第一个有关CCDC78基因异常高表达与人类肿瘤(CRC)发生发展密切相关的报道。