罗立才
(高州市人民医院,广东 高州 525200)
近年来乙型肝炎病毒(HBV)感染在发展中国家逐年激增,已受到各国政府重视。随着近年来积极推广扩大乙型肝炎(以下简称乙肝)疫苗接种计划的实施,乙肝发病率已有所下降。但据统计,我国仍有约1亿人受到肝病影响,主要是HBV[1]。调查显示[2],慢性HBV感染占病毒相关肝癌(HCC)病例的80%,与未感染人群相比,HBV感染者罹患HCC的风险比普通人群高15~20 倍。在基因层面,研究HBV相关HCC发生的关键途径并寻找能够防治HCC的潜在靶标迫在眉睫。近年来基因芯片技术在生命科学中日益受到重视,研究成果亦层出不穷。基因芯片数据库的频繁更新为我们研究HBV在个体基因表达差异提供强大的研究基础。本研究主要通过基因芯片公共数据库(GEO)获取基因芯片数据,应用多种生物数据库筛选HBV感染肝细胞的差异表达基因,分析这些基因在预测肝癌预后中的作用,为临床医师评估HCC患者预后提供重要理论依据。
本研究分析的乙型病毒性肝炎相关基因表达数据芯片从美国国立生物技术信息中心GEO数据库中下载,编号GSE118295。实验平台为GPL570,Affymetrix Human Genome U133 Plus 2.0 Array,该数据包含6 例样本,其中HBV感染阴性原代肝细胞3 例,HBV感染阳性原代肝细胞3 例。
1.2.1 评估基因芯片质量
登录GEO数据库,下载编号GSE118295基因数据。本研究利用Rx64 3.6.1软件对芯片质量进行绘图分析。
1.2.2 数据处理及差异基因分析
将原始数据导入R软件并调用RMA法进行标准化处理,计算基因表达量;确定数据的Gene symbol,对数据信息用K最近邻(KNN)分类算法填充缺失值;启动R软件调用R语言LIMMA包对数据信息进行分析,通过Bayes检验统计方法得到差异基因。差异基因筛选标准:LogFC(fold change)>1,adj.P.Val<0.05。差异基因数据用R软件绘图进行展示。
1.2.3 差异基因的生物学分析
运用注释、可视化和集成发现(DAVID)数据库进行富集分析,导入差异基因后选择功能注释、细胞组分、分子功能、生物途径、KEGG通路进行分析。
1.2.4 差异基因编码蛋白的相互作用分析
蛋白质相互作用网络(PPI network)主要应用于研究疾病分子的相互作用机制。目前字符串(STRING)数据库是世界上最大的蛋白质数据库,常用作研究蛋白互作关系。本次研究通过STRING数据库(https://string-db.org/cgi/input.pl)分析、预测蛋白互作关系,筛选条件为minimum required interaction score>0.9,Cytoscape筛选PPI网络排前10名的核心差异表达基因。
1.2.5 验证差异基因及生存分析
登录基因表达谱数据动态分析数据库-GEPIA(Gene Expression Profiling Interactive Analysis,http://gepia.cancer-pku.cn/),键入筛选出10 个关键节点基因,验证其在人体的正常组织及肝癌组织的差异表达,最后进行生存分析,筛选可预测HCC预后的靶标基因。
控制基因芯片的质量有利于保存数据的真实性和完整性,对后续分析非常重要。本研究芯片质量控制由R软件实施,主要通过绘制相对标准差图(NUSE)、RNA降解图判定。结果显示芯片质量可靠,数据的标准差接近,NUSE值在1附近(见图1)。此外,在实验过程中如发生RNA降解,则定量结果不可控,数据误差较大。本次研究绘制的RNA降解图(RNA degradation plot)显示RNA未见明显降解(见图2)。
图1 相对标准差图(NUSE)
图2 RNA降解图
经R软件处理原始数据,对比正常肝细胞组及感染HBV肝细胞组。本次研究得到1 041 个差异基因,其中表达上调323 个,表达下调718 个,对差异基因进行聚类分析(见图3,图4)。
图3 差异表达基因热图
adj.P.Val为校正后P值,LogFC为两组间表达量的比值,对其取以2为底的对数值。根据LogFC(fold change)>1,adj.P.Val<0.05对差异表达基因进行分类
经DAVID数据库行基因本体(GO)富集分析显示差异基因主要分布。第一,细胞组分:细胞外间隙、胞外区、胞外外泌体;第二,生物途径:环氧化酶P450通路;第三,分子功能:受体结合(见图5)。京都基因和基因组百科全书(KEGG)通路分析显示,差异基因主要参与补体及凝血级联反应、糖酵解/糖异生、视黄醇代谢、过氧化物酶体增殖物激活受体(PPAR)信号通路、碳代谢、代谢途径、初级胆汁酸生物合成、癌症中的蛋白聚糖、胆汁分泌等信号通路(见图6)。
extracellular space为细胞外间隙,extracellular region为胞外区,extracellular exosome为胞外外泌体,epoxygenase P450 pathway为P450通路,receptor binding为受体结合
图6 KEGG通路分析
通过STRING数据库对1 041 个差异基因进行蛋白质相互作用网络分析(见图7)。Cytoscape软complement and cogulation cascades为补体和凝血级联,Glycolysis/Gluconeogenesis为糖酵解/糖异生,Retinol metabolism为视黄醇代谢,PPAR signaling pathway为PPAR信号通路,Carbon metabolism为碳代谢,Biosynthesis of antibiotics为生物合成的抗生素,Metabolic pathways为代谢途径,Primary bile acid biosynthesis为初级胆汁酸生物合成,Proteoglycans in cancer为癌症中的蛋白聚糖,Bile secretion为胆汁分泌件筛选蛋白互作网络结果中排前10名的核心基因见图8,分别为激肽原1(KNG1)、α-2-HS-糖蛋白(AHSG)、凝血因子ⅴ(F5)、转铁蛋白(TF)、趋化因子C-X-C基序配体1(CXCL1)、载脂蛋白A2(APOA2)、表皮生长因子(EGF)、载脂蛋白E(APOE)、肌糖蛋白C(TNC)、多功能蛋白聚糖(VCAN)。
图7 STRING数据库对1 041 个差异基因进行蛋白质相互作用网络分析图
图8 蛋白互作网络分析结果中筛选排前10 名的核心基因
登录GEPIA数据库键入10 个核心差异基因,分析结果显示该10个核心基因在消化道肿瘤中表达量存在差异(见图9),其中APOA2在肝癌表达最高。通过快速单基因搜索,结果显示APOA2,APOE,KNG1,AHSG,F5和TF在肝脏肿瘤中高表达,CXCL1在食道、结肠肿瘤中高表达,EGF在肾脏肿瘤中高表达,TNC在脑肿瘤中高表达,VCAN在脑、胰腺肿瘤中高表达。选取在肝脏肿瘤中高表达的6 个关键基因进行表达量分析(见图10)。生存分析结果显示:KNG1高表达与肝癌预后密切相关,表现为高表达组5 年生存率更优(见图11)。
LIHC为肝细胞肝癌,CHOL为胆管癌,COAD为结肠癌,EACA为食管癌,PAAD为胰腺癌,READ为直肠癌,STAD为胃癌
X轴:T-肿瘤,N-正常组织;Y轴:基因表达量,参数:[log2(TPM+1)]
蓝实线:低表达KNG1组;蓝虚线:低表达组95%置信区间;红实线:高表达KNG1组;红虚线:高表达组95%置信区间。TPM:每百万条reads的转录本;Logrank p: logrank检验;HR:风险比;P(HR):HR的检验P值
患者感染HBV后主要风险为肝纤维化、肝硬化,随着疾病进展,肝代偿功能失调,最终引发HCC。目前临床已对HCC的致病机制取得了一定共识,认为病毒复制本身并不直接产生细胞毒性,而宿主免疫系统对感染肝细胞的炎症反应是最终导致免疫介导肝脏损害的关键。亚太地区经扩大HBV疫苗接种措施,已有效降低了肝癌发病率,但仍约有1 亿人受到肝病影响。HBV感染仍是导致亚太地区慢性肝损伤和HCC的主要因素[3]。面对极为庞大的患病基数,我国每年乙肝病毒相关肝癌患者死亡案例仍居高不下,给患病家庭带来沉重的经济、心理负担,因此从基因层面寻找靶标对于防治HCC显得尤为重要。
基因芯片于20世纪80年代中期上市,其测序原理是通过与一组已知序列的核酸探针杂交进行核酸序列测定以获得一组完全互补的探针序列,据此可重组出靶核酸序列,目前在生命科学领域应用广泛。生物信息学则从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。近年来不断有科研人员利用基因芯片公共数据库(GEO)、生物信息数据库(DAVID)、基因表达谱数据动态分析数据库(GEPIA)、蛋白质互作数据库(STRING)等生命科学的顶尖数据库发表了一些高质量的研究成果[4-7]。
本次研究共得到1 041 个差异基因,其中表达上调323个,表达下调718个,GO富集分析显示差异基因主要分布于细胞外间隙、胞外区、胞外外泌体等细胞组分,而生物途径则与环氧化酶P450通路相关,在分子功能上影响受体结合。环氧化酶P450通路在肝癌中出现基因富集现象,这与Ding等[8]研究的在肝癌患者中环氧化酶P450显著下调结果一致。在外泌体领域,有研究人员报道[9]肿瘤细胞可分泌外泌体与邻近或远处的细胞产生通讯,从而促进肿瘤的进展和转移。KEGG通路分析显示本次研究的差异基因涉及多种信号通路,其中初级胆汁酸生物合成在肝癌中的作用已在肠道菌群介导的胆汁酸代谢通过NKT细胞调控肝癌的研究中得到证实[10]。PPARγ信号通路在肝脏疾病中的作用则研究得较为深入,研究显示上调PPARγ通路可防治肝纤维化[11]。
蛋白互作网络分析显示KNG1和APOA2等在肝癌高表达。有学者[12-13]通过蛋白质组学和免疫组织化学将KNG1鉴定为大肠癌早期阶段的潜在标志物。目前KNG1的研究主要集中于结直肠癌、胶质细胞瘤[14]、慢性阻塞性肺疾病[15]、静脉血栓形成[16]、血管性水肿[17]、增生性玻璃体视网膜病变[18]等疾病,也有报道在慢性丙型肝炎病毒伴发肝癌患者中KNG1升高[19-20],但目前KNG1是否能作为一个预测肝癌预后的基因靶标鲜有报道。因此我们决定利用GEPIA数据库对此进行探索,设定LogrankP<0.05为排除抽样误差的标准,分析结果显示HCC患者KNG1高表达组在5 年生存率对比中更占优势,提示KNG1具有预测HCC预后的潜力。
本研究利用生物信息学技术探索感染乙肝病毒肝细胞差异表达基因在预测肝癌预后中的作用,结果显示KNG1有望成为指导预测HCC患者预后的基因靶标,但由于GEPIA数据库中没有对HCC进行细分,因此无法直接分析KNG1在乙肝相关肝癌这一特定病种中的作用,进一步利用生物信息学技术在不同病因HCC中的作用机制将会为临床提供更准确的早期诊治及预后分析依据。