基于生物信息学筛选WT关键基因

2022-11-01 04:54杨思洁李保红
云南医药 2022年5期
关键词:差异基因癌症蛋白质

杨思洁,李保红,周 竹

(昆明医科大学第一附属 肾脏内科 云南省慢性肾病临床医学研究中心,云南 昆明 650032)

肾母细胞瘤(Wilms tumor,WT)是儿童最常见的肾癌,占儿童癌症的6~7%[1]。WT在西方国家的患病率约为7~10/100万,而中国的患病率仅为3.3/100万,近95%的病例诊断年龄在10岁以下,平均诊断年龄为43~48个月,WT在西方国家的生存率已达90%以上,而复发患者的生存率则低得多,但是幸存者可能患有慢性严重健康问题,越来越多的证据支持遗传变异对WT发病的贡献,定位于染色体11p13的WT1基因于1990年首次被发现为WT的抑癌基因,随后在WT中发现WTX、CTNNB1、TP53的突变以及11p15甲基化的异常,除此之外,许多其他的新基因突变也被发现与WT发生有关[2]。而目前基于基因水平研究WT的文章少之又少,因此本研究认为从基因水平出发研究此疾病将会是一种途径。生物信息学,分子生物学和信息技术的结合,已成为理解癌症的分子机制和信号通路的重要工具。生物信息学技术的发展和生物标记物的鉴定使得在癌症的诊断和治疗方面取得了巨大的进步,基因表达谱技术,包括RNA测序和微阵列技术,已经被用来揭示癌症相对于癌旁非癌组织的分子差异[3]。微阵列技术提供了从硬件到软件的一体化系统生物学解决方案。它可以同时扫描芯片中数万个基因探针的杂交信号,并对样本的转录组谱进行定量分析[4]。GEO(Gene Expression Omnibus)是生物信息学领域中最具代表性的数据库,从GEO数据库中进行分子水平的数据挖掘可以帮助发现肿瘤标志物,用于临床诊断或治疗。

1 资料与方法

1.1 数据与来源

GEO数据库是一个储存芯片、二代测序以及其他高通量测序数据的一个数据库,从GEO数据库中下载基因表达数据集GSE167054,该数据集包括6个非癌组织样本和10个WT组织样本,由“Zhuo Liu”于2021年2月18日提交。

1.2 数据预处理与差异基因的筛选

GEO2R是GEO数据库自带的在线分析工具。GEO2R提供了一个简单的界面,允许用户执行复杂的基于r的GEO数据分析,以帮助识别和可视化差异基因表达[5]。利用geo2r对WT组织样本和非癌组织样本中的表达基因进行差异分析并制作火山图。下载geo2r分析后的数据,设置adj.p.Val<0.05, logFC>2为截取值筛选出差异基因。

1.3 基因本体论(Gene Ontology,GO)分析和信号通路(Pathway)分析

DAVID(The Database for Annotation,Visualization and Integrated Discovery)是一个可通过网络访问的程序,它将功能基因组注释与直观的图形摘要集成在一起[6]。GO从3个方面描述生物学领域:分子功能(Molecular function,MF)、细胞组分(cellular components,CC)、生物过程(biological process,BP)。将差异基因放入DAVID进行GO分析和Pathway分析。即可得到差异基因富集的分子功能、细胞组分、生物过程和通路。

1.4 蛋白互作(protein-protein interaction,PPI)网络数据库网络分析

PPI网络数据库是一个在线数据库资源,它提供预测的和实验的蛋白质之间相互作用信息,并具有置信度评分[7]。该数据库可应用于2031个物种,包含960万种蛋白和1380万种蛋白质之间的研究蛋白之间的相互作用网络。将差异基因放入PPI分析数据库,设置为实验数据,要求的最低互动分数为0.4,建立蛋白质交互网络,线条连接的2个蛋白质代表两者之间有相互作用,线条厚度表示数据支持的强度,整个网络中连线最多的基因即为关键基因。

2 结果

2.1 差异基因的筛选

共筛选出了1057个差异基因,其中有291个差异基因在WT组织样本中表达上调,在非癌组织样本中表达下调;766个差异基因在WT组织样本中表达下调,在非癌组织样本中表达上调。火山图见图1。

图1 火山图注:一个点代表一个基因,黑色的点代表无差异基因,红色代表上调基因,绿色代表下调基因。

2.2 GO分析和pathway分析

GO分析得到差异基因最富集的3个MF:蛋白质同源二聚化活性、受体结合、催化活性,见表1,得到差异基因最富集的3个CC:膜的整体组件、细胞外外泌体、等离子膜,见表2,得到差异基因最富集的3个BP:氧化还原、代谢过程、运输,见表3;pathway分析得到差异基因最富集的3个通路:代谢途径、癌症通路、抗生素的生物合成,见表4。

2.3 PPI网络分析

PPI网络(图2)中EGFR、ALDH6、LAMTOR5、PEPD连线最多,说明在此PPI网络中它们是具有更多的相互作用的蛋白质。EGFR、ALDH6、LAMTOR5、PEPD即与WT的发生可能密切相关的关键基因。

表1 MF分析

表2 CC分析

表3 BP分析

表4 pathway分析

图2 PPI网络注:圆圈代表蛋白质,线条连接的2个蛋白质代表两者之间有相互作用,线条厚度表示数据支持的强度

3 讨论

WT的病因是复杂的,在过去的几十年中发现了许多基因突变。第一个确定的WT抑制基因是WT1基因,于1990年被克隆。随后,WTX、CTNNB1、TP53的突变以及11p15甲基化的异常,被确定为导致WT致癌的因素,除此之外,病例对照研究中的基因相关性分析也绘制了更多的WT风险基因位点[8]。本研究利用目前成熟的生物信息学和表达谱技术,从GEO数据库中下载基因表达数据集GSE167054,利用GEO2R对WT组织样本和非癌组织样本中的表达基因进行差异分析并制作火山图。下载GEO2R分析后的数据,设置P<0.05, logFC>2为限制条件,共筛选出了1057个差异基因,其中有291个差异基因在WT组织样本中表达上调,在非癌组织样本中表达下调;766个差异基因在WT组织样本中表达下调,在非癌组织样本中表达上调。将差异基因放入DAVID进行GO分析和pathway分析后得到差异基因最富集的3个MF:蛋白质同源二聚化活性、受体结合、催化活性;得到差异基因最富集的3个CC:膜的整体组件、细胞外外泌体、等离子膜;得到差异基因最富集的3个BP:氧化还原、代谢过程、运输。pathway分析得到差异基因最富集的3个通路:代谢途径、癌症通路、抗生素的生物合成。将差异基因放入蛋白互作(PPI)网络数据库建立蛋白质交互网络,EGFR、ALDH6、LAMTOR5、PEPD连线最多,说明在此PPI网络中它们是具有更多的相互作用的蛋白质。

EGFR是一种跨膜糖蛋白,是酪氨酸激酶超家族受体的一员,EGFR基因改变在神经胶质瘤可作为一种有针对性的治疗和预后的手段[9]。Northern 印迹分析表明,aldh6基因在许多组织中低水平表达,在唾液腺、胃和肾脏中高水平表达[10]。强有力的证据表明LAMTOR5的高表达促进了癌细胞的增殖并有助于癌症的进展[11]。数据表明,PEPD 诱导的 EGFR 信号传导可作为治疗伤口愈合的新尝试[12]。大数据是一种内容庞大而又多样化的信息资产,对大数据的处理需要敏锐的洞察能力、强大的处理能力以及有效的使用方式[13]。EGFR、ALDH6、LAMTOR5、PEPD即与WT的发生可能密切相关的关键基因,它们可能为临床提供新的临床诊断或治疗靶点。但尚需要临床试验进一步验证。

猜你喜欢
差异基因癌症蛋白质
蛋白质自由
体检发现的结节,离癌症有多远?
人工智能与蛋白质结构
基于RNA 测序研究人参二醇对大鼠心血管内皮细胞基因表达的影响 (正文见第26 页)
癌症“偏爱”那些人?
对癌症要恩威并施
不如拥抱癌症
紫檀芪处理对酿酒酵母基因组表达变化的影响
SSH技术在丝状真菌功能基因筛选中的应用
肾阳虚证骨关节炎温针疗效的差异基因表达谱研究