蒿花,田国祥,耿辉,王亚军,张勇,马茂,吕军
GeneCards数据库是全面检索人类基因的综合数据库,综合了除自建信息外,还整合了超过150个外链数据库或网站的数据,其中125个网站数据自动同步更新,提供简明的基因组、蛋白质组、转录组、遗传和功能上所有已知的和预测的人类基因功能数据资料,并整理归纳成别名、疾病、结构域、药物、表达、功能、基因组学、定位、同源序列、旁系同源基因、通路、产品、蛋白、文献、资源、概述、转录本、变异等18类(章节)信息,是目前信息最全的基因注释网站之一[1],除了GeneCards数据库外,还新增了胚胎发育组织干细胞数据库LifeMap Discovery[2]、人类疾病数据库MalaCards[3]、生物学通路数据库Pathcards[4]、基因染色体位置GeneLoc[5]等数据库以及多种在线商业分析工具,包括:基于高通量测序数据(NGS)的精准医疗分析工具Tgex[6]、富集分析工具GeneAnalytics[7]、基于NGS的基因表型关联工具VarElect[4]、寻找相似基因分析工具GenesLikeMe[8]、人类基因调节元件以及靶基因工具 GeneHancer[9],形成了一个基因分析生态链,从多角度全面阐述基因各个层面的信息及功能机制,科研人员可登录网站https://www.genecards.org/免费使用功能强大的GeneCards数据库。
随着现代生物信息学的蓬勃发展,应用信息技术研究目标分子作用机制,已成为基础科研人员必备技能,2016年以色列学者Gorohovski等纳入GeneCards等数据库数据,开发了一个在线预测的蛋白质相互作用网络[10]。2016年中国学者Pan等为探索人类细胞色素P450功能与CYP超家族之间的关系,运用GeneCard数据库找出它们对应的旁系同源物等进行了进化生物学方面的讨论[11]。22016年美国学者Mok等使用GeneCards的数据评估双表型肝细胞癌胆管癌(hepatocellular carcinomacholangiocarcinoma,HCC-CC)与每个变量的遗传关联,生成生物分子相互作用图,并确定了几种诊断HCC-CC的生物标志物[12]。2018年Wang等以GeneCards数据库的先前研究结果为基础,筛选出一种与牛皮癣相关在皮肤中高表达的特异性分子[13]。2020年法国学者Wu等从GeneCards数据库获取蛋白质和疾病之间的关联,研究分泌干扰物(EDC)与COVID-19致病严重性之间的关系[14]。2020年Liu等利用GeneCards数据库查询胃癌相关靶标,尝试阐明该疾病中circRNA-miRNA-mRNA的调控网络,明确与胃癌中炎症相关的靶标[15]。2020年Zhu等从GeneCards数据库收集炎症相关基因,研究环状RNA(circRNA)和DNA甲基化在癌症的起因和进展中的重要作用[16]。2020年英国Timothy等从GeneCards数据库查询目标基因结合位点,研究疾病及与之有生物学相关性基因间的遗传风险[17]。2020年张露丹等利用GeneCards数据库获得的糖尿病周围神经病变(DPN)疾病靶点,描述了补阳还五汤通过多成分、多靶点、多途径起到干预治疗DPN的作用[18]。胡文龙等从GeneCards数据库查找代谢相关基因,建立了8个基于代谢相关基因的肺鳞癌预后模型[19]。
2003年人类基因组测序工作完成,标志生物科学的发展已进入了后基因组时代,模式生物基因组测序的完成,使生物新信息学研究的重心由基因组的结构向基因的功能转移,在此基础上研究人员急需一个数据库将已知人类基因在染色体上的确切位置及各DNA片段的功能,新发现基因信息之后进行的蛋白质空间结构研究,依据特定蛋白质的功能进行药物设计,基因表达在生物过程中发挥的作用等进行归纳总结,从而基于基因学角度研究人类疾病的诊断、治疗的内在规律。GeneCards正是由非盈利组织构建的一个整合型的生物信息数据库,该数据库提供了人力目前已注释的、可预测的所有基因的详细信息,自动集成来自约150个数据源的以基因为中心的数据,包括基因组、转录组、蛋白质组、遗传学、临床和功能信息等,使研究者快速掌握目标基因的所有信息。
GeneCards数据库使用流程为:登录网站,在“Explore a Gene”模块框中键入感兴趣的目标基因点击“Go”,结果会展示该基因的18种说明板块信息。
GeneCards数据库查询目标基因,结果主要有十八种说明板块:“Aliases”、“Summaries”、“Genomics”、“Domains”、“Function”、“Localization”、“Transcripts”、“Expression”、“Pathways”、“Disorders”、“Drugs”、“Orthologs”、“Paralogs”、“Products”、“Proteins”、“Publications”、“Sources”、“Variants”,如图1所示。GeneCards数据库为研究者提供目标基因研究的进展,与之相关的疾病,在各种细胞系或组织中的表达,与蛋白质的相互作用,参与细胞通路等,帮助研究者快速掌握目标基因相关的全面信息,为下一步研究理清思路。
图1 GeneCards数据库主页面
2.1 Aliases、Summaries、Genomics信息板块应用介绍GeneCard数据库搜索结果的标题:包含基因名称、基因类型、基因全称,右边有个五角星符号,点击可收藏该基因,“Jump to section”为快捷索引目录:点击可跳转至相应板块信息。
Aliases信息板块包含:“Aliases for AFP Gene”基因别名,如图2所示第一行“Alpha Fetoprotein 2 3 5”右上角的数字鼠标悬停可查看名称来源,点击可跳转至来源数据库;“External Ids for AFP Gene”AFP的各数据库ID号,点击ID可链接至相应数据库的基因信息页面;“Previous HGNC Symbols for AFP Gene”AFP基因的曾用名;“Previous GeneCards Identifiers for AFP GeneGeneCards”基因的曾用ID;最下面一行“Search aliases for AFP gene in PubMed and other databases”点击跳转至及其他数据库快速查询目标基因信息页面,包括“Aliases”、“Disorders”、“Free Text”三个选项。
Summaries信息板块包含各个数据库对基因的概述,可快速了解基因的功能,包含的数据库有:NCBI数据库、GeneCards数据库、UniProtKB/Swiss-Prot数据库、维基百科等。
Genomics信息板块由三部分内容组成,其中最重要的是“GeneHancer (GH) Regulatory Elements” GH数据库调控原件列表,该列表是AFP基因的启动子与增强子,包括:“GeneHancer (GH) Identifier”GH数据库id、“GH Type”启动子或增强子、“GH Score”GH确信评分、“GH Sources”数据来源、“Gene Association Score”基因与元件的相关性评分(分数越高相关性越强)、“Total Score”总分(确信评分和相关性评分的乘积)、“TSS distance (kb)”序列中点距转录起始位置的距离、“Number of Genes Away”具有转录起始点基因的数量、“Size (kb)”基因组大小、“Binding Sites”转录因子、“Gene Targets”靶基因,其余部分为:“Genomic Locations for AFP Gene”基因组中的位置、“Genomic View for AFP Gene”基因组视图。
2.2 Proteins、Domains & Families、Function信息板块应用介绍通过“Proteins”、“Domains &Families”、“Function”三个板块能够快速掌握目标基因表达蛋白的相关信息。
“Proteins”信息板块包含有十部分内容,分别是:①“Protein details for AFP Gene(UniProtKB/Swiss-Prot)”UniProtKB/Swiss-Prot数据库中基因的信息,包括编号、名称等;②“Protein attributes for AFP Gene”基因的基本属性:肽链、分子量等;③“Three dimensional structures from OCA and Proteopedia for AFP Gene”蛋白三维结构,如图3所示;④“neXtProt entry for AFP Gene”基因蛋白组学入口;⑤“Protein Expression for AFP Gene”蛋白表达情况;(6)“Post-translational modifications for AFP Gene”AFP基因翻译后修饰;⑦“Other Protein References for AFP Gene”其他参考信息;⑧“Antibody Products”抗体产品链接;⑨“Protein Products”蛋白产品链接;⑩“Assay Products”分析产品链接。
“Domains & Families”信息板块包含基因结构域和家族信息,分别有如下几部分内容:“Gene Families for AFP Gene”基因家族信息、“Protein Domains for AFP Gene”蛋白质结构域、“Suggested Antigen Peptide Sequences for AFP Gene”推荐的抗原肽序列、“Graphical View of Domain Structure for InterPro Entry”可视化结构、“UniProtKB/Swiss-Prot”功能域分析。
“Function”信息板块为蛋白相关信息板块,描述了“Molecular function for AFP Gene”蛋白功能、“Phenotypes From GWAS Catalog for AFP Gene”疾病表型、“Gene Ontology (GO) -Molecular Function for AFP Gene”基因分子功能、“Phenotypes for AFP Gene”突变和RNA干扰表型、“Human Phenotype Ontology for AFP Gene”基因与人类异常表型、“Animal Models for AFP Gene”相关动物模型等。
2.3 Localization、Transcripts、Expression信息板块应用介绍“Localization”表达信息定位板块共包含三部分内容:“Subcellular locations from UniProtKB/Swiss-Prot”UniProtKB/Swiss-Prot数据库对基因亚细胞定位描述、“Subcellular locations from the Human Protein Atlas (HPA)”HPA数据库对基因亚细胞定位描述、“Gene Ontology (GO)”基因本体学中基因与细胞组分相关的信息,如图4所示,“Subcellular locations from UniProtKB/Swiss-Prot”模块中根据文献给出了各个亚细胞位置的可靠性评分,分数越高,可靠性越高。
图4 Localization板块示意图
“Transcripts”转录本信息板块下包含:“mRNA/cDNA for AFP Gene”mRNA或cDNA相关信息、“CRISPR Products”CRISP商业化产品、“miRNA Products”miRNA相关商业化产品、“Inhibitory RNA Products”RNA抑制商业化产品、“Clone Products”基因克隆相关商业化产品等详细信息。
“Expression”表达信息板块下有:“mRNA expression in normal human tissues from GTEx,Illumina, BioGPS, and SAGE for AFP Gene”模块包括RNA测序数据、芯片数据、基因表达串联分析;“mRNA expression in embryonic tissues and stem cells”模块胚胎及干细胞中的mRNA水平;“mRNA differential expression in normal tissues according to GTEx for AFP Gene” mRNA在正常组织中的表达差异;“Protein differential expression in normal tissues from HIPED for AFP Gene”蛋白在正常组织中的表达差异;“Integrated Proteomics:protein expression in normal tissues and cell lines from ProteomicsDB, MaxQB, and MOPED for AFP Gene”蛋白表达情况、“Transcriptomic regulation report from SPP (The Signaling Pathways Project) for AFP”转录组调控信息、“SOURCE GeneReport for Unigene cluster for AFP Gene” SOURCE数据库中的基因簇信息、“mRNA Expression by UniProt/SwissProt for AFP Gene”UniProt/SwissProt 数据库mRNA表达水平、“Evidence on tissue expression from TISSUES for AFP Gene”组织中表达的数据、“Phenotype-based relationships between genes and organs from Gene ORGANizer for AFP Gene”基于表型定义的目标基因相关器官等详细信息。
2.4 Pathways & Interactions、Disorders、Drugs & Compounds板块应用简介“Pathways& Interactions”板块中包含:“SuperPathways”PathCards数据库的超级通路及其链接,每个相关通路都可以点开查看相关分子及其信息;“Pathways by source”其它数据库与基因相关通路及链接,“Interacting Proteins for AFP Gene”基因互作分子信息,如图5所示,“SIGNOR curated interactions for AFP Gene”SIGNOR数据库的目标基因互作分子;“Gene Ontology (GO) - Biological Process for AFP Gene”基因本体学中目标基因与生物过程相关信息。
图5 Interacting Proteins模块示意图
“Disorders”基因相关疾病板块中包含:“MalaCards diseases for AFP Gene” MalaCards数据库相关疾病列表,“UniProtKB/Swiss-Prot”UniProtKB/Swiss-Prot数据库相关疾病信息,“Additional Disease Information for AFP”其他数据库相关疾病信息。
图6 STRING网站示意图
“Drugs & Compounds” 药物与化合物信息板块有三部分内容,“Drugs for AFP Gene”相关药物以列表形式展示了:“Name”药物名称、“Status”药物状态、“Disease Links”药物链接、“Group”药物分类、“Role”药物与基因关系、“Mechanism of Action”作用机制、“Clinical Trials”药物临床试验;“Additional Compounds for AFP Gene”与基因相关的非药物化合物;“Drug Products”药物相关产品。
2.5 其余应用简介“Orthologs”、“Paralogs”板块展示了目标基因直系、非直系、旁系的同源基因列表。“Proteins”蛋白信息板块展示目标基因在UniProtKB/Swiss-Prot数据库中的名称及编号、肽链大小、分子量、蛋白三维结构、可变剪接异构体、蛋白组学数据库、蛋白表达情况、翻译后修饰等信息。“Variants”板块展示基因变异信息,包括:序列变异、结构变异、变异耐受性和得分等。“Sources”展示信息来源数据库点击可以跳转至该数据库。“Publications”板块展示目标基因相关的文献。“Products”板块展示与基因相关的产品。
GeneCards是一个综合性基因数据库,提供已注释及预测的人类基因全面信息。该数据库集成了来自约150个网络来源以基因为中心的数据,这些数据信息内容可靠、基因名称注释准确、信息提取便利、数据格式标准、数据具有高集成度和可用性,网站可查询内容包括基因组,转录组学,蛋白质组学,遗传,临床和功能等目标基因相关信息,旨在帮助研究者一站式快速了解该基因的最新最全面信息,包括其表达的蛋白功能及其与疾病有关的数据。
GeneCards数据库本着数据整合和集成的思想,将各个数据库对基因功能的描述、基因的启动子与增强子信息 、表达蛋白信息、基因亚细胞信息、转录本信息、通路信息、相关药物及化合物信息、同源基因信息、基因变异信息等整合在一起,完成生物信息学、功能基因组学、蛋白质组学的多维度组合,改变了以往只有通过实验室进行研究才能了解基因功能的传统方式,对复杂的基因信息进行统一标准化、层次分明的排布,降低了研究者理解复杂基因网络的数据门槛,从大数据角度有效发现各个相关基因、蛋白、疾病间的新关系。GeneCard在各个基因相关数据库之间建立超链接,以类似桥梁方式完成一站式查询,帮助研究者快速获得与查询相关的知识概述,在数据库中搜索目标基因时,搜索结果不仅展示了基因信息,还包含与其相关蛋白、疾病、同源复合物等信息,通过数据信息之间相互依赖关系、跨越冲突信息进行资源整合、有效平衡同源基因注释的合并,对以上综合数据进行系统评分,通过分数反映疾病-基因、基因-基因之间关联的强度,使各部分相互作用关系一目了然,通过整合各种疾病的4500种基因,帮助推断基因与研究者关注的疾病-表型之间直接和间接联系,为寻找疾病新的靶点基因提供创新思路。
综上所述,GeneCards数据库是生物医学研究中数据分析和解释工具的基础数据库,为生物学和临床数据结合寻找研究靶标,进行基于各种大数据领域中知识的融合创新,未来,GeneCards数据库也定会在精准医学、基因组学、蛋白组学、营养基因组学、药物基因组学、疫苗学以及其他尚未出现的后基因组学领域中发挥重大作用。