cBioPortal数据库介绍及数据提取流程

2020-12-16 14:07郑帅田国祥韩迪迪李承倬许丰硕吕军2
中国循证心血管医学杂志 2020年9期
关键词:基因组学基因组界面

郑帅,田国祥,韩迪迪,李承倬,许丰硕,吕军2,

1 背景

目前,在医学研究领域不同数据库的广泛建立为研究者提供了多种类,多维度,多交叉的跨学科优质数据资源,毫不夸张地说公共数据库的建立改善了许多医学研究者缺乏研究数据的困境。但由于多种原因限制,诸如癌症基因组图谱(TCGA)和国际癌症基因组协会(ICGC)等大规模癌症基因组学项目正在从多种不同的技术平台中产生大量的癌症基因组学数据,这使其数据集成,探索和分析执行难度越来越大,尤其是对于没有计算背景的科学家来言[1]。cBioPortal是纪念斯隆·凯特琳癌症中心(MSKCC)开发的,专门用于解决大型癌症基因组计划所带来的独特数据集成问题,并使大型癌症基因组计划所产生的原始数据更容易、更直接地供整个癌症研究社区使用[2]。cBioPortal数据库是一个包含了癌症基因数据和临床数据的国际公共数据库,该数据库无需研究者注册登录,可直接进入数据库访问及下载。它是一种开放获取的开源资源,可用于多个癌症基因组学数据集的交互式探索及临床相关研究。

2 方法

2.1 数据查询 在浏览器中打开cBioPortal官网(http://cbioportal.org)如图1所示,左边蓝色部分是包括了33项研究种类,基本包含了人体各个部位。在蓝色框内选取研究肿瘤类型后,在右边弹出的页面中选取具体项目进行信息查询,根据不同的研究癌种,它分为多种亚型。我们以尤文氏肉瘤为例进行数据挖掘,首先点击选中图1左边的Bone,随之会弹出一个包含了多种亚型的小界面,在弹出界面中点击Ewing Sarcoma相关的各个项目前的小框,同时还可以看到各个项目尾部会标注该项目的样本量。

图1 数据库访问首页

如果想要查询尤文氏肉瘤基因学方面的数据,点击Query By Gene。如图2所示,Selected studies项显示的是我们所选择的研究项目(尤文氏肉瘤、小儿尤文氏肉瘤),点击Modify可重新选定研究项目。Select molecular profiles项是指选择分子概要文件,一般情况都会勾选Mutation,选择突变基因对其研究分析。Select Patiant/Case Set项是用来筛选病例和样本量,点击右方下拉箭头图标,可以展开选择,分别是All(全部数据),Cases with mutations data(变异数据),User-defined Case List(用户自定义),可以筛选出符合自己要求的样本(如果用户自定义列表,可在下拉列表中选择后,才可以输入样本ID,并用空格键分隔)。

图2 研究类型选择界面

Enter Genes项是用来刷选基因集,点击右侧下拉箭头后可选择备选基因组,也可自行输入,当输入的基因有误或不符合时是无法提交获取数据,只有全部所选基因正确时All gene symbols are valid才会自动变绿,点击Submit Query可以进行搜索。查询结果如图3所示,OncoPrint是所有患者基因组数据,通过一个简明扼要的OncoPrint图进行展示,每个基因用行来表示,样本或患者用列表示,符号和颜色编码用来总结不同的基因组的改变,包括突变,拷贝数变化和mRNA表达。OncoPrints可用于可视化分析基因的和一组病例途径改变,从图形上分析一些有用的趋势。如果我们想要在此图上添加更多的数据信息,点击Add Clinical Tracks添加癌症类型、每例患者的样本数、变异系数、性别、诊断年龄、肿瘤原发部位等29种项目。可通过Sort、Mutations、View调节图表的表达形式,点击Download可下载为PDF、PNG或SVG形式对图表保存。在上标部分可选择查看基因改变类型的比例、共同表达的分析情况、基因是否突变与患者的生存相关性等。

图3 基因改变类型的界面

在上标Cancer Types Summary部分是癌症类型摘要,主要描述每个研究的基因变更频率指标。Mutation Exclusivity项是描述基因表达互斥的表现,癌症中的生物学进程或路径常通过多种不同的基因或者不同的机制进行调节。cBioPortal中的Mutual Exclusivity可发现既往不知道的一些癌症发病机制,这些机制可能在肿瘤形成和癌症的进展中起到重要作用。在Mutual Exclusivity标签中,和特定肿瘤相关的基因倾向于相互排斥,如果存在基因排斥,也就是说这个肿瘤可能只有一种基因问题。相反是基因共生,一种肿瘤如果有多个基因同时存在,那这几个基因可能共生,其都在肿瘤的发生和发展中起到作用,这个肿瘤也很可能并非单一基因问题。如图4所示,基因两两配对,图表显示两基因之间共同表达或互斥单一表达,同时也给出了P值,当我们利用此数据时得考虑是否因样本量低而引起得P值较高,导致失去统计学意义。

图4 基因之间相互表达界面

在上标Plots部分cBioPortal提供了离散基因和连续基因的可视化分析,如mRNA或蛋白丰度或DNA甲基化。在查询时指定每个基因,cBioPortal会生成不同的散点图。我们可以对图表的横纵坐标进行调换,在Data Type选项中可选择基因突变和临床属性,当选择基因类型时在选项中可选择基因突变和突变野生型,当选择临床属性时可以选择癌种、诊断年龄、性别、发病部位等多种临床指标,根据筛选的各项指标,样本量也随之改变。我们以生存状态和诊断年龄为研究因素来探索信息,生成的散点图如图5所示。

图5 散点图界面

图6 基因非同义突变界面

Mutation选项卡提供有关每个查询基因中识别出的所有非同义突变的详细信息,既是图形摘要,也是可自定义的表格,如图6所示。图形摘要显示了在规范基因同工型编码的Pfam蛋白结构域中所有突变的位置和频率。所有的DNA突变都被标准化为标准的RefSeq亚型(使用Oncotator,http://www.broadinstitute.org/oncotator/)。当DNA突变仅影响非规范同工型时,该突变不包括在图形摘要中。数据库门户的未来版本将在单独的表中提供此信息[1]。图形摘要下方是所有非同义突变的表格。如果可以使用该表,可对其进行排序和过滤,可用数据包括每个样品的病例ID、氨基酸变化、突变类型COSMIC(癌症体细胞突变目录)中此位置的突变数等多种数据。

cBioPortal还提供对门户中包含的每个癌症研究的摘要信息的访问。可用数据包括有关患者的各种临床详细信息(诊断时的生存时间和年龄),有关肿瘤的详细信息(组织学、分期、等级)以及基因组数据的摘要(非同义突变数和基因组改变的部分),循环突变的基因,以及有关循环CNA的详细信息。临床数据以图形和表格形式显示,突变的基因和CNA数据列于表中。在临床和基因组数据的背景下,现在可轻松地在cBioPortal中探索和分析CPTAC数据。通过将CPTAC数据集成到cBioPortal中,可以克服TCGA蛋白质组学阵列数据的局限性[3]。

当我们需要查询一些直观图表类数据时,选好研究类型后在图1界面下方点击Explore Selected Studies,查询结果如图7所示,cBioPortal对基因数据和临床数据都进行了可视化处理,包含了不同基因类型的占比,生存分析曲线、性别、年龄、患者生存状况比例,鼠标箭头点在相应的图标上就会显示更详细的数据信息。

图7 可视化数据界面

2.2 数据下载 当我们需要将数据下载到本地时,在图1页面的左上方点击Date Sets,结果如图8所示,这里包含了该数据库的所有数据,在页面左上角搜索相关数据名称查找到所需的数据包,点击所对应的箭头向下符号进行下载。

下载后我们得到的是一个压缩包,根据电脑不同的系统配置可能需多次解压,解压后如图9所示,根据研究所需对各类数据获取,打开复制文本,粘贴在EXCEL后即可形成我们常见的表格形式。

如若我们只需临床数据时,可在图7左上角点击Clinical Date,以乳腺癌为例,查询到的临床各类指标数据如图10所示,点击上方下载符号就可将临床数据下载到本地。

3 总结

图8 数据包储存界面

图9 数据包解压后界面

图10 临床数据查询结果界面

cBioPortal是一种开放获取的开源资源,可用于多个癌症基因组学数据集的交互式探索。它的数据来源于多个数据平台,包括TCGA、ICGC、GDAC、IGV、UCSC、Oncomine等数据库,cBioPortal研究的基因类型是极其丰富的,包含了体细胞突变,DNA拷贝数改变,mRNA和microRNA表达,DNA甲基化,蛋白丰度及磷蛋白丰度等多种形式。研究人员得到了大量的有关癌症基因组的资料,但是这些资料对于研究人员来说,如何整合、探索和分析,是一个比较困难的事情。cBioPortal进行了跨基因,样本和数据类型的可视化和分析,从而有助于探索多维癌症基因组学数据。用户可以查看癌症研究中各个样本的基因改变模式,比较多个癌症研究中的基因改变频率,或总结单个肿瘤样本中所有相关的基因组改变。该数据库还支持生物途径探索,生存分析,基因组改变之间的互斥性分析,选择性数据下载[1]。相比SEER,HRS等数据库获取数据[4,5]cBioPortal数据库显著降低了复杂基因组数据与癌症研究人员间的获取障碍,促进快速、直观、高质量地获取大规模癌症基因组学项目的分子谱和临床预后相关性,并使研究人员能够将这些丰富的数据集转化为生物学见解和临床应用。

猜你喜欢
基因组学基因组界面
基于宏基因组学方法分析化肥减施对热带地区菜地土壤微生物群落的影响
“植物界大熊猫”完整基因组图谱首次发布
牛参考基因组中发现被忽视基因
微重力下两相控温型储液器内气液界面仿真分析
山西在谷子功能基因组学研究领域取得重大突破
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
国企党委前置研究的“四个界面”
一种可用于潮湿界面碳纤维加固配套用底胶的研究
扁平化设计在手机界面中的发展趋势