闫小妮,田国祥,郭晓娟,李豹,张军,吕军,5
近年来随着分子生物学技术的不断发展和基因组学的深入研究,基因芯片、高通量测序等实验研究产生了大规模的生物医学数据。大规模基因表达谱数据的挖掘和分析是当下现代科学研究的关键问题。分析基因表达的差异不仅在生命发育、细胞分化和基因突变等方面的研究上有极大的应用价值,更重要的是可以深度挖掘疾病与基因、药物与基因的相互作用关系,了解耐药性基因表达的相关性以及其异常表达对预后生存的影响,预测药物与疾病的关系,以期为临床耐药性患者的用药和治疗提供一个可靠的理论基础,实现精确靶向目标、多靶向联合等精准治疗策略,为精准医疗提供科学依据[1]。然而基因表达数据分析特别是差异表达基因的甄别和数据提取筛选工作较为复杂且耗时费力,为临床工作者带来了巨大的挑战。为了整合和提高资源利用率,美国生物技术信息中心(NCBI)在2000年开发了一个开放的基因表达综合数据库(Gene Expression Omnibus,GEO)。GEO数据库是一个公共功能基因组数据存储库,接受世界各国研究机构提交的基于数组和序列的高通量基因表达数据[2]。
GEO数据库是由美国国立生物技术信息中心NCBI创建并维护的一个国际性公共功能基因表达存储库,其有着强大的收录和存储功能,允许用户或科研人员递呈、保存和检索多种不同类型的数据,涵盖多个生物学领域。GEO提供简单的提交程序和格式,其数据来源依赖于科研工作者的数据提交,接受基于数组和序列的数据。GEO数据提交遵循MIAME原则。GEO数据库架构中不仅为研究者提供了大量与疾病相关的基因表达谱信息,还提供了供查询和下载实验及基因表达资料的工具,允许用户查询和下载感兴趣的研究和基因表达谱。GEO数据库包含原始数据和由原始数据生成的数据集或图谱两大部分[3]。GEO的原始数据被放置在平台(platform)、样本(sample)和系列(series)三种不同的实体数据库中。平台,目前GEO上包含了19 137种平台的数据,一个平台含有多个提交者提交的样本,平台的命名规则为“GPL+n(n代表数字)”。样本,是关于被检查的mRNA样本、实验条件和实验产生的基因表达测量数据信息,目前共有2 772 013个,一个样本必须涉及一个平台,可能会包括在许多系列之中,样本的命名规则为:“GSM+n”。系列,多个样本连接成一个完整的研究数据集,并提供了整个研究的描述,包括对数据的描述、总结分析,系列含有数据的摘要信息,目前共有105 527个研究,系列的命名规则为“GSE+n”。根据原始数据观测角度的不同,又将这些数据整理并分置两个不同的数据库中:数据集(datasets)和表达图谱(profile)。数据集目前共有4348个,其以“实验”的角度存储了所有的元数据;表达图谱从“基因”的角度存储了单个基因表达的数据资料。在GEO Datasets中每个数据集组个体都各自确定一个实验,而在GEO Profiles中每个数据集组都对应多个表达谱个体[4]。GEO数据集、表达谱的关系如图1。GEO数据库中数据集、表达谱及平台、样本、系列各关系结构如图2。
图1 数据集与表达谱的关系
图2 GEO数据库的构成
1.1 访问数据库网站GEO数据库最常用的登陆和检索入口有两种方式,一种是通过官方网址登陆,网址为:http://www.ncbi.nlm.nih.gov/geo,网站主页见图3;另一种是通过pubmed入口检索,pubmed检索入口界面见图4。
图3 用户申请目的页面
图4 GEO数据库pubmed检索入口界面
1.2 GEO数据库申请及注册流程本文介绍GEO数据库官方网址入口登陆后的申请及注册流程,进入GEO数据库官方网站(http://www.ncbi.nlm.nih.gov/geo),点击“Login to Submit”,选择点击create a My NCBI account here中的“here”,进入新用户注册信息界面(图5),其中标有“*”字段为必填信息,信息填写完成后,若同意遵守使用GEO公共数据的条款,则点击下面的“Create account”按钮,即可完成注册,申请者注册后将收到回复邮件,若未收到邮件可重复上述步骤重新申请。该邮件提供了账号激活链接,点击链接即可激活用户账号(图6)。注册账户激活成功获得用户名及密码后即可进入用户登陆界面(图7)。
图5 新用户注册界面
图6 邮箱回复-账户激活链接
图7 用户登陆界面
2.1 数据检索GEO提供多种途径检索数据,如以数据集“GDS#”,平台“GPL#”,系列“GSE#”,样本“GSM#”进行检索。如果已知序列号,可直接采用序列号搜索;也可用关键词搜索。以"Chen liver Statistics"为关键词检索如下,检索结果有24个相关数据集(图8)。同时可通过Advanced Search对搜索结果进行筛选。
2.2 数据提取GEO数据集的搜索结果内容包括名称、简述、物种、平台、提交者联系方式、系列、样本个数、数值类型和发表时间等。GEO表达图谱的搜索结果用图片的形式展现一个基因对所有样本的表达水平,搜索结果中的实验条件方便我们观察一个基因在不同条件下表达水平的差异。每个数据集概述了其研究数据报告和目的,显示包含其相关的平台、样本、系列的个数和编号,研究者可从中选择自己感兴趣的研究内容进行下载数据。所有的GEO信息可以利用不同的工具下载不同格式的数据,GEO记录和原始数据文件可以通过FTP(ftp://ftp.ncbi.nlm.nih.gov/pub/geo/)进行大批量下载,下载为以.gz或.tgz为后缀名的压缩文件,通过WinZipor7-Zip即可打开。本文以自动抓取GEO数据库中的全部基因芯片数据为例,以MINiML文件下载,包含全部的平台、样本、系列信息的完整数据,格式为".xml.tgz"的压缩包文件(图9~10)。
图8 关键词检索界面
图9 下载结果界面
图10 GEO数据库获取的部分原始数据
2.3 数据分析GEO还提供GEO2R在线分析工具,GEO2R是一种交互式web工具,利用GEO2R筛选表达差异基因,允许用户比较GEO系列中的两组或以上的样本,以识别在不同实验条件下差异表达的基因,结果显示为按显著性排序的基因表[5]。GEO2R使用来自Bioconductor项目的GEOquery和limmaR包对提交者提供的原始处理数据表执行比较。与GEO的其他数据集分析工具不同,GEO2R不依赖于经过整理的数据集,而是直接查询原始的系列矩阵数据文件。分析结果在浏览器中显示为按P值排序的前250个基因表,P值最小的基因最显著。单击一行显示该基因的基因表达谱图,图中的每个红色条表示从原始提交者提供的样本记录的值列中提取的表达式度量,在图表底部列出了示例登录号和组名。如果想要编辑测试参数,可以在Options选项卡中这样做,回到GEO2R选项卡并单击Recalculate应用编辑。要查看超过前250个结果,或者如果想保存结果,可使用save all results按钮下载完整的结果表(图11)。
GEO数据库下载以.gz或.tgz为后缀名的压缩文件,文件解压后为“txt”格式文件,通过Win Zip or 7-Zip即可打开,具体步骤如下:解压“.gz或.tgz”格式文件到指定位置,双击打开WPS软件,在菜单里选择文件直接读取"txt"格式文件数据,打开后的数据如图12。
随着生命科学研究的不断发展和功能基因组的深入研究,基因芯片数据的大量涌现,基因芯片已深入到生物学研究的多个方面,如表达谱分析、基因分型分析、比较基因组学分析、甲基化分析、ChIP-on-chip分析、微RNA分析等[6]。利用基因芯片技术和生物信息学方法系统分析肿瘤相关基因及其调控机制,是当前功能基因组学的重要研究手段[7]。基因芯片、高通量测序等实验研究产生了大规模的生物医学数据,而这些暴涨和冗余的生物医学实体数据蕴含着大量有价值的生物学信息。生物信息学研究的重要工具之一是基因芯片技术,该技术的快速发展和广泛应用,为临床生物信息学研究从多领域、多学科、多角度解读基因与疾病的关联信息提供可能。因此全面搜集生物信息数据以及充分的利用这些数据去揭示相关领域中的生物学意义,不仅有助于挖掘疾病的深度特征,了解其发病机理,同时也有利于更好的认识疾病发生过程中相关基因的功能。
图11 GEO2R分析界面
图12 WPS软件读取后的数据状态
由NCBI开发维护的GEO是知名的存贮和查询芯片数据的综合型数据库之一,存在多种多样的芯片技术平台。基因表达综合数据库(Gene Expression Omnibus,GEO),创建于2000年,最后修改日期是2016年7月26日。研究者通过对基因芯片提供的大量基因表达谱数据信息的深度挖掘和分析,挖掘出其潜在的生物学价值,应用于基因分析、基因的表达与调控、疾病的诊断、药物筛选等研究。基因表达谱数据信息的挖掘和分析有助于了解基因的功能以及基因间的相互作用关系,分析基因的遗传特征和功能。差异表达基因的分析可帮助研究者在基因组水平上揭示疾病的发病机制,研究疾病的发生发展规律,寻找新的靶向治疗位点,发现并鉴定导致耐药的新序列变异,不仅有助于寻找疾病的发病机理,还可以从基因组序列水平上进行疾病靶向治疗耐药机制的研究,为疾病的诊断与治疗提供科学参考[8]。
为了适应芯片数据库的发展趋势,降低芯片检测成本,缩短数据读取时间,高效合理利用资源,整合更多科研工作者的数据,NCBI开发了GEO数据库。本文通过介绍GEO数据库的架构、数据申请及提取流程,旨在帮助科研爱好者快速熟悉、高效利用、便捷提取数据资料,减少初次使用者在探索数据库时浪费精力,提高研究者工作效率。