陈志鹏
(郑州城市职业学院图书馆,河南 郑州 452370)
生物数据结构化浅析
——以FlyBase为例
陈志鹏
(郑州城市职业学院图书馆,河南 郑州 452370)
本文分析了生物数据结构化面临的责任和挑战,并以FlyBase生物模型数据库为例,介绍了FlyBase进行生物数据结构化处理的工作流程,最后对生物数据结构化工作的开展进行了总结和展望。
生物数据结构化;生物信息学;生物模型数据库
随着互联网Web2.0和云技术的发展、普及,互联网数据信息在原有快速增长的基础上又有了指数级别的激增。同时,生物信息学、基因遗传学科技的突飞猛进,也带动了相关医学研究领域的发展,医学文献增长位居各学科之首。截止2008年7月,PubMed已经拥有1.8亿篇文献[1]。研究人员面对如此庞大的数据,如何从上亿篇文献中快速、准确地找到有价值的信息,是一个亟待解决的难题。2008年,《Nature》杂志在“Big data:The future of biocuration”一文中提出了“Biocuration(生物数据结构化)”的概念,提出利用数据结构化处理,对生物学信息进行组织、表述和转换,从而让研究人员和计算机软件可以方便的获取相关信息[1]。虽然在线数据库已经成为科研人员收集信息,获取前沿资讯和发表研究成果的重要途径,但现在生物数据进行结构化管理的速度却远远滞后于数据产生的速度。国外的生物学数据库种类众多,大大超过了国内的数据库数量。比如像FlyBase,WormBase和Mouse Genome Informatics等通用生物模型数据库(同类型数据库超过20个);像GenBank,UniProt和Protein Data Bank这样的基因序列数据库;还有诸如PubMed这样的生物书目数据库等。另外,国外还有上百个实验驱动型,特定主题的小型数据库,包括BioGRID,FlyExpress和Homophila等等[2]。
在线数据库的种类和数量如此庞大,科研人员如果想快速、准确地获取相关信息,就必须对这些生物数据进行结构化处理。生物数据结构化处理自产生以来,一直随着生物科技的发展和生物数据量的增长,不断发展变化。
1.1 生物数据结构化的目的。生物数据结构化的主要目的是从浩如烟海、不断增长的生物学信息中发现、收集数据,分析、提取出有价值的信息,并以标准的格式进行整合、表述,最后以统一的检索入口提供给各行各业的用户,从而让科研人员可以很容易地从各种复杂的生物学信息中找到他们所需要的内容。对于FlyBase这样的生物模型数据库,生物数据结构化的工作主要包括标识相关生物学文献,利用语料库对实验数据进行标准化转换,方便检索,并与数据库和网站开发人员一起合作,保证所有生物数据的可用性。
1.2 生物数据结构化的挑战。近年来,生物学研究日新月异,新的研究方法不断涌现,因此生物数据结构化工作也必须与之相适应。每年不光生物学数据量增长迅猛,数据的格式和种类也在不断丰富,这给生物数据结构化带来前所未有的挑战。如果一直处理以前已经非常熟悉,理解透彻的生物学数据相对容易。因为经过长时间的经验积累,已建立起一套成熟的数据处理流程,但对于新产生的生物学数据来说,要充分理解数据内容,建立相应的数据库结构并开发数据结构化协议,会成倍地增加工作量,使数据结构化工作就变得异常困难。虽然很多数据库都在想办法用程序来解决一部分数据结构化处理的问题,比如用文本挖掘技术或其他软件技术从文献中自动提取元数据,但现在的数据结构化处理工作主要还得靠生物学专家来完成。尤其对于像FlyBase这样的生物模型数据库,文本挖掘工具有时候甚至会严重影响数据的结构化处理。比如很多的基因名称中包含了太多的常用词,即使是一些很简单的基因名称标识工作都很难用文本挖掘工具来完成。当然,生物数据结构化处理工作的挑战,除了软件原因以外,还会遇到很多人为因素的影响。一般情况下,生物数据结构化专家必须与文献作者合作,花费大量精力才能快速、准确地发现文献中的基因对象(比如基因、等位基因和重组基因)和实验结果。但如果文献作者没有提供标准的统一标识符,或者文献中的相关信息不完整,就会导致很多有价值的数据无法被结构化处理,也就没办法在数据库中提供使用。这同样会导致生物数据结构化工作效率降低,速度异常缓慢。
FlyBase数据库主要收录与果蝇研究相关的数据,它把表型数据,分子数据和基因数据进行整合,为用户提供统一的检索入口。FlyBase的数据结构化过程主要是以标准化的方法从文献中提取相关信息,并将其与数据库中已有的数据进行融合(见图1)。最终目的是在数据结构化过程中发现生物实验中使用的基因和分子对象,并将其与实验结果建立关联,为用户提供不同的数据库检索途径。
2.1 数据浏览与分类。生物数据结构化的第一步是对相关数据进行标识。据估计,每年发表的与果蝇研究相关的论文大约有2000多篇。因此FlyBase要对所有文献进行浏览和分类,首先通过浏览确定文章中主要的基因研究对象,建立索引,方便以后按基因种类对文章进行分类;与此同时,还要发现文章中需要进行结构化处理的关键性数据,并按照重要程度进行标识,确保用户感兴趣的信息不被忽略。通过以上两步,FlyBase对文献进行了基础的结构化处理,并建立一个基本框架,为以后的进一步结构化处理工作做好准备。
2.2 数据结构化处理。在对文档进行浏览和分类后,工作人员接下来要从文献的研究成果(文本,图表和数字)中提取出表型数据,等位基因数据,基因本体术语,基因模型更改数据,基因相互作用数据和基因表达模式数据等。FlyBase已将数据库中约57%文献进行了上述关键数据的提取和结构化工作。
图 1 FlyBase数据结构化流程图
当数据提取工作完成后,下一步要用结构化的受控词表统一对数据进行表述和记录,最终形成基因本体(Gene Ontolo⁃gy)。FlyBase通过这种方法,保证数据库内的信息能及时进行结构化,并为不同用户提供跨数据库、跨平台的一站式检索。FlyBase把受控词表嵌入了他们的检索工具 QueryBuilder和 TermLink之中[3]。
2.3 数据表述。FlyBase生物数据结构化的最后一步是通过对结构化数据的重新表述,保证其可用性。新处理的结构化数据必须与已有的数据进行整合,使其清晰易懂,才能体现其价值。现在,FlyBase的数据结构化管理员每天都要与网站的开发人员不断沟通,从而确保经过结构化处理后的数据能以专业和清晰的方式出现在网站上,供科研人员使用。另外,FlyBase还与数据库设计人员一道紧密协作,开发出各种检索工具,方便研究人员从数据库中检索和下载数据。FlyBase的许多数据结构化管理员都是生物学专家,并且经常使用FlyBase数据库进行生物学研究,因此他们在开发网站和检索工具时,会充分从用户角度出发,为用户提供专业、高效的服务。
由于生物数据结构化对数据的准确性和效率要求非常高,现在的工作大多由生物学科研人员来完成,生物数据结构化要成为一种职业还不成熟。但最近,生物数据结构化人员已经开始组织、建立国际生物数据结构化联盟(ISB),以促进生物数据结构化工作成为一种专业的职业。
目前,生物学比以往任何时候的发展速度都要快,相关的生物学数据也以史无前例的速度在不断增长。生物数据结构化工作人员的工作目标就是厘清数据洪流,对数据进行分类、关联、解释和排序,让科研人员能从不断出现的数据中发现自己需要的、有价值的信息。生物数据结构化人员不但要独立进行研究,而且还要经常参加会议,共同讨论、携手合作,解决各种数据结构化过程中出现的问题,开发新的数据集,每天都要竭尽全力去发现新方法,整合各种各样的数据类型,开发新的检索工具,让生物数据结构化处理的速度适应生物学学科的发展。这是一项艰巨而伟大的工作,同时也充满了乐趣和挑战。
TP311
A
1671-0037(2014)07-59-1.5
10.1038/ 455047a.
陈志鹏(1977-),男,硕士研究生,馆员,研究方向:网络信息资源建设。
[2]Evolution of genes and genomes on the Drosophila phyloge⁃ny.Nature 2007;4 50:203-18.
[3]Tweedie S,Ashburner M,Falls K,Leyland P,McQuil⁃ton P,Marygold S,et al.FlyBase:enhancing Drosophila Gene On⁃tology annotations.Nucleic Acids Res 2009;37:555-9.