生物数据的标准化与微生物数据标准的发展

2022-12-07 22:12孙定中马俊才
中国科学数据(中英文网络版) 2022年1期

孙定中,马俊才

1.中国科学院微生物研究所,微生物资源与大数据中心,北京 100101

引 言

传统的生物学是一门实验科学,产生的数据量有限,且数据的生命周期(data life cycle)往往随着某个研究的结束而终止。现代生物学则不然。一方面,由于人类实验技术的突飞猛进,生物学数据的量在过去的40年内经历了爆发式的增长,我们积累数据的速度渐渐超过了我们分析数据的速度(即“数据过载”(data deluge)现象)[1];另一方面,系统生物学和生物信息学的兴起改变了我们对数据的利用方式,延长了数据的生命周期,甚至可能令某些数据的生命力近乎永久[2]。因此,从用户的角度来看,为了有效利用这些数据,我们就必须能够对其进行再分配或者说分享,提高其可再利用性(reusability);从数据平台的角度来看,为了有效管理这些数据,让它们在工具软件、计算平台和数据库之间能够高保真地自由传输,就要求数据具有良好的可互操作性(interoperability)。

然而,在生物学研究的过程中,研究者们总是会根据自身研究对象、研究目的和研究经费的不同采取适用于他们的实验方法、分析方法和记录手段。这些特异化一方面有利于各个科研项目的进行,但另一方面必然会造成实验结果(至少是在存在形式上)的差异,进而使在用系统生物学手段对这些结果进行比较时产生困难[3]。因此,如果要产生易于相互比较的数据,就必须对数据生命周期中存在的不同点进行限定——也就是数据的“标准化”。从源头上来讲,数据的标准化在于对实验方法(流程、仪器、材料、分析技术等)的限定。但这一方面对实验室的条件有要求,另一方面会减少研究的自由度,所以在现实中很难大规模推广[4]。相比起来,从下游对实验的结果进行标准化则只需要对实验后的数据处理部分做出限定,在现实中更具有可行性。因此,目前的生物学标准化工作主要集中在对实验结果的标准化中。

1 生物学实验结果的标准化

数据库是承载生物学实验结果的仓库。虽然生物学实验的方法千差万别,产生的结果类型也可分为数值、字符、图片等,但是存放这些结果的数据库的结构却大同小异,均由数据库管理系统(DBMS)、数据转换软件、数据界面三部分构成。然而,为了更好地存储和分享隶属于不同生物学分支的知识,这些起着相同功能的部分却可能遵循着完全不同的计算机标准[5]。例如,就存储方式而言,序列数据库在建立之初仅以存储一维的序列数据为主,所以大多采用了无结构的平面文件(flat file);但随着生物信息学的发展,人们研究序列的方式发生了颠覆式改变,附加信息(元数据)变得重要起来,其中一些数据库就渐渐开始采用了有结构的标记语言(如 SGML)文件来分类存储与每段序列相关的元数据;在这些元数据的种类越来越多、关系越来越复杂后,又有部分数据库同时使用了RDF之类的框架来辅助存储数据之间的关系信息[3]。这些不同的数据格式使得它们无法被直接被计算机跨库使用和解析,若要相互转化,则需要投入专门的人力物力,并很可能在处理和转化过程中失真。因此,最好能设立统一的标准以规范生物数据的存储和调用方式,让每条数据都可以被机器自动处理(machine-actionable)[6]。

想要达成此点,一来需要统一的标记语言,二来需要统一的数据元素集。标记语言规定了计算机读取数据文件的方式,统一的标记语言之于计算机就像国际音标之于人类一样,提供了一个通用的读取方式。目前,生物学数据跟随着计算机科学的发展使用了XML语言作为主要的标记语言,并在XML的基础上发展出了许多更专业的标记语言[7-8]。但就像国际音标能让人知其声而不能让人知其意一样,统一的标记语言只是让计算机可以读取这些数据,却并不能让它们及它们背后的人类理解及处理这些数据[9]。要想将“计算机可读”的数据变成“对机器和人类有意义”的数据,我们需要建立关于这些数据的“词典”——数据元素集。理论上来讲,数据元素是生物学概念的数据化,而所有生物学分支领域的概念应该都是某个覆盖了所有生物学领域的“生物学概念全集”的子集,所以建立一个跨学科的共同的“生物学数据元素标准”在理论上应该是可行的。然而,在实际工作中,各领域的生物学家并没有就所有的概念达成共识,很多术语在不同的群体中有不同的意思;而且许多科学概念的定义本身就处在动态更新中,会随着新研究的出现而增减、变化[3,5-6,10]。这让推行一个“大统一“的数据元素标准变得不现实,所以生物学家们目前更多的是在小范围内建立某个或某几个相关领域的通用数据元素标准,并预留下数据转化方法以增强其在其他领域的可互操作性[11-12]。

2 微生物数据元素标准

在生物学领域,数据元素标准大部分以基本数据集(MDS,minimum data set)的形式出现,如基因标准化委员会(GSC)制定的一系列关于基因的基本数据集。其中简单的可以是无结构的受控词表(controlled vocabulary,CV),仅规定必要的字段名和定义,而不限定字段内容;较复杂的不但会有字段相应的范围或预设值,还可能会有专用于描述字段关系的字段,让数据元素组成某种概念系(ontology,术语的词义及其相互关系),如基因概念系(GO,gene ontology)。这两种方法各有利弊,生物学者们一般会根据其目的和可用技术手段择其一建立数据标准。

例如,生物的自然历史数据源自过去数百年间所积累、并仍在稳定增加的观测和实验数据。它的量要远逊于如今比肩天文数字的分子生物学数据,但其质量和存在形式的差异要远大于后者。因此这些数据即便在实现了“数字化”之后也不易于“数据化”,更遑论标准化。但反过来讲,一旦我们能实现生物多样性数据的标准化,那么以此为参考,对其他类型的生物数据再进行标准化便将如履平地,更何况这些数据在整合后还能对于保护生物学和生态多样性等研究起到超越其量级的重大作用[13]。所以,建立一个像生物资源目录一样的“一站式”信息中心一直是相关生物学家们的目标。GBIF(Global Biodiversity Information Facility)运营着全球最大的生物多样性数据库,保存着从18世纪至今的超过19亿条生物观测记录(2021年)。GBIF使用了Darwin Core(DwC)作为它的执行标准[12],也让该标准成为了进行跨学科或大尺度的综合性研究的首选数据标准。同时,因为Darwin Core完全建立在信息科学标准Dublin Core(http://dublincore.org/)之上[14-15],可以视为它的延伸,所以符合该标准的数据具有非常好的可互操作性。不过,Darwin Core虽然采用了XML作为其存储格式,但是数据基本还是平面化的,仅有简单的两层(Simple Darwin Core和Generic Darwin Core),这限制了其直接记载更复杂信息的能力。与GBIF不同,BioCASe(Biological Collection Access Service)使用了同样基于XML但结构化程度更高的ABCD(Access to Biological Collection Data)标准来“格式化“通过这个端口提交的生物多样性数据[16]。ABCD在兼容DwC的基础上,于数据整合方面更进一步,将事物的相关性映射到了数据元素当中,形成了具有实际意义的语义结构。这使得ABCD可以重复使用相同的元素来存储不同的值(例如同一标本的多个鉴定结果可以被存在同一条目下),并使得字段可以被更加细致的划分(如将地点字段分为三个子字段,洲际、国家和ISO识别码)。因此,ABCD在2.0版本后已经具有了RDF资源的特性。当然,高度结构化的代价就是ABCD的自动化编译要比DwC复杂。作为泛用性的标准,DwC和ABCD都缺乏特定领域的专有数据元素,但都有良好的扩展机制(如ABCD-DNA和ABCD-EFG[16-17]),可以很好地满足跨学科研究的需要;并且这两个标准都在快速的更新中,除了新的元素以外,新的计算机数据技术也被不断地融入最新的版本中。

2.1 微生物数据元素标准概述

微生物作为世界上代谢类型和营养类型最多样的群体以及现代生物研究和生物工业的主力军之一,其数据总量庞大、来源和类型都十分多样。对微生物数据进行标准化困难重重,但也意义重大。除了对已有的标准(如DwC)进行延伸外,微生物学也有自己的标准化传承。

微生物数据标准的雏形来自于负责保存微生物样本的生物资源中心(BRC,biological resource centre)或微生物资源中心(MRC,microbial resource centre)编纂的资源目录。这些机构在保存微生物样本的过程中,也收集了大量有关这些微生物的附加信息(如来源、表型、基因标记、用途、关联文献等)作为对其资源目录的补充[18]。在网络时代来临之后,这些菌株及其相关信息很快实现了数字化并被发布在网上,极大地扩展了这些资源中心的用户群体和服务范围,进而也催生了新的问题:如何尽量简便地获取尽量多的信息?为了提供尽量多的信息,生物资源中心开始相互协作、分享其数据乃至菌种资源;而为了简化用户获取信息的步骤,这些中心就要成立一个统一的对外服务网站,整合其数据并开发能够覆盖这些数据的搜索服务。出于解决数据交换和数据整合问题的需要,世界培养物保藏协会(WFCC)在20世纪60年代就提出了关于建立一个世界性的微生物数据库的想法,并进行过一些尝试(http://www.wdcm.org/history.html)[19],但直到20世纪末,欧盟的MINE(Microbial Information Network Europe)计划才真正将这一想法落实[20-21]。MINE通过“自上而下”的组织,第一次在参与的成员国机构中统一了真菌和细菌的数据标准。该标准不但包括了对数据元素的定义,也包括了对数据库结构模型,乃至数据的记录、准入和数据库软硬件的要求。这种细致的规定虽然加强了数据的可互操作性,但是却限制了标准本身的推广,尤其是在已有成熟的数据库模型的机构中或无力建设这些基础设施的欠发达地区。因此MINE最终也只被欧盟的12个成员国所采纳,而没有被进一步推广。不过,MINE的核心字段表(135个有关真菌的和145个有关细菌的)、数据结构和构词法在后来被另一个欧盟项目CABRI(Common Access to Biological Resources and Information)所继承、发展[22]。相比于MINE,CABRI除了要求联盟成员对数据质量进行统一的控制之外,不再对数据的模型做出进一步的规定,并在MINE基本数据集的基础上根据生物类型的不同分别增加了推荐数据集(RDS,recommended data set)和全数据集(FDS,full data set),形成了一套兼具规范性和灵活性的数据元素标准。在通过平面文件收集各生物资源中心的数据并按照这些数据集分级汇总后,CABRI制成了一个集合了28个资源目录信息的“超目录”,基本达成了对下辖各资源库信息进行“一站式”检索的目的[23]。不过,由于它和MINE一样使用平面文件进行数据管理并在数据结构中允许及使用了“子字段”[18],致使其数据在与其他外部数据库(如EMBL-EBI)相互关联时十分繁琐,难以实现自动化,必需要大量的人力投入来建立映射和进行校对[23]。之后的微生物学通用语言(Microbiological Common Language,MCL)作为一个数据交换标准,采用了一套不同于二者且更符合微生物保藏流程的数据结构[18]。MCL在保留了CABRI数据元素的大部分内容的基础上,摒弃了MINE(及CABRI)中关于子字段的设计,并且将数据按照微生物的采样、分离、培养、存贮的顺序进行分类,附加上一些保藏相关的数据(如培养条件、文献),建立起了每条菌株的结构化模型。为了适配这种改变,MCL采用了XML语言中的DOM架构,使得数据在保留通用性的基础上实现了立体化,大大提高了MCL与基于XML的其他标准(如基因组背景数据标记语言(GCDML)[7])的兼容性以及数据的相互转化效率。除此之外,借助MCL的力量,StrainInfo实现了不同来源的信息在菌株层面的整合和呈现,在缺少统一的菌株资源标识符(URI)的情况下,部分解决了不同中心同一菌株的异名问题和目录更新问题[24-25]。可惜的是,由于缺乏资金,MCL语言在2018年后就停止了更新。与 MCL通过爬取和比对进行数据整合的方式不同,WFCC作为世界上最大的微生物资源联盟,则可以直接与加盟的资源中心进行数据合作。其下属的世界微生物资源目录GCM(Global Catalogue of Micoorganisms),在建立过程中参考了MINE和CABRI的基础数据集和推荐数据集,规定了主要的字段和字段类型,并借助WFCC的力量向下推广[19,26]。不过,GCM的标准没有对任何字段预设必选或推荐的值,在提高了标准的普遍适用性同时,也限制了其数据精度。国际标准化组织(ISO)也起草和发行了两个与微生物数据有关的标准 ISO/CD 20691(关于生命科学数据的格式和内容要求)和ISO 21710(微生物资源中心的数据管理和发布规范)。ISO/CD 20691阐述了生物学数据通用的组织和格式化方法,包括如何执行FAIR原则[6]、如何选择数据格式、构筑数据管理系统、建立数据元素标准、保持数据标准的兼容性、建立数据中心等[27]。ISO 21710则更具体地讨论了生物资源中心要如何进行微生信息的数据化以及这些数据的发行标准和管理方式,包括一个ISO推荐数据集(见下文)[28]。

除了生物资源中心的资源目录以外,微生物数据的另一个主要来源是以微生物为对象的分子生物学研究中产生的数据。在第二代测序技术开始普及后,以DNA序列为代表的这部分数据已经成为微生物数据的绝对主体。然而,出于传统原因[29],尽管这部分数据具有格式上的一致性(如核酸序列的FASTA或FASTQ文件),其格式却不支持大量元数据的附加,并且这些格式的平面结构十分不利于数据的整合。于是,为了提升序列数据的附加值,准确且规范地描述序列,GSC在2005年开始了基因组数据的标准化[30],并在随后的十几年中,出版了一系列关于序列的基本数据集:有关基因组的MIGS、宏基因组的MIMS[11]、标记基因的MIMARKS、所有序列通用的MIxS[31]、单细胞扩增基因组的MISAG、宏基因组拼接基因组的MIMAG[32]、病毒基因组的MIUViG[33]。这些标准按照核酸研究的共性,将用以描述序列的元数据分为“调查”(study)和“分析”(assay)两大类,分别记录序列的来源及采集环境和测序实验的方法,并建立通用的数据元素集;然后,各个标准根据其序列的来源和实验方法差异,再建立起特异性的数据集,以满足不同领域的需要。这种数据元素的子母集结构很好地满足了当今系统生物学的需要,使得同一批数据既可以被用于寻找一般性规律的大尺度研究,又能被用于探寻特定生物或环境特性的精细研究;同时,这种结构也完全符合XML语言的特性,所以随即就被GSC发展为专用的标记语言GCDML[7]。而在几乎同一时期,蛋白质研究者们也推出了类似名称的领域标准,如由蛋白质组标准化倡议委员会(PSI)推出的蛋白质组学实验基本数据集(MIAPE)和分子相互作用实验基本数据集(MIMIx)等[34-35]。不过与序列标准不同,这些标准的作者认为控制词汇会不利于标准的推广,所以这些数据集本身没有包含受控词汇表,而只对必需的实验信息进行了宽泛的要求;相应的数据元素标准实际上以扩展包的形式被推出(https://www.psidev.info/groups/controlled-vocabularies),独立于以上标准存在。可能是由于蛋白质组学的后发性,大多数蛋白质数据库(如UniProt)或分析软件都支持输出为结构化格式(如XML/RDF),PSI也可以将符合其标准的数据转化为XML。

从以上的例子中,我们可以看到,仅与微生物相关的生物学标准,就已为数众多,所以搞清这些标准或词表本身到最后也成了横亘在新晋研究者和跨领域研究者面前的一道难题。因此,为了实现标准自身描述信息的“标准化”,生物学界联合相关的标准化组织又进一步建立了生物学及生物医学基本数据集MIBBI(Minimum Information for Biological and Biomedical Investigations),以方便学者们理清所需要或正在使用的标准[36]。MIBBI在建立后不断地升级,从最初只包含生命科学领域的标准,现如今已经成为一个横跨自然科学、工程学、人文科学与社会学等多个学科的综合性标准查询网站Fairsharing.org[37]。

2.2 微生物资源中心数据管理和发布规范ISO 21710:2020简介

微生物资源中心数据管理和发布规范ISO 21710:2020是第一个由我国学者主导推出的生物技术方面的ISO标准[38]。这个标准的主要目的是为解决微生物资源目录的数据管理和在线发布中因数据类型和格式不统一而产生的数据交换和整合问题,其中的很多内容其实也可以被推广应用到非微生物资源的数据管理。

ISO 21710:2020包括正文和附录两部分。其中正文分5个部分,前3部分承袭了ISO的一贯做法,分别介绍了本标准的适用范围(微生物资源中心)、所依据的前置标准(ISO 20387:2018)、术语及其定义,第4部分给出了微生物资源中心数据发行的一般性要求和指导意见(微生物资源中心对所辖生物材料相关信息负有的责任和落实这些责任的方法,对资源目录中的数据的要求),第5部分则对资源中心如何管理这些数据给出了相应的要求和建议(微生物资源中心数据的管理系统,入库生物材料〔包括专利材料〕所必需的相关信息及其要求,实现生物资源信息可追溯的方法,唯一性标识符的应用方法和范围,数据的质量控制方法)。ISO 21710:2020的附录是一个推荐数据集(基本数据集已在标准正文中规定),基本涵盖了微生物资源中心可能需要收集的大部分信息,从生物材料的分类学信息、保藏信息、采集信息等10个方面出发,给出了推荐使用的数据元素,包括每个元素的名称、类型和示例,部分元素还推荐了可用值的受控词汇表。

作为一个由ISO颁布的标准,这个标准与其它ISO生物资源中心相关标准能够很好地衔接,构成一个更完整的单一质量体系。在此标准之上建立的数据库,其数据将有良好地可互操作性,能够比较容易地与其他数据库(特别是同一ISO标准的数据库)进行交换或被用作数据整合,助力微生物相关的科研和应用。中国科学院微生物研究所作为该标准的主要起草人和 GCM 的管理者,在建立和运营GCM的过程中实际上已经应用了这个标准;而通过GCM在全世界微生物资源中心中的影响力,ISO 21710:2020也将被更多的中心所接受和使用。

3 结论与展望

截至目前为止,数据的标准化解决了一些不同数据库之间的数据联通和整合问题,至少对于某一类生物质数据的专题库(如基因组数据库)效果良好,使得不同生物类群(如动物、植物、细菌)的同类数据能够被用以比较研究了;但对包含多种类型数据的全面数据库而言[39](如微生物数据库),距离能形成一个让该领域绝大部分学者都满意的领域通用数据标准还比较遥远。Romano等人在2005年曾估计,通过运用共用标准而实现数据的自动化交换将在数年内实现;然而,这点直到16年之后的现在也没有完全实现[22]。从生物标准发展变化的过程来看,可能有几个原因:

(1)生物学自身的快速发展导致其数据类型和概念在不断地增加和变化。近20年来,分子生物学相关的理论和实验技术都处于高速发展阶段,这些理论和技术为解释生命现象的本质提供了许多全新的方法,而这些方法也带来了全新的数据,进而改变着原有数据元素的数量和/或定义。但是各科研群体和各标准化组织对于这些新兴理论和技术的接受程度并不相同,且这些群体和组织的组织力也各不相同的不同,所以在标准更新时常常可能会产生生物学概念的混淆或前后不一致,导致数据整合中的混乱[3,5]。

而即便某个标准相关的科研群体在概念上能达成一致并拥有了良好的组织能力,如何让新的数据类型或格式与原来的数据兼容,允许对整合过的数据进行统一检索,也是一个不小的挑战。两者叠加,就影响了相关领域的标准化进程。

(2)各数据库数据管理方式的不同限制了数据的标准化。许多数据库最初的数据标准(数据的格式、质量、存储方式、访问方式等)都是该数据库建立时所掌握的资源和技术与数据库建库时的目标博弈所得到的最优解,但这些数据库在之后发展的方向和数据交换的需求却常常超出了人们当初的想象(如 EXPASY在建立之初只是一个蛋白质分析平台[40])。这使得这些数据库如果不进行彻底的升级,就只能不断地建立额外的转化系统来利用原有的数据和数据系统。而在这些转化过程中就往往造成信息的错误(如具有相同名称的异源数据)或丢失(如因更严格的质量控制而舍弃部分数据),这对于以分析数据为主的次级数据库而言尤其严重,因为数据的质量和信息的总量会在每一次的转化中逐级递减。基于这种考虑,一些建立时间较久的数据库会对使用新的数据标准较为保守。

(3)以实验对象为核心的数据库比以实验方法为核心的数据库更难形成统一的标准。某一类生物所具有的复杂性和特异性要远超某一类物质。同类的实验是研究生物的一般性,关注的是不同生物中所蕴含的相同特点,故而它们的数据比较容易实现标准化;但由于最简单的单细胞生物也有复杂的胞内结构、生理代谢网络和生态学特点,对某一类甚至某一种生物的透彻了解都需要许多不同类型的实验的佐证,所以描述某个生物类群的数据天然就充满了异质性,故而也相对更难标准化。

使用公共的标准信息发布和版本管理平台[37]、改变数据分享模式[41]、保障数据的FAIR特性[42]、使用更有利于拓展的数据格式[43]将有望解决以上问题,并推动生物数据的标准化进程;但真正实现标准化的底层动力还是不同领域生物学家们以及生物学家和信息学家们的跨界合作。在当前阶段,我们应该利用可拓展性更高的计算机数据标准,对已形成的生物学各领域内的数据元素标准进行改造,对正在形成的数据元素标准提前进行优化配置,增强它们可以被计算机处理的能力;同时加强各领域、各地区的学者们的交流,形成从全领域、部分领域到单一领域适用的如同生物学分类系统一般的不同级别的标准体系,以计算机技术对这些标准进行贯通,最终提高我们对生物数据的利用能力。

作者分工职责

孙定中(1986—),男,北京,研究生,科研助理,研究方向为微生物进化、生物信息的数据化。主要承担工作:材料调研、论文撰写和修订。

马俊才(1962—),男,北京,博士,正高级工程师,研究方向为生物大数据应用。主要承担工作:项目组织、论文撰写。