储节旺 林浩炜
收稿日期:2020-08-21
基金项目:国家社会科学一般项目“大数据环境下突发事件应急管理情报能力建设研究”(项目编号:16BTQ066)。
作者简介:储节旺(1969-),男,馆长,教授,博士生导师,研究方向:知识管理。林浩炜(1996-),男,硕士研究生,研究方向:知识管理。
摘 要:[目的/意义]旨在深化对国内生物医学数据库的元数据研究,提高国内生物医学数据开放水平。[方法/过程]本文基于基因组学研究人员的元数据功能需求,归纳出结构需求、内容需求、关联需求和使用需求4个维度,提出生物医学元数据功能需求维度模型。通过引入内容结构视图作为分析元数据结构的模型,对国内外生物医学数据库的元数据方案进行比较研究。[结果/结论]国内生物医学数据库可以从数据结构优化、数据质量控制、丰富研究条目和分类汇总链接4个方面推动数据开放的水平。
关键词:生物医学数据;数据开放;元数据;功能需求模型
DOI:10.3969/j.issn.1008-0821.2021.01.001
〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821(2021)01-0004-09
Comparative Studies and Implications of Typical
Biomedical Metadata Functions
Chu Jiewang Lin Haowei
(School of Management,Anhui University,Hefei 230601,China)
Abstract:[Purpose/Significance]This paper aims to make further research on the metadata of domestic biomedical databases and improve the quality of domestic biomedical data opening.[Method/Process]Based on the metadata function requirements of genomics researchers,this paper summarized the four aspects of structure requirements,content requirements,linkage requirements and application requirements,and proposed the SCLA functional requirements dimension model of biomedical metadata.By introducing content structure view as a model for analyzing metadata structure,this paper made a comparative study on the metadata schemes of biomedical databases at home and abroad.[Results/Conclusion]domestic biomedical databases can promote the level of data openness from four aspects:optimization of data structure,data quality control,enrichment of research items and links of subgroups and summaries.
Key words:biomedical data;data opening;metadata;functional requirements model
随着超高通量测序方法在基因学研究领域的应用,研究人员能够更快地获取生物样本的基因组序列数据,大量的原始测序数据被保存到公共数据库中,科研人员获取开放数据和展开研究活动要求相关数据的每条序列记录都可以链接到已测序样本的元数据[1]。生物医学数据库中开放数据的元数据可以描述样本数据集的创建者、时间、位置、机构、上下文、族系等信息,对于查找、检索和重用上传到公共数据库中科学实验结果报告十分重要,当用户查找的科学数据未附带或附带质量较差的元数据时,对实验数据进行索引和利用的软件系统可能无法定位和返回原本符合给定搜索条件的搜索结果[2]。
有关生物医学数据元数据质量的文献指出许多开放生物医学数据存在元数据标准和规范的问题。美国联邦政府开发的HealthData.gov由于缺乏一致的数据存储和检索标准,会阻碍研究人员使用数据进行学术研究[3]。Rafael S Gonalves等[1]比较研究了美国国家生物信息中心(National Center for Biotechnology Information,NCBI)管理的BioSample和歐洲生物信息学研究所(European Bioinformatics Institute,EBI)管理的BioSamples两个生物医学数据库,发现存在多数元数据字段名称和内容未标准化且无法控制的情况,可能会阻止相关数据集的搜索和重用。导致元数据质量下降的原因在于过多使用非结构化文本描述开放生物医学数据,而很少使用标准化的受控术语和学科领域中的本体论概念来控制元数据条目的名称和填充内容[4]。有效的解决途径是选择合适的标准构建元数据[1,3],使每个元数据条目的填充内容准确统一且遵守相应规范,即使自由扩展文本也可以使用受控术语来描述[5]。
元数据标准的选择最终会影响元数据方案的结构,编写元数据结构的标准是否合适取决于数据使用利益相关者的需求[6]。有关生物医学元数据标准的研究表明,元数据标准的设计基于满足特定的数据库数据管理和用户科研活动的功能需求。国际上现有的元数据标准如任何基因序列最小信息的最低信息标准(Minimum Information About Any(x)Sequence,MIxS)通过引入特定的“环境软件包”实现提高跨库收集的信息的质量、可访问性和实用性的目的[7],人类病原体/载体基因组序列的标准化元数据基于美国国立过敏和传染病研究所(National Institute of Allergy and Infectious Diseases,NIAID)的GSCID/BRC项目和样本应用标准,使研究人员能够清晰地识别相关的基因组序列并进行比较性的基因组分析[1]。国内生物医学元数据标准的研究包括结合生命周期理论的植物学基因表达实验元数据模型[8]和五维度的我国人类基因数据库元数据规范[9],前者旨在完整描述科学实验相关信息,支持不同类型科学实验数据的语义化关联,后者则是为了提供数据采集和存储的技术标准。有关生物医学元数据标准的研究都体现出功能需求的导向,但是这些文章并没有讨论元数据标准被应用于不同的具体数据库后产生的差异。服务不同数据库和研究人员的元数据标准所侧重的功能需求不同,使用通用的元数据标准如都柏林核心元素集(Dublin Core Element Set,DC)可以在整体上设立数据标准框架,但用户在上传研究数据后,需要额外的人工操作或使用更好的基础结构来确保多个字段名称的有效填充以保证元数据质量[2],因此需要结合具体的生物医学数据库对元数据标准的功能需求进行整理和比较研究。
本文根据生物医学管理人员对基因组数据元数据的6项功能需求,归纳每项需求所涵盖的要素特点,提出生物医学数据元数据功能需求比较的4个维度:结构需求、内容需求、关联需求和使用需求。引用内容结构視图作为元数据结构需求的比较模型,并应用于选择的国内外生物医学数据库的元数据方案比较,旨在深化国内生物医学数据库的元数据研究建设,提高国内生物医学数据开放的质量水平。
1 生物医学元数据功能需求
Mark D Wilkinson等[6]提出了科学数据管理的公平(FAIR,Findability,Accessibility,Interoperability,Reusability)数据原则,在对科学数据进行管理时关注所有的利益相关者的需求以提高数据质量,如研究人员希望能够共享、重用彼此的研究数据和分析报告;提供数据分析和处理服务的技术供应者希望实现软件工具和工作流程的重复使用;资助机构更加关注长期数据管理。思考用户的使用需求可以用来指导开放数据库的元数据设计。Jian Qin等[10]对元数据的功能需求进行了调查,将Willis等确定的22项科学数据元数据功能需求总结为基因组学研究人员的6项元数据功能需求,按需求程度从高到低分为可移植性(Portability)、可重用性(Reusability)、可操作性(Manipulability)、充分性(Sufficiency)、互操作性(Interoperability)和模块性(Modularity),并以关键词描述需求内容[7,11]。
元数据功能需求因素的某些方面在设置元数据时会产生重叠,如可移植性和可重用性本质上是从不同角度考察元数据条目的结构,可操作性和互操作性实际都是在考察元数据结构设置对研究人员数据处理的影响,这使其作为比较标准不具有明显的区分度。有关生物医学元数据质量研究的文章通常定义各种指标来评价元数据质量,如完整性、准确性、一致性[3]或完整性、准确性、出处[2]这样的衡量标准,这为设计元数据功能需求的比较维度提供了思路。本文尝试从元数据功能需求指标中提取关键描述字段,将指向相近的字段相结合归纳生物医学数据库元数据比较的主要方向,包括:结构(Structure)需求、内容(Content)需求、关联(Linkage)需求、使用(Application)需求,并命名为SCLA维度模型,如图1所示。
1.1 结构维度:结构简便,兼容通用
元数据结构应该层次分明、结构清晰,使用简练有区分度的语言以保证用户能利用最少的关键词定位到所需信息,便于目标数据上传发布和查询获取;整套元数据方案的建立需要成熟的架构技术和操作系统,保证通过稳定的检索渠道访问数据库。元数据结构设计需要基于通用的元数据标准以支持与其它数据库的协同操作。一些基因组学社区没有设计与全球共享有关的元数据[10],许多专业数据库元数据标准的特有结构,如MIxS具有很强的独特性难以兼容其它数据库的数据内容。许多通用数据库包含了许多不同类别、样本容量小的重要数据集,这些数据集由于数据类型各异通常不会使用统一的描述限定[6],使得研究人员存在较低集约化程度下的数据可重用性问题。
1.2 内容维度:内容全面,按需调整
生物医学数据的质量关系到研究人员数据利用。科学数据质量得到控制,可以提高科学数据的可重用性,节约科研人员在数据清洗过程中的时间与精力[12]。数据库为支持标准化数据结构使用统一的受控词汇描述样本信息,元数据方案可以提供用以注释海量数据集中的非结构化信息的条目帮助研究人员多方位获取样本相关信息。此外,生物医学元数据方案及其内容应该根据生物特性和研究人员的数据使用需要及时调整,提供数据上传者可自定的元数据拓展包以保证元数据标准的可扩展和数据库的可持续[11],使数据库数据能够适应知识更新迭代。
1.3 关联维度:相关聚合,共享交互
元数据功能需求指标中多次提到需求元数据方案提供关联信息的链接,帮助用户全面掌握目标数据。链接是元数据条目的一部分,属于数据内容需求的范畴,但由于数据链接的指向受数据内容的不同而表现出不同的类型,因而单独作为一个比较研究的维度。这些以链接形式存在元数据内容可以简化数据结构,支持研究人员横向比较、验证数据的需求,促进跨库内容的共享与交互。完整的数据链接网络可以汇集包括数据库、软件工具、培训资料、云储存和超级计算机在内的研究资源,支持研究人员在更大范围内查找和共享数据。以临床病例报告(Clinical Case Reports,CCR)为例,临床病例报告经常能够捕捉到不常见的症状和疾病[14],但这些宝贵数据来源可能会受宿主所在国家的法律和法规约束,无法获得离开所在管辖范围的许可。欧洲生命科学数据研究基础设施(The European Research Infrastructure for Life Science Data,ELIXIR)通过加强联合欧洲的基因组表型档案资源访问节点,可以在确保符合国家法规的前提下快速共享2019新型冠状病毒的临床宿主数据[13]。
此外,元数据条目的设置要根据数据库类型提供必要的数据引用链接以支持数据源的可追踪性,提供数据关联内容链接简化数据检索的流程,提供数据包和模板下载链接实现元数据内容的可移植性。
1.4 使用维度:分析处理,更新重用
元数据条目的设置应该支持研究人员对元数据内容地处理和分析。从数据库提取下载的资源是否可操作对整个数据管理过程至关重要,这关系到研究人员能否根据实验需要比较不同方案的数据,并验证相关的元数据因素。专业库使用的元数据方案要能够满足研究人员的使用需要,并能根据用户需要不断更新完善。同时,数据库也可以通过工具包的形式提供开放获取的生物计算资源和基础研究架构[13],从而支持研究人员在云基础架构上部署可重用的生物医学数据计算分析。
2 基于SCLA维度模型的生物医学数据元数据功能需求比较
2.1 基本情况
本文选择了5个国外病毒数据库和2个国内病毒数据库的元数据应用内容结构视图进行比较分析,7个数据库的基本情况,如表1所示。
2.2 比较分析
2.2.1 结构维度
不同元数据标准的侧重点不同,所采用的描述字段不同,元数据的结构和内容存在差异。比较病毒数据的元数据标准需要引用一定的参考标准,朱玲[15]在文章中引入了一种内容结构视图用于比较跨学科领域的研究数据的元数据标准。内容结构视图分为识别元数据模块(Identity Metadata)、语义元数据模块(Semantic Metadata)、科研活动上下文(Scientific Context)、时间元数据(Temporal Metadata)和地理空间元数据(Geospatial Metadata)5个方面,前3个为主要模块,分别提供识别数据集实体信息和相互关系、学科分类和跨领域链接、确定数据集操作流程的功能,如表2所示。
BioSample和GenBank都是由NCBI维护的生物医学数据库,元数据标准在内容结构视图上均未对语义元数据和时空元数据有集中描述,在科研活动上下文模块分别使用了7个描述字段,强调对满足数据研究需求的关联信息的描述。BioSample元数据的主体部分是样本的属性信息,还包括样本的基本标识符、生物体分类、样本描述属性包、上传者相关信息和外部定位链接URL等,属性部分元数据的类型不固定,受上传者选择的样本描述属性包决定;GenBank相比BioSample更加重视对识别元数据的使用,其每一条由序列和注释组成记录都分配有一个唯一的标识符,称为登录号。登录号在记录的整个生命周期中保持不变,不受序列或注释更改的影响。版本复合标识符由主要登录号和记录中序列数据的数字版本号组成,基因序列的每个版本都分配有一个唯一的NCBI标识符,称为GI号,每个GI号对应一个唯一的版本标识符。当对GenBank数据库中的序列进行修改会向更新后的序列分配新的GI号,并增加版本标识符的版本扩展名以保证检索记录始终处于最新版本。
ICTVdb不同于一般的生物病毒基因库,它是病毒分类学国际委员会管理的数据库,提供对每个物种示例性病毒的信息。ICTV关注的是病毒分类群的名称和命名,即物种、属、科等,因此在内容结构视图上强调对分类信息的限定,使用了16个语义元数据条目,没有使用过多的识别元数据,仅包括示例病毒的GenBank和RefSeq登录号,以及属于某个物种的病毒的隔离名和通用名。
ViPR使用GSCID-BRC元数据标准,该标准的特点在于元数据构成的层次结构分明,由5个主要方面和12个数据字段组成的树状分支网络,每个子元素字段之间都有明显的区分度。ViPR提供了来自GenBank的识别数据、注释和序列查询链接,元数据开发小组不断推出新的版本对该标准进行完善,使ViPR的元数据内容实现与其他兼容GSCID-BRC元数据标准的数据库网站的内容链接。
VIPERdb是基于MySQL开源数据库管理系统的关系数据库,使用开放源代码OpenMMS Toolkit将mmCIF格式生物分子结构数据转换为多种数据格式[16]。VIPERdb包含了约180个mmCIF词典中定义的分类表,表列对应字典数据项,并提供从结晶参数到二级结构的内容和拓展信息。
国家生物信息中心的2019新型冠状病毒信息库(以下简称CNCB2019新冠病毒库)元数据标准在内容结构视图上的主体部分集中在上下文模块,还使用了5个元数据条目对数据采集发布的时间、空间信息进行了限定。虽然没有使用统一的元数据标准方案,但使用“序列完整度”和“质量评估”这样的元数据条目对基因组序列数据的元数据质量提出了需求。
PHDA是国家人口健康科学数据中心管理的医学数据库集合中心,存储了大量的生物学和医学领域的数据库和数据记录,如蝙蝠相关病毒数据库、啮齿类相关病毒数据库、冠状病毒传染病本体等。子数据库不是单纯的样本数据集合,提供了详细的元数据条目帮助研究人员掌握子数据库和样本数据的相关信息。PHDA的子数据库使用了医药卫生科学数据共享元数据标准,元数据方案采用二级元数据条目,将样本数据清晰地划分为基本信息、描述信息和联系信息等部分,根据数据集和子数据库的对象引出下级详细的元数据内容。用户可以通过一级元数据条目准确定位目标的识别元数据、分类描述信息、相关责任方联系信息以及具体的目标序列数据。
经过上述运用内容结构视图对7个数据库元数据标准结构的比较可以发现,数据库的元数据标准在内容结构视图上主要集中在科研活动上下文模块,会根据数据库的类型特点而有所侧重,如GenBank要求对每条序列内容、注释和版本的标识,重视使用识别元数据条目;ICTVdb关注病毒分类相关信息的描述,强调语义元数据模块。此外,国内生物医学数据库相比国外更加重视元数据对样本时间和空间信息的描述。
2.2.2 内容维度
GenBank、BioSample、ViPR和PHDA都提供了记录样本非结构化信息的自由文本编辑条目,CNCB2019新冠病毒库仅提供了样本数据的注释统计数。GenBank允许上傳者修改序列数据和注释,同时鼓励用户通过NCBI的数据上传网站向GenBank报告数据库发布数据的滞后和可能的数据错误与内容遗漏。BioSample在确定样本属性之后为上传者提供了一个可选的自由文本字段以存储有关样本的非结构化信息,这种结构化信息加非结构化信息的样本数据收录方式能够确保样本信息的完整性,满足不同用户的数据获取需求。ViPR基因组序列和变异信息引用了GenBank的数据信息,设置了GenBank定义和GenBank注释。PHDA子数据库,以蝙蝠相关病毒数据库为例,在数据描述信息元数据条目说明了蝙蝠相关病毒研究的重要性、数据库元数据条目、数据库功能用途和数据更新特点,主要介绍数据库的基本情况,并未描述具体样本数据。
ICTVdb收录的物种示例病毒数据来源于ICTV发布的在线报告,报告中提供每种物种的示例性病毒权威列表和VMR电子表格,电子表格收录了包括尚未在ICTV报告章节中描述的病毒种类的示例并基于新的信息发布进行更新纠正。
VIPERdb没有提供非结构化文本编辑的元数据条目,研究人员可以对衣壳结构进行简单的修改以确保关联结构之间的一致性,并在联机补充数据中加以详细说明。
BioSample鼓励上传者使用结构化和一致的属性名称和值,其上传门户网站还为上传用户提供包含许多常见的BioSample数据类型的专用属性包(Specialized Packages)和用于自定义描述属性的泛用属性包(Generic Packages)。每种专用属性包都包含一整套描述样本的相关属性,用户可以使用属性包中的受控词汇以结构化的方式来描述样本信息,推进元数据的标准化。GenBank序列记录的登录号是每条序列的主要标识符,不会因序列记录的更新修改而产生改变,使用登录号检索GenBank记录会得到序列的最新版本。如果序列记录被更新修改,通过登录号所获取的序列数据可能与以前文章中所使用的序列数据不同。
2.2.3 关联维度
BioSample将样本元数据链接到跨多个档案数据库的相应实验数据,使得样本描述支持跨数据库查询,同时样本数据中也提供了指向其他档案中的相關记录的链接,如参考生物样本(Reference BioSample)作为映射NCBI档案数据的枢纽可以帮助用户快速找到从给定样本派生的多种数据集和项目。此外,BioSample还与GenBank和BioProjec等外部数据库相互链接,帮助导航查找派生数据和相关数据。
GenBank是国际核苷酸序列数据库合作组织(the International Nucleotide Sequence Database Collaboration,INSDC)的合作伙伴,元数据条目中的登录号作为唯一应用标识符在3个协作数据库GenBank、日本DNA数据库DDBJ和欧洲分子生物学实验室核苷酸序列数据库(the European Molecular Biology Laboratory Nucleotide Sequence Database,EMBL-Bank)之间共享,并且每天与欧洲核苷酸档案库(ENA)、EMBL-Bank和DDBJ交换数据,以确保全球范围内统一全面的序列信息覆盖。此外,GenBank的序列记录存在指向BioSample数据库的链接,提供诸如全基因组关联研究、高通量测序等序列数据测量研究中使用的生物材料的其他信息。GenBank还鼓励用户在引用数据库信息时使用登录号,帮助定位相关信息和延伸信息。
ViPR使用了GenBank的数据链接,基因序列数据的元数据条目提供了GenBank序列记录的登录号和样本的定义、注释和宿主,研究人员可以直接使用登录号链接跳转至GenBank数据库获取序列记录的详细信息。
VIPERdb的元数据条目相比VIPER增加了结构坐标和相关信息的链接,除了丰富的有关病毒衣壳的语义元数据,如科、属、T指数外,还包括指向ICTVdb的相关分类单元、PubMed的参考文献和一些相关的晶体学信息等。用户可以通过链接从GenBank、ICTVdb、PDB等不同类型的数据库获取补全关联信息,实现对需求病毒衣壳数据的全面挖掘,在不同类型的派生数据之间交叉引用。
CNCB2019新型冠状病毒信息库用于信息分析所用的全基因组序列来自CNGBdb、GenBank、全球共享流感数据倡议组织(Global Initiative on Sharing All Influenza Data,GISAID)和基因组仓库(Genome Warehouse,GWH)数据库[17],除GISAID数据库的序列信息由于使用权限原因无法提供下载,其他数据库来源的基因组序列均可通过数据来源元数据模块提供的链接进行选定或批量获取下载。CNCB新冠病毒库还提供了冠状病毒序列、基因组变异、临床信息和文献情报的拓展信息资源服务,用户可以通过数据库中的链接进入NGDC的基因组仓库获取冠状病毒科的病毒序列相关研究信息。
PHDA的子数据库提供了当前版本数据库来源的链接。用户可以从“附件”和“数据”条目下载数据包和字典模板,对于缺乏实体数据的特殊数据库可以在“数据说明”条目发出实体数据的申请。
2.2.4 使用维度
GenBank、ViPR和CNCB2019新冠病毒库支持用户对数据库数据执行基本的基本局部比对搜索工具(Basic Local Alignment Search Tool,BLAST)序列相似性搜索。GenBank使用全面的、基于核苷酸序列的分类方法和链接到相关序列数据的分类法浏览器,新物种的序列上传至数据库后需要咨询NCBI分类法小组以解决有关命名和分类的问题后再将序列条目公开,避免对数据库索引造成干扰。用于区分样本序列数据类别的元数据能够帮助用户对GenBank数据进行BLAST比对,在数据库序列之间进行类比研究[11];ViPR支持研究人员使用自己提供或从ViPR中选择的序列数据与ViPR数据库中选定的序列集合或用户创建的数据集进行对比,运行BLAST后会输出每条序列完整的识别元数据内容、标准比值、期望值、方法、统一性和阳性值;CNCB新冠病毒库侧重于对2019新型冠状病毒序列的横向研究,在元数据条目中序列号和相关ID可以提供每条序列唯一的识别信息,序列完整度和序列长度、质量信息鼓励上传完整的序列数据以支持病毒序列数据的对比研究和对原始序列的验证,每条序列数据都记录有采样时间地点和样本提交的时间和单位,支持最多10个基因组序列之间的BLAST比对和74个国家2019新型冠状病毒序列数统计和增长趋势研究。研究人员还可以利用数据库提供的变异注释和变异鉴定两种在线工具,将测序原始数据与新冠病毒基因组进行序列比对,检测样本中含有的新冠病毒序列,分析测序数据对新冠病毒基因组的覆盖度、测序深度、错误率等信息。
病毒数据库所提供的使用程序和工具服务基于数据库的元数据结构和研究需要,VIPERdb的语言编写程序提供了一个将PDB坐标转化为VIPER坐标的脚本,可以自动确定将衣壳信息定向为VIPER方向所需的转换矩阵,并将其存储在数据库中[16];PHDA数据仓储汇总子数据库的数据链接,对数据跨库研究的需要更多依赖数据库提供的功能服务。
3 对我国生物医学元数据建设的启示和建议
本文在比較分析国内外生物医学元数据方案标准和功能需求的基础上,从数据结构需求、数据内容需求、数据研究需求和数据链接需求4个维度对比了国内外生物医学数据库的元数据方案。结合国内病毒数据库元数据方案的不足,基于基因组学研究人员的元数据功能需求对国内提升病毒数据开放水平提出建议。
3.1 优化数据结构,推动标准化研究
国内生物医学数据库为了方便实现与外部关联资源的链接,使用的元数据方案来源于多个学科的数据结构和标准,具有很好的兼容性。这种兼容的元数据方案能够帮助通用数据库存储各种格式的数据类型,但是缺乏对数据的有效描述和限定,导致数据库内部数据呈现多样化,集成程度不断降低,研究人员的数据发现和使用会更加困难。对于生物医学领域的病毒数据库这类定位重要数字对象或数据使用用途的专用数据库,需要结合对象的数据特点和研究用途设置元数据标准,如ICTVdb的元数据方案强调对病毒的语义元数据模块的设置,并根据知识更新和数字对象的变化及时调整元数据标准以提高元数据内容的质量。
为满足数据处理最低需要,国际基因组学领域已经定义了一套最小的核心元数据元素集。学科领域内部也需要定义一套通用的病毒数据开放元数据标准以支持研究人员的跨库数据处理与交互。
3.2 控制数据质量,促进数据共享重用
元数据对数据质量表现为准确性、完整性等,对数据质量的控制呈现为保持数据结构一致和可获取性。国内病毒数据库用于控制数据质量的元数据条目指向不一,PHDA的元数据条目“数据大小”“数据记录数”“数据格式”侧重于对数据集的体量和格式标准的控制,CNCB2019新冠病毒数据库使用的“序列完整度”和“质量评估”侧重于对数据集结构和内容标准的控制。标准之间难以横向比较,可以建立一套通用的最小核心标准评价数据质量。标准内容应该确保支持不同生物主体和数据库类型的数据质量控制需要,并根据具体需求特点拓展标准条目。
此外,元数据内容的质量控制一方面受数据库元数据条目在数据上传时对数据的限定;另一方面还依靠用户的使用反馈。可以学习国外病毒数据库,如BioSample,采用的“结构化标准+非结构化注释模块”的方式,利用受控语言统一样本数据结构,结合非结构化词语描述补充样本数据的拓展、修正信息。
数据质量良莠不齐是影响数据共享和研究人员数据重用行为的重要因素,病毒数据的质量关系到研究成果的质量,数据质量越高,研究人员的感知有用性越大,越有可能实现数据重用行为。
3.3 分类汇总链接,构建关联数据网络
CNCB2019新冠病毒库和PHDA数据仓储相比较国外生物医学数据库使用了丰富的关联派生信息的链接,链接指向不局限于单纯关联派生数据,还提供了完整的数据来源索引、数据下载和数据处理工具。跨库链接集合构成了全面的学科研究数据内容,国内病毒数据库可以尝试将指向、用途类似的链接进行归类整合,建立关联数据集之间网络图。所形成的链接集合可以直观地呈现某项数据的全部关联内容以及所关联内容的其他关联信息,帮助研究人员发现诸如流行病起源与未来爆发风险的潜在数据联系[13],建立新的关联数据链接以加强对病毒数据的数据关系研究。
3.4 丰富研究条目,满足多样化需求
CNCB2019新冠病毒库支持对病毒序列的横向对比研究和对原始测序数据的数据验证,能够满足研究人员对元数据条目可操作性的要求。数据库提供了完整的基因组序列数据用于比较研究,但涉及数据对比研究的元数据条目较少且大多使用受控词汇作为元数据内容。对比VIPERdb有关序列对比研究的条目“解析度”“基因组”“T指数”“子单元数”“净表面电荷”“外部SASA”“半径”“直径”“球形体积”,CNCB2019新冠病毒库只有“序列完整度”“序列长度”和“序列质量”3个元数据条目,且除“序列长度”使用实际测得数据以外均使用结构化受控词汇填充内容,对于实际对比研究所能获得结论十分有限。国内病毒数据库需要根据研究人员的数据研究需求编制新的元数据方案版本,支持研究人员多样化的数据研究需求。
参考文献
[1]Dugan V G,Emrich S J,Giraldo-Calderón G I,et al.Standardized Metadata for Human Pathogen/Vector Genomic Sequences[J/OL].https://doi.org/10.1371/journal.pone.0099979,2020-05-01.
[2]Goncalves R S,Musen M A.The Variable Quality of Metadata About Biological Samples Used in Biomedical Experiments[J/OL].https://doi.org/10.1038/sdata.2019.21,2020-05-01.
[3]Marc D T,Beattie J,Herasevich V,et al.Assessing Metadata Quality of a Federally Sponsored Health Data Repository[J/OL].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5333273,2020-05-20.
[4]Shah N H,Jonquet C,Chiang A P,et al.Ontology-driven Indexing of Public Datasets for Translational Bioinformatics[J/OL].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2646250.
[5]Jones P,Cté R G,Cho S Y,et al.PRIDE:New Developments and New Datasets[J/OL].https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2238846,2020-05-20.