我国人类基因数据库元数据规范的设计

2019-10-23 03:15刘一依王世民琼2飞2胡建平2沈丽宁
中华医学图书情报杂志 2019年7期
关键词:人类基因遗传变异基因组

刘一依,王世民,武 琼2,赵 飞2,胡建平2,沈丽宁

生物基因数据是21世纪重要的国家战略资源。随着精准医学时代的到来,产生了大量的基因测序数据。精准医学的核心思想是根据患者的生物学信息和患者自身所具备的特点,采用特定的医疗方法对患者实施治疗[1]。由于每个机构在管理基因数据时采用不同的基因数据库元数据方案,所以导致基因数据在不同机构之间难以共享[2]。元数据即描述数据的数据[3]。数据库是以某种方式存储在计算机内、能分享给多个用户且重复存储较小的数据的集合[4]。元数据的功能主要包括挖掘信息、组织信息、实现信息互操作、辨识信息和存储信息[5]。元数据规范能为数据的采集和存储提供支持,是数据库建设前期的基础性工作之一,建立元数据规范的目的是建立数据库。

美国、欧洲、日本均建立了各自的人类基因数据库。国外人类基因数据库的元数据比较成熟,对我国人类基因数据库元数据规范的设计有很重要的借鉴意义。基因信息资源是我国重要的人类遗传资源,关系到国家战略安全,而我国人类基因数据库尚未建成[6],人类基因数据库元数据规范也不健全。虽然国外人类基因数据库的元数据比较成熟,但不同类别基因数据库中每个数据库的元数据有一定的差异性,难以直接借鉴。为了保障我国人类基因信息安全和健全我国人类基因数据库建设标准,本文在调查分析国内外人类基因数据库元数据现状的基础上,设计了我国人类基因数据库元数据规范。

1 国内外人类基因数据库建设现状

1.1 人类基因数据库分类

人类基因数据库主要分为核酸序列类数据库、基因组数据库、疾病与遗传变异数据库三大类[7]。核酸序列类数据库包括核糖核酸(Ribonucleic Acid,RNA)和脱氧核糖核酸(Deoxyribonucleic Acid,DNA)的相关信息,DNA和RNA都能储存遗传信息;基因组数据库储存了基因组相关信息,其中基因组包含了细胞内所有的遗传信息;疾病与遗传变异数据库包含了与基因有关的疾病与遗传变异信息。除外伤外,大部分的疾病都和基因有密切关联。通过遗传而携带的有问题的基因、后天发生变异的基因以及个体生活习惯等对正常基因的影响是导致疾病的三大根本原因[8]。

1.2 国外人类基因数据库建设现状

1.2.1 核酸序列类数据库

核酸序列数据库主要包括Genbank数据库[9]、EMBL数据库[10]和DDBJ数据库[11]。其中,Genbank数据库的元数据主要包括基因编号、基因的关键词、基因相关文献信息、基因的生物学描述等,基因编号是该序列唯一的编号,基因的关键词包括该序列的基因产物等信息,基因相关文献信息包括基因相关文献的作者、题目、刊名等信息,基因的生物学描述包括基因的来源、重复序列等信息。EMBL数据库和DDBJ数据库的元数据内容与Genbank数据库类似。

1.2.2 基因组数据库

本文调研了Genome数据库[12]和UCSC Genome Browser数据库[13]。这两个数据库都提供了能检索及可视化浏览人类基因组注释信息的人类基因组注释系统。Genome数据库的元数据除了包含基因组注释信息以外,还包含基因所在染色体的名称、参考序列编号和基因组的生物学描述等信息。

1.2.3 疾病与遗传变异数据库

本文调研了在线人类孟德尔遗传数据库(Online Mendelian Inheritance in Man,OMIM)[14]、单核苷酸多态性数据库(Database of Single Nuleotide Polymorphisms,dbSNP)[15]、基因组结构变异数据库(Database of Genomic Structural Variation,dbVar)[16]和人类基因变异数据库(Human Genome Variation Database,HGV Database)[17]。

在线人类孟德尔遗传数据库包含了人类基因突变的信息,其元数据包括基因编号、标题、基因相关文献信息、基因相关生物学信息、贡献者、提交日期、编辑历史等。其中生物学信息包括表型基因关系、临床概要和临床特征等信息。

单核苷酸多态性数据库主要收录与人类疾病相关的基因突变信息,包括小规模遗传变异、小规模多碱基缺失等[18],其元数据包括基因编号、基因相关生物学信息、提交记录等。其中基因相关生物学信息包括位点、等位基因、变异类型等信息。

基因组结构变异数据库主要收录较大规模的基因组变异信息,包括大片段的插入、缺失、异位、倒置和拷贝数多态等信息,其元数据包括编号、研究ID、基因相关生物学信息、提交时间等。其中基因相关生物学信息包括变异类型、所在染色体等信息。

人类基因变异数据库包含基因变异信息,其元数据包括编号、名称、基因相关生物学信息等。其中基因相关生物学信息包括变异类型、相关疾病、表型等信息。

1.3 国内人类基因数据库建设现状

生命科学已经进入大数据时代,然而我国缺乏存储基因数据的公共平台。为顺应时代的发展,中国科学院北京基因组研究所开发并建设了组学原始数据归档系统(Genome Sequence Archive,GSA)[19-20]。GSA属于核酸序列类数据库,其元数据主要包括GSA编号、样本信息、测序反应信息、测序反应序列文件信息等。其中样本信息包括样本编号、样本名称、样本类型、贡献者信息、发布日期、提交者、提交日期等。

2 设计我国人类基因数据库元数据规范的必要性

2.1 保障我国人类基因信息安全

随着基因技术的不断进步,基因测序的成本越来越低,获取基因信息的成本将会逐步降低,从而产生了大量的人类基因信息。人类基因信息是我国重要的遗传资源,人类基因信息安全是国家战略安全的重要组成部分。人类基因信息包含人的性格、智力、患某种疾病概率等信息,应加强我国人类基因信息安全管理,避免我国人类基因信息的外泄。为了规范我国人类遗传资源的管理,我国先后发布了《人类遗传资源管理暂行办法》和《人类遗传资源采集、收集、买卖、出口、出境审批行政许可事项服务指南》。建立本土的人类基因数据库可储存我国人类基因信息,确保我国人类基因信息安全,而我国人类基因数据库元数据规范是我国人类基因数据采集和储存的基础性的技术规范。

2.2 健全我国人类基因数据库建设标准

人类基因数据库建设标准是人类基因数据库建设的重要内容。与国外人类基因数据库元数据相比,国内人类基因数据库元数据包含的内容较少,不能满足未来对基因数据的应用需求。虽然国外人类基因数据库元数据已经比较成熟,但是每个国家各自的数据库是根据自身不同需求建立的,每类基因数据库中每个库的元数据都不尽相同。因此我国在建立人类基因数据库时,难以确定遵循哪个数据库的元数据。

我国幅员辽阔,人口和民族众多,生物资源非常丰富。随着测序技术的进步和生物数据急剧增长,政府也制定了一些标准。国内目前已发布标准有国家标准《生物信息学术语》(GB-T-29859-2013)和地方标准《生物基因信息数据库建设与管理规范》(SZDB/Z 92-2014)。但是,上述两个标准都没有规定人类基因数据库元数据的具体内容,所以我国亟需建立人类基因数据库元数据标准。

3 我国人类基因数据库元数据规范设计

通过文献调查和网站检索等方法,调研了国内外核酸序列类数据库、基因组数据库、疾病与遗传变异数据库,并从标识维度、关系维度、文献维度、内容维度和管理维度设计了不同类型基因数据库元数据规范[21]。

3.1 核酸序列类数据库元数据规范设计

通过综合以上核酸序列类数据库元数据,得出核酸序列类数据库元数据主要包括基因编号、基因的关键词、基因相关文献信息、基因的生物学描述等;然后遵循简洁、实用、准确的原则,设计了核酸序列数据库元数据规范。将核酸序列类数据库的元数据分为标识维度、关系维度、文献维度和内容维度。核酸序列类数据库数据元模型见图1。其中,标识维度是对基因标识信息的描述,关系维度是对基因相关的关键词信息的描述,文献维度是对基因相关联的文献信息的描述,内容维度是对基因相关生物学信息的描述。每个维度所包含的元数据项见表1。

图1 核酸序列类数据库数据元基本属性模型

维度 元数据 说明是否可选标识维度 编号(Accession)具有唯一性和永久性必选版本(Version)代表版本号,编号后加小数点和整数可选关系维度关键词(Keywords)由该序列的提交者提供,描述该基因的关键词可选文献维度参考文献编号(Reference Number)无可选 作者(Authors)无可选标题(Title)无可选杂志名(Journal)无可选评论(Comment)用户关于此条序列的评论 可选超文本链接(Hypertext Link)点击即可直接调用上述文献摘要可选内容维度说明(Definition)有关该序列的简单描述必选数据来源(Source)说明该序列的生物体来源和组织来源 必选种属(Organism) 指出该生物体的分类学地位 必选细胞器(Organelle)该基因是否在某一个特殊的细胞器中必选重复序列(Repeat_Region)基因中所包含的重复序列 必选原序列(Origin)碱基序列必选

3.2 基因组数据库元数据规范设计

通过综合以上基因组数据库元数据,得出基因组数据库元数据主要包括基因所在染色体名称、参考序列编号、基因组的生物学描述、基因组注释信息等;然后设计了基因组数据库元数据规范。将基因组数据库元数据分为标识维度、内容维度和基因组注释维度。基因组数据库数据元模型见图2。其中,标识维度是对基因组标识信息的描述,内容维度是对基因组相关生物学信息的描述,基因组注释维度是对基因组注释信息的描述。每个维度包含的元数据项见表2。国外基因组数据库的数据中,对于基因组注释维度的几个方面数据有更详细的描述。

图2 基因组数据库数据元基本属性模型

维度 元数据项 说明是否可选 标识维度染色体名称(Name) 无 必选参考序列编号(Refseq) 无 必选内容维度GC含量(GC%)五个碱基内GC的比例 可选蛋白质 (Protein) 蛋白质数量 可选核糖体RNA(rRNA) 核糖体RNA的数量 可选转运RNA (tRNA) 转运RNA的数量可选其他RNA(Other RNA)其他RNA的数量可选基因(Gene) 基因的数量 可选假基因(Pseudogene)假基因的数量 可选基因组注释维度比对和序列(Mapping and Sequencing) 无 必选基因和基因预测(Genes and Gene Predictions)无 必选表型和文献(Phenotype and Literature)无 必选转录RNA和表达序列标签(mRNA and EST)无 必选表达(Expression) 无 必选调节(Regulation) 无 必选比较基因组(Comparative Genomics) 无 必选变异(Variation) 无 必选重复序列(Repeats) 无 必选

3.3 疾病与遗传变异数据库元数据规范设计

通过综合以上疾病与遗传变异数据库元数据,得出疾病与遗传变异数据库元数据主要包括编号、标题、基因相关生物学信息、提交时间、编辑历史等;根据实用性原则,结合我国实际情况设计了疾病与遗传变异数据库元数据规范。将疾病与遗传变异数据库涉及到的元数据分为标识维度、内容维度和管理维度。疾病与遗传变异数据库数据元模型见图3。其中,标识维度是对基因标识信息的描述,内容维度是对基因相关生物学信息的描述,管理维度是对基因管理信息的描述。每个维度所包含的元数据见表3。

图3 疾病与遗传变异数据库数据元基本属性模型

4 结语

本文收集并整理了国内外人类基因数据库的元数据,按照标识维度、内容维度、管理维度、关系维度和文献维度,分别对核酸序列类数据库、基因组数据库、疾病与遗传变异数据库的元数据进行了分类;然后设计了我国人类基因数据库元数据规范,目的是为我国人类基因数据的采集和储存提供帮助。但也存在不足之处,本文设计的我国人类基因数据库元数据规范只是一个初步的规范,实用价值有限,该规范仍需进一步检验和完善。

为了保障我国人类基因信息安全,相关领域的研究人员应以实用、方便、准确为原则,尽快建立我国的人类基因数据库,并在全国范围内推广,防止我国人类基因信息资源的外泄。

猜你喜欢
人类基因遗传变异基因组
诺贝尔奖得主斯万特·佩博发现人类基因中存在着尼安德特人基因
牛参考基因组中发现被忽视基因
科学家找到母爱改变基因组的证据
血清HBV前基因组RNA的研究进展
先导编辑技术可编辑近90%的人类遗传变异
基于改进遗传变异算子的海岛算法
紫花白及基因组DNA提取方法的比较
人类基因编辑有了基本原则
GABABR2基因遗传变异与肥胖及代谢相关表型的关系
浅析国际人类基因的法律保护