比较医学大数据平台的建立

2022-03-16 01:40张连峰鲍琳琳刘江宁向志光孟爱民杨志伟
中国比较医学杂志 2022年12期
关键词:动物模型医学数据库

吴 玥,魏 强,张连峰,薛 婧,鲍琳琳,刘江宁,向志光,孟爱民,杨志伟,高 苒,孔 琪

(中国医学科学院医学实验动物研究所,国家人类疾病动物模型资源库,国家卫生健康委员会人类疾病比较医学重点实验室,新发再发传染病动物模型研究北京市重点实验室,北京市人类重大疾病实验动物模型工程技术研究中心,北京 100021)

比较医学是对不同种动物(包括人)之间健康和疾病现象进行类比研究的科学。通过实验动物来研究人类各种疾病,揭示实验动物与人类正常和疾病状态之间的联系,从而了解疾病发生发展机制和规律[1-2]。比较医学的概念在19 世纪末最早由生物学、兽医学和医学的一些先驱者提出,并在医学领域得到发展[3-4]。发展至今,比较医学已经成为实验动物学与兽医学、医学的交叉学科,是联系基础医学和临床医学的桥梁。随着实验动物行业快速发展,基于实验动物和动物模型产生的比较医学数据爆发式增长,积累了丰富的大数据资源。海量科学数据对包括实验动物学和比较医学在内的生命科学、医学、药学等多个科学领域带来了冲击性影响[5-6]。

我国实验动物资源及动物模型研究缺乏成规模的资源数据库或大数据平台。建立比较医学大数据平台,对这些资源和数据进行保存,并实现有效共享,对于国内科研人员充分利用现有实验动物和比较医学大数据资源进行人类疾病研究与防治及科学创新性研究具有积极意义。实验动物及比较医学大数据资源的保存、利用和共享也是全球性的发展趋势。

1 材料和方法

1.1 数据来源

本平台的原始数据主要来源于中国医学科学院医学实验动物研究所自有数据,实验动物研究机构,以及已经公开发表的期刊文献、图书专著、公共数据库和研究报告等。经过专家组论证,制定元数据和数据采集相关表格,确定数据结构和数据标准。

1.2 数据收集方法

全国范围内联络实验动物行业科研机构、高等院校、行业企业等相关单位按照比较医学大数据平台数据格式要求及采集规范采集对应数据,对收集的信息进行汇总,形成从资源研制、表型分析、研究应用等可公开的实验动物/动物模型、动物实验、比较医学等科研大数据。数据管理员对提交的数据从内容、格式、完整性和质量等方面进行审核,数据管理负责人进行复审。最后交由比较医学领域专家以会议或函审等方式审核确认后收录到数据库中进行共享,可保障数据质量。

1.3 数据库建立

比较医学大数据平台基于B/S(browser/server)架构进行设计开发,系统部署在linux 操作系统,整个平台的设计基于HTML5 内核,采用TP5.0 框架,底层采用关系型数据库MySQL 进行基础数据存储,使用lvs(linux virtual server)、keepalive 实现集群高可用,保障系统的稳定性。系统采用以角色为基础的权限管理设计模型RBAC(role-based access control),实现通过多角色对系统功能的访问控制。基于当前系统架构孵化了含有多个子库的网络平台。

1.4 访问方式

比较医学大数据平台网址:https://com-med.org.cn/。可公开获取,免费使用。

2 结果

2.1 比较医学大数据平台架构与内容

比较医学大数据平台系统分为四个层次:数据源层、数据抽取层、数据存储层、应用层,包括用户管理、系统监控等支撑功能(见图1)。(1)数据源层主要包含了比较医学研究产生的各种源数据,包括实验数据,以及数据分析和共享为目的进行的数据采集、录入、整合、处理、存储、发布的过程。(2)数据抽取层主要包括内部、外部数据源到比较医学大数据平台的数据采集、传输、校验、转换、加载等几个过程。(3)数据存储层包括缓存数据库、数据仓库。(4)应用层由数据分析与数据展示两部分构成。(5)网页门户方便用户通过浏览器录入、查询、分析数据。(6)按照用户的角色,对其进行分类,进行多级权限分配与权限控制。(7)系统安全监控包括:网络监控、服务器监控、数据库监控与日志监控等。(8)提供数据备份机制,以保证全系统的稳定性和可靠性。

图1 比较医学大数据平台架构Figure 1 Framework of comparative medicine big-data platform

比较医学大数据平台包含网站首页、数据库、分析工具、比较分析、外部资源、资料中心6 个一级栏目,对应不同的功能模块(见图2)。首页包含全局检索功能,可输入关键词,对所有子库数据进行查询。比较医学数据库、比较医学分析工具、外部资源的分类导航功能可引导用户浏览并跳转至对应内页。网站介绍、新闻动态、相关文献、数据库引用等信息可帮助用户快速了解网站整体情况及行业相关动态。此外,还包含注册登录、数据提交,人类疾病动物模型、实验动物品系、基因工程动物3 个数据集的数据下载以及全站数据统计功能。

图2 比较医学大数据平台首页Figure 2 Home page of comparative medicine big-data platform

2.2 主题数据库

比较医学大数据平台的主题数据库分为八类,包括32 个子库(见图3),其中平台主题数据库21 个(见表1),通过整合比较医学相关数据资源,制定元数据和数据采集规范及相关表格,根据各子库的特点,设置了不同的字段。提供查询、显示、数据录入、数据审核等功能,为获得有效的实验动物和动物模型科学数据提供服务。外链子库11 个,为比较医学框架体系子库。平台主题数据库通过关联的动物模型、品系、物种、微生物数据库,实现数据词条相互关联,用户可点击查看被关联的数据。子库与字段均可以通过网站后台进行修改及扩展。

图3 比较医学大数据平台数据子库Figure 3 Sub-database of comparative medicine big-data platform

表1 比较医学大数据平台主题数据库Table 1 Subject database of comparative medicine big-data platform

续表1

2.3 生物信息学在线工具

比较医学大数据平台“分析工具”栏目按照在线工具、比对工具、互作工具、预测工具、富集工具、作图工具集成生物信息学工具,包含分类目录、简介、工具列表,可以外链到对应工具页面。通过网站后台可以不断录入新的生物信息学分析工具,目前已收录46 个常用的生物信息学分析工具,例如BLAST、clustal omega、MUSCLE、JBrowse、circos 等(见图4)。

图4 比较医学大数据平台生物信息学工具Figure 4 Bioinformatics tools of comparative medicine big-data platform

2.4 基于动物模型数据的比较分析

比较医学大数据平台以动物模型数据库为核心,提供指定“动物模型”的同类数据比较功能,可通过输入动物模型全称、动物模型的物种或品系、动物模型类别、动物模型涉及的微生物名称进行检索并选择动物模型(最多可选择10 条),调取比较生理、比较生化、比较病理、比较影像、比较行为、比较解剖6 个子库的数据,提供对动物模型生理学、生物化学、病理学、影像学、解剖学、行为学层面的比较分析。将同类型数据在一个页面以多列的形式进行比较,每种属性一行,比较结果相同数据显示红色,不同则显示黑色。例如可以检索并选择“PDGF-hα-SynucleinA53T 转基因小鼠帕金森模型”与“单侧纹状体注射6-OHDA 诱导帕金森小鼠模型”,选择“比较行为学数据库”,将两个模型的行为学数据进行比较分析,生成分析结果(见图5)。

图5 比较医学大数据平台比较分析功能Figure 5 Comparative analysis function of comparative medicine big-data platform

2.5 外部资源

比较医学大数据平台“外部资源”栏目按照基因组学数据库(genome database)、基因表达数据库(gene expression database)、转录组学数据库(transcriptomics database)、蛋白组学数据库(proteomics database)、蛋白互作数据库(protein interaction database)、代谢组学数据库(metabonomics database)、实验动物资源数据库(laboratory animal resource database)、人类疾病数据库(human disease database)的分类汇总已建立的公共数据库。数据库目录列表内容包括:数据库名称、标签、介绍、关键词、网址,可以外链到对应数据库。左侧为数据库分类导航栏,右侧为数据库浏览列表,点击列表可打开相应详情页,查看对应数据库详细信息及相关的其他数据库;可通过标题、关键词、介绍进行检索,通过网站后台可以添加新的分类并且不断录入新的数据库,目前已收录122 个公共数据库信息(见图6)。

图6 比较医学大数据平台外部资源栏目Figure 6 External resources of comparative medicine big-data platform

3 讨论

科学数据是当代传播速度最快、影响面最宽、开发利用潜力最大的战略性、基础性科技资源。科技创新越来越依赖于大量、系统、高可信度的科学数据。国务院在2015 年发布了《促进大数据发展行动纲要》(国发〔2015〕50 号)[7]。2018 年3 月国务院办公厅发布了《科学数据管理办法》(国办发〔2018〕17 号)[8]。国家科技部据此设立了科学数据共享平台,启动了“云计算和大数据”、“高性能计算”等重点专项。国家卫健委科教司在2019 年5 月发布了《医疗卫生机构卫生健康科学数据管理办法(征求意见稿)》,并指定中国医学科学院建立科学数据中心[9]。在此背景下,我们于2015 年建立了比较医学大数据平台,并于2020 年改版升级。

欧美等发达国家高度重视实验动物及人类疾病动物模型相关科学研究,建立了多个实验动物数据库以及资源平台[10],例如美国Jackson 实验室的小鼠遗传资源库(MGI)、小鼠表型数据库(MPD)、基因表达数据库(GXD)、小鼠肿瘤生物学数据库(MTB)、动物模型与人类疾病关联数据库(LAMHDI)等。美国密苏里大学的大鼠基因组数据库(RGD)。英国有“啮齿类基因组数据库”、“小鼠细胞遗传图谱”、“畸形人鼠同源性数据库”,以及欧洲小鼠突变资源库等,对实验动物品系资源及相关研究数据进行共享[11]。

国内建立了啮齿类等6 个实验动物资源库和国家人类疾病动物模型资源库[12],也建立了实验动物资源数据库等少量的数据库[13]。作者所在单位已建立了实验动物品系数据库、基因工程大鼠资源库。但是缺乏大规模动物模型、动物实验及比较医学相关数据,无法满足实验动物研究人员多层次全方位的实际需求[14-16]。

我们建立了一个统一的比较医学大数据平台,实现了数据库、常规统计分析以及科学研究三者间的有机结合。进行人类疾病动物模型与相关比较医学数据的收集、处理和分析研究。有效整合来自研究所及相关单位的各种实验动物资源、疾病动物模型与比较医学相关数据,实现了比较医学相关科学数据资源的集成共享以及不同数据库的分级管理。弥补了我国在人类疾病动物模型资源供应和相关技术服务方面的劣势,为疾病的科学研究提供便利,对国内科研人员充分利用现有实验动物和比较医学大数据资源进行科学创新性研究具有积极意义。

通过调动各机构分散的动物模型资源,化零为整,实现了国内分散的疾病动物模型研究资源的整合和信息化。汇聚国内外的比较医学相关数据资源,围绕我国疾病动物模型发病机制、疾病诊断、治疗药物靶点、重大新药创制、疾病防治等领域的研究,进行实验动物资源、动物模型表型数据的集成,提供高水平的疾病动物模型资源支撑。解决临床医院、药物研究、基础研究等方面对实验动物与动物模型数据的共享、查询及分析问题。

世界上尚无比较医学相关的大数据平台。本研究建立的比较医学大数据平台,通过数据集中,满足不同层次、不同研究目的的需求。解决医学动物实验和临床医学研究结果数据存储和比较分析的科学问题,进而促进人类疾病基础医学、转化医学和临床医学研究,增强生物医药创新能力,最终提高我国生物医药领域的整体研究水平。研究者可以根据数据库中已有的实验方案和实验指标对实验进行优化,如选用合适的实验动物种类及品系、年龄、性别、规格、质量标准,采用适当的分组方法,选择科学、可靠的检测技术指标等,从而对实验方案进行优化[17]。

比较医学大数据平台可服务于人类疾病动物模型资源制作、模型分析、药效学评价等相关的生物医药产业,为我国乃至全世界的生物医药研发服务,抢占较大的国内市场份额和一定的国际市场份额,产生巨大的经济效益。平台支撑的生物医药产业,将促进创新药物的产生,使我国具有自主知识产权的创新药物通过国际标准的平台评价,获得国际话语权,带动生物医药产业的进步,具有不可估量的经济贡献。

今后会将比较医学大数据平台的支撑能力不断放大,形成基于人类疾病动物模型大数据的支撑性科学数据平台。基于比较医学大数据,智能预测动物模型可能产生的表型,揭示动物模型与人类正常和疾病状态之间的联系,根据医学问题研究需要进行动物模型选择或研制,为医药领域科技规划的实现、人口健康领域研究目标的顺利完成提供疾病动物模型资源保障。感谢中国医学科学院医学实验动物研究所秦川教授提出建立数据库并指导数据库完善。

猜你喜欢
动物模型医学数据库
肥胖中医证候动物模型研究进展
胃癌前病变动物模型复制实验进展
医学的进步
溃疡性结肠炎动物模型研究进展
预防新型冠状病毒, 你必须知道的事
数据库
数据库
数据库
医学
数据库