文/高孟绪 石蕾 徐波 马俊才 鲍一明 周伟
三年来,新型冠状病毒引发了一场肆虐全球的疫情危机,直接威胁着全球卫生安全。世界卫生组织于2020年3月11日宣布,新型冠状病毒肺炎(COVID-19)疫情具备“大流行”特征。疫情发生后,中国公共卫生和科研机构与病毒“全速赛跑”,中国定期向世界卫生组织、有关国家和地区等及时主动通报疫情信息并共享科研数据。
抗击疫情是一场人类社会与病毒的赛跑,科学数据是助力抗击疫情的重要“武器”。利用国家科学数据平台,及时公布和共享科学数据,是发挥科学数据价值、汇聚全球科研力量共同抗击病毒的重要举措。为服务全球科技抗疫的重大需求,国家微生物科学数据中心和中国疾病预防控制中心联合发布了新型冠状病毒国家科技资源服务系统,国家基因组科学数据中心建立了2019新型冠状病毒信息库,国家人口健康科学数据中心发布新型冠状病毒肺炎数据共享系统。国家科学数据中心发挥在数据汇交管理与共享、信息分析、资源建设等方面的优势,致力于全球COVID-19开放数据的发现与共享,在后疫情时代为全球重大新发、突发传染病防控和科研工作提供重要支撑。
国家微生物科学数据中心和中国疾病预防控制中心于2020年1月24日联合发布了新型冠状病毒国家科技资源服务系统(https://nmdc.cn/nCoV)。该系统第一时间权威发布新型冠状病毒电镜照片、核酸序列和引物设计建议等信息,为全球COVID-19疫情防控和科研工作提供重要数据支撑。系统整合国内外相关数据,迅速建立了大规模参考数据库,用以及时对突发的疫情进行病毒溯源及变异研究,形成了针对疫情的快速响应机制。目前系统总访问量达到2135万,访客数量达到58.4万,其中境外访问439.8万,访客数量超过14万,数据下载次数超过2900万次,下载文件总量约50TB,为全球新冠病毒防控科技攻关作出了积极贡献。
新型冠状病毒基因组在流行过程中持续发生变异,随着对变异研究的深入,变异造成的功能影响日渐成为关注的焦点。新型冠状病毒国家科技资源服务系统在对科学数据资源进行管理和发布的基础上,进一步发挥在微生物领域长期的大数据积累和分析模型开发经验的优势,加强对微生物数据分析与挖掘的支撑。从基因组学和结构生物学角度入手,建立了新型冠状病毒国家科技资源服务系统2.0——新型冠状病毒变异评估和预警系统(VarEPS,https://nmdc.cn/ncovn/),并在Nucleic Acids Research上在线发表,是全球首个对SARS-CoV-2基因组已知变异及虚拟变异进行多维度风险评估和预警的系统。
该系统不仅可以作为全球病毒变异监测和追踪的工具,还可以基于虚拟变异和风险评估模型,为针对新型变异毒株的精准防控和抗体疫苗设计提供有效的参考信息。目前基于该系统的分析结果为精准高效应对SARS-CoV-2突发疫情提供了重要的决策依据,同时也为应对其他突发传染性公共卫生事件提供了技术储备。
在国际交流合作方面,国家微生物科学数据中心主持的“SARS-CoV-2基因组测序及COVID-19流行病学和数学建模研究”项目,与金砖国家进行合作,旨在根据基因组数据和流行病学数据对SARSCoV-2基因突变、传播和系统发育进行测序和基因组数据分析,并依据已有大数据进行流行病学和数学建模,揭示病毒演化和遗传变异对病毒空间扩散的影响,探讨在金砖五国不同国家中流行和传播的优势病毒,帮助识别病毒流行和传播的高风险区域。
新型冠状病毒国家科技资源服务系统数据对外发布后,引起国内外广泛关注。系统通过发布基因组序列数据、蛋白质晶体结构数据支持我国科学家在《自然》《科学》《柳叶刀》等国际著名期刊上发表文章。国务院联防联控四次发布会和中国政府《抗击新冠肺炎疫情的中国行动》白皮书都介绍了新型冠状病毒国家科技资源服务系统的工作。2020年,该系统入选乌镇世界互联网大会全球15项世界互联网领先科技成果,2021年,该成果入选国家“十三五”科技创新成就展,2022年1月,国家微生物科学数据中心被授予“全国科技系统抗击新冠肺炎疫情先进集体”荣誉称号,在新冠肺炎疫情期间为国家疫情防控和预警工作提供重要数据支撑,为科技抗疫、精准防控作出贡献。
2020年,新型冠状病毒国家科技资源服务系统入选世界互联网领先科技成果
2019新型冠状病毒信息库(RCoV19,https://ngdc.cncb.ac.cn/ncov/)是全球第一个公开发布的新冠病毒综合性信息库,也是目前国际上规模最大、资源最丰富的新冠病毒研究公共平台之一。该平台主要涵盖以下内容:基于标准的数据审编与分析流程,持续收集整合国内外各主要数据平台的新冠病毒基因组序列和元数据信息;提供实时快速的新冠病毒基因组序列变异分析,建立针对突变的时空动态演化监测及追踪平台;系统审编并提供已有实验证据证明的感染力、传播力、免疫逃逸等突变功能知识;开发在线智能分析平台,提供基因组拼接与注释、变异鉴定和功能注释、单体型网络构建等全流程在线分析服务;开发千万数量级基因组单体型网络快速构建算法和基于人工智能的新冠病毒高风险变体预警体系。
RCoV19为全球新冠肺炎疫情防控提供科学数据支撑,截至2022年11月5日,收录并共享全球范围内产出的共计约1412万条非冗余新冠病毒基因组序列信息,为全球181个国家和地区36万多名访客提供百余万次在线服务,数据下载近95亿条,其中国际用户占比高达60%以上。
在国际交流合作方面,国家基因组科学数据中心与巴基斯坦国立卫生研究所、真纳大学开展联合研究,对巴基斯坦早期新冠病毒序列变异及传播演化展开系统分析,为巴基斯坦精准疫情防控提供国际抗疫科技援助;与美国国家生物技术信息中心建立了新冠病毒基因组数据同步共享机制;为世界卫生组织—中国开展的新冠病毒溯源联合研究提供数据支撑,相关结论写入联合研究报告;参与了金砖五国新冠病毒基因组变异监测项目,联合发表了奥密克戎变异株监测文章;受邀在美国微生物学会公共卫生数据共享研讨会等国际会议上介绍RCoV19数据库,并举办国际培训促进新冠病毒信息国际共享与合作。
RCoV19获得全球高度认可,作为亮点工作写入《“一带一路”创新发展报告2021》,被美国国立卫生研究院、爱思唯尔(Elsevier)国际出版集团、韩国国家生物信息中心等20多家国际专业机构推荐使用,显著提升中国在该领域的国际影响力。
国家人口健康科学数据中心发布新型冠状病毒肺炎数据共享系统(https://www.ncmi.cn/covid-19/),致力于全球新冠肺炎开放数据的发现与共享。该系统以科学数据为基础,以官方报告为外延,主要功能模块包括数据注册、数据汇交、数据审核、数据浏览、数据检索、数据统计分析、数据可视化、疫情动态、内容管理、数据分级分类管理、数据访问控制、动态展示等,结合可视化技术进行全球和国内疫情分析播报。目前已收集整合新冠病毒相关研究文献数据库、临床试验数据库、疫情报告数据库、疫苗数据库、病毒序列数据库、药物数据库、防护指南数据库、标准规范数据库、政策法规数据库、媒体资源数据库、防护知识数据库等多重数据资源,协同推进新型冠状病毒相关科技资源与信息开放与共享。
该系统上线后,《中国科学报》《科技导报》《中国工程院院刊》、新浪网等多个媒体平台进行了报道。
国家人口健康科学数据中心建立新冠病毒肺炎专题数据库,包括新冠肺炎病案首页数据、新冠肺炎临床病例数据和发热症候群数据,收集不同来源新型冠状病毒肺炎临床病例数据60000份、新型冠状病毒肺炎病案首页数据81000份和20873名发热症候群病人的病历数据。依据《新型冠状病毒肺炎临床数据元》《新型冠状病毒肺炎数据安全指南》等规范,完成结构化、标准化处理,形成专题数据库,根据国家法律法规和政策指导使用。该中心支持建设的新冠肺炎病毒数据库,收集整理了包括新冠病毒在内的598633个冠状病毒基因组数据;主要国家检测引物和探针序列以及新冠病毒相关的电镜照片。该中心支持建设的重要疫源生物相关病毒数据资源平台ZOVER,构建了国际上首个综合性疫源生物相关病毒数据资源中心和分析系统,为未来潜在的动物源性新发病毒性传染病的预警、鉴定、检测和溯源提供了整合的数据信息和综合的分析平台。
国家人口健康科学数据中心还陆续发布了《冠状病毒传染病本体》《新型冠状病毒肺炎术语集》《国产医用外科口罩注册信息》《国产医用防护口罩注册信息》《国产呼吸机注册信息》《国产红外体温计注册信息》《国产医用防护服注册信息》《国产一次性使用医用口罩注册信息》《国产新型冠状病毒检测试剂注册信息》《全国新型冠状病毒感染的肺炎定点救治医疗机构和发热门诊汇总数据集(第一版和第二版)》《全国新型冠状病毒肺炎疫情心理援助热线数据集》等多个数据集,为新型冠状病毒肺炎防疫物资、救治机构和康复后心理援助机构的选择、救助物资发放、疫情数据采集标准化等工作提供基础数据支持;组织制定撰写《新型冠状病毒肺炎临床数据元》《新型冠状病毒肺炎数据安全指南》和《新型冠状病毒肺炎数据共享系统基本功能规范》等技术规范,为新冠肺炎数据的安全管理、开放共享提供了及时有效的支撑与参考。
下一步,为持续增强我国重大疫情防控科技支撑保障能力,为同类科技支撑活动积累长周期科学数据,增强科学数据支撑保障能力,建议进一步加强对新型冠状病毒资源和数据的有序管理,建立健全相关法规制度。充分发挥各个团队在数据分析方面的优势,高效、准确地支持国家决策和科学研究,形成以突变为核心的知识库;发展快速预警新系统,实时监控输入病例病毒序列特征,研判世界疫情形势,提供防疫决策支撑数据。