国内外新冠肺炎数据共享现状分析*

2022-07-03 04:00邱春艳陈可睿
数字图书馆论坛 2022年5期
关键词:肺炎新冠科学

邱春艳 陈可睿

(曲阜师范大学传媒学院,日照 276826)

新型冠状病毒肺炎(以下简称“新冠肺炎”,COVID-19)疫情暴发以来,国内外为研发病毒解决方案,从政策研究、平台建设、研究成果管理等方面入手推动相关科学数据资源的开放和共享。2020年3月,中国国家自然科学基金委员会(National Natural Science Foundation of China,NSFC)同英国国家科研与创新署(UK Research and Innovation,UKRI)联合发布声明,强调双方共同致力于加强全球科研合作,鼓励开放的信息交流和数据共享,为快速推进新冠肺炎诊断、治疗与防控提供科技保障和决策支撑[1]。为解决疫情暴发情况下研究论文相关数据资源访问障碍问题,《世界卫生组织简报》(Bulletin of the World Health Organization)实施“COVID-19 Open”数据共享和报告机制,即当向《世界卫生组织简报》提交数据后,所有与新冠肺炎疫情有关的研究论文都将被分配一个数字对象标识符,并在接受同行评议的24小时内在线发布到“nCov-2019 Open”数据平台上[2]。

由此可见,新冠肺炎疫情下,建立完善的数据开放平台和共享机制,应对全球突发公共卫生挑战,推进公共卫生紧急事件数据共享能力的建设,已经成为各国政府和科技界的普遍共识[3]。本文通过网络调查和文献调研,归纳总结新冠肺炎科学数据资源平台数据共享的现状与特征,从共享激励机制、科学数据的质量控制、元数据标准等方面提出改进建议,以期推动新冠肺炎相关科学数据的交流与共享。

1 新冠肺炎科学数据的内涵与类型

科学数据既是科研成果的提炼,又是科研创新的来源。目前对科学数据界定的认知尚未统一。科学数据一般是指在科技活动(实验、观测、探测、调查等)中或通过其他方式所获取的反映客观世界的本质、特征、变化规律等的原始基本数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集[4]。本文所讨论的新冠肺炎科学数据是指新冠肺炎疫情监测以及相关科学研究活动所产生的各类数据资料和相关信息。

新冠肺炎数据是海量数据资源中的一部分,具有科学数据资源的一般类型划分。如根据科学数据资源的加工程度,可以将其划分为原始数据和衍生数据。其中,原始数据指在科学研究中通过实验、观测、探测、调查等方式得到的未经进一步加工处理的数据;根据科学研究或数据管理的需要将原始数据进一步加工整理的各种数据集合即为衍生数据。而新冠肺炎数据主要为新冠肺炎疫情中的监测和科学研究数据,鉴于新冠肺炎疫情本身监测和科学研究的内容特征,从数据的主题角度可以将新冠肺炎数据的类型进一步划分为疫情监控数据、病毒数据、药物或疫苗数据、治愈患者跟踪数据等。其中,疫情监控数据包括时间、地点、确诊病例数、疑似病例数、治愈病例数等信息;病毒数据包括基因组、核酸序列、宿主类型等信息;药物或疫苗数据包括靶向数据、灭活性、时效等信息;治愈患者跟踪数据包括治愈患者各项身体健康数据、治愈后后遗症出现概率及其治愈情况等信息。

2 新冠肺炎数据平台建设与数据共享现状调查

不同国家和组织将新冠肺炎相关研究的数据存储到机构库中并通过旗下出版物或搭建共享平台进行共享。在新冠肺炎流行期间,一些国家开放获取出版的比例较之前有所增加[5]。如Torres-Salinas[6]对12个数据存储库中有关新冠肺炎的科学研究成果进行计量分析,发现每4种新冠肺炎出版物中就有3种可以开放共享。新冠肺炎数据平台数量逐渐增多,随之暴露出平台建设中的许多不足,如我国学术期刊在新冠肺炎防疫期间存在整体上反应不够迅速、数字化出版能力不强、网络首发平台应用不充分等问题[7]。谢新洲等[8]指出开放的信息不应局限于数据,也应该包括病毒样本、病毒序列信息、不涉及隐私的临床资料、诊疗指南、数据结果的算法代码、标准和思想等。

经初步调查,目前新冠肺炎数据资源多以数据平台的形式呈现。由于不同科研团体对数据处理的角度和方法不同,不同国家或组织对科研数据的规定也存在差异,不同平台资源类型、更新速度、可共享性、元数据标准等的规定各不相同。因此,本文对新冠肺炎相关科学数据资源平台进行调查和分析。

2.1 新冠肺炎数据平台分布情况

通过调查发现,新冠肺炎数据平台呈现明显的区域性特征。中国、美国和欧洲更注重新冠肺炎的检测和研究,进而提供更加丰富的数据资源存储和共享。在综合考虑各新冠肺炎数据平台的权威性、领域影响力及内容覆盖全面性的基础上,对21个典型平台进行对比分析(见表1),除表中信息外,还包括欧洲委员会(European Commission)的COVID-19 Data Portal以及世界蛋白质数据库基金会(Worldwide Protein Data Bank Foundation)的World Protein Data Bank(PDB)两个平台。

表1 典型新冠肺炎数据平台分布情况

2.2 新冠肺炎数据平台的现状

除对新冠肺炎数据平台的所属机构、数据主题和资源量进行调查以外,根据数据共享所涉及的主要方面,对数据平台的更新速度、可共享性、元数据标准、政策、数据接口等进行调查。经研究发现,新冠肺炎数据平台所收录的数据以病毒数据、疫苗或药物数据以及疫情监控数据为主。新冠肺炎数据平台多为非公益性机构和组织搭建,多数遵循《科学数据管理办法》、CC协议和FAIR Principles,也有部分平台签订了平台自身的数据共享倡议。除Infectious Diseases Data Observatory平台需要邮件申请数据访问外,其余平台均可免费查看,极少数平台需要用户注册。与此同时,各平台均使用API接口完成IP地址之间的跳转,以适应不同用户的浏览器使用习惯。平台多包含病毒数据和疫情监控数据等科学数据,并尽量收录更为丰富和多样的资源来满足不同用户的数据需求。不同平台存储的科学数据所属学科领域不同,元数据标准的使用也存在差异,例如病毒基因数据的描述主要使用Genome Metadata标准、蛋白质数据的描述使用PDBx/mmCIF或PDB元数据标准、疫情数据的描述主要使用DC元数据标准。该类数据平台所包含的科学数据通常由科研人员通过大量实验、计算得出,科研人员的共享意愿是数据共享的重要影响因素,数据多为动态更新。

此外,上述调查的平台中,一部分是新冠肺炎疫情发生后以满足科研人员研究需求、提高公众对新冠肺炎的认识为目的搭建的平台,如中国科学院的新型冠状病毒国家科技资源服务系统、中国国家人口健康科学数据中心的新型冠状病毒肺炎数据共享系统、Nextstrain团队的Genomic epidemiology of SARS-CoV-2、欧洲委员会的COVID-19 Data Portal等;另一部分是在原收录数据的基础上扩展出新冠肺炎相关数据专题,如国家基因库生命大数据平台、PDB、COVID-19 Dashboard等。大多数平台在数据收集和存储过程中没有明显的区域局限性,科研人员能够在不同的平台上检索查询或通过API接口访问不同国家/地区的病毒基因测序数据及疫情监控数据。涉及疫情监控数据的平台在数据上具有一致性,只是在更新频率及更新速度上有所不同。与此同时,同数据源平台的数据在内容上具有一致性,例如均来源于PDB的RCSB Protein Data Bank和Protein Data Bank Japan。同一国家的不同平台其科学数据资源存在一定的交叉关系,例如国家基因库生命大数据平台与天津大学生物信息中心的新型冠状病毒基因组注释数据库、美国的COVID-19 Dashboard与COVID-19 Interactive Map,虽然存在交叉关系,但由于数据表现形式和侧重点的不同,平台之间仍然存在差异。

3 新冠肺炎科学数据共享的特点

通过上述调查,对新冠肺炎数据平台的数据共享现状进行分析,归纳总结了以科学数据仓储为代表的新冠肺炎科学数据共享的特点。

3.1 数据共享性受技术、共享观念和政策影响明显

不同共享平台提供获取方式不同,例如PDB支持使用FTP格式直接下载所需数据,COVID-19 Data Portal提供CDP、FTP、Aspera多种下载格式,能够满足用户不同的使用需求。除此之外,所有科学数据平台均使用API接口实现不同IP地址之间的跳转,帮助用户直接访问所需数据,提高检索效率。但从平台数据的更新速度看,上述平台中极少数明确更新时间间隔,62%的平台数据更新根据科研进展而定。

此外,有研究表明,科研人员在与陌生人共享数据时,形成了以利益为导向的“心理账户”,更加注重数据共享带来的学术利益、风险程度以及对数据控制感的下降,从而导致数据共享意愿降低[9]。由此看出,科研人员共享数据的意愿以及平台本身的政策及规范性约束等对平台数据更新速度有较大影响。与此类似,经调查发现,上述大部分平台在数据共享政策和制度制定的过程中,缺少保障科研人员利益的相关规范和完整的相关条款,更多是在声明中指出用户在使用过程中应当尊重和保护作者和出版机构的版权,数据的使用受到机构所属领地法律的保护。

3.2 现有平台缺乏数据质量客观评价标准

在所调查的数据平台中,极少数平台有明确质量控制要求,如国家基因库生命大数据平台标明所提交的数据需要通过MD5校验数据传输的完整性,且需要通过元数据信息和伦理批件等审核[10-11];PDB上明确了提交数据时要求用户提供实验过程以帮助评议委员会对数据进行评审;RCSB Protein Data Bank以及Protein Data Bank Japan同属于PDB的分数据库,其数据提交标准与PDB保持一致。除此之外,其他平台有关科学数据质量评价的约束比较宽泛,主要依靠机构工作人员成立评估委员会或者专门负责的管理人员对提交材料和数据进行审核,对数据的真实性和可靠性评价主观性较强,缺少客观的评价标准和完善的质量控制机制。

3.3 同领域内缺乏一致的元数据描述标准

对新冠肺炎疫情等全球性突发公共卫生事件而言,建立完善的元数据描述标准,有利于实现跨学科合作,发挥科学数据资源的价值。在应对新冠肺炎疫情的国际合作中,通过开放数据和开放标准构建开放可信的国际数据生态系统日益得到各国的重视[12]。数据标准缺失、元数据与国际标准(Sche-ma.org和DCAT)不兼容以及通过搜索引擎(如百度、微软、必应和谷歌等)难以发现和定位开放数据集等现实问题对国际合作中的主动权和话语权具有消极影响[13]。

由前述调查得知,平台元数据标准的使用存在很大差异,同一平台综合使用两种及以上元数据标准的现象约占43%。使用频率较高的元数据标准有Genome Metadata标准、DC元数据标准、PDBx/mmCIF标准、Darwin Core标准等。由此可知,相似或相同领域的元数据标准使用差异大,缺少统一的描述标准,尤其是新冠肺炎领域科研成果学术交流平台所使用的机构自定义元数据标准,若缺乏互操作机制的保障则不利于科学数据资源的共享。

3.4 平台收录数据类型不全面,数据跟踪周期不完整

根据前述调查结果,平台涉及的数据类型主要针对病毒及其蛋白质信息、诊疗方案以及一些基础数据的收集整理,仅部分平台涉及治愈患者数量,暂未发现有平台涉及患者治愈后健康情况的后续跟踪研究数据(如患者治愈后身体各项指标与未患病之前是否存在变化,产生后遗症的概率,后遗症是否存在可治愈性等)。由此看出,新冠肺炎数据平台目前收录的数据类型以疫情监控数据和病毒数据研究为主,缺少病例治愈后健康数据监控一环,对于病例的数据跟踪周期尚不完整,不利于新冠肺炎从发现到治愈后整个周期的研究数据的整体性和可验性。

4 新冠肺炎数据共享的启示

4.1 建立数据共享激励机制,提高科研人员共享观念

完善、明晰的制度环境是科学数据共享服务生态体系建立与发展的外部环境,科学和高水平的标准规范是生态系统持续演进的前提与基础[14]。2020年2月11—12日,在世界卫生组织召开的“新冠肺炎全球研究与创新论坛”上,来自世界各地的科学家一致认为对新冠肺炎相关数据及研究成果应当公开,提供公平公正的获取[15]。

科研人员在数据共享平台公开自己的研究成果,可能会出现研究成果被他人窃取的风险,除此之外,研究数据的公开,使得科研人员的收益下降,切身利益受损。因此,在数据开放共享实践稳步推进的过程中,政策和制度约束方面同样需要引起高度关注。国家相关部门应该根据数据共享情况制定政策条款,保障科研人员的知识产权和切身利益。与此同时,数据共享有利于科学研究的可验证和可复用,加强对数据共享的监督,可以增强学术研究的透明度,为科研人员的进一步工作提供有效的数据来源和知识基础。基于此,科研人员应当对数据共享树立正确的认识,提高数据共享观念,以此促进新冠肺炎相关研究数据的开放,进一步推动新冠肺炎研究逐渐深入,提升全球合作和突发公共卫生事件的全球应对能力。

4.2 建立科学数据质量评价指标体系,提高数据质量和时效性

数据共享最终是为了释放数据的价值,数据价值的体现在于数据使用和数据质量,因此数据质量的审核过程至关重要,尤其是科学数据平台,应当根据其所收录数据类型的不同建立客观、完善的数据质量评价体系。目前,国内科学数据机构出台的关于科学数据质量的评估体系只涉及准确性、完整性和可用性等宽泛的指标[16]。《科学数据管理办法》[17]《中国科学院科学数据管理与开放共享办法》[18]等对论文关联数据汇交机制进行规范,确保科研结论可验性。

马费成等[19]提出生命周期方法使用对象的3个条件——“连续性、不可逆转性和迭代性”,丁宁等[20]认为生命周期法也适用于科学数据领域,科学数据生命周期与科研流程密切相关,科学数据生命周期管理的本质是依据科研工作流程管理数据。在对新冠肺炎数据开展质量控制时,可参照数据生命周期的方法对新冠肺炎科学数据的共享过程进行阶段和层次划分,进而建立科学数据质量评价指标体系,有助于明确权责主体,确保整个流程中的数据受到有效的监督,提高数据质量。具体生命周期阶段可以根据科研活动的需要具体划分,根据生命周期构建的科学数据质量评价指标体系要适用于机构自身,并且在实践过程中不断精进完善,充分论证其科学性和可行性。

4.3 加强组织间交流合作,缩小元数据标准的差异化

元数据是描述信息资源或数据对象的数据,其最本质、最抽象的定义就是:关于数据的数据[21]。1994年电气和电子工程师协会(IEEE)在白皮书[22]中明确了元数据应用的4种场景:查询、浏览、检索数据,数据获取、质量保证、再加工,系统间转换数据,存储、建立数据档案。元数据标准的构建能够使得元数据在数据开放共享过程中发挥更好的作用。随着新冠肺炎的流行,在数据共享实践中忽略元数据标准的弊端逐渐显露出来[23]。在新基建和新技术引领我国数据中心产业高质量发展的时期,对于数据中心的建设,应当注重元数据标准的共同开发和应用,打破“数据孤岛”,实现数据资源之间的连接和互操作性。

因此,构建新冠肺炎科学数据共享平台、开展数据共享时可多借鉴和使用国际认可度高、传播范围广、应用比较成熟的元数据标准,便于更好地与国际科学数据共享平台接轨,提高不同组织、不同领域之间元数据的互操作性。除此之外,应该积极参与元数据标准开发和推广的国际交流与合作,为科学数据共享的可持续健康发展提供坚实基础。

4.4 完善平台数据收录类型,保障数据跟踪周期完整合理

现阶段,新冠肺炎的数据收录应当对“治愈患者健康情况跟踪数据”进行覆盖。患者数据跟踪从疑似、确诊、治疗到治愈后为一个完整周期,因此,对于治愈患者健康情况数据的跟踪必不可少,这部分数据的收录可以为新冠肺炎临床研究提供有力数据支撑,支持验证临床实验数据结果[24],为逐步改进治疗方案提供有效案例。除此之外,通过新冠肺炎数据共享平台以表格、图片、地图等多种可视化形式进行开放共享,还可以为患者治愈后续相关问题提供参考依据。

治愈患者健康情况跟踪数据涉及个人信息,个人信息的使用方式及使用范围首先应由个人自主决定,只有尊重和保护个体对个人信息的自主决定权,将授权同意作为使用的一般要件,才能保障个人信息利用行为的正当性与合法性,进而挖掘和释放个人信息应有的资源价值[25]。因此,在对治愈患者健康数据进行收录的同时,应当保障患者的知情权,这一环节需要相关政策文件的约束,除此之外,还要对患者的相关隐私信息使用进行规范,维护患者个人隐私权。

猜你喜欢
肺炎新冠科学
新型冠状病毒肺炎(四)
新冠疫苗怎么打?
新型冠状病毒肺炎防护小知识
您想知道的新冠疫苗那些事
聚焦新冠肺炎
一分钟了解新型冠状病毒感染的肺炎
珍爱生命,远离“新冠”
《新型冠状病毒感染的肺炎防治知识问答》
点击科学
科学大爆炸