编译 游文娟
本文展示数据共享的现状和问题,通过案例分析,提出科研数据共享的建议。
你会跟大家共享你的科研数据吗?当把这个问题抛给科学家时,他们绝大多数都会回答说“当然”,因为数据共享带来的好处太多。
那些从数据开放获益的人往往他们本人没有拥有大量数据,同时他们也没有机会来研究物理实验,去野外搜集样品,获得临床脑部成像等。而那些共享了数据的人也可以从交叉学科背景的专业人士的众包审查、数据分析、数据整合中获益,而且数据共享后,更多的人来研究数据,也将带来更多的想法,拓展更多的视角。对于科学研究的资助者而言,数据共享将减少投资成本,减少重复性劳动。而对科学本身而言,数据联合共享后,通过统计学的验证,增加可重复性的机会,最终有助于提升科学研究的可信度。
然而,令人心酸的是,约30%~50%的报告因为样本不具有统计学意义而没有办法重复。
尽管共享好处多多,但2015年的一项研究证实,已发表论文中只有13%展示了可以供别人再次验证的原始数据。为什么如此多的科研人员不愿意共享数据呢?因为他们开放数据后的短期回报还不足以平衡他们在研究过程中的付出,甚至还会导致他们竞争优势丧失——2002年的一项调研报告揭示了这一现状。这在一定程度上是由于资助机构、期刊和机构在数据共享方面的模棱两可的立场导致。例如,虽然出资机构已经开始强制要求共享,却没有将共享作为审查的必要内容,这样被资助的研究人员不共享也不需要承担后果。被授权可以共享数据的期刊只是少数,出版行业对于数据是否共享仍然可以自由选择。而学术机构鼓励并积极支持数据共享,但没有将共享作为晋升和任期考核指标。
即使共享的短期回报可以预见了,数据共享还将因为缺乏技术支持和实施办法而受挫。首先就要面对共享对基础设施需求的挑战,当下还缺乏便捷管理数据、处理隐私问题和数据长期维护的标准和工具。资助机构和期刊会特别强调缺乏免费数据存储资源(例如,https://www.nitrc.org),实际上,为数据传播而实施的准备工作和组织工作是一项量大而艰巨的工作。在促进数据共享方面,技术协会和机构可以发挥重要作用,这些机构可以通过组织一些教育活动(有些机构已经在推进这类活动)来培训有效共享数据的技能。
尽管数据共享在促进科学发现方面有潜在的益处,但就现阶段来看其效益还不够明显,而且也很难评估其共享后的效益。近期在bioRxiv上发表的一篇文献计量文章评估了“国际影像数据共享的倡议”(INDI)产生的效果。该活动是一项基于科学文献数据方面的基层脑成像数据共享活动。研究人员发现,过去7年间,INDI汇聚了分布在世界各地的机构产生的相关数据集——大约15 000份MRI数据集,而这些数据共被900篇出版物使用,其中共涉及论文58篇。这些出版物中的90%是来自数据调研人员,而这些人员并没有参与数据的生成过程;不仅如此,很多研究人员还来自脑成像领域之外。那些贡献了数据的人似乎同时能够利用更多他人的数据来增加其研究样本量,甚至因为共享而导致更多人利用数据而使他本人在思考研究问题时获得启发。
虽然以上信息给大家描绘了神经成像领域的数据共享带来的积极影响,但是实际上很难将数据共享产生的效用统计起来。很显然,我们亟须构建一个系统来跟踪共享数据的使用情况,以可靠地评估数据共享效用,并进一步激励潜在的共享者。
从数据量的角度来看,INDI共享的数据仅涉及15 000份数据集,这么小的一个数据量却对科学文献产生了很大的影响。这就意味着,应该尽可能多地共享数据,使科学研究变得可复制性更强。虽然作者知道若要使数据共享成为普遍的共识是很难的事,不过,这也只是时间问题,因为年轻一代的研究人员更倾向“开放科学” 而资助机构和出版物也正变得越来越开放。
如果每一个机构能够重新审视自己的规章制度——包括强制共享的制度和任期审查——这将营造一种数据共享的文化,进而促使研究人员的个人发展动机与共同利益协同起来。类似艾伦研究所、加拿大蒙特利尔神经病学研究所(MNI)、曼哈顿的儿童心理研究所(作者就职机构)等机构已经在数据共享方面率先跨出了一步,这些机构已经将开放科学制定成原则纳入其运营过程中去。
本文作者迈克尔·米勒姆(Michael P. Milham)是美国曼哈顿的儿童心理研究所首届主任。该机构还推出另一项数据共享计划——健康大脑网络,致力于多种数据的共享,涉及10000名儿童和成人,包括成像数据、电生理数据、声音样本、健康数据、遗传数据等。