江慧慧,赵丽梅,2
(1.黑龙江大学信息管理学院,黑龙江 哈尔滨 150080;2.黑龙江大学信息资源管理研究中心,黑龙江 哈尔滨 150080)
科学数据是网络时代重要的学术资源,也是科技创新和国家发展的重要战略性资源,具有可传递性、可增值性和可共享性,在科学研究中发挥着重要的作用[1]。随着信息社会的发展,人们越来越关注科学数据的共享,将科学数据进行共享能够打破数据使用过程中的壁垒,避免对同一数据的多次创建、重复劳动,最大限度发挥数据价值。
为推动数据共享,2014 年中国科学院和国家自然科学基金委员会发表了关于开放获取的政策声明,2017 年国家自然科学基金委员会再次发布基础研究知识库开放获取实施细则[2]2。2018年发布的《科学数据管理方法》是第一部关于科学数据管理与共享的法律规范,在制度方面为科学数据的管理安全以及共享提供了保障[3]。尽管上述政策已落实并有所成效,但我国数据共享程度同开放科学先行国家相比仍有一定差距。截至2019年,我国被开放知识库目录收录的开放知识库为47个,仅为美国的5.2%[4]4。
虽然科学数据共享既能减少科研投入成本,又能推广研究成果、促进科学进步,是社会发展重要的组成部分,但Spring Nature 2018年发布的《科研人员数据共享实际挑战白皮书》显示,学者对于数据共享认同感虽高,共享意愿和行动力却不足。当前数据共享形势并不乐观,仅有一半数据被共享[5]。这不仅与共享社会发展需求相矛盾,也与开放科学时代的研究理念相违背。究其原因,当前数据共享中存在数据安全、隐私泄露等问题使科研人员对于主动共享其科学数据仍心存疑虑。为持续推进科学数据共享,就必须对主体所感知到的科学数据共享障碍进行识别、预判及消解。本文在阐释科学数据、科学数据共享等核心概念的基础上,通过分析科学数据共享流程,从为科学数据共享提供基础设施的技术体系、参与主体的共享意愿、科学数据共享所处情境的管理措施以及法律政策等维度来解析科学数据共享障碍,并系统分析论述科学数据共享障碍的消解措施,为科学数据共享的持续向善提供参考建议。
早在20 世纪末,国外就已经有学者对数据共享中存在的障碍因素展开研究,Barbara Stanleyt和Michael Stanley 从研究人员的视角出发论述了非自愿进行数据共享会产生的负面影响,认为共享活动应基于自愿[6];Youngseek Kim 和Sujin Kim 提出了一种数据共享的复合模型,研究制度、动机和资源因素是如何影响研究人员的数据共享行为[7];Wolfgang Zenk-Möltgen 等学者通过统计分析得出,作者的态度、社会规范和感知行为控制会影响他们分享数据的意愿[8]。
在国内的相关研究中,刘桂峰等学者运用扎根理论方法,将影响共享的因素归纳为个人、组织、资源、制度与技术五种[9]3;郑琳通过调研得出,研究人员的背景、所处政策环境、共享所需成本等因素均会影响科研人员的共享意愿[10];何琳等学者利用结构方程模型进行研究,发现重用数据的质量、来源等因素对科研人员数据重用意愿有促进作用[11];刘莉、刘文云分析了数据共享影响因素之间的层级关系,发现信息技术的影响最为深远[12];盛小平等学者从管理、法律、技术、认知、成本、用户等方面对数据共享障碍进行归纳,并通过问卷调查进行验证[13]1-3;孙俐丽、赵乃瑄发现除了共享氛围、政策等因素外,相关设施、激励机制及科研人员的感知作用等因素对于数据共享的影响也较大[14]5。
对国内外科学数据共享障碍因素相关研究的分析发现,不同国别、不同学科间数据共享中存在的障碍因素也各有不同,以往研究多采用调研、总结归纳的方式对科学数据共享障碍进行辨析,而科学数据共享的障碍是主体在科学数据共享过程中所感知到的挑战。因此,以科学数据共享流程为嵌入情境来系统分析科学数据共享的障碍更具客观性和科学性。
狭义的科学数据是指人类社会活动中经过加工处理而变得有序化并大量积累后而有用的数据结合;广义的科学数据是指数据、数据生产者、数据生产和开发利用的技术等要素的集合[15]。根据《科学数据管理办法》的规定,科学数据主要包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据[16]。
科学数据共享能够使数据资源得到更好的开发和利用,实现社会效益最大化。对于科学数据共享的概念,学界有诸多看法。徐枫认为科学数据共享是运用现代信息技术,使用户能够更加便捷地获取数据,同时通过对数据进行有序管理,为相关用户群体提供有效服务[17];黄心正认为科学数据共享的本质是推动数据的流动以及资源的合理配置[18];朱雪忠、徐先东认为科学数据共享是通过国家层面将零散的科学数据进行管理整合,使其能够被有效便捷地获取[19]。由此可见,科学数据共享是指在一定条件下,将团体或研究者个体所开发或收集整理的科学数据资源,通过信息技术等手段提供给其他人使用的行为。共享途径主要有四种:(1)作为出版物的补充材料;(2)发布在个人或其他网站上;(3)上传到数据存储库;(4)在期刊上发表[20]。就资源的长期保存、安全性、完整性而言,将数据资源上传到数据存储库中是最为合适的方式[21]。
科学数据共享流程即数据生产者通过一定途径将数据传递给使用者的过程,主要有数据产生、数据收集、数据处理与存储、数据共享、数据利用、数据利用反馈六个阶段[22],如图1所示。数据生产是共享的起始,这一阶段主要依赖于生产者群体,包括个人、团体。在产出众多数据后,还需进行数据管理,确保数据的质量和规范,使其能够通过评审进入下一阶段。第二阶段是数据收集,相关主体需确定收集目标,通过签订协议等方式从数据持有者手中获取数据,采集持有者的信息,并对获取的数据进行试验和模拟,按规范创建元数据,这是科学数据共享的基础。第三阶段是数据处理与存储,主体按不同学科规范对数据主题、类型等进行分析,并使用统一的描述标准对数据进行处理,可操作的实验数据还需再次核验,对数据质量严格把关;同时还需建立数据存储规范,使用能够长期保存数据的存储介质,并定期检查。第四阶段是数据共享,主体通过标识技术为数据与数据源建立关系,制定数据引用规范,使用户能够通过数字对象标识符(DOI)来获取数据,同时还会提供数据引用格式和访问地址[23];此外,还需对数据进行分级,针对不同级别数据设置不同的共享程度。第五阶段是数据利用,在这一阶段,主体可对获取的相关数据进行深加工,使其能够成为自身研究所需的数据,也可对数据进行评述,用于教育、学习等目的,进一步挖掘数据的价值。第六阶段是数据利用反馈,根据数据的访问情况、下载量以及评价等,得到数据的反馈信息,用于了解数据共享的效果,以及在利用数据过程中,重新审视数据本身的价值,发现数据存在的问题,将之作为反馈信息融入数据的生产环节,根据反馈信息对数据进行完善,提升数据的质量。
图1 科学数据共享流程
障碍即阻挡事物前进的阻碍物。科学数据共享障碍是在科学数据共享进程中起消极作用的因素,阻碍共享发展。在数据收集阶段,由于缺少统一的数据标准,收集效率难以提高,且当前共享中仍存在着数据安全、权责不明等隐患,使研究人员对于数据共享心存疑虑,共享积极性不高,进而影响数据收集的完备性。在数据处理与存储阶段,需要统一的格式规范,而这正是当前所缺乏的。数据能否被访问极大影响数据共享的有效性。目前,可访问平台也存在着资源少、访问限制等问题,这直接影响到数据的利用。
技术是影响科学数据共享的硬性因素,是共享过程中不容缺失的一环,包括数据提交、存储、分享、使用和维护等[13]2。在数据提交阶段,由于缺少公开的技术标准,导致数据格式不规范,难以做到精确识别,影响数据采集效率。数据共享平台是科研工作者存储数据的主要工具[24]6,也是使用者获取共享数据的主要渠道,平台存储的安全性、数据的可获取性均会对用户数据共享的意愿、实质行为以及平台数据的利用率产生影响。2019年,我国在OpenDOAR 注册的41 个机构库中有5个不可访问,占总量的12%[4]5,可访问机构库中资源少、访问限制等问题也影响了其实际应用率。科学数据资源的使用者主要是科研人员,部分数据拥有者共享数据意愿较强烈,但由于欠缺相关共享知识技能而无法参与共享[24]7。此外,我国科研人员对于机构库等平台认知度较高,但参与度不够,相当一部分人员从未使用[25],这使机构库的功能难以发挥。在共享平台进行数据维护时,不能提供有效访问,难以保障公众获取资源的需求[26]。
科研人员是数据共享的执行者,其协作交流的效率直接影响科学数据共享的进程[2]2。大部分科研人员对于数据共享持正面积极态度,认可度较高,但由于政策制度不完善、数据共享安全性保障不足、激励措施不充分等问题,导致部分科研人员乐于使用他人共享的数据,却不愿意共享自己拥有的数据,相对于全面开放共享更愿意在自身熟知范围内进行开放。科学数据的产生通常需要耗费大量的时间和精力,将数据进行共享打破了原有的唯一性,收益不明还可能引起滥用,没有充分的激励政策或制度的强制性要求,科研人员很难主动将数据进行共享。大部分科研人员的晋升、嘉奖、名誉等都与研发成果相关,而数据又是研发的基础,共享使研究人员可能面临数据被盗用、成果被他人提前公布等风险。因此,大部分科研人员选择在成果发布或研究完成后公布数据[27]4,竞争环境下共享困难重重。此外,由于学科背景或研究方法不一,共享出的数据可能会被误读或误用,引发对共享者研究成果的争议。
机构自身特质(如制药公司等对于其专项经费项目下所产生的数据拒绝共享[27]4)、团队氛围、采取的激励措施等对于科研人员是否选择共享的影响较大。从众心理在科研人员数据共享行为中有所表现[14]6,机构对于数据共享的态度很大程度上会影响科研人员共享意愿,当机构整体氛围偏于开放,大部分人员对于数据持共享态度时,会带动少部分无意愿或相对保守的人员进行数据共享。反之,大部分人都拒绝分享则会使整个机构处于封闭状态。机构为推动科研人员共享数据所采取的激励措施也尤为重要,当共享所获得的利益更大时,会推动共享行为的产生。反之,则会降低科研人员的共享意愿。当前,我国各科研机构正处于“封闭式”状态,领导者抑或是科研人员还未形成数据共享、跨机构合作意识,仅有的合作项目也是基于申报要求[28]2,对于数据的流动严格管控。再加上以开放形式发表的数据、科研成果得不到学术优先权的认可[4]4,提前共享数据就意味着放弃科研首发权,这使科学数据共享难以被科研人员所接受。此外,科学数据有其时效性,但大部分数据实际发布周期过长,滞后性严重,这对于数据的应用和获取十分不利,对数据本身的有效性也会有所影响。
完善的法律政策不仅能够对科学数据共享活动起到支持和引导作用,还能保障数据安全,是影响科学数据共享的主要因素之一。如英国的《数据保护法案》、美国的《信息自由法》等[29]均是为管理和推动科学数据共享而产生的。我国在数据共享相关法律政策制定方面还有不足,如对于统一的数据标准、管理流程标准等尚未制订详细方案用以规范[2]3。此外,大数据背景下信息技术得到迅速发展,去匿名化等技术使包含敏感信息的数据存在被识别的可能,隐私泄露风险增大。且目前使用的数据安全与隐私保护相关法规大多是沿用过去的[30],对于数据分享者和使用者的权责规定不明确,在当前数据共享过程中极易引发数据安全等问题,甚至面临法律纠纷。在我国医学领域中就曾有过对基因数据、遗传数据的不当共享造成科研机密泄露、危害国家安全[4]5。再者,已有的《保密法》《科技成果转化法》等条例文件中对于高校产生的科学数据类型是否属于涉密没有明确划分,导致科研人员出于自我保护而不愿将数据进行共享[28]2。
技术设施完善与否直接影响数据共享进程。在数据收集阶段应根据不同学科特点,将数据格式和标准进行规范,采取不同的技术设备进行精确识别,提高数据采集效率的同时也保证数据质量。科研人员是共享的主体,平台建设在推进,科研人员共享和获取数据的技能素养也要有所提高,科研人员必须掌握相应的共享技术,否则,即使有意愿共享或使用数据也无法真正有效实施[24]7。共享平台对其操作流程、格式标准等应进行详细说明,必要时可开展培训活动,使用户掌握基本共享技术。此外,还可进行适度宣传,如在相关领域机构单位内举办宣传活动、发放宣传使用手册等,提高科研人员对共享平台的认知度和利用率,从而推动共享进程。各个平台也需加强合作,对数据资源进行整合,实现平台间的资源互借,提高数据资源利用率。
科研人员是科学数据生产和使用的主体,推动科学数据共享离不开科研人员的参与。科研人员数据共享意愿会受到社群的影响,因此可采取“自上而下”“同行先进代表宣传”[31]等方法,即针对科研人员所属情境的管理层,由管理层的行为态度影响科研人员共享意愿;提倡共享先行者对数据共享的意义和作用进行宣传,吸引科研工作者的参与,以此加强科研人员对数据共享重要性及必要性的认识。还应加强对科研人员法律知识的培训,保护自身产权的同时避免侵权。完善数据共享程序,明确数据产权归属,加强对科研人员共享数据的审核,确认在不涉密的前提下进行共享。此外,共享利益包括既得利益和潜在利益,既得利益为共享数据应得到的政策或所属单位规定的相应程度的补偿,潜在利益包括共享带来的学术关注度等。一方面,机构单位可针对数据的价值制定差异化奖励,完善激励制度;另一方面,要提高科研人员对共享潜在利益的感知度,使其明晰共享所能带来的全部收益,进而提高数据共享意愿。
科研人员的数据共享行为受所属机构单位的氛围影响,具有一定的从众性,因此发挥管理层的引导作用,营造出数据共享的文化氛围很大程度上能够促使科研人员共享数据[9]5。机构单位对科学数据共享的激励制度能够影响科研人员的利益感知,继而影响共享行为,而不同的激励制度对于不同背景的科研人员影响力也有所不同,各机构单位应根据内部人员特点,按需制定多元化激励策略,也可将数据共享行为纳入科研人员的晋升、嘉奖等考核中,以提高科研人员数据共享的积极性。同时,还应保障科研人员的科研首发权,对于科研人员共享出的数据予以学术优先权,以便研究者能够第一时间将数据投入应用。此外,加强机构间的合作也是推动数据共享的有效途径[32],各个机构可发挥自身优势,明确权责,拓宽合作范围,提升数据整合能力,使数据管理效率得到提高。
科学数据共享活动的开展离不开法律政策的推动和引导。现阶段仍存在科研人员不愿或不敢共享数据的现象,更加需要政策的推动。因此,各级政府部门应针对科学数据各个周期制定相应的规范标准,使科学数据在收集、组织、存储、共享、利用等整个周期中都有法可依。对共享中可能存在的侵权、隐私泄露等问题也需进行明确规定,用以保障科研人员的知识产权以及学术优先权,降低其感知风险,从而增强科研人员的共享意愿。同时,秉承着“谁的数据谁负责”原则,针对共享出的数据建立责任制,对数据的真实性、完整性等提出制度要求[33],避免部分人员为获取利益而发布虚假数据。对于数据的使用也应制定相应规范,以约束使用者的行为,避免数据被滥用,从而推动数据共享[24]6。此外,数据类型尤其是涉及国家或机构科研机密的数据需要做出明确划分,以免不慎外传。
科学数据共享作为一种新的数据再分配模式,虽然是科学共同体内部一直倡导的共益理念和集体行动范式,受到社会广泛关注,但其运行并非一帆风顺,而是面临诸多障碍。本文基于科学数据共享流程,从技术、意愿、管理以及法律规章等维度对科学数据共享的障碍进行系统分析,从技术设施、科研人员共享意愿、激励机制以及法律制度等方面提出科学数据共享障碍的消解措施,旨在为科学数据共享的可持续向善提供参考建议。