国外学术期刊科学数据政策质性分析与内容要素研究

2022-10-11 08:31王德庄
中国科技期刊研究 2022年8期
关键词:类目可用性学术期刊

■王德庄 姜 鑫

1)黑龙江大学图书馆,黑龙江省哈尔滨市学府路74号 150080 2)黑龙江大学信息管理学院,黑龙江省哈尔滨市学府路74号 150080 3)黑龙江大学信息资源管理研究中心,黑龙江省哈尔滨市学府路74号 150080

英国皇家学会(Royal Society)在《科学是开放事业》(Science as an Open Enterprise)研究报告中指出:开放探究(Open Inquiry)是科学事业的核心。发表科学理论及其所依据的实验和观测数据,可以使他人发现错误以及支持、否定或完善理论,并可重用数据以获得进一步的理解与发现。科学强大的自我纠正能力来自审查与质疑的开放性。以往在科技期刊发表一篇论文需要提供完整的数据以供查验,然而过去几十年里的科技进步产生了巨大的“数据泛滥”(Data Deluge),以致于任何期刊都无法刊载如此庞大而复杂的数据,这使得科学研究的两个互为补充的重要组成部分——“思想”和“证据”被过于频繁地分离开来,由此产生的严重的“数据鸿沟”(Data Gap)不利于对科学结论进行严格审查,从而破坏了科学的自我纠正机制[1]。目前,传统学术期刊囿于篇幅所限仅能作为“思想”的主要载体,而作为“证据”的大量数据已经脱离了依据其而发表的结论。“思想”和“证据”的割裂使得传统学术出版面临日益严重的“可重复性危机”(Reproducibility Crisis)。Nature期刊的一项调查研究表明:超过70%的科研人员尝试过但无法复制另一位科学家的实验,超过半数的科研人员未能复制自己的实验;约80%的受访者认为资助者和出版商应采取更多措施来提高可重复性[2]。近年来,越来越多的传统学术期刊已经开始制定并发布科学数据政策,要求将期刊论文所依据的科学数据存储在可公开访问的数据存储库中,使得任何人都可以公开访问与查验支撑论文研究结论的科学数据,以期努力弥合因“思想”和“证据”的分离而产生的“数据鸿沟”。

目前,针对学术期刊科学数据政策的国内外相关研究已有一定研究积累。吴蓉等[3]分析了Science、ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica(PNAS)、Nature期刊以及PLOS、BMC等出版社及数据库旗下期刊的科学数据政策,从数据提交政策、数据审查政策和数据权益政策3个方面提炼了其政策要素。罗晓兰等[4]利用问卷调查法调研了国内学术期刊的科学数据政策对作者投稿意愿的影响作用。Hardwicke等[5]利用相关分析法和因果推断法定量评估了Cognition期刊引入的强制性开放数据政策对数据可用性、可重用性和可重复性的影响。Jones等[6]利用案例研究法分析了两大学术出版商Taylor & Francis和Springer Nature的科学数据政策,探讨了学术出版商为满足科研人员的数据共享要求而采用标准化科学数据政策时必须考虑的关键因素。Christian等[7]利用问卷调查法和内容分析法调研了编辑和作者对学术期刊科学数据政策的认知情况。王丹丹等[8]利用网站调研法和内容分析法调研了学术出版商Springer Nature制定的科学数据政策标准框架及其推动科学数据政策标准化的实践进展。刘凤红等[9]利用案例研究法分析了学术出版商Springer Nature、Taylor & Francis、Elsevier和Wiley的科学数据政策实践及其支持FAIR原则的实现路径。秦长江等[10]利用网站调研法和内容分析法调研了管理学、政治学、教育学、经济学、社会学和语言学6个社会科学学科的国外学术期刊科学数据政策。可见,目前国内外相关研究主要针对学术期刊和学术出版商的科学数据政策实践进行调研分析,采用的研究方法主要是网站调研法、问卷调查法、内容分析法和案例研究法,缺乏从政策量化分析的研究视角展开的政策分析与评估研究。本研究将质性文本分析方法与软件工具引入学术期刊科学数据政策类定量化研究,从质性文本分析的研究视角针对国外学术期刊科学数据政策进行政策评估分析并提炼政策内容要素,以期为国内学术出版机构制定与完善其学术期刊科学数据政策提出具有针对性、指导性的政策建议。

1 选取政策文本

本研究将国外学术出版商和学术组织两类学术出版机构制定的独立的学术期刊科学数据政策作为调研对象,其政策文件形式包括“科学数据政策”“数据可用性政策”“数据验证政策”“开放数据政策”“数据共享政策”“数据存档政策”“数据透明度政策”等。此外,上述两类政策主体制定的“编辑政策”“作者指南”“投稿指南”等政策文件中也可能包含与科学数据相关的政策内容,本研究未选取这类与科学数据相关的非独立政策文件作为调研对象。整理归纳Springer Nature、Elsevier、Taylor & Francis等学术出版商和英国皇家化学学会(Royal Society of Chemistry,RSC)、美国地质学会(Geological Society of America,GSA)、美国经济学会(American Economic Association,AEA)等学术组织最新发布的具有代表性、规范性和指导性的学术期刊科学数据政策文本如表1所示。表1还列举了Nature、PLOSONE、InternationalEconomicReview等部分学术期刊的科学数据政策,并统计了部分学术出版商和学术组织目前出版的学术期刊数量,即其制定的学术期刊科学数据政策所涵盖的学术期刊数量。

将23个国外学术期刊科学数据政策文本导入NVivo 12软件,在“词频条件”的“分组”方式中选择“留存的词根”,生成上述23个政策文本的高频词云图(图1),图中出现的高频词的字体大小与该词根在全部政策文本中出现的词频高低成比例,依据其在政策文本中出现的词频高低排列,词频较高的高频词包括data、researchers、available、authors′、sharing、repository、publicly、journals′、include、policy等。

图1 23个国外学术期刊科学数据政策文本高频词云图

2 构建类目体系

利用质性文本分析法构建类目体系主要有两种方式:推论式类目构建(Deductive Category Construction)和归纳式类目构建(Inductive Category Construction)。推论式类目构建是指采用收集实证数据之前就存在的类目系统;归纳式类目构建是指直接使用实证数据来构建类目[34]。本研究采用归纳式类目构建方法,针对政策文本直接构建分析类目。首先根据学术期刊所涉及的数据生命周期阶段划分为5个一级类目,然后根据各个数据生命周期阶段的政策观测要点划分为23个二级类目。本研究利用NVivo 12软件辅助进行政策文本的类目构建与编码分析,构建国外学术期刊科学数据政策文本分析类目体系如表2所示。

表1 国外学术出版机构制定的学术期刊科学数据政策

表2 国外学术期刊科学数据政策文本分析类目体系

续表

表3展示了依据表2所示的政策文本分析类目体系针对23个国外学术期刊科学数据政策进行编码分析的部分文本编码片段。对于每一个政策文本,针对表2所示的每个分析类目仅选取一个文本片段进行编码,因此在本研究中表2展示的“编码参考点数”与“编码文件数”是完全相同的。

3 政策评估分析

针对23个国外学术期刊科学数据政策利用质性文本分析法展开政策评估分析,将表2所示的国外学术期刊科学数据政策文本分析类目直接转换为评估类目,即对评估类目进行分级时仅划分为两个级别:1(代表有编码参考点)和0(代表无编码参考点)。针对23个国外学术期刊科学数据政策文本,利用NVivo 12软件进行矩阵编码查询,则有上述23个科学数据政策文本的矩阵编码查询结果可作为政策评估结果(图2)。在图2中每一单元格的数字代表所在行(政策文本)与所在列(分析类目)交叉对应的编码参考点的数量。从针对国外学术期刊科学数据政策构建的分析类目体系与评估分析结果来看(表2、图2),目前国外学术期刊科学数据政策侧重于数据存储(S)、数据发布(P)和数据访问(A) 3个数据生命周期阶段的相关政策内容。

4 归纳政策要素

依据上述针对23个国外学术期刊科学数据政策进行的政策评估分析结果(表2、图2),本研究将值得国内学术出版机构参考与借鉴的政策内容要素依据数据生命周期阶段概括如下:

(1) 数据存储阶段,主要包括强制存缴(S1)、数据格式(S4)、数据审查(S6)、存储地点(S7)、可用性声明(S9)和数据标识符(S10)。①强制存缴(S1)。国外学术期刊通常鼓励或要求论文作者在提交研究论文时将理解和验证论文研究结果所需的所有数据集存储到适当的公共存储库中,并在其参考文献中引用相关数据集。科学数据联盟(Research Data Alliance,RDA)认为论文作者应提交的科学数据包括:论文作者创建的“一手数据”(Primary Data);论文作者重复使用或分析的“二手数据”(Secondary Data);来自实验或观察的其他数据,如未处理的原始数据或论文中未报告的时间点的数据;复制结果可能需要的任何其他材料[35]。②数据格式(S4)。国外学术期刊通常要求论文作者采用其研究社群(Research Community)认可的、不依赖于专有软件的开放文件格式共享其科学数据集。BMJ期刊要求论文作者采用生成数据的源文件形式共享所有数据,以实现数据重用和增强可复制性,如图像以.png、.jpg、.eps等格式提供,文本文件以.txt、.doc、.rft等格式提供,电子表格以.csv、.xls、.tsv等格式提供,视频以.mp4、.avi、.wav等格式提供,成像和扫描文件以.img、.dcm、.hdr等格式提供[22]。③数据审查(S6)。国外学术期刊通常在同行评议过程中或提交论文被录用之前,由编辑和审稿人审查论文作者提交的研究结论所依据的科学数据,以确保期刊论文中提出的研究结论是有效的并且可以复制。国外学术期刊期望与科学界密切合作建立数据审查实践,以确保已发布的科学数据有效、记录正确并且可以重用[18]。④存储地点(S7)。通常要求论文作者尽可能将其科学数据提交至学科特定的、研究社群认可的学科知识库(可查阅目标期刊推荐的数据知识库列表);在没有适当的公开可用的学科知识库或目标期刊没有特定的数据知识库建议的情况下,也可将其科学数据提交至接受所有类型的科学数据的通用知识库(如Dryad、Figshare、Zenodo等)。Springer Nature期刊认为支持同行评议出版物的数据知识库应满足5个条件:确保数据集的长期保存与维护;被研究社群或研究机构认可;为存储的数据集提供稳定和持久的标识符,如DOI;允许在不受不必要限制的情况下访问数据;为存储的数据集提供明确的许可协议或使用条款[17]。⑤可用性声明(S9)。通常要求论文作者必须在提交的研究论文中包括“数据可用性声明”(Data Availability Statement,DAS),以说明在何处以及如何访问支持论文研究结果的科学数据集,并在其研究论文的参考文献中适当引用数据集的DOI或URL;要求不希望共享数据的作者必须声明不会共享数据并说明原因。“数据可用性声明”将作为被接受发表的期刊论文的一部分发表。部分资助机构要求在学术出版物中包括“数据可用性声明”,论文作者必须确认遵守资助机构的任何特定的数据管理要求。⑥数据标识符(S10)。通常要求论文作者在提交研究论文之前或在期刊论文发表之前,将其科学数据集存储至公共存储库并在发表论文中提供登录号、DOI、RID或其他持久性标识符(Persistent Identifier)。GSA期刊要求尽可能使用DOI,以促进已发表论文和外部存储库之间的数据交叉引用[30]。Elsevier期刊鼓励和支持使用永久标准标识符(Permanent Standard Identifiers)双向链接相关数据集和学术出版物[18]。

表3 23个国外学术期刊科学数据政策的文本编码片段示例

图2 23个国外学术期刊科学数据政策在不同一级类目下的评估分析结果(a)数据创建、数据存储;(b)数据发布、数据访问、数据重用

(2) 数据发布阶段,主要包括伦理法规(P1)、去识别化(P3)和发布期限(P4)。①伦理法规(P1):如果论文作者出于伦理标准、法律要求或许可协议等原因而无法共享科学数据,通常允许其在提交数据时在“数据可用性声明”中对数据可用性进行合理限制。②去识别化(P3):通常要求论文作者在公开共享研究参与者的个人数据或其他敏感数据(如保护区实地考察数据、敏感考古遗址位置数据、濒危或受威胁物种位置数据)之前对其进行去识别化或匿名化处理。③发布期限(P4):通常要求在论文发表后论文作者必须公开发布论文研究结果所依据的科学数据。Nature期刊要求在提交论文时必须将与其关联的科学数据存储到公共存储库中,并且必须将公共存储库的可访问性指定为“在发表时立即发布”[10]。

(3) 数据访问阶段,主要包括开放获取(A1)、访问限制(A2)和访问条件(A3)。①开放获取(A1):通常要求论文作者必须公开提供研究论文的相关数据、材料、代码和协议,以使其他科研人员能够不受限制地复制和检验论文研究结果,如PLOSONE期刊要求论文作者在发表时无限制地公开复制其研究结果所需的所有数据[11]。②访问限制(A2):通常允许论文作者出于个人隐私、机密信息、国家安全或尊重根据第三方许可获得的数据的使用条款等原因对数据、材料或代码可用性进行合理限制,并且必须在提交论文时向期刊编辑披露对数据、材料或代码可用性的任何限制,以及在提交论文的“数据可用性声明”中必须声明将不会共享数据并说明原因。③访问条件(A3):如果论文作者无法共享科学数据(如敏感数据或第三方数据),通常要求其在“数据可用性声明”中提供如何以及以何种条件访问原始数据以及衍生数据的详细信息。如果论文作者所使用的科学数据是从第三方获得使用许可的,则应在“数据可用性声明”中解释如何获得该数据的使用许可。

(4) 数据重用阶段,主要包括许可协议(R1)和引用规范(R2)。①许可协议(R1):国外学术期刊通常允许论文作者指定其科学数据集的数据许可协议(如知识共享许可协议CC0、CC-BY或CC-BY-NC)。Springer Nature期刊指出:如果科学数据保存在公共存储库中,则需要遵循公共存储库的许可条款;如果科学数据可以在线免费获取,则应首选支持最大限度重用的许可协议(如CC0)[17]。PLOSONE期刊指出:如果作者使用具有明确许可条款的公共存储库,则其许可条款不应比CC-BY许可协议更具限制性[12]。②引用规范(R2):通常要求论文作者将其科学数据集存储到公共存储库中,并通过为科学数据集分配唯一的持久性标识符(如DOI),在其研究论文的参考文献中引用任何公开的科学数据集。Springer Nature期刊要求论文作者在参考文献引用中使用公共存储库分配的DOI,并且数据引文应包括DataCite建议的最低信息(创建者、数据集标题、出版年、存储库名称、标识符)以及符合期刊格式要求[17]。

5 结论及建议

本研究针对选取的23个独立的国外学术期刊科学数据政策,利用质性文本分析法归纳式构建政策文本分析类目体系、展开政策评估分析以及提炼政策内容要素,并针对国内学术出版机构制定与完善其学术期刊科学数据政策提出如下3个方面的政策建议:

(1) 国内学术出版机构制定与发布的学术期刊科学数据政策目前仍比较有限,已制定科学数据政策的学术期刊主要集中在生物、医药、化学、材料、地质、物理、环境和心理学等学科领域[35],建议参考与借鉴国外学术出版商和学术组织的先进政策实践,尽快制定与完善国内现行学术期刊科学数据政策。目前,国际研究数据联盟(Research Data Alliance,RDA)已制定了“期刊数据政策框架”,将学术期刊科学数据政策划分为6种标准政策类型并概括了其14个政策特征,这6种政策类型可以使学术期刊更细致、更严格、更稳健地实施科学数据政策,Springer Nature、Wiley、Taylor & Francis和BMJ等大型学术出版商已经开始实施这种分类政策框架与指南[36]。美国开放科学中心(Center for Open Science,COS)也发布了“透明度与开放性促进(Transparency and Openness Promotion,TOP)指南”,为提升已发表研究成果的透明度、可重复性(Reproducibility)和可复制性(Replicability)建立了8项模块化标准,并为每项标准设置了3个越来越严格的实施级别,学术期刊可以根据学科差异灵活选择希望实施的政策标准及其实施级别,越来越多的国外学术期刊与学术出版商认可并实施了“TOP指南”提出的8项政策标准[37]。建议参照国外学术期刊科学数据政策文本分析类目体系与政策评估分析结果(表2、图2),参考其数据存储阶段的强制存缴(S1)、数据审查(S6)、存储地点(S7)、存储位置(S8)、可用性声明(S9)和数据标识符(S10),数据发布阶段的伦理法规(P1)、去识别化(P3)和发布期限(P4),数据访问阶段的开放获取(A1)、访问限制(A2)和访问条件(A3),数据重用阶段的许可协议(R1)和引用规范(R2)等政策内容要素,参照国外学术组织和学术出版商制定的科学数据政策框架与模板,并充分考虑所在学科领域的科学数据特点,尽快调整与完善国内现行学术期刊的科学数据政策。

(2) 参考本研究针对国外学术期刊科学数据政策所提炼的政策内容要素,建议国内学术出版机构的政策制定与完善关注如下10个核心政策内容要素:①强制存缴(S1),依据学科特点鼓励或要求论文作者在提交研究论文之前将论文研究结果所依据的科学数据存储至指定的数据知识库以供同行评议和检验可重复性;②数据格式(S4),要求论文作者以可获取和可重用的文件格式提交其科学数据集,以最大化科学数据集的可访问性和可重用性;③数据审查(S6),规定期刊编辑和审稿人要审查论文作者提交的科学数据,以确保与期刊论文关联的科学数据是可复制和可重用的;④存储地点(S7),要求论文作者将其科学数据集提交至适当的、公认的公共存储库,如接受特定数据类型的学科知识库或接受多个数据类型的通用知识库;⑤可用性声明(S9),要求论文作者在提交的研究论文中包括“数据可用性声明”,以说明支撑论文研究结果的科学数据集的存储地点及其访问条件;⑥数据标识符(S10),要求论文作者提供科学数据集的登录号、DOI、RID或其他持久性标识符,并在其研究论文的参考文献中引用科学数据集;⑦伦理法规(P1),如果出于伦理标准、法律要求或许可协议等原因无法共享数据,允许论文作者在“数据可用性声明”中对数据可用性进行合理限制;⑧开放获取(A1),要求论文作者在期刊论文发表后不受限制地公开提供其科学数据集以确保其他科研人员能够公开查验与复制论文研究结果;⑨访问限制(A2),允许论文作者出于个人隐私、机密信息或国家安全等原因对数据可用性进行合理限制并且必须在提交论文时向期刊编辑披露;⑩许可协议(R1),允许论文作者确定其科学数据集的数据许可协议,并遵守所存档的数据知识库的数据许可条款,建议首选支持最大限度重用的开放访问许可协议(如CC0或CC-BY)。

(3) 国外学术出版商和学术组织两类学术出版机构制定的科学数据政策较为注重与参与开放科学数据的其他利益相关者发布的科学数据政策之间的政策协同问题,建议我国学术出版机构制定与完善其科学数据政策时也注重与其他利益相关者(尤其是资助机构和数据知识库)发布的科学数据政策之间保持协调一致。本研究提炼出学术出版机构与其他利益相关者之间加强政策协同值得关注的3个核心政策内容要素:①可用性声明(S9),应注重与资助机构制定的科学数据政策保持一致,如Springer Nature在“科学数据政策”中指出,“包括英国研究理事会在内的若干科研资助机构,要求在学术出版物中包括‘数据可用性声明’,Springer Nature科学数据政策支持遵守这些政策要求”[17]。②开放获取(A1),应注重与资助机构和科研机构的科学数据政策保持一致,如Taylor & Francis在“数据共享政策”中指出:“在论文作者做出共享其科学数据的任何决定之前,应检查其科研机构或资助机构的具体政策要求。越来越多的资助机构要求获得资助的科研人员共享其资助研究产生的科学数据。学术出版商目前通常会规定论文作者如何提供与其研究出版物相关的科学数据。如果其资助机构与学术期刊的科学数据共享政策不一致,则应遵循更具进步意义的政策要求,即鼓励更高程度的数据共享的政策。”[19]③许可协议(R1),应注重与资助机构和数据知识库的科学数据政策保持一致,如Wiley在“数据共享政策”中指出:“如果论文作者将其科学数据保存在数据知识库中,许可协议的选择将由数据知识库的许可条款确定;若干资助机构也有特定的科学数据许可协议要求,论文作者负责在论文提交过程中审查许可协议。”[20]

6 结语

本研究将质性文本分析方法及其软件工具NVivo 12引入学术期刊科学数据政策类定量化研究,选取国外学术出版商和学术组织两类学术出版机构最新发布的23个代表性学术期刊科学数据政策文本,归纳式构建出学术期刊科学数据政策文本分析类目体系并展开政策评估分析,针对所涉及的数据生命周期阶段提炼了国外学术期刊科学数据政策内容要素,为国内学术出版机构制定与完善其现行学术期刊科学数据政策提出相关政策建议。本研究的不足之处在于主要从宏观、共性的研究视角探讨了学术期刊科学数据政策内容要素,在后续研究中将针对不同学科领域的学术期刊科学数据政策应涵盖的政策内容要素展开深入具体研究。

猜你喜欢
类目可用性学术期刊
《中国老年学杂志》再次被评为RCCSE中国权威学术期刊(A+)
哈尔滨音乐学院“学术期刊”创刊暨《北方音乐》改版启事
哈尔滨音乐学院“学术期刊”创刊暨《北方音乐》改版启事
面向移动应用的软件可用性研究综述
《中图法》(5版)“K历史、地理”大类的修订
三大MOOC平台Coursera、EdX和Udacity的可用性比较研究
《中国图书馆分类法》
浅析《中国图书馆分类法》(第五版)G25类修订特色及问题
学术期刊评价指标说明