姜鑫妍 王翠萍 宋雯琪
关键词:科学数据;数据重用;数据重用行为;教育学;内容分析法
科学数据是科学研究的基础,在开放科学的背景下,国内外陆续发布了众多促进科学数据开放利用的相关政策和规范指南。近年来,我国科学数据规模增长迅速,但存在数据利用率不高的问题。随着数据密集型研究范式的到来,数据重用研究热度逐渐升高。数据重用(Date Reuse),也称为数据复用、数据再利用,是对科学数据的重复利用及二次分析。本文所指的数据重用定义采取一种较为宽泛的概念,即数据重用是数据的重新使用或重复利用,无论之前是否使用过该数据.只要研究中所使用的数据或数据集不是科研人员自行收集的原始数据,其数据使用或数据分析过程就应视为数据重用行为。科学数据重用行为的主要表现为数据重用目的、原始数据特征、数据处理分析、数据重用规范等方面。在科技文献中可表现为数据使用、数据引用、数据来源提及等。
国外较早开始研究数据重用相关问题,研究主题较为广泛和分散,大致可总结为数据重用概念及重要性的研究,元数据与数据重用的研究,数据重用行为及态度的研究以及其他相关研究。国内对于数据重用的研究主要集中对数据重用行为特征分析、数据重用的影响因素研究、构建数据重用模型的相关研究以及探讨数据权益问题。目前对于学界内针对数据重用的研究更多地关注较为具体的问题,有部分研究从不同学科论文中的数据引用实践人手,分析了生物学、化学、生命科学、地球物理学、人口学等学科领域的数据引用特征。在现有研究中,大多数学者主要聚焦于各类型数据较多的自然科学等学科领域的数据重用现象的研究,而对人文社科领域内学者们对数据重用现象研究较少。教育学作为社会科学领域中的一个重要范畴,在其研究领域内学者们广泛应用观察法、调查法等实证方法产生了大量的科学数据,同时普及了数据重用的意识和实践。经基金资助的论文成果要求进行科学数据汇交,科学数据管理相对更规范,并且基金论文具有阶段性特点能很好地反映科研人员数据重用行为的阶段性特征,与本文研究目的更为契合。因此,本文选取教育学领域基金论文,运用内容分析法试图揭示教育学领域的数据重用行为特征,以及数据重用各阶段特点,以期在一定程度上为图书馆、数据出版商、数据中心等机构开展数据服务提供参考。
1样本选择与数据处理
1.1样本选择
全国教育科学规划立项课题是教育学领域专门的国家级基金项目,能够反映我国教育科学研究的普遍态势,具有较强的代表性。由于科研基金立项项目具有长周期和持续性等特点,为充分了解学者们在其基金项目全周期内各阶段论文中的数据重用特征,本研究选择立项时间距今5年左右的基金项目产出的科研论文作为数据分析样本,最终确定了2017年和2018年全国教育科学规划项目数据为总体数据。
1.2数据获取
本文从基金项目出发,统计了2017年及2018年立项课题数量,分别是488项和551项。由于全国教育科学规划项目各年基金立项总数相差不大,但各类别课题立项数量不一致,其中国家一般课题所占比重最大,国家重大及重点课题所占比例最低。不同类别基金项目论文数量差异明显,同一类别课题已发文数量相对一致。一般而言,一项国家一般项目发表论文数量多集中在3~8篇,国家重大及重点基金论文数量多为10篇左右。以往研究运用内容分析法分析论文数量并不一致,多则1000余篇,少则一两百篇,但总体数量分布在400~1500之间,因此通过抽样方法即可获得满意的数据量。为保证样本数据的代表性,抽样选择基金项目数量应不少于80。考虑到各类基金项目数量分布的不均衡性,本文采取分层随机抽样方法,分年份分基金类别随机抽取各类基金项目数量的10%,总计抽取100项,其中2017年与2018立项各类基金项目分别为49项和5 1项。在项目编号的规定方面,利用在线随机数生成器得到随机数,并依据此随机数对所抽样项目进行了标注。具体标注规则为:如被抽取课题已发表论文数量为0篇,则被抽取基金项目编号依次顺延,但是应保证顺延后序号与随机数不重合,2017-2018年实际数据抽样结果如表1和表2所示。
根据上述抽样规则,本研究共抽样选择了100项课题,在中国知网检索上述被抽取的基金课题已发表的相关论文成果,共获取到研究论文544篇,平均每项课题发表篇数为5.4篇,数据量满足分析条件。
1.3数据处理
1.3.1数据分析方法
本文采用内容分析法从数据是否重用、数据分析与处理方式、数据重用规范等方面对我国基金项目论文中的科学数据重用行为进行分析,通过人工识别的方法对所抽取的课题论文中所提及的非科研人员自行收集的原始数据或数据集进行了提取。在參考已有研究成果并结合教育学学科数据特征后,经过反复修改,最终形成数据重用行为内容分析编码表,如表3所示。
1.3.2数据编码说明
1)基本要素编码
基金类别。全国教育科学规划课题是国家社科基金教育学单列学科课题,课题类别包括国家重大、教育部专项等8类。内容编码考虑基金类别主要是因为不同类别的课题发表的论文数量和研究方法存在差异,因此样本抽样区分基金类别可以使论文类型和数量分布更为均衡。
论文类型。本研究将已发表的基金论文分为实证论文和非实证论文两类。实证论文指的是通过观察、调查、实验等实证方法收集数据而写成的论文。
2)数据重用
是否数据重用。如果“是”则标为“1”,“否”记为“0”。
数据重用目的。本文所指的数据重用目的主要包括新的研究、佐证观点、研究结果比较以及用做背景资料(研究背景)4大类。
3)原始数据特征
原始数据类型。科学数据类型可按照研究方法分为调查数据和非调查数据。本文提到的调查数据包括统计数据在内,非调查数据是指调查数据以外的数据,包括观察数据、实验数据等多种类型。
数据重用来源渠道。数据来源渠道可分为正式和非正式两种方式。正式的数据来源渠道包括图书、期刊论文、年鉴等正式出版物及政府网站等其他官方统计网站或公开的调查报告等。非正式来源渠道有邮件、私人联系等。一般可以通过文中提及、参考文献、注释等方式得知数据来源信息。根据初步分析,本文将数据重用来源渠道大致分为期刊论文、政府网站及其他三大类。
4)数据处理与分析方式
本研究将数据处理与分析分为数据使用、数据统计分析、整理成图表和其他四大类(其他处理方式如文中明确提到借鉴、改编量表等)。
5)数据重用规范
数据重用格式。本文科学数据重用规范分析的主要内容包括数据重用格式、数据元素、数据重用位置3个方面,其中科学数据重用格式主要有参考文献、注释、文中提及以及其他4种形式,除此之外还包括序号、标点符号的使用等较为细节的部分。
数据描述元素。可分为必备元素与可选元素。必备元素有创建者、标题、URL等,可选元素如DOI、数据分级等。
数据重用位置。本文将数据重用位置分为引言、正文、结语3种,虽然这种区分较为简单,但可以与数据重用目的相对应。
2教育学领域基金论文中的数据重用行为统计分析
2.1数据重用目的
一般而言,数据重用目的有4种:新的研究、研究佐证、研究结果比较以及用做背景资料,如图1所示。图1由图(a)、图(b)以及图(C)组成,图(a)为2017年数据,图(b)为201 8年数据,整体数据见图(c)。
通过对524篇基金论文的内容分析发现,教育学领域学者重用数据目的是新的研究比例最高的种类(43.40%),其次是研究背景(28.93%)和研究佐证(23.60%),较低比例的数据重用目的是研究结果比较(4.06%)。与2017年相比,2018年数据重用目的为新的研究及研究佐证的比例上升,在一定程度上可以反映出教育学领域学者越来越注重科学数据价值的挖掘。
2.2数据重用比例
本文通过标注与统计分析基金论文中的数据重用现象,来获取教育学领域学者数据重用行为的总体情况。2017年立项的49项各类基金项目共产出基金项目论文300篇,其中实证论文篇数为88篇,占已发表论文总数的29.33%;有数据引用行为的论文有149篇,占比49.67%。2018年立项的51项各类基金项目共产出基金项目论文244篇,其中实证论文篇数为66篇,占已发表论文总数的27.05%,有数据重用行为的论文有109篇,占比44.67%。总体而言,这两年统计结果相差不大,数据重用比例接近50%,这是一个相对比较高的比例。实证论文比例接近30%,如表4所示。由此可见,这两年的数据重用比例都明显高于实证论文比例,即教育学领域学者数据重用比例高于自行收集数据比例。
调查法在教育学领域适用范围广泛、应用成熟,形成了一定的研究范式,实证论文中调查类论文占比最高。不过这并不意味着教育学领域学者更愿意重用数据而不是自行收集数据,仍有许多学者倾向于通过自行收集数据的方式以实现自己的研究目的。在学者自行收集数据开展实证研究并同时重用他人数据的情况下,数据重用的目的一般为用作研究背景或研究佐证,基本不是用作新的研究。当然,学者也可以使用已有数据,采取思辨方法验证研究论点,或是将原始数据用作实证研究论文中的主要数据和研究基础。因此,教育学领域学者数据重用行为与学者自行收集数据并不矛盾,也没有必然联系。
统计发现.2018年与2017年相比数据重用频次明显下降,一篇论文数据重用次数大于1次的比例下降。2017年数据重用频次为244次,平均每篇论文数据重用次数为1.64次。2018年数据重用频次为151次,平均每篇论文数据重用次数为1.04次。2017年共有5项基金课题项目未见有数据重用现象,占当年抽取比例的10.20%,2018年有11项基金课题项目未见有数据重用现象,占当年抽取比例的21.57%。可以推测,数据重用行为在一定程度上受数据时间周期以及每项课题发表论文数量的因素影响。
2.3数据重用程度
由表5可知.2017年未采取任何数据分析手段的数据使用比例为54.73%,2018年数据使用比例为63.58%。
利用原始数据开展新的研究大多需要将原始数据进行再分析,但研究结果显示,教育学领域学者在研究中将原始数据用做新的研究比例不足50%.而数据分析与处理类目为数据使用的比例超过一半,这表明数据重用目的与数据分析处理方式高度相关,教育学领域学者数据重用目的是研究背景和研究佐证的比例较高,意味着对已有数据的分析不够,对科学数据价值的挖掘不够深入,数据二次分析较少,数据利用程度较低。
2.4数据重用类型
教育学领域基金论文主要是引用政府网站及期刊论文中的数据,调查类数据一般来源于官方统计网站以及调查类研究论文,另外有少量数据来自互联网等途径。如表6所示,2017年数据重用类型中,调查数据占比58.02%,非调查数据占比41.98%:2018年数据重用类型中调查数据占比51.66%,非调查数据占比48.34%。原始数据类型以调查数据居多,一般是为了引出或验证研究问题,即用做研究背景和佐证观点。
其中,政府网站及科研院所的数据具有一定的连续性且数据质量较高,如教育部、国家统计局的调查数据涵盖范围广,数据较为权威,可以很好地引出研究背景,是科学研究的重要数据来源。其次是期刊论文和硕博论文,获取较为便捷,并且已发表的通过调查等实证方法收集的数据能够佐证本文观点,也可通过借鉴量表等调查工具开展新的研究。
教育学领域在调查研究中涉及到研究工具的重用,其中量表是比较有特色的数据重用类型。教育学领域量表重用现象较为普遍,可以是借鉴、改编、编译国内外已有研究的成熟量表。通常情况下,对外文量表的数据重用需要翻译审定,并且为契合研究目的应对量表进行本土化及删减,例如“量表经专家使用英文原版翻译……”。对已有成熟的量表的數据重用可以提高研究的科学性,节约时间和精力,是数据重用较为合适的选择。
3教育学领域基金论文中的数据重用标注规范分析
数据重用来源、格式著录是否规范影响着科学研究的准确性和科学性。因此,数据重用应遵循相应的规范以便科研人员在研究过程中追溯数据来源,促进科学数据再利用。本文主要对数据重用来源及标注和数据重用选择偏好分析我国教育学领域科研人员数据重用规范。
3.1数据重用来源及标注
3.1.1数据重用来源标注
通过统计分析发现,教育学领域学者在数据重用过程中没有任何标注行为(无参考文献、无注释、无文中提及)的比例在10%以下,如表7所示。
2017年“无”的比例仅为5%,2018年为9.93%,即超过90%的学者会在数据重用中标注原始数据来源,这表明绝大部分学者具备一定的数据重用规范意识。但是在数据来源方面,2017年数据来源未知比例有6.58%,2018年数据来源未知比例有16.56%。整体而言,有10%左右的学者没有明确指出原始数据来源渠道,均大于数据重用规范为“无”的比例。这說明即便学者在文中提及数据来源或进行数据引用,但未必能全部明确指出详细完整的数据来源渠道。
教育学领域学者重用数据存在不介绍重用数据的来源,或者交待部分出处但不可查的问题,表现为对原始数据不作实质性出处说明,不标注引用数据以及对于数据记录的完整性认识不足等形式。数据重用更注重数据的结果,较少关注能够反映数据全过程信息的元数据。对于科研人员自己整理的数据,同样存在数据出处不明且不够详尽、准确的问题,给数据追踪以及后续的数据重用造成了一定的障碍。
3.1.2数据重用标注格式
教育学领域学者在数据重用过程中很少像自然科学领域对数据或数据集进行明确声明,对原始数据的来源标注一般通过文中提及、参考文献及注释的方法,其中参考文献形式是科学数据的正式引用形式,其他3类是非正式形式。但科研人员标注数据来源时,往往不只采用一种形式,同时使用文中提及和参考文献的情况较多,以保证数据的准确性和权威性。
统计发现,教育学领域数据重用格式为注释这一形式较少,2017年仅有16条数据使用注释这一形式,2018年仅有3条数据通过注释说明原始数据来源。注释可以详细介绍数据的获取及相关说明,但较少采用注释方式注明数据来源。涉及到对历史资料的数据重用,注释这一非正式引用方式的较多,如注释中写道“此表内容来源于……的归纳”。注释一般提及创建者及标题两项,实际上,注释与参考文献作用相同,存在形式上是注释,实际是参考文献的情况,但通常注释与参考文献标注的格式不一致。
3.1.3数据重用标注习惯
高校及研究院等权威机构的调查统计报告也是数据重用的重要来源渠道,但与此相关的数据重用规范却并不统一。若是仅对调查统计结果进行数据重用,则更倾向于在论文正文标注参考文献。如果一开始就没有将调查数据列入参考文献中,那之后也不会列入,这是一种论文写作习惯。一般直接使用调查数据,在正文中不会说明数据的增删改情况。但实际情况复杂得多,科学数据类型多样,除调查数据之外,教育学领域学者重用非调查数据的情况较为常见,测量量表和评价指标是出现频率较高的非调查数据。当科研人员重用这类数据时一般会将以往研究整理成表格形式,部分以参考文献的方式出现,参考文献如果是期刊论文则较为规范,一般按照期刊论文的著录标准著录。如果来源于网站,那么在表格后表注释数据来源则更为常见。而此种方式数据引用形式最为多样,表明教育学领域学者数据规范意识不足。
通过对数据重用来源及标注的分析可知,虽然我国已发布科学数据相关国家标准,但在实践中仍存在大量不规范数据重用现象,主要体现为科研人员在数据重用过程中未明确注明数据重用来源,数据规范意识有待提高。
3.2数据重用选择偏好
3.2.1重用位置特征
为了解教育学领域学者数据重用行为规范,本研究进一步分析数据引用位置,将数据重用位置分为引言、正文和结论3部分。一般而言,在引言部分数据重用目的为研究背景,但同时也有少部分作为背景资料出现在正文中。总体而言,在正文中有数据重用的比例最大,因为正文内容是研究的主体部分,且在正文中数据重用目的可以是用作研究背景、开展新的研究以及佐证研究观点。教育学领域数据重用位置主要集中在引言和正文,以科学数据为研究基础的论文通常会在正文研究设计中提到数据来源。数据重用出现在结论的部分占比最少,在论文结论部分进行数据重用一般是为了研究结果比较分析,而数据重用为研究比较的比例较低。因此,可以发现教育学领域学者较为重视科学数据的价值。
3.2.2数据重用元素选择
科学数据元素是科学数据的进一步揭示,能够反映数据重用行为是否规范。不同数据类型的元数据元素差异较大,即便是相同数据类型在同一期刊也不一样,存在信息来源不完整、欠精确,对来源信息揭示度不高的问题。目前数据引用元素的规范并不统一,必备元素和可选元素的标准存在较大差异。为了能够对数据集进行溯源,需要统一资源标识符。
当前数据重用不规范情况大量存在,虽然已经说明了数据来源,但因为缺乏数据重用规范和数据应用格式的认识,存在数据重用格式不规范、信息著录不完善、数据来源标注较为随意等问题,导致论文作者和原始数据查找困难。当前学者、期刊和相关机构缺乏对数据引用规范性的认识,使论文的数据引用不规范问题普遍存在。学者在论文中虽然重用了相关数据,但并没有对这些数据及其来源明确说明和注释。数据的引用格式也存在问题,使数据信息展示不全,甚至没有详细标注引用数据及其来源。
在数据重用过程中,数据元素标注还不够全面,存在数据来源后只有原始数据的标题和时间信息的现象。大多数学者在引用图表形式的数据时,仅在文中描述数据来源,列出部分数据元素,此类不规范的数据重用行为影响了科研人员通过数据引用信息定位原始数据,阻碍了数据的传播与再利用。
3.2.3数据重用行为相似性
马太效应反映了“强者越强,弱者越弱”的现象,教育学领域科研人员数据重用行为存在“马太效应”,这在数据重用行为中表现为一项基金项目在项目前期重用他人研究数据,之后数据重用的可能性大为提高。反之,如果一项基金项目在项目前期没有重用他人研究数据,项目中后期很可能也不会有数据重用行为。2017年共有5项基金课题项目未见有数据重用现象,占当年抽取比例的10.20%,2018年有11项基金课题项目未见有数据重用现象,占当年抽取比例的21.57%。这两年的数据体现了“马太效应”中“弱者越弱”的现象。与此对应的是2017年共有7项基金课题项目数据重用论文比例为100%,即已发表的每一篇论文都有数据重用行为,2018年数据重用论文比例为100%的基金课题有11项,但其中有9项为仅发表了1篇论文,并且这两年数据重用比例为100%的基金课题项目已发表论文数均不超过5篇,由此可知数据重用并不是教育学领域科研人员开展研究的首选。
通过分析发表论文数大于5篇的基金论文中的数据重用行为发现,系列论文的数据重用行为特征也具有相似性。由于系列论文具有相对一致的研究方向,同一项目数据重用类型存在一致性倾向,倾向于使用同一类型数据的情况,这与研究内容、研究方法、数据重用目的以及研究者的个人习惯有关。
4结语
本研究采用内容分析法从相对客观的角度分析教育学领域数据重用行为特征规律,选取了全国教育科学规划项目数据为总体数据,对2017年和2018年的全国教育科学规划立项课题进行抽样,从数据重用目的、数据类型偏好及数据重用规范等方面分析教育学领域科研人员数据重用行为。研究发现,教育学领域科研人员数据重用行为有以下特征:
①教育学领域科研人员数据重用比例较高且较为稳定:②教育学领域科研人员偏向于调查数据的重用,其他数据以公式、代码和教学数据资源为主,对量表的编译改编借鉴重用较为频繁:③在数据来源上,政府网站及数据中心是科研人员较为信任的数据来源渠道,已发表的专业期刊论文中的科学数据由于数据获取便利性和专业性成为科研人员频繁引用的原始数据。此外,互联网数据因其可获得性和时效性较强得到科研人员的关注:④科学数据重用过程中的数据分析与处理较为粗浅,数据使用最多,将原始数据整理成表格也是常见的数据处理分析方式,文献计量与数据可视化分析逐步成为热门,但存在数据分析方法较为粗浅的问题。并且数据分析处理与数据重用目的密切相关:⑤由于缺少明确统一的科学数据参考文献及注释格式规范,科学数据的元数据描述差异较大。此外,数据重用过程数据来源不详是数据获取障碍的重要原因。
本研究以教育學领域的基金项目产出论文为分析依据,对其中的数据重用现象进行了识别和提取,通过对该领域学者数据重用行为特征的分析,总结其专业内部的科学数据使用偏好及使用规范,而数据重用行为有明显的学科差异性。本研究通过对教育学领域科研人员数据重用行为的分析,希望能够在一定程度上为图书馆、数据出版商、数据中心等机构开展数据服务内容及调查数据平台等教学资源数据库的建设方向提供参考。
但本研究仅从相对客观的角度分析科研人员数据重用行为,关注了基金论文文本中体现的数据重用现象,未能探讨文本外的科研人员自身的情感、态度等主观方面的动态的因素。在基金项目样本的时间范围的选择上,本次研究仅选择了2017年和2018这两年的基金项目,相对而言数据量有一定局限性。另外,数据重用规范仅仅考虑到格式、位置及元素,更偏重研究数据重用行为形式特征,内容分析编码类目构建考虑不够完善,未来研究还需挖掘数据重用行为其他特征表现。