国内外数据素养研究的文献计量分析

2020-01-19 03:33余维杰陈思琪中山大学资讯管理学院
图书馆理论与实践 2019年12期
关键词:发文期刊领域

余维杰,陈思琪,陈 序(中山大学资讯管理学院)

1 引言

“数据素养”(Data Literacy),也称“数据信息素养”(Data Information Literacy),其概念最早起源于国外,由信息素养引申、细化而来。数据素养是指在科学数据的采集、组织和管理、处理和分析、共享与协同创新利用等方面的能力,以及在数据的生产、管理和发布过程中的道德与行为规范。[1]与信息素养相比,它更侧重于数据的生产、保存与管理等技术性强的方面,测度体系也更关注对结果的评价。[2]

数据素养的重要性日益显著,业界对其重视程度也越来越高,数据素养在学术领域的研究成果不断涌现,研究热度也不断上升。早在2001年,英国学者大卫·鲍登(Bawden David)发表了关于信息和图书馆领域中用词研究的文献。[3]随后,以数据素养为研究主题的学术文献不断涌现,这些研究成果主要围绕用户数据行为、数据素养与图书馆领域的关系、数据素养与医疗健康领域的关系、数据素养的培养等主题展开讨论。但是,这些研究成果基本上都侧重于对某一主题的深入探讨,只有少数成果涉及对数据素养研究进行整体的评述和分析。

在我国,最早的数据素养研究论文是2011年发表的《论物理教育中数据素养的培养》,文章深入探讨了信息时代中数据素养和物理教学的关系。[4]随后,数据素养受到学者越来越多的关注。从目前的研究成果来看,我国对数据素养领域的研究分析更侧重对数据素养的内涵、构成要素的分析,对用户数据素养的培养探讨,以及对数据素养与图书馆的关系探讨,[5]它们都侧重于对某一主题的数据素养研究进行定性的解读剖析。在国内众多数据素养领域的研究成果中,只有少数研究成果是从定量的角度进行剖析与解读,数据素养研究的定量分析存在较大空缺。

因此,本文采用文献计量法,对国内外数据素养领域内文献进行统计分析和比较研究,从定量和定性双重角度总结其成果和研究态势,为数据素养领域更深层次的应用研究提供参考。

2 数据来源与研究方法

2.1 数据来源

在国内文献数据方面,文章以CNKI(中国知网)数据库为数据来源。检索式为:(关键词=“数据素养”or“数据信息素养”)or(题名=“数据素养”or“数据信息素养”)or(主题=“数据素养”or“数据信息素养”),进行精确匹配检索,时间跨度为2018年及以前,一共检索到文献503篇。经删除重复、通知、简讯、报导等非学术文献以及与主题弱相关的文章,最终得到有效样本文献462篇。将这462篇文献的题录数据以EndNote格式和Excel格式导出,为后续的数据分析研究做准备。

在国外文献数据方面,以WebofScience的SCI-E和SSCI作为数据来源。检索式为Topic=(“Data Liter acy” or(Data and“ Information Literacy”) or Title=(“Data Literacy”or(Data and“Information Literacy”)),检索语种为英语,最终得到有效样文文献473篇。

2.2 研究方法

文献计量法是从定量的角度出发,对文献体系和文献计量特征进行分析的研究方法。其分析对象主要有文献数量、作者分布、期刊分布等外部特征和关键词分布等内容特征。本文主要采用文献增长规律分析、来源期刊载文情况分析、作者发文情况分析和关键词分析,借助 Excel、文献题录分析工具SATI、SPSS和UCINET等统计工具,对数据素养领域的研究现状和发展趋势进行定量研究。

3 数据素养研究的文献计量分析

3.1 文献增长规律分析

文献增长规律能在一定程度上反映出某个研究领域的发展状况。文献逻辑增长模型提出文献增长包括三个阶段:早期阶段呈指数增长;中期阶段增长率开始变小,出现转折点;后期文献累积量增加缓慢并且趋于一个极限值。[6]

从图1可以看出,我国数据素养领域的相关研究始于2011年,随后发文量呈现逐年快速增长趋势,截至2018年底,已有462篇公开发表的文献。根据文献计量学理论中的文献指数增长规律,对2011-2018年CNKI收录的数据素养领域研究的累积发文量进行曲线拟合,发现可用指数函数y=1.8812e0.7309x拟合,决定系数R2的值为0.9857,表明此函数曲线可描述累积发文量随时间增长的情况。从拟合曲线走势来看,我国的数据素养研究文献现处于早期的增长阶段,尚未到达文献逻辑增长模型中的增长率减小阶段。由此可知,未来国内学者对数据素养领域的研究热度依然会呈上升趋势。

图1 CNKI收录的数据素养研究文献的年代分布

图2 是国外数据素养研究文献的年代分布,早在2001年就有国外学者发表了关于信息和图书馆领域用词研究的文章,[3]随后4年的发文量都为个位数,增长较为缓慢。总体来看,国外数据素养领域的研究呈现出一直平稳增长的趋势,并没有出现类似我国发文量快速增长的情况。此外,国外数据素养研究文献与文献指数增长模型或文献逻辑增长模型的符合度较低,无法用指数函数曲线拟合分析。但发现其更符合幂函数的曲线特点,可用幂函数y=0.8816x2.1343拟合,决定系数R2的值为0.9943。从图2呈现的数据节点分析,国外学者对数据素养领域研究的热度呈现阶段性变化,2008年、2009年、2013年、2017年的发文量均分别比其前一年的发文量低,但随后会出现小幅度的增长。由此可以推测,国外数据素养领域研究的文献数量每4年或5年为一个增长阶段,每一个阶段内呈现先逐步增长再有所下降的态势,而阶段之间呈现总体增长态势。

3.2 来源期刊分布

通过对某领域学术文献的来源期刊进行分析,可以掌握该领域的核心期刊,了解该领域的空间分布特点。

图2 SCI-E、SSCI收录的数据素养研究文献的年代分布

经统计发现,国内关于数据素养研究的462篇文献分布在245种期刊中,平均每种期刊刊载文献1.89篇。在这245种期刊中,发表1篇文献的有174种,发表2篇的有36种,发表3篇的有9种,发表4篇的有7种,发表5篇及以上的共有19种。而国外关于数据素养研究的473篇文献分布在145种期刊中,平均每种期刊刊载文献3.26篇。在这145种期刊中,发表1篇文献的有92种,发表2篇的有19种,发表3篇的有9种,发表4篇的有1种,发表5篇及以上的共有24种。表1为国内外数据素养领域载文量最多的前12种期刊,综合对比来看,国外数据素养领域期刊的刊均发文量更高,原因是数据素养研究起源于国外,且国外研究的时间更长。

表1 国内外发文量排名前12的期刊及载文量

文献计量学中的布拉德福分散定律描述了科技论文在期刊中的分布规律,运用此定律,结合本研究的样本数量,将来源期刊按照其刊载的文献数量进行降序排列,并且划分出4个区域(核心区、相关区、弱相关区、非相关区),使每个区内期刊载文量约为全部期刊载文量的1/4,并且尽量使核心区、相关区、弱相关区、非相关区含有的期刊数量满足1:n:n2:n3的比例关系。[7]表2为中英文期刊进行区域划分后的结果。可见,无论是中文文献还是英文文献,布拉德福常数n仅对于前三个区域的描述程度较高,说明依据布拉德福定律能较为准确的得出刊载数据素养领域研究文献的核心区期刊。从表2还可以看出,与国内相比,国外数据素养领域的文献更明显地集中在少数期刊中,形成的核心区期刊群更稳定,进一步体现出国外的数据素养领域研究更成熟。

表2 中英文期刊区域分析法划分

3.3 作者发文情况分析

洛特卡定律描述了科学工作者和科学论文产量之间的数学规律,核心思想可表述为:发表x篇文章的作者数量是发表1篇文章作者数量的1/x2,且发表1篇文章的作者数是全体作者的60%左右。[8]利用此规律可以对某领域的作者发文情况进行分析。

表3展示了国内外数据素养领域作者发文量的情况。经统计,国内的462篇文献共涉及572位作者,其中发文量1篇的作者有484人,占作者总数的84.62%;发文量2篇的作者有57人,约为发文1篇作者数的11.78%;发文量3篇的作者有16人,约为发文1篇作者数的3.31%。而国外的473篇数据素养文献共涉及1,052位作者,其中发文量1篇的作者有950人,占作者总数的90.30%;发文量2篇的作者有59人,约为发文1篇作者数的6.21%;发文量3篇的作者有25人,约为发文1篇作者数的2.63%。

表3 作者发文量统计

综合对比来看,国内外数据素养领域发表1篇文章的作者为绝大多数,都超过作者总数的80%,远高于洛特卡定律中提出的60%。由此表明,国内外数据素养领域研究的发展处于上升阶段,核心作者群还未形成。此外,国内数据素养领域每篇文献平均约由1.24位作者完成,国外数据素养领域每篇文献平均约由2.22位作者完成,说明在数据素养领域,国外论文合著情况较国内更显著。

表4列举了国内外数据素养领域主要发文作者的发文量及其所属单位,可以看出,无论是国内还是国外,大学学者都是数据素养领域研究的主力军。

表4 国内外主要发文作者所属单位及发文量

3.4 关键词分析

研究将收集到的文献题录信息导入SATI,提取文章的关键词并且进行关键词词频统计。词频按从高到低排序,从中文文献中截取词频大于7的关键词,得到23个高频关键词(见表5);从英文文献中截取词频大于6的关键词,得到25个高频关键词(见表6)。

表5 国内数据素养研究高频关键词(词频>7)

表6 国外数据素养研究高频关键词(词频>6)

为了后续进行因子分析、系统聚类分析以及社会网络分析,把获取到的中文和英文文献题录信息分别导入SATI,利用其直接生成矩阵,分别得到国内外数据素养研究的高频关键词共词矩阵、高频关键词相关矩阵、高频关键词相异矩阵。

3.4.1 因子分析

因子分析是一种在变量中找出隐藏的具有代表性因子的统计分析方法,目的是用尽可能少的因子描述众多指标间的联系,基本思想是把研究对象变量分组,使同组内的变量相关性较高,不同组的变量相关性较低。[9]

将生成的高频词相关矩阵导入SPSS,选择主成分法、协方差矩阵、最大平衡值法对其进行因子分析,得到因子数和涵盖的信息量表,以及各因子成分。结合本次分析的样本数量,参考统计学惯例,规定在本次分析中旋转后因子的绝对值大于0.5才被接受。

根据分析结果,从23个中文高频关键词中提取出10个因子,它们能解释全部信息的50.287%。由表7可知,第一个因子主要解释了数据素养和大数据,第二个因子主要解释了高校图书馆和信息素养,第三个因子主要解释了数据素养教育和科学数据,第四个因子主要解释了MOOC和信息素养教育,第五个因子主要解释了科研数据管理,第六个因子主要解释了图书馆和互联网+,第七个因子主要解释了数据分析和科学数据素养,第八个因子主要解释了教育大数据和数据管理,第九、第十个因子分别解释了大数据时代和教师专业发展。

从25个英文高频关键词中提取出10个因子,它们能解释全部信息的50.050%。由表8可知,第一个因子主要解释了信息和素养,第二个因子主要解释了行为和信息搜寻,第三个因子主要解释了学生和学习,第四个因子主要解释了信息检索和情报研究,第五个因子主要解释了循证实践和护士,第六个因子主要解释了学术图书馆和图书馆员,第七个因子主要解释了教育,第八个因子主要解释了图书馆和尼日利亚,第九个因子主要解释了数据素养和健康素养,第十个因子主要解释了研究。

中文高频关键词的因子分析结果显示,提取到的10个因子中,存在过半的因子主要解释了数据素养领域教育方面的问题,每个因子之间相关性较高,可见我国当前数据素养的研究热点集中于此。此外,通过第二个因子的解释,可以看出图书馆,尤其是高校图书馆与用户的数据素养培养密切相关。而通过对英文高频关键词的因子分析可发现,提取到的10个因子里,同组因子内关键词相关性较高,不同组因子之间相关性较低。总体来看,国外数据素养领域的研究范围较我国更分散,主要分布在图书馆职能与角色、与数据相关的行为、校内教学、在线学习等方面。

表7 国内数据素养研究高频关键词旋转成分矩阵

表8 国外数据素养研究高频关键词旋转成分矩阵

3.4.2 系统聚类分析

系统聚类分析能够利用高频关键词反映某学科或主题的研究热点,定量反映出词与词之间的亲疏关系,进而反映这些词所代表的主题内容的结构。[10]

本研究将生成的中英文高频词相异矩阵分别导入SPSS,选择组内连接法,采用Minkowski距离对其进行系统距离分析,分别得到中文高频词聚类树状图(图3)和英文高频词树状图(图4)。

图3 国内数据素养研究的高频关键词系统聚类树状图

图4 国外数据素养研究的高频关键词系统聚类树状图

从图3可以看出,在数据素养领域,国内数据素养研究文献的23个高频关键词可聚为4类。第1类:数据素养、大数据、信息素养、图书馆、教育、MOOC、大数据时代、图书馆员、信息素养教育、高校教师、数据新闻;第2类:教育大数据、教师专业发展;第3类:科学数据、素养教育、数据管理、高校;第4类:高校图书馆、数据素养教育、科研数据管理、科学数据素养、互联网+、数据分析。根据系统聚类结果可以发现,随着大数据时代的到来,对数据素养提出了更高的要求,并且主要集中在教育方面,尤其是针对高校师生以及科研人员的数据素养培养。此外,图书馆与数据素养也呈现出紧密关系,图书馆在培养用户数据素养中起着非常重要的作用,也承担着相应的职责。在大数据时代,提升数据素养不仅是对高校师生及科研人员提出的要求,也是对图书馆员、新闻工作者提出的要求,大数据已经全面渗透到各个行业、各个领域,数据素养是每个企业甚至每个员工应该具备的一种专业素养。

从图4可以看出,国外数据素养领域研究文献的25个高频关键词可聚为4类。第1类:信息、素养、评定、因特网、研究;第2类:图书馆、尼日利亚、学术图书馆、图书馆员、高校图书馆、高等教育、数据素养;第3类:学生、学习、信息检索、情报研究、高中、健康素养;第4类:循证实践、护士、在线学习、信息搜寻、行为、信息素养、教育。根据系统聚类结果不难发现,国外数据素养领域研究,主要集中于用户数据行为、数据素养与图书馆领域的关系、数据素养的培养等方面。可见图书馆以及学校都在培养用户数据素养的过程中担任非常重要的角色。此外,医疗健康领域也强调了数据素养的重要性。

对比国内外数据素养领域的高频关键词聚类结果,发现以下特点。① 国外数据素养领域研究的涉及面更广泛,具体包括了各级学校教育、各类图书馆、用户数据行为、医疗健康领域等;而国内更多集中在高校教育和科研层面。② 国外对学生数据素养的培养从更早的阶段开始(第3类聚类结果中出现关键词“高中”);而国内更多强调的是高校学生的数据素养培养。原因是国外已经形成较为系统的数据素养培养体系,而国内尚未形成完备的教育体系。[11]③ 国外在数据素养领域研究中更重视具体行为,对数据行为的研究更细化,如高频关键词中出现的循证实践、在线学习、信息检索等;国内对具体数据素养相关行为的探讨较少,在高频关键词中未有具体体现。但是,国内外数据素养领域研究仍存在一些共同点。① 国内外都认为图书馆对用户数据素养的培养和发展起着非常重要的作用。② 数据素养都体现在除教育科研外的其他领域,国内对新闻工作者提出了数据素养要求,国外在医疗健康领域强调了数据素养的重要性。

3.4.3 社会网络分析

社会网络分析是由社会学家根据数学方法以及图论发展而成的定量分析方法。[12]度中心度(Degree Centrality)是在社会网络分析中描述节点中心性的最直接度量指标,它表示一个关键词与其他关键词相联系的程度,关键词的中心度越高说明该关键词在整个研究网络中就越重要。[13]结合关键词的中心度,可将社会网络分析应用于分析某学科或某主题中关键词之间的关系,发现当前研究热点,推测未来研究趋势。

将高频词共现矩阵导入社会网络分析软件UCINET中,再通过可视化软件NetDraw选择节点大小,依据中心度大小进行显示,生成用于分析高频关键词中心度的网络。图5为国内数据素养研究的高频关键词中心度分析网络,图6为国外数据素养研究的高频关键词中心度分析网络。在图5和图6中,一个节点代表一个关键词,节点越大说明该关键词的中心度越高,与其他关键词联系紧密,在该分析网络中越重要。表9和表10分别为利用UCINET分析而得的国内外数据素养研究的高频关键词中心度排序。

由图5可知,在国内数据素养研究中,图书馆和数据素养教育在整个关键词网络中占据着主导地位,并且数据素养教育和图书馆之间联系也非常紧密。由此可以发现,我国数据素养领域当下的研究热点集中于领域相关的教育以及图书馆在其中担任的角色。通过分析边缘节点发现,在大数据时代,无论是图书馆员还是高校师生(尤其高校教师),都要提升自身数据素养,图书馆员和教师还要担当培养学生数据素养的重任。此外,大规模开放在线课程MOOC的出现和兴起正好顺应了互联网+时代的用户需求,可推测其研究热度会不断上升。[14]

由图6可知,在国外数据素养研究中,与教育和各级图书馆相关的关键词也占据整个网络的主要位置。此外,体现数据素养相关行为的关键词也在网络中占据一定位置,如信息检索、循证实践、信息搜寻、在线学习等。可见,与国内相比,国外数据素养领域的研究热点更广,不仅包括学校教育及图书馆职能,更强调了在学习或科研过程中数据素养行为的具体表现,在线学习的普及率更高。通过研究关键词网络边缘节点还发现,关键词“评估”(Assessment)的中心度在所有关键词中位于中等偏上的位置,可推测国外数据素养的教育中更注重反馈。[15]

图5 国内数据素养研究的高频关键词中心度分析网络

图6 国外数据素养研究的高频关键词中心度分析网络

表9 国内数据素养研究的高频关键词中心度

表10 国外数据素养研究的高频关键词中心度

4 结论

(1)从文献数量及年代分布来看,我国的数据素养研究领域现处于早期的增长阶段,发展速度较快,可以推测未来国内学者对此的研究热度会呈上升趋势;而国外学者对数据素养领域的研究已进入相对稳定的阶段,呈现出约每五年为一个周期的阶段性增长。

(2)从文献来源期刊分布来看,国内外数据素养领域都已形成较为稳定的核心期刊群。与国内相比,国外数据素养领域期刊的刊均发文量更高,文献更明显地集中在少数核心期刊群中,体现出国外数据素养领域的发展较为成熟。

(3)从作者发文情况来看,无论是国内还是国外,数据素养研究领域中发文量1篇的作者占绝大多数。目前主要发文作者所属机构主要是高校,但国内外都暂未形成稳定的核心作者群。此外,国外论文合著情况较国内更显著。

(4)从关键词来看,通过因子分析、系统聚类分析和社会网络分析,发现国内外数据素养研究领域的以下特点。① 共同点。无论是国内还是国外,图书馆对培养用户数据素养的重要性都得到了肯定,同时学校教育也在培养学生数据素养的过程中担任重要角色。此外,数据素养的重要性不仅仅体现在教育科研中,其他领域也对相应工作者提出了数据素养要求,如国内的新闻工作领域、国外的医疗健康领域。② 不同点。第一,国内数据素养领域的研究更多集中在高校教育和科研层面;而国外相关研究的涉及面更广泛,具体包括了各级学校的数据素养教育、各类图书馆的职能和角色、用户具体的数据行为、医疗健康领域与数据的关系等。第二,国内更多强调的是高校学生的数据素养培养;而国外对学生数据素养的培养从更早的阶段开始(高频词中多次出现高中)。此外,国内对具体数据素养相关行为的探讨较少;而国外在数据素养领域研究中更重视具体行为,对数据行为的研究更细化,如高频词中出现的循证实践、在线学习、信息检索等。

(5)从总体上看,国内外数据素养领域的研究仍在不断发展中。相对而言,国外的数据素养研究更成熟、数据素养实践更多样。因此,构建和完善数据素养教育体系、丰富数据素养具体行为是我国数据素养研究未来的重要发展方向,也是不断提高用户信息素养、适应大数据时代发展的重要举措。

猜你喜欢
发文期刊领域
期刊更名启事
期刊简介
电子战领域的争锋
将现代科技应用于Hi-Fi领域 Perlisten S7tse
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
2020 IT领域大事记
期刊问答
领域·对峙
期待您的加入