王静静
(南京大学信息管理学院 南京 210093)
随着科技的快速发展,传统人文研究受到了极大的挑战,而数字化浪潮的推进对传统人文研究带来了新的契机。数字人文正是结合数字化和人文研究而兴起的研究领域。有关数字人文的最早一篇论文发表于1968年[1],陈述了人文计算活动以及计算语言学的发展过程。历经半个世纪的发展,已经受到了许多国家不同领域研究者的高度关注[2-4],并于2001年正式更名为数字人文。
数字人文存在的主要作用不是为了加速人文学科的发展,而是为人文学科领域中长期存在的问题提供解决方案[5],而数字人文是一个包含多个学科的研究领域,随着科技的不断发展,许多问题的解决仅仅依靠单个学科来解决存在一定的局限性,较多重大突破均需跨学科研究[6]。学科交叉性研究历经数十年的发展,受到图情档学科的高度关注。张琳[7]总结了学科交叉性相关研究成果。关于知识扩散的研究,主要研究对象包括期刊、作者、学科。期刊作为知识的载体,可以通过其知识扩散了解学科内部的知识扩散规律[8],对知识扩散具有重要的作用。陈亦佳[9]探索了期刊的知识交流方法,表明重要期刊对知识的交流具有一定的影响力和控制力。岳洪江[10]以社会网络分析方法对管理科学的期刊进行了知识扩散研究,得到期刊间的知识交流呈现开放的趋势,并且知识交流的网络密度呈现增大的趋势。侯剑华等人[11]以期刊的施引和共被引分析为切入点,研究引文分析领域的知识扩散路径,找出较有影响力的期刊。韩牧哲[12]利用Gephi可视化工具,对期刊、学科、时序网络图的可视化展示,探析了不同期刊首次研究计量学领域的时间以及网络计量学主要包含的期刊,从而分析出该领域知识扩散的宏观特征。金碧辉与Loet Leydesdorff合作研究了中国期刊在国际引文网络中所处的地位,找到了“主群”和“孤岛”现象[13]。还有研究人员以密度、平均距离、凝聚力等指标研究学科期刊的连通情况,从而丰富了期刊评价定量研究的方法[14]。以作者为对象的知识扩散研究,有助于追踪知识来源,从而更好的评价学者对知识的贡献[15]。赵蓉英等人[15]利用作者扩散广度、作者扩散深度指标进行了作者知识扩散现象研究。李江等人[16]以文献计量学领域成果较多的40位学者为研究对象,利用合作网络、共词分析方法对其学术偏好进行研究。对于学科的知识扩散研究,赵星[17]构建了82个文科领域的引文网络,分析了各领域知识扩散呈现的规律。宋凯等[18]通过对图情档学科知识扩散广度、知识扩散强度、知识扩散强度三个指标的使用,研究图情档与其他学科之间存在的知识扩散和知识吸收。
数字人文作为一个跨学科研究领域,了解其知识扩散性,对于促进该领域的发展具有重要意义[19]。在国际上,数字人文机构往往以成立中心的形式存在[20],且具有较强的跨学科性,图书馆研究人员往往会参与其中,图书馆也开始招聘数字人文馆员。图书馆作为古老的存储知识的机构,随着时代的变迁为不断适应科技环境也在不断寻求创新,期望通过对数据的分析构建起数字人文应用平台[21]。Julianne Nyhan[22]将两种数字人文的期刊和一种传统的人文期刊进行对比,发现传统人文期刊中的作者合作论文数远多于数字人文期刊中的作者合作数,从而表明数字人文的研究还存在一定的合作空间。“2014年图书馆前沿技术论坛:数字人文与语义技术”的举办是数字人文在我国图情档领域的里程碑事件,2016年我国图书馆年会中设立了数字人文分会场,进一步拉近了数字人文与图书馆学的关系[23]。沈振萍[24]通过文献调查和网页浏览的方式对数字人文在图情领域的应用进行了梳理。刘炜、叶鹰[25]通过对数字人文的技术体系进行了总结,和图情档关注的可视化技术、机器学习、数据分析技术等高度重合。邓君等[26]以CNKI收录的数字人文文献为数据源,从时间、空间、高被引文献、关键词等方面进行分析,从而了解我国国际数字人文研究的研究热点和发展趋势。高瑾[27]通过数字人文期刊作者共被引分析对数字人文学科结构进行分析,从而深刻地对其历史和发展进行探讨。夏翠娟[28]以图书馆涉及数字人文的历史地理数据为研究对象,探索历史地理学与人文社会科学研究者之间的距离,找出国际数字人文研究的数据模型以及关联数据技术方案。陈涛[29]从概念和技术层面阐释语义知识图谱和侧重知识挖掘的广义知识图谱的区别,并结合其分析提出数字人文研究的系统框架,并认为知识图谱是国际数字人文研究的一个研究热点。
结合目前数字人文在图情档的发展现状以及数字人文作为跨学科研究领域需要解决人文领域中存在的问题,研究数字人文在图情档学科中的知识扩散有利于数字人文和图情档学科的共同发展,找出图情档对数字人文具有重要作用的研究点。期刊作为知识的载体,可以通过其知识扩散了解学科内部的知识扩散规律。因此,本文通过识别数字人文在图情档学科中具有影响力且联系紧密的期刊并通过关键词聚类找出目标文献和施引文献的主题,从而找出研究主题的变化。
本文以Web of Science 核心合集中数字人文的研究方向(SC字段)为图情档的文献为数据源。在研究方法部分,主要包含期刊扩散性和主题扩散性。
本文选取Web of Science(WOS) 核心合集中的SCI-E、SSCI、A&HCI、CPCI-S、CPCI-SSH以及ESCI作为数据源,检索表达式为TS=(("digital humanit*") or ("humanit* computing") or ("digital"NEAR humanit*") or("digital "NEAR computing") or (humanit* NEAR computing) or (“Computing in the Humanit*”)),因2020年数据不完整,故检索2019年及以前的数据,检索时间为2020年7月24日,检索到的首篇论文出现在1968年,和普遍认为的数字人文首篇论文出现时间相一致[30]。通过上述检索方式共得到1947篇论文,再从该文献集中挑选出SC字段[31]为图情档的文献320篇,形成数字人文在图情档学科分析的数据源,共得到320篇论文,本文称之为目标文献。为分析知识扩散性,我们进一步检索数字人文领域所属学科为图情档的施引文献,并从施引文献集中筛选属于图情档的论文,共得到448篇论文,下文称之为施引文献。
本文主要通过期刊扩散性和主题扩散性分析进行数字人文在图情档学科中的知识扩散性研究。其中,期刊扩散性分析通过传播学中引入的双向传播理论以及借鉴机构引证系数而改良的期刊引证系数进行分析,期刊引证系数可消除时间因素带来的影响。主题扩散性分析通过对目标文献和施引文献的关键词进行可视化对比,以词云图、共现图的形式分别提炼出相关主题,对比分析识别知识扩散。
期刊双向传播:期刊双向传播理论来自于传播学。在该理论中,传播方和接收方存在一定的影响关系[32],通过传播方和接收方期刊的识别,可以提升对学科结构和规律性的认识,从而做到推动知识扩散。通过该方法的使用可以找出数字人文在图情档学科中存在双向知识传播较强的期刊,即数字人文和图情档关系较为紧密的期刊,从而有利于提高数字人文在图情档学科领域学科知识的认识,提高知识扩散的能力,有助于发现两者之间联系的规律。
期刊引证系数:卞志昕[33]为了分析SOFC领域专利和学术论文的机构合作趋势,提出了机构引证系数这一概念。该文借鉴机构引证系数的概念,提出了期刊引证系数的概念,其公式如下:
该期刊引证系数可以消除论文发表时间对期刊影响力的影响,能更好地适用于不同时间段的期刊影响力比较研究。如A期刊在2000年发表了150篇论文,截止到目前共被引500次;B期刊在2015年发表了150篇论文,截止到目前共被引400次。从表面上,A期刊的500次大于B期刊的400次,而A期刊发表论文时间远远早于B期刊的发表论文时间,其较高的被引量可能是因为时间因素导致的。
关于数字人文在图情档学科中的主题扩散性分析,主要基于关键词进行分析,使用至少被引用1次的目标文献以及所属SC为图情档的施引文献作为数据集,分析目标文献的关键词主题到施引文献的关键词主题的变化,并使用词云图和聚类图的形式进行展现。施引文献代表了前向引用,代表了数字人文在图情档学科中的发展方向,能更好地代表知识扩散。
依据上述数据和方法,下面通过实证分析重点揭示数字人文在图情档学科中的期刊扩散性和主题扩散性,并试图分析出一定的研究结论。
数字人文所属的图情档学科目标文献共320篇,这320篇论文的施引文献共918篇。其中918篇中属于图情档的有448篇,说明数字人文的图情档目标文献被本领域引用的比例约占一半,即数字人文的图情档学科的知识扩散主要流向了本学科,在知识扩散广度方面仍存在一定的潜力。
数字人文在图情档学科的期刊扩散性分析主要使用期刊的双向传播、期刊引证系数两个指标进行分析。其中,期刊的双向传播可以找出与数字人文的图情档学科联系紧密的期刊,分析该领域重要期刊,为后续研究提供借鉴意义。期刊引证系数则可以识别出在该领域具有较高影响力的期刊。
在期刊双向传播中,因为目标文献和施引文献的数量、引用次数均存在一定的差距,因此,在期刊双向传播指标中我们使用占比来进行分析。即,分别统计目标文献、施引文献中期刊出现次数占目标文献总数、施引文献总数的比率,然后用对应的施引文献期刊占比除以原始文献期刊占比,得到该期刊在数字人文的图情档学科中的传播力,比值大于1,则代表该期刊起到了扩音器的效果,比值越大,说明传播力越强,即该期刊在数字人文的图情档学科中越起到传播知识的作用。分别选取目标文献期刊出现次数大于等于5(共18个期刊)和施引文献期刊出现次数大于等于6(共21个期刊)的期刊进行分析,两者进行去重后共得到23个期刊(其中,JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY和JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY为同一种期刊,在表1中进行了合并,并使用更改后的名称JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY进行表示),如下表1所示。
表1 目标文献和施引文献期刊双向传播分析表
9 BIBLIOTHEK FORSCHUNG UND PRAXIS 6 0.01339 2 0.00625 2.1 10 ELECTRONIC LIBRARY 15 0.03348 5 0.01563 2.1 11 JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY 36 0.08036 19 0.05938 1.4 12 PROFESIONAL DE LA INFORMACION 10 0.02232 6 0.01875 1.2 13 ASLIB JOURNAL OF INFORMATION MANAGEMENT 6 0.01339 4 0.0125 1.1 14 LIBRARY HI TECH 11 0.02455 8 0.025 0.98 15 PORTAL-LIBRARIES AND THE ACADEMY 9 0.02009 7 0.02188 0.92 16 DIGITAL LIBRARY PERSPECTIVES 5 0.01116 4 0.0125 0.89 17 INFORMATION RESEARCH-AN INTERNATIONAL ELECTRONIC JOURNAL 11 0.02455 9 0.02813 0.87 18 INTERNATIONAL JOURNAL ON DIGITAL LIBRARIES 7 0.01563 15 0.04688 0.33 19 COLLEGE & RESEARCH LIBRARIES 6 0.01339 14 0.04375 0.31 20 ZEITSCHRIFT FUR BIBLIOTHEKSWESEN UND BIBLIOGRAPHIE 6 0.01339 17 0.05313 0.25 21 JOURNAL OF WEB LIBRARIANSHIP 2 0.00446 12 0.0375 0.12
22 INFORMATIONWISSENSCHAFT UND PRAXIS 1 0.00223 10 0.03125 0.07 23 JOURNAL OF MAP &GEOGRAPHY LIBRARIES 0 0 11 0.03438 0
通过表1中目标文献和施引文献占比较高的期刊分析,我们可以看出,期刊扩散性大于1的期刊共有13个,JOURNAL OF INFORMETRICS为双向扩散性能最好的期刊。
在文献计量学研究中,通常使用引证指标分析影响力,较多的引证次数代表了较多的关注度[34]。由于引证指标会受到文献发表时间的影响,因此,本文关于期刊引证系数的定义消除了时间因素的影响。期刊引证系数使用的期刊和期刊双向传播中的期刊一致,即均使用出现次数较多的期刊作为分析源。根据研究方法部分的期刊引证系数的公式,得到2001-2019年期刊的引证系数,为了展示近几年数字人文在图情档的知识扩散,下表2列出了2015-2019年的期刊引证系数以及2001-2019年期刊引证系数的均值。为了进一步展示排名靠前的期刊的引证系数变化,下图1列出了2001-2019年间期刊引证系数前10的变化图(图中标签代表期刊首字母缩写)。
表2 期刊引证系数表
7 JOURNAL OF DOCUMENTATION 2.35041 3.67500 2.05224 3.22165 2.63080 2.36282 8 LIBRARY HI TECH 2.56406 2.47059 1.74602 2.99463 3.23407 2.11611 9 ONLINE INFORMATION REVIEW 2.85930 5.44074 2.28562 3.12895 3.43277 1.99827 10 COLLEGE & RESEARCH LIBRARIES 2.06819 2.21053 1.24845 2.78728 1.52778 1.66165 11 JOURNAL OF ACADEMIC LIBRARIANSHIP 2.36369 2.69219 1.20221 1.48355 2.44382 1.64193 12 PROFESIONAL DE LA INFORMACION 2.69172 3.04923 1.88172 3.24576 2.30249 1.42334 13 PORTAL-LIBRARIES AND THE ACADEMY 2.08429 2.02139 0.92385 1.30851 2.01389 1.40658 14 INFORMATION RESEARCHAN INTERNATIONAL ELECTRONIC JOURNAL 1.03937 0.90548 0.44389 0.51108 0.81096 1.16399 15 ELECTRONIC LIBRARY 1.63394 1.66993 1.10048 1.61842 2.16035 1.11615 16 DIGITAL LIBRARY PERSPECTIVES NA 0.90074 0.67624 0.71930 1.57083 0.96678 17 COLLEGE &UNDERGRADUATE LIBRARIES 0.86535 1.10175 0.73322 1.19056 0.90625 0.95943 18 JOURNAL OF WEB LIBRARIANSHIP 0.41137 0.75490 0.39679 0.44956 0.92402 0.58733 19 JOURNAL OF MAP &GEOGRAPHY LIBRARIES 1.17241 0.74118 0.73772 0.21579 0.00000 0.57342
20 BIBLIOTHEK FORSCHUNG UND PRAXIS 0.22423 0.23162 0.20807 0.37678 0.12083 0.23231 21 INFORMACAO &SOCIEDADE-ESTUDOS 0.29310 0.36332 0.16514 0.23977 0.37908 0.22175 22 ZEITSCHRIFT FUR BIBLIOTHEKSWESEN UND BIBLIOGRAPHIE 0.11579 0.06863 0.05458 0.09520 0.14010 0.06065 23 INFORMATIONWISSENSCHAFT UND PRAXIS 0.08064 0.04751 0.11704 0.10276 0.00000 0.04971
图1 数字人文在图情档学科所属学科期刊引证系数top10变化图
通过表2和图1所示,数字人文在图情档学科所属学科期刊引证系数排名靠前的期刊有JOURNAL OF INFORMETRICS、SCIENTOMETRICS、JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY等。从图1中可以看出,期刊的引证系数均呈现上下波动的现象,但是基本上top10的期刊在2006、2012、2016年出现了峰值,表明这些期刊在此年份的影响力较大。
数字人文在图情档学科中的主题扩散性主要利用目标文献和施引文献的关键词进行分析。如下图2所示,可以发现数字人文在图情档学科的目标文献和施引文献出现次数较多的关键词,图中词的大小代表出现次数的多少。图3则是对目标文献和施引文献的关键词进行聚类,通过形成的聚类找出数字人文在图情档学科中的研究主题,目标文献研究主题和施引文献研究主题分别代表了数字人文在图情档学科的两个不同时间维度的分析。
图2 数字人文在图情档的目标文献关键词(左)和施引文献关键词(右)词云图
图3 数字人文在图情档的目标文献的关键词主题(左)和施引文献关键词主题(右)
从图2中可以看出,目标文献中的关键词出现次数最多的为digital libraries(数字图书馆),其次为digital scholarship(数字学术)、academic libraries(学术图书馆),而施引文献的关键词出现次数最多的altmetrics(替代计量学),其次为academic libraries(学术图书馆)、social media(社会媒体)。可以看出,在目标文献和施引文献中,关键词频次较高的关键词均有学术图书馆,即大学或学院的图书馆在数字人文领域受到起到了重要的作用。
从图3中可以看出,目标文献的关键词共形成了8个主题。#1聚类即红色标签的关键词主题为数字人文角色转变。数字人文已成为人文学者和图书馆人员讨论的热门话题,为满足人文学者不断变化的研究需要,如何有效地与数字人文进行合作,已成为图情档的一项挑战。数据迁移、数字人文机构与图书馆合作、不同人员之间的合作成为了数字人文研究需要考虑的转变。#2聚类即蓝色标签的关键词主题为数字人文在数字图书馆中的研究应用。通过众包的方式来提高数字素养、纠正文本错误,从而使用新技术来解决传统方法不能解决的问题。提出数字人文与开放数据之间的关系,在大学图书馆促进数字人文的开放数据,从而为开放数据做出一定的贡献。#3聚类即绿色标签的关键词主题为国际数字人文研究状况。数字人文的创新提高需要基础设施的支撑;数字人文的出现涉及到一些特有的情境,并与情报学联系起来,在情报学领域提出了一些与数字人文相关的概念。此外,数字人文对图情档学科产生了巨大影响,作为一个跨学科的研究,受到了广泛的关注。#4聚类即黄色标签的关键词主题为数字人文在教学中的应用。如何将教师的期望从一次性的教学会议转变为嵌入式图书馆员职业模式是研究的重点之一,且嵌入式图书馆学是一种灵活的提高地位的方式。此外,信息素养是数字人文在教学中关注的另一重点。#5聚类即紫色标签的关键词主题为数字人文中的激励措施。数字奖学金的设立有助于学生对数字人文领域的探索并取得了一定的成功经验。学术交流方面成立了学术交流实验室。#6聚类即蓝绿色标签的关键词主题为数字人文中数据问题的处理。随着数字人文的快速发展,对文化遗产数据的需求引起了人们对图书馆、博物馆、档案馆数据的兴趣。#7聚类即橙色标签的关键词主题为数字人文与高校图书馆的关系。在高校图书馆进行了各种与数字人文有关的活动,形成了数字项目供研究使用。#8聚类即棕色标签的关键字主题为数字人文其他应用。历史学家使用数字人文的方法进行数据统计,在地理领域进行地理文本分析。
施引文献的关键词共形成了7个主题。#1聚类即红色标签的关键词主题为数字人文研究现状及提升。由于数字人文的跨学科性,与不同领域(如图情档)进行合作成为数字人文研究的现实情况,数据迁移且数据来源广成为数字人文的外在特征。#2聚类即绿色标签的关键词主题为数字人文与学术图书馆的融合。数字人文与图情档关系紧密,在高校图书馆开展数字人文研究成为一个必然。#3聚类即蓝色标签的关键词主题为数字人文与图情档研究方法分析。联系较为紧密的研究方法包含引文分析,以及采用开放访问的方式获得数据。#4聚类即黄色标签的关键词主题为数字人文的影响。用替代计量学、文献计量学、科学计量学、网络计量学等方法评估数字人文的影响。#5聚类即紫色标签的关键词主题为数字人文在教学中的应用。信息素养、知识检索是该应用较重要的内容。#6聚类即蓝绿色标签的关键词主题为数字人文中网络数据的采集。主要的网络数据包含有微博数据、社会媒体数据、推特数据等。#7聚类即橙色标签的关键词主题为数字人文领域的激励措施。在学术交流方面成立学术交流实验室,并扩展信息搜寻、知识管理的能力。
从目标文献和施引文献的关键词主题可以看出,数字人文研究现状、数字人文与图书馆融合、数字人文在教学中的应用、数字人文的激励措施在两部分数据中均形成了规模,可以认为这四个方向的主题为数字人文在图情档的重点研究内容。
本文从时间和引文两个角度通过期刊扩散性和主题扩散性探析了数字人文在图情档学科中的知识扩散性。时间角度考虑了2001-2019年19年的数据,引文角度采用了数字人文在图情档学科中的目标文献以及目标文献所属学科分类同样为图情档的论文为施引文献。期刊扩散性采用了传播学中引入的期刊双向传播理论以及消除时间因素影响的期刊引证系数进行分析。主题扩散性采用词云图的方式可视化的展示目标文献和施引文献关键词出现次数,然后对关键词进行聚类,找出目标文献和施引文献关键词主题的差异,从而试图分析出主题变化。
研究表明,期刊双向传播中扩散性大于1的期刊共有13个,JOURNAL OF INFORMETRICS为双向扩散性能最好的期刊;数字人文在图情档学科所属学科期刊引证系数排名靠前的期刊有JOURNAL OF INFORMETRICS、SCIENTOMETRICS、JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY等;期刊引证系数均呈现上下波动的现象,但是基本上top10的期刊在2006、2012、2016年出现了峰值,表明这些期刊在这些年份的影响力较大;数字人文研究现状、数字人文与图书馆融合、数字人文在教学中的应用、数字人文的激励措施在目标文献和施引文献的主题中均形成了规模,可以认为这四个方向的主题为数字人文在图情档的重点研究内容。未来研究可考虑深层次的文本挖掘,从而为数字人文在图情档学科中的知识扩散研究提供更多的分析结论,以进一步深化研究并解决更多实际问题。