于晓彤 潘雪莲 华薇娜
(南京大学信息管理学院 南京 210023)
近年来,越来越多的数字成果(如软件、数据)被生产出来并被广泛用于科学研究。一些学者开始呼吁重视软件、数据等数字成果的价值[1]。学者们已经对数据的引用、共享和再利用等很多方面进行了探讨和研究[2-6],他们普遍认为规范的数据引用对数据科学的发展非常重要[7-8]。较之数据,软件对科学研究的重要性尚未得到充分重视。事实上,科学工作的每一步几乎都受到软件的影响。
在众多软件中,开源软件因其源码可免费获取、自由修改,给共享和合作创新带来无限可能,因而受到学术界的广泛关注[9]。开源软件的出现改变了传统的软件开发模式和传播方式,节省了软件开发资源和获取成本,推动了现代科学的快速发展。已有学者对开源软件的开发动因进行相关研究,他们认为,获得职业发展机会[10]、提升职业影响力[11]、获得学术声誉[12]是促使科学家开发开源软件的主要外部动因。软件不同于论文、专著等其他科研成果,一经发表就无需额外的维护改进。软件开发者需要不断地对软件进行维护、更新、升级以保证其持续可用。然而,在目前以出版物为主体的科研奖励系统中,软件并不能像出版物那样获得相应的学术认可,参与软件项目的科学家难以获得其所期望的学术声誉和职业发展机会,进而影响其开发和维护软件的热情[1-13]。很多开源软件因为缺少维护而被逐渐淘汰,造成了资源浪费。因此,一些学者认为有必要对软件影响力进行科学评价,以了解软件开发者的学术贡献,给予其适当科研奖励,激励其后续软件开发和维护工作[14-15]。
虽然国内外一些研究者已经对软件引用和软件学术影响力进行了研究,但是学术界对软件学术价值的理解仍然有待深入,对软件的使用、引用和影响力评价研究也有待推进。本研究以Word2vec[16]为例,对开源软件在学术论文中的可见性和引用情况进行分析。软件可见性是指软件在学术论文中被提及程度。作者在学术论文中给予所使用软件的开发者、版本号、存储地址等相关信息的描述有助于评审专家和读者快速获取软件对其研究内容进行重复验证。同时,作者按照规范对软件进行正式引用则有利于对众多软件的学术影响力进行测度评价,为科研工作者查询选择软件提供便利,进而提高软件利用效率、加快科学发现与创新的步伐。
选择由Google公司最新推出的将词表示为实数值向量的高效开源软件Word2vec,一方面是因为深度学习是当前计算机科学领域的最新研究热点,该软件正是深度学习研究的重要工具,它一经推出就得到了大批科研人员的认可,被广泛用于词嵌入、词聚类、找同近义词、词性分析等诸多研究[17];另一方面是因为图情领域学者也开始关注、学习和使用该软件[18-20],Word2vec软件弥补了传统向量空间模型高维稀疏的缺陷,在词特征提取、词语义相似度计算等方面存在优势,为图情领域的相关研究提供了新的研究方法。本文将采用内容分析法对中英文学术论文中Word2vec的使用和引用情况进行标注、编码和统计,以揭示该软件的可见性和学术影响力。同时,对软件引用和学术影响力进行研究分析,能为图情领域的信息计量分析提供新的研究思路,还能促进软件的共享和再利用。
软件的开发者、用户以及科研资助机构都对软件的使用和引用情况感兴趣[21]。对软件开发者来说,一方面可以通过了解软件的使用情况来确定应该对自己的软件如何进行修改和扩展,另一方面可以通过用户数量、类型和软件对他人科学研究的贡献来了解自己的科学影响力[14]。一些学者开始注意到软件影响力评价缺失的问题。Smith等[22]介绍了一本开源软件杂志JOSS,这本杂志主要刊登介绍开源软件的相关文章,试图以此来提高软件质量和开发者知名度。与此同时,研究人员提出软件也应像期刊和会议论文一样,以具体指标来评价其影响力[23]。Thelwall[24]认为有必要用量化指标来帮助评价软件的学术影响力,他们研究了下载频次对软件学术影响力的测度,结果表明,下载频次并不能很好地测度软件的学术影响力。赵蓉英等[25]则提出利用软件的下载量、被引指标和复用指标来评价开源软件的学术影响力。Howison 研究发现,生物学领域软件引用缺失严重,被引频次难以有效评价软件影响力[26]。Niemeyer等[23]分析了软件引用可能面临的问题与挑战,包括同行评审的确定、软件的识别、软件之间存在的相互关系等。Smith等[27]呼吁制定统一软件引用标准,以推进软件引用规范化。
Word2vec软件的出现为快速获取自然语言语义特征提供了可能,促进了自然语言处理领域相关研究的发展,国内外学者均基于此进行了大量相关研究。Birong等[28]用研究论文中的标题词和关键词作为种子词汇,利用Word2vec从开放的语料库中训练识别出的类似词语作为候补词汇,提出了一种新的论文专业术语提取方法。Guan等[29]以亚马逊网站上的在线书评为数据来源,利用Word2vec和K-means对评论文章进行聚类,对用户进行特征分类。Liu等[30]为解决传统分类方法在短文本分类中准确率低的问题,提出了一种基于维基百科和Word2vec的短文本特征扩展的新方法。Bhattacharjee等[31]使用Word2vec的向量空间模型构建了一个在线餐馆评论语料库,据此进行用户情感分析。Nguyen等[32]使用Word2vec神经网络学习框架,通过识别语法和语义上相似的术语,来改进非结构化文本中的相关术语覆盖范围。
国内学者同样使用Word2vec进行了相当多的研究。杨小平等[33]利用Word2vec对从搜狗新闻语料中获取的海量中文语料进行了训练处理,研究了词间距离对词语相似度的影响,初步计算得到各词的情感向量,从而生成了多维情感词典。闭炳华[34]针对传统本体构建既费时又费力的问题,设计了一种基于Web的领域本体半自动构建方法,利用Word2vec对分词后的原始语料进行训练,用得到的词向量模型抽取种子领域概念的相关词汇,从而提出了一种基于Word2vec的领域本体概念抽取算法。图情领域也有众多学者使用Word2vec软件进行研究,刘小敏等[35]基于Word2vec对文本进行词特征提取,降低词向量维度,最终实现对微博短文本的分类。孙源[36]利用Word2vec对SCI地址字段数据进行清洗,最终发现,Word2Vec词向量模型能够根据SCI地址字段的上下文信息,清洗出指定机构名称的形似、变体和缩写机构名,从而达到数据规范化的目的。此外,还有很多学者利用Word2vec模型进行需求挖掘和个性化推荐[37-41]。
本研究以中国知网、万方、维普和Scopus数据库中使用Word2vec的中英文论文为样本,采用内容分析法对软件的使用和引用情况进行多维度分析。首先,分别在中国知网、万方和维普中以“word2vec”、“word 2vec”、“word 2 vec”、“word2 vec”、“word2vector”和“w2v”为检索词进行精确检索,文献类型限定为期刊论文,检索时间截止2018年12月底。其中,中国知网的检索字段为全文字段,万方和维普的检索字段为主题字段(包括题名、关键词和摘要)。对检索结果进行合并去重,一共获得859篇期刊论文。排除英文期刊论文、导读、题录等,最终获得827篇中文期刊论文。同样地,在Scopus数据库检索主题字段包含上述检索词的英文期刊论文和会议论文。本研究选取期刊和会议两种文献类型是因为Word2vec自发布以来被广泛用于计算机科学领域,在该领域中,会议论文被认为具有与期刊论文同等甚至更为重要的影响力[42]。排除无法获取全文、非英文和非相关的文献后,最终得到999篇英文论文(其中,期刊论文178篇,会议论文821篇)。
内容分析法是一种对具有明确特性的传播内容进行的客观、系统和定量描述的研究技术[43]。该方法通常旨在对研究对象的本质性事实和发展趋势进行清晰的梳理和了解,以此对其中所蕴含的深层次内容进行进一步的揭示和挖掘,并对其发展趋势加以预测和把握。首先依据已有研究[26]制定软件提及和引用特征编码表(见表1),然后由1位编码员对收集到的中英文论文进行编码标注,最后对编码结果进行统计分析。需要指出的是,引用软件是指论文在参考文献部分对软件来源进行描述。同时,本研究对提及和使用软件进行了区分,提及软件是指论文中出现了软件,使用软件是指论文借助软件进行了相关研究。
表1 软件提及和引用特征编码框架
在827篇提及Word2vec的中文期刊论文中,共有738篇使用了该软件,占比89.24%。178篇英文期刊论文中,161篇使用了该软件,占比90.45%。821篇英文会议论文中,787篇使用了该软件,占比95.86%。图1展示了使用Word2vec的中文期刊论文、英文期刊论文以及英文会议论文的年代分布。
图1 论文量随年代变化趋势图
从图1中可以看出,从2013年到2018年,使用Word2vec的中英文论文量逐年上升,且呈逐年增加的趋势。早在Word2vec发布的2013年,就有中文期刊论文使用Word2vec进行研究,数量从最初的1篇增加到2017年的186篇,四年增长了一百多倍。2018年的中文期刊论文更是成倍增长,可以预见,今后会有越来越多的国内学者使用Word2vec软件进行科学研究。2015年英文期刊开始出现使用Word2vec的论文,2016年、2017年的论文量均是上一年的两倍之多,2018年论文量也超过了2017年。相较于其他两类论文,使用Word2vec的英文会议论文数量最多、增幅最大。因为许多会议在2018年下半年召开,这些会议的论文尚未被Scopus收录,所以图1中2018年的会议论文量少于2017年的会议论文量。
此外还对上述论文的出版物种类进行了统计,结果如图2所示。从中可以看出,使用Word2vec的中文期刊种类从2013年的1种增加到2016年的52种,三年增长了五十多倍,2016年后出版物种类增长速度更是逐年增加,2018年已经增加到153种。英文期刊种类逐年稳定增长,2015年的12篇论文分布在10种期刊上,2016年的26篇论文分布在20种期刊上,2017年的53篇论文分布在不同的46种期刊上,期刊较为分散。英文会议论文出版物种类到2016年已经高达69种,高于其他两类,2017年更是增长迅猛,达到了136种。总体来说,英文期刊种类的增长速度最慢。2015年之前,中文期刊的增长速度最快, 2016年,英文会议出版物的种类、增速均超过中文期刊出版物。
图2 出版物种类年代变化趋势图
除正式引用外,论文中关于软件版本、创建者、存储地址等信息的描述也有助于提高软件的可见性。软件在文献中的可见性影响软件的重复利用以及科学家参与开发开源软件的积极性[26]。从表2可以看出,在使用Word2vec的中文期刊论文中,超过40%的论文仅提及软件名称,比例远高于英文会议论文和英文期刊论文。这说明,排除正式引用后,中文期刊论文中的Word2vec可见性低于英文会议和期刊论文。此外,不论是中文论文还是英文论文,期刊论文还是会议论文,提及最多的都是软件开发者,其次是版本信息,最少的则是存储地址信息。
表2 软件信息提及情况
在论文中正式引用软件可以提高软件的可见性,有助于促进软件的扩散与共享[21]。本文采用引用缺失率[15]来测度Word2vec的引用缺失情况。引用缺失率是指未引用软件的文献数在全部使用软件的文献数中的占比,计算公式为:软件引用缺失率=(使用软件的文献数-引用软件的文献数)/使用软件的文献数。表3列出了Word2vec的引用缺失情况。
表3 Word2vec引用缺失率逐年变化情况
由表3可知,Word2vec的引用缺失率最高的是中文期刊论文,其次是英文会议论文,最低的是英文期刊论文。使用Word2vec的中文期刊论文量逐年增加,但Word2vec的引用缺失率未有下降的趋势,维持在0.5附近。英文会议论文中的Word2vec引用缺失率则呈现一定的下降趋势,由最开始的0.37下降到0.27。英文期刊论文中Word2vec的引用缺失率虽有波动,但除去2017年略高于会议论文,其他每年的引用缺失率均低于其他两类论文。
为了探究软件引用是否与软件出现的位置有关,我们统计了使用Word2vec的1686篇中英文论文中软件出现的位置,计算不同位置的引用缺失率,结果如表4所示。
表4 不同位置的Word2vec引用缺失率
由表4可知,在中文期刊论文中,Word2vec出现在主题部分的论文引用缺失率(0.48)略低于正文部分(0.54)。在英文期刊论文中,Word2vec出现在主题部分的论文引用缺失率(0.19)稍高于正文部分(0.11)。在英文会议论文中,Word2vec出现在主题部分的论文引用缺失率(0.24)低于正文部分(0.27)。
此外,为了进一步探究核心期刊论文是否更有可能正式引用Word2vec,将现有的期刊分为核心期刊和一般期刊。将《北大中文核心期刊目录》和Web of Science收录的期刊认定为核心期刊,其他期刊为一般期刊。表5列出了使用Word2vec的中英文核心期刊和一般期刊的论文量及引用缺失情况。
表5 不同期刊类别的引用缺失率
由表5可知,中英文核心期刊中的Word2vec的引用缺失率均低于一般期刊。其中,中文核心期刊的引用缺失率为0.49,一般期刊的引用缺失率为0.58,英文核心期刊的引用缺失率仅为0.15,远低于一般期刊的0.28。为了探究核心期刊和一般期刊在Word2vec的引用情况上是否存在显著差异,我们使用SPSS 20.0[44]对数据进行了卡方检验。结果显示,中文期刊论文的卡方值=3.328,P值=0.068〉0.05,无显著性差异;英文期刊论文的卡方值=5.917,P值=0.015〈0.05,存在显著性差异。
此外,对论文中Word2vec的引用内容进行分类统计,结果如表6所示。从中可以看出,研究者倾向于引用Word2vec的相关出版物,引用比例高达80%,远高于网站和用户指南/手册。其中,三类论文引用指南/手册的比例均较低,英文论文比中文论文更愿意引用能直接获得软件的网站信息。
表6 Word2vec的引用内容分类
本文以开源软件Word2vec为例,采用内容分析法对其在中英文学术论文中的使用和引用情况进行深入分析,以此来揭示开源软件在学术论文中的可见性和学术影响力。研究结果发现,自2013年起,使用Word2vec的中英文论文量均逐年增长且增幅显著,从最初的1篇增长到2018年的1 686篇,呈千倍增长,这从一个侧面反映了很多科学研究需要借助于开源软件。
尽管有越来越多的论文使用Word2vec,但是Word2vec的引用情况并不理想。分别有52%的中文期刊、24%的英文会议论文、19%的英文期刊论文使用却未正式引用Word2vec。中文期刊论文的Word2vec引用缺失率是英文论文的两倍之多,这可能是因为国内的研究人员和出版机构尚未认识到正式引用软件的重要意义,也可能是因为国内目前尚无明确的软件引用规范,而国外的一些研究论文撰写格式(APA、IEEE等格式)在其最新版本中已明确给出软件引用格式。与此同时,我们还发现,较之软件的存储地址,研究者更倾向于引用软件相关出版物,这也与Howison[26]之前的研究结果相符,可能是因为学术界具有引用出版物的传统和习惯。此外,英文核心期刊和一般期刊在引用缺失率上存在统计学意义上的显著差异。这或许是因为英文核心期刊比一般期刊有着更严格的学术规范。
综上所述,软件在科学研究中的作用日益显著,但是软件引用缺失依然严重。国内尚未将软件纳入科研奖励体系以及软件引用缺失的现状会导致科学家不再参与开源软件的开发、不再共享自己开发的科研软件,这将造成科学软件的重复开发和科研资源的浪费,不利于资源的优化配置。鉴于目前国内科研管理部门对软件学术价值不够重视、学者缺乏软件引用意识、学术界缺少统一的软件引用规范,有必要加深国内管理者和研究人员对软件学术贡献的理解,培养国内学者的软件引用意识,参考国外的数据和软件引用规范,制定出我国的软件引用标准,来推进我国软件引用规范化,促进软件传播和共享,进而提高科研效率。同时,建立统一规范的软件引用格式,为后续图情领域开展基于软件引证行为的细粒度信息计量分析研究提供一个新的视角,也为科研评价和创新激励提供一个新的维度。