孟文静 宋 歌
(1.东南大学经济管理学院,江苏 南京 211189;2.南京工业大学经济与管理学院,江苏 南京 211800)
一个学科的发展是与研究工具的出现及应用相辅相成的,当新的研究工具进入某一学科,就意味着学科的领域范围和深度发生了变化。可以借由新的工具完成之前无法实现的研究,探索更为广阔和深入的领域及问题。因此,研究工具在一定层面成为了判断和预测学科发展的一个途径。尤其是新的工具所探究的必然包含之前未能涉及的方面,相对应地,研究工具的引入与创新即是对新的研究经验的回应。当前,图书情报学科新的研究经验随着大数据时代的到来而产生,科学研究越来越依赖数据,并通过能够分析大量数据的科学软件实现。克里斯·安德森的著名文章《理论的终结》直截了当地表达了这种观点:“海量数据的新可用性,以及处理这些数据的工具,提供了一种理解世界的全新方式”[1]。
软件工具是现代科学生态系统中的一个重要组成部分,特别是在遵循数据驱动范式的学科中,这些学科由大量科学数据的不断生成、可用性和消耗所引导[2]。如今,这种新的计算和数据驱动的科学发现模式已逐渐影响到几乎每个科学领域,科学软件被用于学术工作的各个阶段,从注释初步想法到数据收集、管理、规范、分析、建模、模拟、预测、可视化及传播研究成果的整个过程中都发挥重要作用[3]。2014年一项对英国罗素大学集团15所研究型大学科研人员的调查显示,92%的受访者表示他们使用了研究软件,且69%的受访者认为如果没有软件,他们的研究将不可实现[4]。2017年对美国国家博士后协会成员的调查得到了类似结果,相应的占比分别为95%和63%[5]。在科睿唯安的数据引文数据库(DCI)中,2017—2018年的软件引用数量翻了一番。图书情报学科在数据、算法与算力的驱动下进入了研究工具上的快速更新迭代期,各类软件工具的应用呈递增和多样化趋势。也陆续有研究者对CiteSpace[6]、VOSviewer[7]、SPSS[8]、HistCite[9]等软件工具的使用、引用情况进行了研究。
而本研究认为,研究工具是研究方法(无论是定量的还是定性的)在操作层面的外化,研究工具的发展与应用是对科研生态演变的回应。因此,通过对研究工具的使用分析,可以比较客观且真实地揭示学科发展的历程和动向,以及研究领域、研究问题的变化。本研究以Python为例,通过对图书情报学科在变革中对该工具的采纳、应用与创新,揭示该学科当前的发展及未来动向。选择Python的理由有二:一是Python不仅可以实现一般科学软件的功能,而且能够支持数据密集型研究范式中的各种高级任务。二是无论从时间点的契合还是功能的发展与应用,Python都伴随了数据密集型研究范式在图书情报学科的萌发、演进过程。在这种情况下,图书情报学科对Python软件包的选择、引入与使用、创新,以及利用Python进行了哪些研究,研究主题发生了怎样的变化都值得深入探讨,并以此揭示图书情报学科的发展及动向。
图书情报学科的软件研究正处于发展阶段,当前以软件影响力评价、软件使用和软件引用规范为主要研究问题。在软件影响力评价研究中,由于软件引用缺乏一致性和标准化,因此很难仅从引文指标测度软件影响力,潘雪莲[10]基于全文数据源从软件使用和引用的角度测度软件学术影响力。赵蓉英等[11]利用软件引用量、下载量、复用量3个指标对开源软件进行补充计量学视角下的学术影响力评价。Priem J等[12]则将下载、浏览、安装指标纳入开源软件使用统计测度中。周春雷等[13]提出从软件工具辅助、支持的科研领域范围及深度方面研究软件影响力,调查发现不同知识图谱软件的学术影响力差别很大。
在软件工具提及和使用的研究中,Park H等[14]对数据引文索引数据库(DCI)中软件类的引文从时间、引用字段、标识符使用等方面分析了各个知识库中软件引用的差异及引用多样性。Duck G等[15]发现PubMed Central中不同学科领域的研究在使用软件和数据库方面存在较大差异。赵丹等[16]对大数据工具主题论文的年代、期刊、学科分布进行了统计。崔明等[17]通过对我国9种图情学期刊的考察,发现13.87%的论文使用了软件,并将图情学常用软件归纳为6种。除了统计分析,学者们还利用社会网络分析对软件工具进行研究。Li K等[18]从引用或提及R的所有PLoS期刊的全文中识别R包,绘制了由R包组成的共同提及网络。Ordua-Malea E等[7]提出了一种基于链接的跟踪科学软件使用和兴趣的网络测量分析方法,并以VOSviewer举例说明了该方法的可操作性。此外,也有学者利用知识扩散理论开展工具使用研究,Pan X等[9]从文献级、期刊级和学科级调查了3种文献计量工具(CiteSpace、HistCite和VOSviewer)的扩散广度和速度。于晓彤等[19]测度了10种高频知识图谱软件的扩散和引用情况。徐浩等[20]从核心作者发文、合作网络和研究机构层面对CiteSpace的学科领域扩散特征进行了分析。
软件引用规范方面,Niemeyer K E等认为,将软件看作出版物以正式引用能够促进软件的开发和共享[21],而目前即使在具有较高影响因子的期刊中,软件的引用也常是非正式的[22]。Smith A M等[23]针对软件引用标准缺失现象,从理论层面提出了引用软件的6项原则,包括重要性、归属性、唯一标识性、持久性、可访问性和特异性。Pan X等[24]通过对12个学科的调查发现,标注软件的引用格式和引用方法更易提高软件引用率。Heinle A等[25]倡导并提供了统一的软件引用格式,但受到软件类型多样性的影响,软件引用仍未形成统一格式[26]。Li K等[27]以R语言软件包lme4为例,分析一款软件的多种引用方式的差异,并评估其中两种引用方式的变迁,结果表明,引文格式变化对引用行为有直接影响。
综上所述,近年来国内外关于软件工具的研究已逐渐出现,其中的研究思路与方法为本研究的开展提供了很好的借鉴。由于已有成果很少有对Python的研究,且聚焦的问题主要是已发表论文中软件引用的缺失和失范以及软件之间在使用率和影响力上的差距等,深入到研究主题,反映学科发展的探索较为缺乏。因此,本研究以Python作为工具视角的切入点,通过分析该工具在图书情报学科的应用演进及特征,以管中窥豹的方式揭示图书情报学科在变革中的发展进程及未来动向,同时为本学科软件工具的开发提供需求参照,也为学者选择适合的软件包及其应用组合提供参考。
Python作为一个成熟的软件生态系统,任何人都可以构建新组件来扩展软件的核心功能,这些构建块被称为包。正是这些软件包直接促进了无数的科学任务,使Python适用于许多知识领域。本研究需要采集应用了各种Python软件包的图情学科论文成果。数据采集过程分为两步。第一步,筛选较多采用了Python作为研究工具的国际权威图书情报学期刊。具体办法为以2020年SSCI来源期刊中INFORMATION SCIENCE & LIBRARY SCIENCE(LIS)学科Q1区、Q2区期刊为样本池,利用43个期刊官方网站和Google Scholar、Emerald、Wiley、ScienceDirect、Taylor & Francis Online、SAGE Journals、AISeLibrary、Springer网站对1990—2021年刊载的论文以“Python”为检索词在篇名、关键词、摘要或全文检索项检索。在检索结果中,有10种期刊命中论文数量较其他期刊明显为多,将其作为样本期刊,下载论文全文数据。第二步,筛选样本期刊中应用了Python的论文,并确定其所应用的软件包。首先,以“Python”为检索词对10种期刊共17 673篇论文进行第一轮全文检索,为确保应用而非仅提及Python,采用人工标注法从命中文献中筛选论文,并标注其中应用的所有Python软件包。其次,将获得的软件包名称作为检索词,在10种期刊中进行第二轮全文检索,并人工标注,筛选论文。为保证标注质量,在明确标注规则后由标注员A独立完成全部标注,再由标注员B随机抽取20%的论文进行独立标注,采用Kappa系数对标注结果进行一致性检验。Kappa值为0.847,大于0.8,表明一致性程度较高,说明标注员A的标注结果较为可靠,适用于进一步分析。
在此过程中,由于存在与软件包名称相同的人名、动词、形容词以及R语言和C语言同名软件包,因此需判断软件包名称所在句子中是否出现Package、Module、Library、Toolkit、Python或软件包创作者、脚本语言及年份等指示性单词,通过排查和筛选,最终共获得560篇论文。最后,对软件包名称进行规范,包括全简称、名称中有无空格等情况的统一,最终共有138个Python软件包。数据采集和标注工作于2022年3月完成。
3.1.1 软件包在论文和期刊层面的扩散
在论文层面,对Python的首次应用在2008年,随后5年只有零星应用,自2014年起,应用逐渐增多,而在近5年出现了应用案例迅速上升的趋势。至2020年,有41%的论文应用了至少两种Python软件包,2021年这一数字是55%。总体趋势是篇均应用Python软件包数量从2014年开始逐渐增加,2017年超过1.5,2020年达到2以上。
利用文献[28]提出的扩散广度、速度、加速度、强度及延时系列指标测度软件包扩散情况。扩散速度和加速度如表1所示,扩散曲线和软件包种数如图1所示。其中扩散速度以每年应用Python软件包的论文数计算,累积文献数形成扩散曲线,软件包种数为每年采纳的软件包种数,若在当年某一种软件包被多次采纳,计数仍为1。由于扩散速度和扩散加速度仍在迅速增长,不能确定二者峰值出现的时间,因此根据创新扩散理论[29],Python在图书情报学科应用扩散的一阶拐点和二阶拐点均未出现,还不能预测该扩散最终会达到的规模数量。由于2020年扩散加速度显著增长,可将2008—2019年划分为Python软件包扩散的起步阶段,从2020年始为起飞阶段。即Python在图书情报学科的应用扩散,起步阶段历经12年,其中沉寂期[30]6年。另外,软件包的应用种数持续上升,并在2020年大幅增长,意味着图书情报学科所采用的Python软件包在不断新增和更新,且促使Python的应用扩散进入起飞阶段。
表1 Python软件包在图书情报学科的应用扩散基本指标
图1 Python软件包在图书情报学科的应用扩散趋势
期刊层面的扩散特点表现在:①期刊间应用Python软件包的论文数量差异显著。InformationProcessingandManagement和Scientometrics的论文数量均超过140篇,而其他8种期刊的论文数量均低于60篇;②期刊间的首次应用时间也存在较大差异。最早是InformationProcessingandManagement,于2008年首次应用Python软件包,最晚是TelematicsandInformatics,首次应用时间是2017年。值得注意的是,有80%的期刊在2014—2017年首次应用了Python软件包。此外,仅InformationProcessingandManagement的采纳加速度呈单调上升趋势,其他9种期刊的加速度曲线呈波动震荡形态,这是知识扩散在起步阶段的典型状态。
3.1.2 软件包类型及采纳特征
借鉴PyPI[31]网站的软件包分类框架以及崔明等[17]对我国图情领域高频使用软件主要用途的归纳,结合本研究中138个软件包的主要功能,将图书情报学科应用的Python软件包划分为11个类别,各类别及其说明如表2所示。其中软件发展类主要由便于Python书写和执行的软件包组成,在图书情报学研究中并不具有特殊作用,在后面的分析中不做赘述。基于分类的软件包应用概况如表3所示,其中“应用频次”指某类软件包下每一种软件包应用次数之和,“扩散延时”指某类软件包发布年与采纳年之差。
表2 图书情报学科Python软件包类型划分
表3 图书情报学科不同类型Python软件包应用概况
各类软件包进入图书情报学科存在时间差。2008年Twidale M B等[32]在解决利用外部资源库进行“在搜索时写作”的引文文本解析问题时采用了自然语言处理软件包Pybtex辅助开发个人信息搜索助手,是Python软件包应用于图书情报学科的一次探索,此后自然语言处理类软件包被图书情报学科大量应用,是应用频次位居第一的软件包类型。2011年复杂网络类软件包开始应用于图书情报学科。2014年机器学习类软件包被引入并爆发出新的应用活力,成为应用频次仅次于自然语言处理类软件包的类型。2015—2017年,随着图像处理、科学计算、数据采集、可视化、数据分析类软件包的加入,图书情报学科对于不同类型Python软件包的应用逐渐丰富。目前最新进入图书情报学科的软件包则集中在地理信息系统类。
通过表3可以看到各类软件包的总体扩散延时,而近3年扩散延时最短的软件包集中在机器学习类和自然语言处理类。尤其是机器学习类软件包,已经呈现一出现就被采纳的态势,扩散延时越来越短。具有类似特征的还有数据采集类软件包,其软件包从发布到首次应用最短仅用了两年时间。较短的扩散延时表明该类软件包符合当前图书情报学科的研究需求。而地理信息系统类软件包的扩散延时则较长,其中一款软件包从2006年发布,直至2021年才被图书情报学科采用。当某一类软件同时具备采纳时间晚和扩散延时长的特点时,表明图书情报学科正在利用其他学科较为成熟的技术、方法进行融合创新。
3.1.3 各类软件包扩散特征
各类软件包被引入图书情报学科后的使用与更迭特征,可通过软件包应用次数和应用年数进行表征(图略)。如某种软件包的应用年数为2,应用次数为3,则表示该软件包被应用了2年,共在3篇论文中使用。结果分析如下:
自然语言处理类软件包数量最多、总体应用次数最高。这与图书情报学科研究对象或样本多为各类文本资源,对自然语言处理技术有很强的需求直接相关,且该类软件包的优化和更新及时,尤以nltk为代表。nltk自2005年发布第一个Python使用版本以来已经迭代了68次,服务年份在所有软件包中是最长的,为11年。首次应用是2010年nltk被用于语义关系识别中的文本预处理[33],此后nltk一直被认为是文本处理的利器。
机器学习类软件包在图书情报学科中的应用次数仅次于自然语言处理类,在图书情报学科中的受欢迎程度较高。其中scikit-learn软件包应用频次最高,常与其他软件包结合应用于情感分析和文本分类。
复杂网络类软件包只有1个networkx。此类软件包数量少的原因之一在于具有类似功能的其他软件工具较为丰富。如UCINET、Pajek等的发展时间久,功能成熟且用户粘度较强,而如Gephi、VOSviewer等可视化功能较强的网络分析工具也逐渐增多,其中不少软件拥有较多用户。虽然复杂网络类软件包只有networkx在服务中,但服务年数较长,为9年,仅次于nltk。
科学计算软件包产生时间较早,近5年被应用到图书情报学科中,多被用于文献计量研究中的共现分析、聚类[34]、引文数量预测[35]和一些常规统计分析工作[36]。这一现象标志着Python工具在图书情报学科中已出现常规化使用的趋势。
数据采集、数据分析、可视化类软件包的数量均中等,且3类软件包被应用于图书情报学研究的时间相近,应用频次也相近。这一现象与这3类软件包在数据分析流程中功能上有衔接一致。
地理信息系统、图像处理、数据库类软件包均数量偏少,应用次数低,但在采纳时间上,这3类软件包的使用状况不同。数据库类软件包在2010—2021年被间歇使用,而地理信息系统和图像处理类软件包分别自2020年、2015年进入图书情报学科,并主要应用在近两年的研究中。
图2反映了常用软件包的应用占比变化。可见,多数Python软件包的占比变化较为平缓。变化突出的有nltk软件包,尽管其应用频次逐年仍有上升,但是自2016年起应用占比显著下降。机器学习类软件包应用的快速增长,以及同类自然语言处理软件包应用的增多均加重了其下降趋势。与此相反,用于深度学习的tensorflow,其应用占比递增明显。2016—2021年,谷歌公司已对其进行了88次版本的更新。随着深度学习的深入与流行,图书情报学科对tensorflow等机器学习类软件包也越发重视。
图2 2015—2021年图书情报学科常用Python软件包应用占比
总体而言,约50%的软件包是2020—2021年新引入的,如机器学习类软件包xgboost、gender-guesser、tslearn、sexmachine等,自然语言处理类软件包snownlp、whoosh、scispacy、senta等,数据采集类软件包getoldtweets、twarc、pytrends、pybliometrics等,以及全部的地理信息系统类软件包。而在2019—2021年3年间,138个软件包中约87.7%在使用中,其余17个如textstat、django、jaydebeapi、lasagne、mosek等不被继续使用的软件包被具有类似功能的软件包所替代。
软件包可以单独或共同应用于研究中,因此,Python软件包形成的组合应用网络有力地表明了它们与科学研究的关系以及它们在特定研究中与其他Python软件包的关系。以软件包为网络节点,软件包于一篇论文中的共同应用关系为边,构建138个Python软件包的组合应用网络,该网络为无向多值网络,如果两个软件包在n篇论文中被共同使用,则关系(边)的权重为n,如图3所示。
以下通过网络基本指标来理解该网络的属性,并探索网络的群落结构,以便考察组合应用特征。首先,该网络的连通性较好,网络密度为0.043,加权聚集系数为0.797,平均路径长度为2.521,高聚集系数和较短的平均路径长度表明图书情报学科中的Python软件包应用网络具有小世界特征[37]。整体网络特征指标显示,Python软件包的组合应用已较为常见,并且各种软件包形成了不同的工具簇以应用于相关研究。但是在该网络规模水平,平均路径长度有进一步缩短的空间,即软件包的组合应用应向更广泛和多样拓展。
其次,群落特征方面,该网络共包含15个成分,其中14个小规模成分的边权均为1,未构成稳定的应用网络,暂不讨论。而成分15是规模最大的连通组,由117个节点构成,占整体网络规模的85%。其中双边连接成分的规模为98,双边连接成分是成分中不包含切点的部分,这说明最大连通组的网络结构很强健,有71%的软件包之间存在两种及以上的组合关系,反映了Python软件包经常组合应用于不同的研究。
图4展现了软件包的高频组合应用关系。其中,共同应用频次超过10的组合均为机器学习和自然语言处理类别下的软件包组合,且各自类别内软件包的组合应用也非常频繁。机器学习类软件包scikit-learn和自然语言处理软件包nltk的组合应用最多,其次是机器学习软件包keras和tensorflow的组合。其他超过11次的组合应用依次为gensim和nltk、gensim和scikit-learn、keras和scikit-learn、scikit-learn和tensorflow、nltk和tensorflow。而2020—2021年新建立的软件包组合(组合次数>3)集中在机器学习类别内,分别为scikit-learn和xgboost、scikit-learn和pytorch、scikit-learn和selenium,以及机器学习和自然语言处理的组合gensim和jieba。
图4 图书情报学科Python软件包高频组合网络
组合应用可以实现多种研究目的,例如Khoo C S等[38]利用自然语言处理软件包nltk和stanfordcorenlp进行句子分割和情感极性标记,Zubiaga A等[39]将机器学习软件包scikit-learn、theano、lasagne、hyperopt用于社交媒体对话的谣言立场分类。AL-Smadi M等[40]在利用nltk进行数据预处理后采用gensim主题建模,并在此基础上使用机器学习软件包scikit-learn进行分类,通过3个软件包的组合实现语义识别和语义相似性分析。Aparup K等[41]则利用gensim和scikit-learn对疫情暴发时产生的Twitter数据和学术摘要进行词向量处理及文本分类。
软件包类别组合应用网络如图5所示,可借此观察类间组合情况。首先,显而易见的是在图书情报学科中自然语言处理类和机器学习类却是组合应用最为频繁的软件包类别。其他高频类别组合有:自然语言处理类分别与可视化类、数据采集类、科学计算类的组合,以及机器学习类与科学计算类、软件发展类的组合。其次,k-核为网络中联结致密的核心,图5的k-核最高级数为7,由除数据库类、复杂网络类、图像处理类之外的8类构成。这8类中的任何一类都与其他7类软件包发生组合应用,证明多种类别软件包的组合应用较常见。例如Cavalcante I M等[42]将机器学习软件包scikit-learn、科学计算软件包numpy、可视化软件包matplotlib、数据分析软件包pandas用于执行机器学习、数据预处理、数据分析和可视化任务,以研究弹性的供应商投资组合。Curiskis S A等[43]利用nltk和scikit-learn进行数据预处理,采用scikit-learn、gensim和数据分析软件包pyclustering进行文本聚类,以比较4种主题建模和文本聚类方法的效果。
图5 图书情报学科Python软件包类别组合网络
3类及以上软件包的使用在推动研究平台与工具创新上发挥着重要作用,甚至能够促进新软件包的开发。McLevey J等[44]开发了一款依赖于numpy、scipy和matplotlib的专门应用于文献计量学的Python软件包metaknowledge,可与可视化软件包pyldavis、seaborn,自然语言处理软件包gensim、nltk,复杂网络软件包networkx,数据分析软件包pandas结合使用,实现了利用工具创造工具的创新。
Python在图书情报学科应用的热点领域可以通过论文关键词共现进行分析,可视化结果如图6所示。节点为关键词,节点越大说明该关键词出现频次越高,连线代表关键词在论文中的共现关系。可见,研究领域主要涉及社交媒体研究、分类研究、合作研究和引文研究。通过关键词共现强度可知,研究领域中的学术影响力评价、社交媒体网络研究、自然语言分类研究、合作模式识别研究和知识深度学习研究是Python使用过程中更为侧重的研究主题,且以science、Twitter、knowledge、text、news、big data、publication为研究的主要数据来源或研究对象。
图6 Python在图书情报学科应用的热点领域
图7为论文关键词聚类时区图,展现了图书情报学科应用Python工具解决学科问题的进程,各时区间关键词节点的连线表明了研究的传承关系[45]。结合Python软件包的应用扩散阶段及过程可知:自2008年起步阶段初始,图书情报学科开始利用Python研究信息学中的检索问题及科学计量领域的问题,而机器学习和自然语言处理研究逐渐萌芽。2014年之后,研究聚焦于复杂网络和引文分析。2016年以后的特点是,对科学出版物的研究更加多面,不仅将其作为计量中的常规样本,更对期刊撤稿、开放获取、社交媒体对传统出版物的影响等时代突显问题进行研究。同期,情感分析研究正处于发端阶段。在起步阶段的最后几年,即2017年开始,研究对象不断细化直至知识单元;数据来源不断扩展,从学术出版物到Twitter社交媒体、新闻语料、大数据等;研究方法逐渐丰富,包括引文分析、社会网络分析、情感分析、模型分析、文本分析等;使用的研究技术包括主题建模、文本分类、文本挖掘、模式识别、神经网络、深度学习、迁移学习等。自2020年以来,应用增幅显著,研究问题已扩展至行为研究(behavior analysis)、复杂网络研究(complex network)、演化(evolution analysis)与趋势研究(trend analysis)、技术分析(technology analysis)、用户参与度研究(engagement)、虚假新闻研究(fake news)等。
图7 Python在图书情报学科应用领域的扩展过程
由此可见,对Python在图书情报学科应用领域的分析能够反映该学科通过研究工具实现的研究对象与数据来源的变化,研究方法与技术的更迭,研究问题的拓展与丰富,研究内容的细化与深化,不同研究领域的兴起与发展,以及研究范式的逐步转变。
本研究明确了Python在图书情报学科的应用扩散进程、所处阶段;按照功能将百余种Python软件包分成了11个类别;分析了软件包及其类别的组合应用网络;呈现了Python在图书情报学科的应用领域、解决的问题及其拓展过程。综合各部分的研究结果,主要推断总结如下:
1)当前图书情报学科在研究方法和工具上的快速更新与迭代是毋庸置疑的。Python在图书情报学科的应用扩散刚刚进入起飞阶段,并已呈现常规化使用趋向,预期今后应用该工具的论文将爆发式增长,同时不同软件包之间的组合应用也将不断创新,这将推进该学科形成,拥有更多紧密的工具组群。
2)Python软件包应用种数与应用次数的增长趋势相同,均于2014年开始增加,并于2020年大幅增长。两次增长分别是由各种机器学习类软件包的引入和软件包类型多样性的增加引发的,标识了图书情报学科研究范式转型过程中的关键时间点和事件。
3)近年来,扩散延时最短的软件包类型依次为机器学习类、自然语言处理类和数据采集类。较短及明显缩短的扩散延时说明以上3类软件包符合当前图书情报学科的研究需求。其中,由于深度学习的流行促使机器学习类工具应用大幅增长,并与自然语言处理类工具更加紧密地结合,形成了当前图书情报学科研究范式转型过程中最有力的工具驱动。
4)地理信息系统类是最新引入的软件包类型,应用情况分两种:一是助力传统研究,如分析研究主题在国家层面的分布;二是基于大数据背景的研究,如城市形态大数据。根据初始应用频次和用途可推断,地理信息系统类软件包在图书情报学科的应用才刚刚开始,伴随科学研究向数据密集型研究范式的转变以及数字人文的兴起,地理信息系统类软件包将获得更加广泛的应用。此外,该类软件包的扩散延时较长,表明图书情报学科正在利用其他学科较为成熟的技术、方法进行融合创新,即近两年地理信息系统类软件包的突现与使用体现出图书情报学科研究领域的拓展。
5)图像处理类软件包的扩散延时较短,近两年的应用增加,可利用其提取图像中的数据进行图形元数据研究、照片数据分析等。该类软件包在图书情报学科有潜在的应用前景,值得关注。
6)大部分软件包类型之间的组合应用都较为频繁,最为突出的是自然语言处理类和机器学习类,且一项研究中应用多种类别软件包也较常见。这一情况促使专门应用于文献计量学的Python软件包的诞生,但是类似的工具还很少,功能整合有限,可以期待有更多符合图书情报学科研究场景的工具或平台产生,而将工具应用到曾经触不可及的研究问题中去,能使学科焕发活力。本研究中的应用组合情况可为其提供需求参照。
更为重要的是,通过以Python为例的分析可知,工具视角的研究对学科发展具有现实意义。不限于某种工具,从更广泛的意义来说,挖掘研究工具的应用特征能够从工具视角探析学科变革、现状及态势,对于促进学科发展至关重要,如研究范式转型,研究方法与技术的更迭,研究热点的变迁和趋向,研究领域新生及新研究问题的出现,明确学科发展历程中的关键事件及时间节点等,并可通过分析演变动因,评估学科发展动态,明晰学科前沿,预测未来发展方向。总之,工具视角下的学科发展及动向分析,有助于学科发展规划,前瞻性研究布局,促发新的研究领域等工作的开展。
本研究从工具视角分析学科的发展及动向,尤其适用于在当前新旧研究范式转换时期探究学科在数据驱动的研究变革中的发展趋向,也为探索学科发展脉络提供了新的考察路径和认识维度。本研究的局限在于工具视角仅是认识学科发展的视角之一,单一视角无法反映一个学科发展的全貌。此外,任何一种工具和研究方法都有其使用范畴,本研究仅以Python为例,能够揭示的学科发展动向有限,未来将扩大工具范围,做进一步研究。