来源学科视角下的交叉学科发展机制研究

2022-10-17 07:31蒋颖逯万辉
图书情报知识 2022年4期
关键词:交叉学科势能语言学

蒋颖 逯万辉

(中国社会科学评价研究院,北京,100732)

1 引言

随着科学研究的不断深入,交叉学科的重要性日益凸显,学术界对于交叉学科的研究也逐渐深化。早期以定性研究为主,多从概念辨析、交叉学科特征与类型等问题入手,后来逐渐深入到交叉学科的知识整合、推进机制、交叉学科评价、超学科研究等全方位的研究[1-2]。近十几年来定量研究有了更多的突破,主要集中于交叉学科测度、跨学科规律研究、跨学科知识转移与知识点发现等方面[3-5]。

深入了解交叉学科发展演化规律和影响机制是促进交叉学科发展的前提和基础。总体而言,交叉学科发展的驱动力包括科学系统内在动力和外在的社会动力两个方面,科学进步的必然趋势和学科分化的内在逻辑是推动交叉学科发展的内在动力,社会发展的外在需求是推动交叉科学发展的外在动力[6]。从学科发展的内在逻辑来看,学科内部不同理论之间的渗透、竞争和冲突,理论与实验之间的冲突,以及不同学科之间的相互作用是推动学科发展的重要因素。交叉学科的内在发展动力除了以上因素之外,还有来自于不同学科的理论之间发生不同跨度的渗透、竞争和融合[7]。对于一门具体的交叉学科而言,其发展动力又可具化为交叉学科自身的动力、来自于其他学科的推动力及社会需求三个方面。而新兴交叉学科的社会需求相对稳定,学科尚未发展完成,自身动力并不强大,因此来自于其他学科的推动力,特别是向交叉学科输出大量知识的学科的推动作用,就成为新兴交叉学科发展最重要的影响因素。为避免与通常意义的“学科”混淆,我们将交叉学科的知识来源学科称之为“来源学科”。来源学科对于交叉学科的发展至关重要,来源学科自身的发展也会影响和带动交叉学科的发展。

按照来源学科之间的距离,学科交叉可分为远缘交叉和近缘交叉等不同模式。远缘交叉的学科,如自然科学领域与社会科学领域的学科交叉所形成的学科[8],其来源学科在理论、方法等方面存在巨大差异,来自于不同领域的来源学科可能采用不同的研究范式,其知识整合的难度更大,来源学科之间的竞争和博弈更为明显。学科发展快,能够更好满足交叉学科需求的来源学科在竞争中逐渐占上风;学科发展慢,不能很好满足交叉学科需求的来源学科就会逐渐被弱化甚至淘汰。此时,交叉学科也可能因此而发生范式转换,即一种范式取代另一种范式。

随着交叉学科的发展,来源学科的种类和数量也会发生变化,众多来源学科中,只有少数学科对交叉学科的形成和发展产生重大影响。因此我们需要了解在交叉学科发展过程中,哪些来源学科对于交叉学科的发展起到重要的作用?这些众多的学科之间是什么关系?它们之间的竞争或合作关系是否影响到交叉学科的发展?重要来源学科地位是稳定的吗?如果来源学科地位发生变化对交叉学科意味着什么?对这些内容的探索有助于我们从来源学科的角度进一步了解交叉学科的发展机制。

从知识交流角度来看,交叉学科在形成和发展过程中必然存在来自来源学科的知识流动。通过对知识流动的测度,可以考察交叉学科从不同的来源学科之间吸取的知识量,了解各来源学科之间的关系及其对交叉学科发展的影响,进而从一个方面揭示交叉学科发展的动力机制。学科间的知识流动可以用文献之间的引用关系来揭示,虽然这种方法还存在一定局限性,但它也是经过验证的最常用和最有效的方法[9]。例如,Yan基于WoS数据和JCR分类利用最短路径法构建知识流动网络,分析了学科间知识传播的模式[10],吕海华和李江提出从“学科势能”角度考察跨学科知识流动的规律[11]。在学科交叉过程中知识流动特征及影响方面,Аmjad与Аli对计算机科学和物理学顶级期刊之间的知识扩散模式和扩散趋势进行了分析[12];Gates等基于1900-2017年间WoS数据库分析了《自然》杂志和其他期刊引用各学科论文及被各学科引用的情况,发现与100年前相比,现在的论文借鉴并影响了更多学科[13];王旻霞、赵丙军发现在国内跨学科知识交流网络中,存在影响力较大的知识源学科节点,各学科作为知识输出源的地位不均衡[14];周秋菊等从期刊同被引和互引两个角度分析了生态学领域的学科结构和知识流动,发现生态学高影响因子期刊在知识交流网络中位于核心位置,并在知识交流中承担了更多的输出作用[15];刘超等基于引文分析了国内图书情报学与新闻传播学之间的相互影响和学科交叉程度,发现两学科间的相互影响度和交叉度近年来明显增大[16]。目前多数研究侧重于对学科之间知识流动定量测度方法的探索及知识流动的特征分析,较少从来源学科对交叉学科发展影响的角度进行研究,特别是很少从整体角度考察来源学科群的结构及层次,以及来源学科之间竞争与合作关系对交叉学科发展的影响等问题,而这些问题对于揭示交叉学科发展机制有重要意义。

“计算语言学”一词最早出现于20世纪60年代初期。经过六十年的发展,计算语言学已经成为一门重要的有影响力的学科。作为一门交叉学科,计算语言学与很多学科相关。国家科技名词委发布的《语言学名词》一书认为计算语言学是“涉及语言学、计算机科学和数学的边缘学科”[17],陈平认为“计算语言学是语言学、计算机科学、数学、心理学、认知科学等学科结合、融汇形成的交叉学科”[18]。计算语言学作为交叉学科,具有明确的目的性和问题驱动特征,常被称为是“用计算机和为计算机研究语言的科学”[19]。冯志伟[20]、李德毅[21]等分别总结了计算语言学及相关学科自然语言处理的发展历史。综合来看,计算语言学可以分为以下几个发展阶段:萌芽期(1940年代至1950年代末期)、初步发展期(1960年代中期至1980年代末期)、繁荣期(1990年代至2007年)及兴盛期(2008年之后)。综上,计算语言学是一个典型的交叉学科,横跨人文社会科学、自然科学和工程技术等多个领域,学科跨度大,涉及面广,从产生概念到迅猛发展,有合理的研究时间窗,可以代表新兴交叉学科的一种类型。在学科发展方面,计算语言学学科随着对语言分析、理解和处理的理论、技术及方法的变化而不断发展,这些理论、技术及方法分别来自于不同的学科或研究领域,是计算语言学发展的动力和源泉。

因此,本文以计算语言学为例,探讨交叉学科知识来源学科的总体结构和层次划分,分析来源学科之间的竞争与合作关系对交叉学科发展的影响。我们希望这些分析视角有利于进一步了解交叉学科的发展机制。

2 研究方法与数据处理

本文采取定量与定性相结合的方法进行研究。基于文献分布划分计算语言学发展阶段,用定性方法描述不同阶段的发展特点;用聚类方法确定来源学科的关系及总体结构;引进来源学科势能的概念用于测度来源学科影响力,从而对来源学科进行分层;考察主导学科之间的合作与竞争关系及对交叉学科的影响,从主导学科地位的变化思考计算语言学学科发展的影响因素。

2.1 来源学科势能的概念和测度

受吕海华和李江对“学科势能”定义[11]的启发(下文简称之为“吕文”),我们提出“来源学科势能”的概念,用于测度在知识输出方面来源学科对交叉学科的优势程度①物理学对势能的定义是:物体(或系统)由于位置或位形的变化而具有的能。物体(或系统)的势能,只能对选定的初始位形来计算(见《中国大百科全书》第三版网络版:势能. https://www.zgbk.com/ecph/words?SiteΙD=1&Name=%E8%83%BD&Type=bkzyb&subSourceType=000003000007000006)。按照这个定义进行类推,当来源学科对交叉学科进行知识输出(也就是交叉学科引用来源学科文献)时,来源学科相对交叉学科存在知识优势,以交叉学科作为初始位形,两者的势差大小可以用基于引文量的指标来表示。“来源学科势能”的含义与吕文中“学科势能”的概念既有关联又有所不同。相同的是两者都用于表示学科之间相对的知识地位优势,均以引文为基础进行测度;不同的是吕文从学科体系的整体视角去定义学科势能,而本文则从交叉学科与来源学科之间的单向、微观关系出发定义来源学科势能,前者是多个学科之间相互知识流动后叠加出来的宏观结果,后者反映的是在单向知识流动情境下来源学科相对于交叉学科的知识地位优势。。“来源学科势能”是在交叉学科与其知识来源学科之间通过交叉学科对来源学科的引用关系形成的相对位置所确定的势能。吕文的公式同时考虑了学科之间知识的相互流动,包括直接流动和间接流动,本文仅分析来源学科对交叉学科的影响,因此只关注来源学科到交叉学科知识的单向、直接流动,不考虑交叉学科对来源学科的知识输出情况。我们设定作为初始位形的交叉学科势能为0,来源学科的势能值就等于来源学科相对于交叉学科的势差,也就是来源学科流向交叉学科的知识量。来源学科势能越高,流向交叉学科的知识量越大,对后者的影响力也越大,其中势能最高的若干学科对交叉学科的发展有重要的推动或引领作用。

吕文中,原始的学科势能计算以被引频次为基础,为了去除学科规模的影响,进行了标准化处理,即将被引频次除以学科发文量。本文的分析中因涉及较长时段的数据,考虑到交叉学科的篇均参考文献量随时间的推移存在明显的增加趋势(计算语言学篇均参考文献量从1991年的23.9篇增长到2020年的54.8篇),需要消除参考文献量的增长因素之后才能比较不同年代的来源学科势能变化趋势,因此在吕文基础上又除以引用年度的篇均参考文献量。最后,由于标准化处理之后得到的数值较小,为便于观察比较,再将得到的值乘以100。

此时我们将来源学科势能计算公式定义为:

其中,ESit是来源学科i在某年度t相对于交叉学科的来源学科势能,由于交叉学科的势能为0,因此ESit也等于来源学科与交叉学科的势差;Cit是来源学科i在某年度t被交叉学科论文所引用的总频次;Pt为交叉学科在某年度t发表的论文总数;Rt为在某年度t中交叉学科论文的篇均参考文献量。

2.2 来源学科的聚类、分层与学科关系测度

研究表明来源学科数量众多,例如一篇期刊论文平均引用六个学科的文献[12],交叉学科动辄引用几十、上百甚至更多学科的内容,而学科间的知识流动并不均衡,来源学科对于交叉学科的影响力也有差异[10,13-14]。为更好地对来源学科进行分析,我们对来源学科进行聚类、分层,并分析来源学科在交叉学科发展过程中的竞争与合作关系。

对来源学科的聚类基于共被引文献的相似性假说,通过提取参考文献的学科特征,构建学科共被引矩阵,进而实现学科相似性计算和聚类分析。本文利用VOSviewer文献可视化工具生成聚类图谱。VOSviewer采用Fast-Newman聚类算法,该算法是谱聚类算法的改进。

在聚类分析基础上,为区分来源学科对交叉学科的不同影响,我们根据势能的大小将来源学科分为主导学科、重要学科和一般学科等不同层次。其中,主导学科为各学科群中在较长时段内平均势能最高的一个或几个学科,代表该学科群的主要研究方向;重要学科为某时段内各学科群势能均值前10%的来源学科;其余来源学科作为一般学科。

为揭示来源学科在交叉学科发展过程中的竞争与合作关系,我们用来源学科势能代表其竞争力,用学科同被引强度代表合作关系。为消除文献规模增长带来的影响,我们在学科共被引频次基础上,计算相对共被引强度(两学科共被引频次在该时段全部共引关系中的占比),并用它来反映不同时段的学科合作水平。

2.3 数据收集与处理

本文以“计算语言学”学科为具体研究对象。计算语言学与另一个学科“自然语言处理”之间存在重合,两者之间的界限较为模糊,但也各有侧重。在《中华人民共和国学科分类与代码》(GB/T13745-2009)中前者是语言学(一级学科)和应用语言学(二级学科)下的三级学科,后者是计算机科学(一级学科)和人工智能(二级学科)下的三级学科。计算语言学更侧重于对理论、逻辑模型和计算技术的研究,期刊论文是其重要的成果形式;而自然语言处理面向工程层面,更注重问题的解决方案和代码的实现,研究成果更多体现为会议论文。本文重点研究作为交叉学科的计算语言学,因此我们只选择期刊论文作为研究对象。考虑到两者存在的重合部分,也同时检索了自然语言处理的期刊论文。

2021年3 月,通过构建检索式②交叉学科边界的确定是一个有难度的问题,特别是面对长达60年的时间段,从期刊、分类等角度都难以获取理想的文献集合。虽然利用主题检索可能存在漏检现象,但也是相对可操作的选择。本文希望尽量避免其他弱相关文献对研究过程的干扰,因此在难以兼顾查全率与查准率的情况下,我们优先考虑查准率,最大限度保证来源数据样本的准确,以实现对计算语言学的知识来源结构进行较为精准的挖掘和分析。“TS=(Natural Language Processing)OR TS=(Computational Linguistics)”,利用SCΙ和SSCΙ两个数据库分别检索并下载文献及引文信息,进行合并去重处理后得到最终的数据集,最后共获取1961-2020年计算语言学论文1.38万篇,涉及参考文献63.33万条。

我们采用JCR的论文分类体系对计算语言学论文及其引文中的期刊论文进行学科分类。鉴于WoS数据库引文中的期刊名称是缩写形式,而JCR中的期刊名称是全写形式,因此,本文以ESΙ作为桥梁,构建起“期刊名称简写——期刊名称全写——期刊所属学科分类”的映射关系,获取计算语言学中参考文献的学科属性,即计算语言学的来源学科。

鉴于1960-1990年数据量少,不能支持有效的引文数据分析,因此文献增长分析以1961-2020年为时间窗,其他对来源学科的相关分析时段则从1991年开始。

3 交叉学科的文献增长与学科发展

3.1 年度发文量的指数增长

在学科发展的定量描述方面,普赖斯指数增长模型、逻辑增长模型等多个以学科文献累积量为基础的模型常用于揭示较长时间段的学科发展状况[22]。虽然该方法有一定局限性[23],但仍可在相当程度上反映学科发展的一般趋势。相对于文献累积量,年度发文量能够更灵敏地反映出学科的增长和变化情况。成熟稳定的学科,年度发文量会保持平稳或慢速增长;衰落中的学科,年度发文量会有下降的趋势;相关文献[24-25]表明,一些处于快速增长期的学科,年度发文量符合指数增长规律。

从计算语言学学科发展过程来看,自学科诞生之后,相关研究论文从零散分布到波动增长,再到稳定的快速增长,经历了学科形成、发展和繁荣的过程,已经成为一个具有相当规模的交叉学科(见图1)。我们对1961-2020年发文量进行指数曲线拟合,得到指数方程:

其中,N是某年度的发文量,t是年份数(起始年份为1),R2= 0.939。

这意味着1961-2020年期间,计算语言学学科发展速度很快,年度发文量呈指数增长,年度增长量为13.2%,年度发文量倍增时间为5.3年,属于发展速度较快的学科。

3.2 不同发展阶段的特征

从图1可以看出,计算语言学的发展历程呈现出三个不同的发展阶段,时间段划分与冯志伟[20]和李德毅[21]等专家的定性阶段划分较为一致,由于1960年之前还没有诞生“计算语言学”等术语,因而本文不包括萌芽期。根据学科文献发展的数量、年度增长率和倍增时间,我们认为三个阶段分别为学科形成时期、学科发展时期和学科繁荣时期。

图1 1961-2020年度发文量分布Fig.1 Logarithmic Distribution of Publications from 1961 to 2020

我们对三个阶段的发文量进行指数曲线拟合,并根据年度增长率计算了文献倍增时间。三个阶段的特征总结如下。

(1)学科形成时期(1961-1990年):发文量低,波动大,增长快。

1960年代开始出现少量计算语言学研究论文,1980年代发文量明显增加,但每年最多不超过13篇,1990年突增到27篇。对这一阶段发文量进行线性(R2=0.586)和指数(R2=0.658)拟合,后者拟合效果相对较好。该阶段是学科创建初期,发文量波动大,但增长速度很快,年度增长率为8.5%,倍增时间为8.2年。

从学科发展过程来看,早期的机器翻译被看成一种机械的解读密码的过程,在经历了失败之后,学者们认识到应当加强语言和自然语言计算机处理的基础研究,并正式认可“计算语言学”名称。此后语言学家和计算机专家合作研究,在自然语言理解、话语分析等方面取得较大进展,此时主要研究范式为基于规则的理性主义研究方法,更多地利用人类的内省知识,也就是语言学研究成果。在该阶段后期,学者们又开始对研究理论和方法进行反思,这使计算语言学的研究又逐步回到早期几乎被否定的有限状态模型和经验主义方法[20]。

(2)学科发展时期(1991-2007年):发文量较高,波动中的快速增长。

1991年,论文数量从1990年的27篇突破性地增长到87篇,此后在小幅波动中快速增长。对这一阶段发文量进行线性(R2=0.839)和指数(R2=0.866)拟合,两者拟合效果相近,但后者效果略好。总体而言,这一阶段文献增长速度很快,平均年增长率为7.3%,倍增时间为9.5年。

“问渠那得清如许?为有源头活水来。”四十年改革开放的实践为我国宪法发展提供源头活水,宪法的不断完善为改革开放保驾护航。五次修宪、加强实施,宪法随着党领导人民进行改革开放和中国特色社会主义伟大实践的发展而与时俱进,不断彰显我国宪法的中国特色、中国风范,为世界宪法文明增添宝贵的中国智慧和中国经验。

在这一时期,概率和数据驱动的方法成为计算语言学的标准方法,基于统计的机器学习算法开始流行。研究工作的重要突破是在基于规则的技术中引入了语料库方法,其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法等。这一阶段理性主义和经验主义并行,基于统计的机器学习算法、机器翻译、搜索引擎获得了成功。

(3)学科繁荣时期(2008-2020年):发文量稳定、单调高速增长。

2008-2020年年度发表论文数呈典型的指数增长分布(R2=0.946)。该阶段文献年度增长率达到15.9%,倍增时间缩短至4.4年。同前两阶段相比,这一阶段学科发展速度更快,进入了稳定、单调增长时期。从发文量分布来看(图1),这一阶段随时间推移呈现加速的态势。前期增长速度与总体速度接近,后期(2016-2020年)增速大幅提高,明显高于该阶段整体拟合速度。

2008年之后,人工智能得到迅速发展,深度学习方法被广泛使用,神经网络技术将计算语言学推向发展高潮。2017年,Facebook宣布推出了基于卷积神经网络开发的语言翻译模型,此后机器翻译的速度和准确度有了大幅度提高。2018年谷歌人工智能研究院提出BERT预训练语言模型,取得“全面超越人类”的成就,相关成果被很多领域广泛应用。这一阶段经验主义占据绝对优势,以深度学习为基础的研究方法颠覆了语言学基于规则的分析方法。

纵观计算语言学发展历程,我们发现各阶段一直存在对不同理论与方法的选择、使用和反思,来源于语言学、计算机科学和人工智能等领域的乔姆斯基的生成语法理论、语料库方法、深度学习理论方法等,在不同阶段分别作为计算语言学研究的主流力量推进计算语言学科的发展。

4 交叉学科的知识来源结构及演变

计算语言学的知识来源于多个学科。从1991-2020年来源学科数量的分布(图2)可以看出,计算语言学来源学科的数量呈不断增加的态势,从1991年的73个增长到2020年的228个,来源学科日益广泛,学科多样性程度不断增强。2017年之后,学科数逐渐趋向平稳。由于来源学科数量已与JCR学科总数越来越接近,因而此后学科数量的增加空间已经不大。

图2 计算语言学来源学科数量分布Fig.2 Quantity Distribution of Source Disciplines of Computational Linguistics

为更好地了解不同来源学科的关系及对计算语言学的影响,我们以五年为一个单位,利用VOSviewer的谱聚类方法画出来源学科群的聚类关系图。限于篇幅,只展示其中的四张图。

从图3可以明显看出,随着时间的推移,来源学科数量快速增加,涉及范围越来越广,学科间的联系越来越多,学科多样性、凝聚性都明显增强。类团的划分及主要学科的聚类结果保持较为稳定的状态,重要来源学科中只有个别学科的归类稍有变动。各阶段聚类结果均显示,计算语言学的来源学科按照其学科性质聚集成三个大的类团,具体如下。

图3 1991-2020年来源学科聚类图Fig.3 Cluster Map of Source Disciplines from 1991 to 2020

语言学与认知科学学科群:该学科群的主体是语言学、认知科学及其他与语言学相关的学科,包括语言学、实验心理学、神经科学、心理学、声学、行为科学、多学科科学,以及社会科学相关学科。现代语言学的领军人物乔姆斯基把语言学置于认知科学的范畴之内,促进了心理语言学和神经语言学的发展,由此引领第二次认知革命。因此,语言学与心理学、神经科学等具有密切联系。该学科群为计算语言学提供语言学理论和方法,主要通过语言学、多学科科学与另外两个学科群之间建立联系。从历年聚类图中可以看出语言学与认知科学学科群一直占有非常重要的位置,但是最后五年的相对重要性和影响力明显下降。

交叉学科应用学科群:1991-1995年曾以信息系统为中心,但很快计算机科学-交叉科学应用就成为该学科群的核心。此外,图书馆学情报学、医学信息学、健康保健科学与服务等是其中重要的学科。该学科群外围是医学、生物学领域的相关学科。如果说前两个学科群分别代表计算机和语言学的理论与方法,那么第三个学科群更偏重计算语言学在各学科领域的应用,如文献信息检索、医学信息处理等。该学科群早期较为薄弱,后期得到长足发展。

从来源学科三十年变化过程来看,位于三群交界处,将三个学科群密切联系在一起的学科包括语言学、人工智能、计算机交叉科学应用和多学科科学,这些学科被引量较高,在不同学科群之间架起重要桥梁,对计算语言学发展有重要作用。

5 来源学科的分层

随着学科的细分及交叉学科的发展,来源学科种类不断增加,涉及范围越来越广泛。但是众多来源学科对交叉学科的影响程度并不相同,实际上只有少数学科是交叉学科的主要知识来源,对交叉学科的发展产生重要影响。从图3可以看出,每个来源学科群中都有较为核心的学科,它们被引频次高,与其他学科联系紧密,对交叉学科发展的影响更大。同时,随着交叉学科的发展,来源学科的数量及影响力也会产生变化。

经计算,1991-2020年计算语言学各来源学科势能均值是0.305,中位数是0.035,最大值为9.464,呈明显的偏态分布,势能前20%的学科(46个)占总势能的81.33%,大部分势能聚集于少数学科中。为更好地分析来源学科对交叉学科的影响,我们基于来源学科势能的大小,结合聚类结果,将来源学科分为主导学科、重要学科和一般学科三个层次。“主导学科”是在较长时段内保持很高的势能,对交叉学科知识输出量大,对交叉学科发展产生引领作用的来源学科,一个交叉学科可以同时有多个主导学科;“重要学科”表示对交叉学科发展产生较为重要作用的来源学科,其学科势能相对较高,知识输出量较大;“一般学科”的势能较低,数量虽然庞大,但对交叉学科知识输出量少、影响力小,可能预示未来潜在的发展方向。下面将从重要学科入手,确定对交叉学科发展影响较大的来源学科并观察其范围拓展情况,重点分析主导学科及其发展变化对交叉学科的影响。

5.1 重要学科

我们以五年为一个单位,确定势能均值前10%的学科作为重要来源学科(图4),并观察计算语言学的发展变化及研究领域拓展趋势。重要学科共有31个,在各阶段的势能占比从58.7%(2016-2020年)到70.2%(2001-2005年)之间,平均占比65.4%。

图4 计算语言学的重要来源学科Fig.4 Ιmportant Source Disciplines of Computational Linguistics

1991-2020年,计算机科学学科群中的重要学科在稳定中有发展。人工智能、信息系统、电气与电子工程、软件工程、计算机科学理论与方法5个学科一直保持在前10%;计算机硬件与架构在早期是重要的来源学科,因为当时的系统处理能力在很大程度上取决于硬件的性能,但是2006年之后随着硬件性能的普遍提高,不再成为计算语言学研究的制约条件,该学科退出重要来源学科清单;2016-2020年间,多学科-地理科学、环境科学进入了前10%。语言学与认知科学学科群经历不稳定的发展之后重要学科数量明显减少。实验心理学、神经科学、语言学、多学科科学、心理学等5个学科一直保持在前列,心理学多学科从1996年开始成为重点来源学科,其他学科的表现不够稳定。从来源学科势能来看,最后五年除多学科科学之外,其他学科势能数值下降幅度较大,重要学科数量也明显减少。交叉学科应用学科群早期只有计算机交叉学科应用和图书馆学情报学两个重要学科,但是却呈现出不断发展的趋势,从1996年开始不断有生命科学领域学科的加入并保持较为稳定的发展。

从总体来看,重要来源学科的数量随时间变化而不断增长,但三个学科群呈现出不同的特点。计算机科学学科群总体稳定,来源学科势能总体呈增长趋势,说明计算语言学对该学科群的知识依赖程度增强;语言学与认知科学学科群有过较大影响但近五年萎缩严重,说明计算语言学对该学科群相关学科的知识依赖程度降低;交叉学科应用学科群是新兴的生长点,随着计算语言学的发展,在生命科学领域有更广泛的应用,同时也从生命科学领域吸收更多相关知识。

5.2 主导学科

在重要来源学科分析中,我们看到每个学科群都有几个学科长期稳定地保持较高的来源学科势能,在学科聚类图中与其他学科有更为密切的联系。我们将某一时段内每个来源学科群中势能最大的一个或几个学科定义为计算语言学的主导学科。主导学科有两个层面的含义,一个是作为学科群中势能最高的学科,代表该学科群的主要研究方向;其次是对交叉学科输出更多的知识,产生更大的影响。为了更好地展示和比较,我们选择1991-2020年间来源学科势能平均值大于1.5的14个学科,通过观察比较发现不同学科群中的主导学科。

(1)计算机科学学科群的主导学科

从1991-2020年来源学科势能分布情况来看,人工智能和信息系统是计算机科学学科群的主导学科(图5)。

图5 计算机科学学科群的主导学科Fig.5 Leading Disciplines of Computer Science Cluster

1990年代该学科群出现了多个势能较高的学科。最初,计算机科学理论与方法势能很高,但是很快就下降,并一直呈下降趋势。软件工程曾经在1994年达到峰值,但是之后也与计算机科学理论与方法一样保持下降趋势。20世纪90年代末期开始,人工智能逐渐超越其他学科,成为主导学科,随后是信息系统。2007年之后,人工智能学科占据了较大优势。2016年前后是一个转折点,这一年开始人工智能拉大与信息系统的差距,呈现出遥遥领先的态势,而信息系统的来源学科势能则从2016年开始一路下降。

这种变化态势与人工智能学科的发展和突破密切相关,如2006年提出神经网络深度学习算法、2016年АlphaGo战胜人类、2017年出现基于卷积神经网络开发的语言翻译模型等,人工智能领域的这些突破极大地带动了计算语言学的发展。特别是2018年谷歌人工智能研究院提出BERT预训练语言模型之后,人工智能的来源学科势能保持大幅度稳定增长。

(2)语言学与认知科学学科群的主导学科

从学科群的发展过程来看,语言学与认知科学学科群的主导学科是实验心理学、语言学和神经科学三个学科(图6)。

图6 语言学与认知科学学科群的主导学科Fig.6 Leading Disciplines of Linguistics and Cognitive Science Cluster

相对于另外两个学科群而言,该学科群的来源学科势能在各年度之间波动较大。1990年代至本世纪初期,语言学和实验心理学一直处于主导学科的地位,两个学科的波动变化趋势较为接近。2002年,神经科学也达到一个较高水平,迈入了主导学科的行列。但是此后神经科学的波动较大,其来源学科势能在2012年一度攀升到9.464的历史最高水平,之后又大幅度下降。神经科学对计算语言学科影响力的快速提升可能是因为语言学研究中越来越多地采用神经科学的手段研究语言和大脑的关系以及语言的演化,与此同时,计算神经科学的发展为脑科学和人工智能搭建了桥梁,促进了计算语言学的发展。但是也有学者指出神经科学与语言学和人工智能方面的交叉融合还面临着很多问题和挑战[26-27],这可能也是其势能下降的原因之一。

值得注意的是,该学科群的来源学科势能在近几年整体出现大幅下降。语言学来源学科势能于2009年达到最后一个高峰,从2010年起开始下降,2020年为1991年以来该学科最低值。2015年开始,神经科学和实验心理学也出现了明显的持续下降。这个现象一方面与认知语言学的发展有关,如惠特曼认为在北美地区“认知语言学正在走下坡路”[28];另一方面,与人工智能中深度学习等方法的替代作用有关,随着人工智能的全面应用,语言学与认知科学的方法大面积被摒弃。

(3)交叉学科应用学科群的主导学科

交叉学科应用学科群的主导学科只有一个,是计算机科学-交叉科学应用(图7)。

图7 交叉学科应用学科群的主导学科Fig.7 Leading Disciplines of Ιnterdisciplinary Аpplications Cluster

1990年代该学科群整体来源学科势能较低,对计算语言学的知识输出水平不高。本世纪初开始,计算机科学-交叉科学应用学科影响力逐渐增大,发展成为该学科群中的主导学科。

结合上述分析,我们最终确定6个学科作为计算语言学的主导学科,它们也是所有学科中平均势能最高的前6个学科(见表1)。

表1 计算语言学的主导学科Table 1 Leading Disciplines of Computational Linguistics

6 主导学科的关系变化与交叉学科的范式转换

李喜先认为,交叉学科发展过程中存在学科或理论间的合作与竞争。当两个学科(理论)发展中内在合作因素大于竞争因素,则两个学科(理论)可以稳定共存;当对抗作用起主导作用时,则仅有一个学科(理论)可以存在[7]。

本文数据中揭示出的主导学科之间的关系变化,与以上推断表现出较好的一致性。我们以语言学和人工智能作为语言学与认知科学学科群和计算机科学学科群中主导学科的代表进行分析。一方面,来源学科势能表示来源学科对交叉学科的知识输出程度,对于人工智能和语言学这两个有竞争关系的来源学科而言,它们的来源学科势能可以反映其竞争力的大小;另一方面,两个来源学科在计算语言学中的同被引强度可显示它们在交叉学科发展过程中合作关系的强弱。为观察两个来源学科的竞争与合作关系,我们以五年为一个时间点,画出两个学科的竞争(图8)和合作趋势图(图9)。其中,为消除文献规模增长带来的影响,我们采用相对共被引强度(两学科共被引频次在该时段全部共引关系中的占比)来反映不同时段的学科合作水平。

图8 人工智能与语言学的竞争力比较Fig.8 Comparison of Competitiveness between Аrtificial Ιntelligence and Linguistics

图9 人工智能与语言学的合作水平Fig.9 Cooperation between Аrtificial Ιntelligence and Linguistics

从来源学科竞争力角度看,1991年至2010年,人工智能和语言学的来源学科势能水平较为相近,两者对于交叉学科具有水平相近的竞争力;2010年之后两者竞争力发展趋势相反,一升一降之间形成剪刀差,人工智能竞争力不断增强,而语言学则日渐衰弱。从两个学科的合作情况来看,1991-2005年,两者之间的合作水平(相对共被引强度)在稳定中保持缓慢上升的趋势,但此后却持续下降,2016-2020年的相对共被引强度还不到2001-2005年的三分之一,两学科之间的合作关系下降到很低的水平。

在上述过程的中后期我们观察到两个主导学科的关系和地位发生了巨大变化:两学科的竞争力一升一降,差距不断加大,与此同时合作水平直线下降。在这种状态下,主导学科之间原有的均衡关系被打破,来源学科由两个主导学科合作并存的状态变成一个学科独领风骚。结合前文分析我们也可以看到,受到人工智能学科的影响,计算语言学在这一阶段得到长足发展,进入繁荣发展时期。

从这个观点出发,本文进一步推测,具有不同研究范式的主导学科,当它们有稳定合作且双方竞争力较为均衡的状态下,交叉学科受到两个主导学科的影响,可能同时存在多个研究范式;当某一个主导学科有了突破性发展,该学科就具备更强的竞争力,更容易打破主导学科之间的合作状态,在带动交叉学科迅速发展的同时,也促使交叉学科发生研究范式的转换。

袁毓林[19]认为,从方法论和哲学背景上看,计算语言学有理性主义和经验主义两大分野。理性主义通过人工汇编初始语言知识(主要表示成形式规则)和推理系统来建立处理自然语言的符号系统。这种系统通常根据一套规则或程序,将自然语言“理解”为某种符号结构;再通过某种规则,从组成该结构的符号的意义上推导出该结构的意义。这些规则主要来自于语言学的研究成果。经验主义方法认为人的知识只有通过感官传入、再通过一些简单的联想和泛化的操作才能获得,人不可能天生拥有一套有关语言的原则和处理方法。在计算语言学中,许多研究尝试从大量的语言数据中获取语言的结构知识,如来自于人工智能的神经网络方法由机器通过学习训练数据获得人工神经节点之间的连结强度,以反映从输入状态到输出状态之间的映射关系,进而获得某种语言处理能力。

在计算语言学发展过程中,理性主义与经验主义交替占上风。受乔姆斯基内在语言官能学说的影响,早期计算语言学界曾经很多人信奉理性主义,其特征是通过形式规则和推理系统来建立处理自然语言的符号系统。20世纪90年代之后,基于语料库的经验主义方法论得以发展,但仍需要语言学理论的支持。“越来越多的学者认识到,基于语料库的分析方法至少是对基于规则的分析方法的一个重要补充”[29]。因此,在这一阶段理性主义和经验主义并行。2008年以来,传统的机器学习方法进一步发展成为基于神经网络的深度学习方法,这种经验主义方法独立于具体语言,“是在计算语言学历史上获取语言学知识方法的具有革命性意义的变革”[29]。与此同时,基于句法—语义规则的理性主义方法受到质疑,数据驱动的计算语言学研究范式成为当前计算语言学的主流范式。

有学者曾经将计算语言学研究分为认知的范式和计算的范式两种类型,前者把语言使用看作是一种以知识为基础的交际过程, 认为人无论是说话还是听话都必须具有一定的知识,后者用计算机来模拟人习得、储存、运用这些知识[19]。按照类似的逻辑,从研究模式和方法论角度来看,可以认为基于内省法和语感的传统语言学(理性主义)研究和基于数据的人工智能(经验主义)研究代表了不同的研究范式,它们在交叉学科中的势能相近或地位剧烈变化意味着交叉学科研究范式共存或范式转换。

实际上,语言学家也认识到计算语言学的范式转换,并对语言学的发展感到忧虑,如惠特曼指出:“语言学所面临的真正危机是能否成功应对来自计算语言学的挑战”[28]。刘海涛认为,大数据时代,语言研究的范式到了要转变的时候,要强调数据驱动的语言学研究[30]。

综上分析,我们认为至少在本文的案例中,交叉学科的发展是在多个具有不同研究范式的主导学科之间的合作和竞争过程中完成的。在主导学科合作状态下,交叉学科可能同时或交替存在多个研究范式;而某一个主导学科的突破性发展则可以带动交叉学科的迅速发展,打破主导学科之间的合作状态,并促使交叉学科发生研究范式的转换。

7 总结

本文以计算语言学的发展历程为例,从交叉学科的知识来源学科角度进行定性和定量分析,希望通过这个具体案例对交叉学科发展机制研究的一般性方法和思路带来启发。

在交叉学科的发展过程中,来自于其他学科的推动力,特别是向交叉学科输出大量知识的来源学科的推动作用是交叉学科发展的重要影响因素。来源学科之间存在竞争和博弈的关系,其本身的发展也会影响和带动交叉学科的发展,因此可以通过来源学科在交叉学科中的地位及变化揭示交叉学科发展的影响因素。

基于这样的逻辑,我们提出“来源学科势能”概念,用以测量来源学科对交叉学科的知识输出地位,在此基础上将来源学科分为主导学科、重要学科和一般学科等不同层次。“主导学科”为各学科群在较长时段内平均势能最高的一个或几个学科,对交叉学科知识输出量大,对交叉学科发展产生重要的引领性作用,是我们应当重点关注的对象;“重要学科”是一定时间内各学科群势能均值前10%的来源学科,其知识输出量较大,通过对不同时段重要学科的分析可以了解交叉学科主要知识来源及其拓展变化情况;“一般学科”的势能较低,数量虽然庞大,但对交叉学科知识输出量少、影响力小,可能预示未来潜在的发展方向。

通过分析主导学科地位的变化,可以发现交叉学科是在主导学科之间的合作和竞争过程中不断推进发展。当具有不同研究范式的主导学科之间有稳定合作且双方竞争力较为均衡的状态下,交叉学科受到两个主导学科的影响,可能存在多个研究范式;当某一个主导学科有了突破性发展,该学科就具备更强的竞争力,更容易打破主导学科之间的合作状态,在带动交叉学科迅速发展的同时,也促使交叉学科发生研究范式的转换。

至此,我们从来源学科知识输出的角度出发,形成了对交叉学科发展内在机制的一条研究路径,即通过引文关系测度来源学科势能,基于来源学科对交叉学科的地位和影响力对来源学科进行分层,不同层次的来源学科对交叉学科发展的作用不同;通过对交叉学科发展过程中主导学科之间合作与竞争关系的分析,揭示交叉学科的主要发展动力及可能带来的范式转换现象。不同交叉学科可能有自己的发展模式,但利用这个研究路径进行分析,有利于发现交叉学科发展中来自于来源学科的动力机制,以及学科发展变迁的规律。相关研究结果可以用于科研政策管理,如制定相关政策以引导和增强主导学科对交叉学科的促进作用,加强重点来源学科与交叉学科的联系,不断拓展交叉学科的新领域,更好地促进交叉学科的发展。

本研究也存在一些不足和局限。长期以来,文献的学科分类问题始终是制约交叉学科定量分析的瓶颈问题。本文按照JCR分类方法对整本期刊的论文进行分类,分类准确性受到一定影响,同时也未能对引文中的图书等类型进行学科分类,这也在一定程度上影响了数据匹配的比例。由于早期(1961-1990)数据量相对较小、引文学科分类数据匹配率较低等原因,未能对这一时期的来源学科进行分析。此外,主导学科的确定过程中,阈值的划分有一定主观性和经验性。

作者贡献说明

蒋颖:提出研究思路,设计研究方案,论文撰写与修改;

逯万辉:数据收集、分析与处理,图表制作,论文修改。

支撑数据

支撑数据由作者自存储,Email:jiangying@cass.org.cn。

1.逯万辉.CL disciplinary citation.xlsx.计算语言学知识输入学科.

2.蒋颖. Disciplinary potential energy of source disciplines.xlsx.来源学科势能.

猜你喜欢
交叉学科势能语言学
从学科交叉到交叉学科:“四新”建设的知识逻辑与实践路径
作 品:景观设计
——《势能》
交叉学科人才培养模式探究
体认社会语言学刍议
《复制性研究在应用语言学中的实践》评介
美国现代语言学会版《〈红楼梦〉教学法》:要览与反思
势能的正负取值及零势能面选择问题初探
哈佛大学《Harvard gazette》
“动能和势能”“机械能及其转化”练习
书讯《百年中国语言学思想史》出版