武和平 李 乐
程式语是指语言中使用频次较高、结构较完整、语义功能较明确、通常作为完整语言单位处理和使用的介于词汇和句子之间的多词语言单位。①在英汉语文献中,指称这一语言现象的术语纷繁芜杂,缺乏统一的说法,英文中相关的术语数量超过40 个(Wray & Perkins,2000),汉语中也有如语块、词块、预制语、程式语、公式语等多个术语。虽然国内文献最常使用的术语是“语块”,但因本文主要述介国外研究成果,故选用“程式语”这一译名,其界定相对清晰,涵义较为明确,且与国际学术界通用的formulaic language 相对应。程式语在语言中广泛存在,有研究者通过统计发现,程式语在自然语言口头话语和书面语篇中的占比约为30%—80%(Wray,2013;Wood,2015),是语言研究的重要领域。
长期以来,在形式主义语言观的影响下,语言系统被看作语法和词汇的二分体系:语法是语言系统的规则框架,词汇则是用以填充框架的单词集合。自20 世纪70 年代以来,随着认知语言学、构式语法,特别是语料库语言学和短语学的兴起,越来越多的语言学家开始质疑这种语法 - 词汇的二分体系。因此,介于词和句之间的多词语言单位——程式语——被语言学界赋予越来越重要的地位和价值,成为语言学领域多个学科关注的焦点。在此背景下,程式语也成为第二语言研究的重要内容和研究热点。
本文将以Web of Science(WoS)为检索平台,以SCI、SSCI 和A&HCI三大类国际文献索引的来源期刊为数据源,通过CiteSpace 文献计量工具,对1999—2023 年国外发表的二语程式语研究的知识结构、重要文献、核心议题、研究热点和前沿课题进行可视化分析,通过文献计量和引文分析的手段,厘清国外学术界近25 年间在二语程式语研究领域的历史发展脉络,并对其未来发展趋势作出预测。
具体来说,本文主要关注以下几个问题:①近25 年间国际二语程式语研究主要有哪些关键文献?②在此期间,国际二语程式语研究有哪些研究热点和主要发现?③国际二语程式语研究的总体发展脉络和未来趋势如何?
本研究数据下载于WoS 科学文献数据库,以second language 和formulaic language 等词组组合为主题进行检索,检索表达式为TOPIC = (second language OR L2)AND TOPIC =(formulaic sequence OR formulaic speech OR formulaic language OR prefabricated speech OR lexical bundles OR multiword unit OR collocation OR idioms),时间跨度设定为25 年(1999—2023),数据最终下载日期为2023 年6 月16 日。根据检索所获取的数据,力求全面地呈现和分析近25 年来国外学术界在二语程式语领域的研究成果及学术热点。最后共获得1068篇文献,导入CiteSpace 6.2.R2 进行可视化分析。
我们采用美国德雷塞尔大学(Drexel University)信息科学与技术学院陈超美博士(Chen,2006)开发的可视化文献分析软件CiteSpace 作为数据挖掘、信息分析、文献计量和可视化呈现的工具。该软件综合利用信息科学、科学计量学以及统计学等多个学科的理论和研究方法,采用信息可视化技术,既能生成静态的“知识结构框架图”,描绘知识在空间上的结构体系和关系,又能展示动态的“知识发展进程谱”,体现知识在时间上的发展与流动,探测其未来发展的趋势或动向,并以可视化的方式加以呈现(Chen,2006;陈超美,2009)。
CiteSpace 引入国内后,许多学科都开始使用知识图谱来分析学科研究热点。例如,在语言学研究领域,一些研究者利用该工具对国内外翻译研究、语料库语言学、批评话语分析、第二语言写作等领域进行了数据挖掘和知识图谱分析(冯佳等,2014;刘霞等,2014;徐锦芬、聂睿,2015;李洋、王少爽,2016;武和平、王晶,2021)。
我们将利用CiteSpace 工具,对在WoS 三大国际期刊索引的来源期刊中检索到的近25 年间发表的以二语程式语为主题的研究论文进行数据挖掘和计量分析,解析二语程式语研究的知识基础、发展脉络以及研究热点,以期厘清国外二语程式语研究的发展历程及未来趋势。
从发文量的时间分布来看,过去25 年间国际三大索引来源期刊所收录的二语程式语研究论文数量可以分为“缓慢起步”(1999—2008)、“数量激增”(2009—2018)、“持续增长”(2019—2023)这3 个阶段(详见表1)。1999—2008 年这10 年间,国外二语程式语研究论文的数量较少、增长缓慢,平均每年收录论文量仅为6.5 篇。2009—2023 年的15 年间,国际索引来源期刊发表的二语程式语研究论文数量激增,年均发表论文66.9 篇,占所有检索论文的93.91%。2019—2023 年总发文量是1999—2003 年总发文量的32 倍,说明近年来二语程式语研究越来越受到世界各国学者的重视,这进一步印证了Wray(2012)有关该领域研究数量将呈爆炸性增长趋势的预测。
表1 SCI、SSCI 和A&HCI 索引来源期刊二语程式语论文发文量(1999—2023)
CiteSpace 可以生成关键词时区视图,分时段展示研究主题、历时研究及前沿研究,按时间顺序呈现关键词的历史演进,并通过连线建立跨时段研究主题的迭代和嬗递关系。图1 以5 年为单位,展示了过去25 年间国外二语程式语研究关键词的演进路径,从中可以了解国外二语程式语研究在不同阶段的研究热点及其相互关系。
图1国外二语程式语研究关键词演进及联系(时区视图)
从图1 关键词的变化轨迹中可以看出,国外二语程式语研究的范围逐步扩大,沿时间线大致可分为3 个阶段:
①第一阶段为理论探索期(1999—2003),研究主要集中在建构概念定义和分类体系,厘清二语程式语相关概念(如习语、搭配、比喻语等)之间的关系,并初步涉及程式语的记忆及理解等心理加工过程方面的议题。
②第二阶段为快速发展期(2004—2018),不断开拓新的研究领域和研究主题,如二语程式语的知识表征,程式语与流利性、准确性和复杂性等二语水平量度指标之间的关系,通过语料库提取程式语的技术与方法,程式语的频次效应,词簇(lexical bundles)的概念以及短语学的学科范畴,程式语的教学,二语程式语的语用价值等议题。这一时期的研究基本确立了二语程式语研究的概念体系与话语范式。
③第三阶段为稳步发展期(2019 年至今),这一时期最重要的议题为程式语与二语写作、句法复杂度以及显性教学对程式语学习的影响等。
文献被引信息是考察文献影响力最重要的指标。了解二语程式语研究发文的被引信息,有助于掌握该领域关注的焦点问题及研究层次。被引频次、中心性(centrality)和激增指数是考察文献被引信息的关键性指标。表2 列举了这3项指标排名位于前10 的被引文献,它们构成了国外二语程式语研究最受关注的核心研究领域。
表2 被引频次、中心性及激增指数位居前10 的被引文献
在被引频次居前的文献中,有一部分是有关程式语或词汇教学的综述和通论性质的著述(如Wray,2002;Ellis et al.,2008;Ellis,2012;Nation,2013),它们在不同时期系统梳理、总结了二语程式语研究的概念系统、理论框架和实证研究成果。其余文献则主要聚焦不同条件下程式语在使用、习得和加工方面的问题:Laufer & Waldman(2011)、Gablasova et al.(2017)运用语料库手段,提取和分析了二语学习者学习和使用程式语的特点;Conklin & Schmitt(2008)的研究表明,二语程式语具有和母语程式语一样的加工优势;Wolter & Gyllstad(2013)则发现一语程式语对二语程式语的识别具有启动效应,表明二语程式语和对应的母语程式语在大脑词库中有一定的联系。
中心性是测量网络中节点重要性的指标。节点的中心性越高,其在网络中的重要性就越高。CiteSpace 使用中心性指标来发现和衡量文献的重要性,并通过可视化方式将重要的文献(或作者、期刊、机构等)进行标注(Chen,2006)。在表2 中,中心性居前的文献主要探讨了二语程式语习得和教学相关的研究议题,包括改变程式语聚焦形式的方法(Laufer,2005;Laufer & Girsai,2008)、搭配附带学习法(Webb et al.,2013;Pellicer-Sánchez,2017)、语义和结构扩展(Barcroft,2002)、二语搭配接受性知识(Nguyen & Webb,2017)、影响程式语学习负担的主要因素(Peters,2016)等。此外,Boers et al.(2006)探讨了通过优化词汇法教学途径来教授程式语的具体方法及其对提高学习者二语水平的意义和价值。
激增指数是指某一文献在特定时段内被引频次的突发增长率。如表2 所示,在激增指数排序居前的文献中,综述性、通论性的著述占有相当大的比重(如Wray,2002;Ellis et al.,2008 等),这些文献全面系统地总结和介绍了一段时间内二语程式语及相关领域的最新研究成果,因其全面综合,议题广泛,时效性强,一经发表即广受关注。其他文献则是解决了程式语研究某一领域核心问题的关键文献,如Conklin & Schmitt(2008)对程式语加工优势的研究,Nesselhauf(2005)、Gablasova et al.(2017)基于语料库的搭配研究,Laufer &Waldman(2011)、Bestgen & Granger(2014)对二语写作中动名搭配及短语能力的量化方法研究等。这些文献由于解决了二语程式语研究某一特定领域的关键问题而成为该领域的重要文献,引用率在特定阶段呈激增趋势。
关键词体现了研究所要表达的核心主题和主要内容。CiteSpace 可以统计检索文献网络中所有关键词的出现频次、时间进程及其共现关系,并以可视化的方式加以呈现。通过对关键词共现关系的计量分析及知识图谱分析,可以直观地显示某个研究领域的核心概念及其之间的相互联系。我们采用最小生成树(Minimum Spanning Tree,MST)的裁剪方法,以年为单位,对本研究所检索文献的全部关键词进行计量统计,并绘制出每年出现频次最高的50 个关键词的共现关系知识图谱(如图2 所示)。关键词之间的共现关系在图谱中通过关键词的不同颜色、字号和圆圈大小以及连线的毗邻关系来显示。
图2 国外二语程式语研究文献关键词共现知识谱系图
如图2所示,在过去25年里,二语程式语研究分别以英语、语言、程式语、习得、学习者、记忆、组块、频次等出现频次较高的关键词为中心展开,从多元视角探讨二语程式语相关的研究课题。具体而言,这些研究主题包括:二语程式语与二语水平及语言准确性的关系,非本族语程式语习得及其对语言复杂性、流利性的影响,利用语料库程式语提取技术辅助二语学术写作及语法学习,二语程式语的记忆与理解,程式语频次对程式语组块化和加工过程的影响,短语学与二语程式语语料库建设及提取技术等。
CiteSpace 的聚类分析可以根据关键词共现频次的高低,识别某一研究领域在一定时段内的研究热点。本研究采用CiteSpace 的寻径网络算法(pathf inder)对二语程式语研究关键词合并网络进行聚类分析,从数据源中总计自动识别提取了9 个关键词聚类,聚类网络的模块Q 值为0.7003,轮廓值(silhouette)为0.658,大于0.5,表明这些聚类轮廓清晰、结果合理(Chen,2006)。这9 个聚类构成了二语程式语研究的主要热点,分别涉及交际课堂程式语教学、儿童程式语学习、程式语分析加工模式、程式语的记忆机制和心理表征、词汇习得、形态学与程式语、二语程式语翻译、程式语短语学、程式语的语用功能等方面。表3 整理了这些聚类的标签、相关关键词、聚类网络规模、轮廓值、核心议题和主要观点、所属研究领域等信息。
表3 二语程式语关键词聚类及核心议题
从表3 中可以看出,在这9 个聚类中,规模最大的3 个聚类均为过去25 年中二语程式语研究的热点话题,其关键词聚类标签分别为口语产出、流利性和儿童,三者的规模覆盖整个文献网络的50%,但整体而言,其轮廓值略低于后6 个聚类,说明这3 个聚类之间互有重叠和交叉,不如短语学、程式语翻译、言语行为等内容相对单一的话题轮廓边界清晰。
我们将这9 类关键词聚类按照所属学科领域合并为语料库语言学、心理语言学、语用学和应用语言学4 个大类,并综合对以上文献的时空分布分析、作者影响力分析及关键词聚类分析等信息,可以大致勾勒出国外二语程式语研究的主要领域及发展脉络。本文的文献计量学分析显示,国外二语程式语研究最先在语言教学领域展开,于2008 年前后细化为不同的研究主题和研究领域,分别涉及程式语的结构与分布、表征与加工、使用与功能以及二语程式语的习得和教学问题。这些方面的问题主要在语料库语言学、心理语言学、语用学和应用语言学4 个研究领域展开,详述如下。
①语料库语言学与二语程式语研究
语料库语言学为程式语研究提供了全新的理论视角与有效工具,大型机器可读语料库的相继建成与检索软件的问世为研究程式语的结构与分布规律提供了丰富的自然语言材料和全面快捷的统计分析模式。J.Sinclair、N.Schmitt、D.Biber、S.Granger、B.Laufer 和N.Nesselhauf 等研究者为该领域作出了重要贡献。语料库在二语程式语研究中主要应用于以下4 个方面:一是通过比较学习者语料库与本族语语料库中的语料,考察二语者某一特定程式语结构的错误频次、类型、分布及影响因素;二是观察二语者程式语内部成分的共现关系及互信息(Mutual Information,MI);三是通过语料库检索自动提取学习者语料中出现频次较高的词簇;四是在二语课堂及教材编写中使用语料库检索信息,使学习者通过数据驱动学习(Data-driven Learning,DDL)来观察、感知自然真实语料中程式语的分布及使用特点。该领域近期的研究热点主要是二语者学术文本中的程式语研究。
②心理语言学与二语程式语研究
程式语打破了传统语言学理论中语法 - 词汇二分对立的范畴体系,也给语言加工的心理机制和过程研究带来了新的课题。运用心理语言学的理论和方法来考察二语程式语的心理加工,需要回答的主要问题有:程式语在心理词典中的表征形式是怎样的?程式语的存储和加工是整体性的,还是分析性的?相较于非程式语的多词单位,程式语加工是否更具优势?程式语的字面义与引申义的加工方式是否存在差异?自然语言中不同频次的程式语加工有何特点?儿童记忆和学习母语程式语有哪些特点和方法?二语者在加工和处理不同类型的程式语时,是否和母语者的加工过程一致?一些心理语言学和二语习得的研究者,如N.Ellis、A.Wray、N.Jiang、N.Schmitt、K.Conklin、T.M.Nekrasova、A.Tremblay、A.Siyanova-Chanturia 等,采用自定速阅读、眼动追踪、语法判断等研究方法,对这些问题进行了充分的探讨,虽然研究结果不尽一致,但深化了我们对二语程式语表征形式和加工过程的认识(Conklin & Schmitt,2008)。近年来,该领域研究也延伸到语言病理学,开始关注失智症患者与他人互动时程式语使用的特点及临床价值(Davis et al.,2023)。
③语用学与二语程式语研究
程式语在自然语言中大量存在,规约化程度较高的程式语既是日常交际中实现言语行为和话语功能的重要手段,也是二语者提高二语运用水平和交际能力、实现目的语语言文化认同的重要途径。①有些学者将这种表达特定言语行为和社会语用功能的程式语称为情境约束话语(situationbound utterances,SBU),参见Kecskés(2000)。因此,程式语也是中介语语用学研究的题中应有之义。二语程式语的语用学研究主要包括以下4 个方面:一是二语程式语的社会语用功能研究;二是二语者使用程式语的类型、特点、频次、效果以及对语用程式语使用的态度;三是二语者识别、解释和习得规约化语用程式语的发展路径;四是语用程式语的教学原则、方法及其效果评估(Bardovi-Harlig,2012)。与其他领域的研究相比,语用学视角下的二语程式语研究起步较晚,目前参与该类研究的学者数量不多,较有影响的有K.Bardovi-Harlig、A.Wray、I.Kecskés 等人。
④应用语言学与二语程式语研究
从广义上说,所有二语程式语研究都可以纳入应用语言学的范畴。除上述3 个相对独立的研究领域外,二语程式语研究最关注的问题仍然是二语程式语的习得及教学问题。例如,程式语的哪些因素和特点影响二语者程式语的发现、感知、注意和习得?二语者程式语学习的发展路径如何?二语程式语的习得与二语能力发展之间的关系如何?制约和影响二语程式语习得的认知心理机制是什么?如何解释母语程式语和二语程式语在习得方式和路径上的差异?在二语程式语教学中应该如何处理程式性(formulacity)和分析性(analyticity)之间的矛盾?在选择二语程式语的教学内容和方法时应该遵循哪些基本原则?本文通过文献计量和聚类分析所筛选出的研究大多都在回答这些问题,其中M.Lewis、A.Wray、N.Ellis、N.Schmitt、D.Wood、F.Boers、J.R.Nattinger、S.Granger、B.Laufer 等研究者为该领域的核心人物。
本文借助CiteSpace 知识图谱可视化工具,从文献计量学的视角,追踪分析了1999—2023 年国外二语程式语研究的发展历程、热点分布、关键文献和重要作者等信息。这种基于文献数据挖掘和知识图谱分析的方法,有助于我们全面、客观、准确地把握当前国际二语程式语研究的全貌,追踪二语程式语的研究热点。同时,也促使我们重新审视长期秉持的语法 - 词汇二分体系和研究范式,重新认识程式语这种介于词与句之间的多词语言单位的表征形式、处理过程及应用价值。我们可以综合采用语料库语言学、心理语言学、语用学及应用语言学等多学科的研究范式,在跨学科视阈下开展不同语言背景、不同研究对象的二语程式语研究,以期提升我国二语程式语的研究水平。
正如所有的文献计量研究一样,本文的研究证据主要来源于计算机对大量甚至海量文献条目信息的挖掘和分析。通过对研究趋势和研究热点的宏观把握与量化描述,厘清二语程式语研究核心议题的发展脉络,为今后进一步深入研究二语程式语提供了文献梳理及热点追踪等方面的可视化数据支撑。