语音感知与产出研究现状及前沿分析2012-2022

2023-07-04 15:50:58黄睿红

赤峰学院学报·哲学社会科学版 2023年5期

黄睿红

摘要：本文使用Cite Space软件，以2012-2022年期间WOS收录的1564篇国外语音学领域感知与产出研究为主体，从研究机构及国家、作者、关键词及关键词聚类、关键词突显对语音学领域感知与产出的研究进行可视化分析，以追踪和捕捉国外语音学领域感知与产出研究的发展现状及研究前沿。结果表明，感知与产出领域跨学科趋势明显，新技术运用广泛，语音意识、个体差异、音韵编码等是研究前沿，感知相关的研究比产出丰富，关于感知与产出之间的关系尚未达成一致。

关键词：感知；产出；Cite Space；知识图谱；研究前沿

中图分类号：H311 文献标识码：A 文章编号：1673-2596（2023）05-0056-08

一、引言

感知（perception）与产出（production）是第二语言语音习得研究中的关键问题，也是目前语音学领域研究的热点之一。感知和产出是语音链的重要组成部分，对其的研究可以粗略分为三大类：一是语音感知；二是语音产出；三是语音感知与产出之间的关系。

20世纪70年代，范畴感知，即识别（identification）和区分（discrimination）连续变化的语音音段边界（phonetic boundary），在幼儿语音习得领域研究得到广泛开展。20世纪80年代，二语习得领域的语音学家，如Strange、Flege、Kuhl和Best等设计了针对成年人二语语音习得的实证研究，试图探寻成年学习者对非母语语音的感知情况并找到科学合理的解释。进入21世纪，中国国内的学者翻译并总结了Flege等语音学家关于二语语音感知与产出方面的理论和模型，并结合理论开展汉语二语习得中感知与产出方面的研究[1]。

二语语音产出受到学习者母语语音系统的深刻影响。语音产出是发音产生的听觉和声学结果，也是语言加工的外在表现形式[2]。语音产出是从模仿开始并通过积累经验在语言学、生理学和声学层面感知和产出语音[3]。Flege通过实证研究发现二语语音产出存在等值匹配（Equivalence Classification）模式，即学习者总是把二语语音中的相似音素（Similar Phoneme）归入母语某个语音范畴中[4]。

感知与产出领域主要有以下四种理论模型。母语磁吸模型（Native Language Magnet，NLM）认为母语者脑中存储着对某一个音的感知形式。二语语音中的某个音与学习者母语系统中的相似音感知效果越相近，学习者将这个音与母语中相似音分开的难度越大[5]。Best提出的感知同化模型（Perceptual Assimilation Model，PAM）认为学习者倾向于把二语语音范畴归类到与其发音相似的母语语音范畴[6]。Strange提出的自动选择感知模型（Automatic Selective Perception，ASP）认为语音行为反映学习者对声学信息的选择和整合，学习者对二语和母语的听觉能力并不能决定其二语语音行为[7]。Flege于1995年提出了语音学习模型（Speech Learning Model，SLM），并认为二语语音学习基本是从学习者的母语范畴开始的。该模型认为，二语语音感知先于产出，且感知能力会极大地影响产出能力[8]。

二、数据来源与研究工具

（一）数据来源

利用WOS的SCI-EXPANDED、SSCI、CPCI-S、CPCI-SSH五大引文库对2012—2022年期间以TS=“perception” and “production”为主題词的文献进行高级检索，文献类型设置为“文章（article）”，文献出版时间设定为“2012—2022年”，得到有效文献17358篇。通过WOS类别筛选保留“linguistics”“psychology”“psychology experimental”“audiology speech language pathology”“neurosciences”“language linguistics”“acoustics”8个与语言学相关的类别，剔除“agriculture”“business management”等与语言学无关的类别，从WOS导出1627篇文献的全记录txt文件。利用Cite Space软件自动去重功能，最终得到1564篇文献。这样的文献获取方式和文献筛选方法能较好地平衡总文献的查全率和查准率，保证基础数据的代表性和权威性。

（二）研究工具

Cite Space软件是由美国德雷克塞尔大学信息科学与技术学院和大连理工大学WISE实验室联合开发的信息可视化软件，可以测量和分析研究数据，展示知识图谱可视化研究领域的研究趋势和合作情况[9]。本文利用Cite Space软件，通过对研究国家（地区）、研究作者、研究机构、关键词、关键词聚类及关键词突现的分析，总结了国外语言学领域感知与产出研究的研究热点和研究趋势。

数据导入Cite Space 5.8.R3，软件参数设置如下：时间区域（Time Slicing）为“2012年1月—2022年12月”，时间切片（Year Per Slice）为“1”，节点类型（node types）分别为“作者（author）”“国家（country）”“机构（institution）”“关键词（keyword）”。

三、结果与讨论

（一）文献计量现状

利用WOS网站自带的引文分析功能对1564篇文献及其被引频次进行统计分析，探究国外感知与产出研究的基本发展情况。经分析，2012—2022年国外感知与产出研究的文献数量在2022年前一直保持稳定的数量，大约每年有140—160篇文章产出，研究文献年产出较为稳定，说明感知与产出领域的研究发展平稳。感知与产出领域的文献被引频次逐年上升，在2020年后曲线增陡，增速加快，说明语言学领域感知与产出研究热度逐步升高。由于在检索时文献发表时间限定在2022年6月30日前，所以2022年的发文量为平均值的一半左右，符合事物发展的普遍规律。

（二）研究现状分析

1.研究国家（地区）分布

通过对研究所在的国家（地区）进行文献计量，可以明确国外对感知与产出研究的地域空间分布，从而分析出不同国家（地区）在该领域的关注度和贡献度。首先将分析对象设定为“国家（地区）”，在Cite Space软件中的Node Types界面选取“country”，经数据处理分析得到国外感知与产出研究的国家（地区）可视化图谱。国外感知与产出研究的国家（地区）可视化图谱中共有节点74个，连线65条，网络密度0.0241。以上数据说明感知与产出的相关研究共涉及74个国家（地区），这些国家和地区之间的研究互动过65次，总体合作程度不高。目前国家（地区）间的合作互动以美国为中心，英国、加拿大、德国等国家（地区）之间的合作居于次位。

在可视化图谱中，中介中心性（Centrality）表示相同节点在某领域当中的中介作用，凸显节点在结构中的重要程度。中介中心性数值＞0.1即说明该节点的影响力较强。突现性（Burst）数值通过突增算法得出，突现性高说明未来具有爆发力和创新性。Sigma值由公式Sigma=（Centrality+1）* Burstness（突现指数）得出。Sigma值可以用来识别创新性文献或者创新性主题。

由表1可以得知，2012—2020年美国、加拿大、英国、德国和法国占据了国外有关感知与产出研究的文献总量排名的前五位。作为语音学领域的热点研究，感知与产出研究在各国研究的规模与国家（地区）的发展水平密切相关。

位列第七的中国发文量85，中心度为0.01，影响力与美国、英国还有一定差距，但中国的发文突现性为4.91，位列第一，Sigma为1.04，体现中国在感知与产出方面的研究势头正猛，研究潜力大，未来应加强国际间的学术交流合作，提升我国在感知与产出研究领域的学术影响力。

2.研究作者分布

核心作者的可视化分布可以帮助我们了解该研究领域内主要研究者状况。Cite Space结合作者发文数量与引用率，在知识图谱中突显具有高影响力的作者。

在Cite Space软件中，选取节点类型为“作者”，时间跨度依旧设定为“2012—2022年”，单个时间区分长度为“1年”，节点条件（Threshold）设置被引频次为“5以上”，得到2012—2022年WOS数据库中感知与产出领域研究作者被引频次共现图。研究发现该领域内有一定量的研究者合作发文，高频次作者中有一定比例的作者形成了合作网络，但其余的多数研究者仍以独立发文为主，研究作者呈现出明显的分散状态。

据表2（发文量≥6篇）的研究作者信息可见，2012—2022年国外感知与产出领域排名前五的作者为Katherine Demuth、Barbara Tillmann、Lucie Menard、Holger Mitterer和Benjamin Munson。其中Katherine Demuth和Barbara Tillmann发文数量最多，为8篇，引用率也居高位次。

Katherine Demuth发现在澳大利亚英语母语儿童中，闭音/l/（peel）的掌握要比起始音/l/（Leap）晚，儿童对起始音/l/的产生和感知的差异与生理和语音发展都有关[10]。Barbara Tillmann研究音乐和语言认知研究的相似性，认为音乐认知研究为理解语言加工、语音感知与产出以及其他结构化刺激加工提供了启示。Lucie Menard等研究了先天性视觉障碍对成人语音产出的影响，在正常和扰动（在唇间插入25mm直径管道）条件下让视力正常者和盲人进行了法语元音/u/的发音，虽然所有被试在受干扰的情况下都将舌头后移，但盲人更多地修改了舌形参数[11]。Holger Mitterer通过眼动实验发现荷兰语中擦音在早期就被感知学习改变，进一步说明感知学习影响语音加工的早期阶段[12]。Benjamin Munson用视觉模拟刻度（VAS）评价儿童自然产生的/s/-/θ/、 /t/-/k/和/d/-/ɡ/这三个目标音在单词开头的位置，并考察了有经验的言语病理学家（SLPs）与没有经验的人在感知儿童语音细节方面的不同，证明有言语病理学工作经验的人会更好地感知儿童说话时的语音细节[13]。

3.研究机构分布

感知与产出研究领域的研究机构分布图谱中包括307个节点，508条连线，网络密度为0.0108。据表3信息可见，在国外感知与产出领域中高等院校是研究主力，其中麦吉尔大学（McGill Univ）、英国伦敦大学（UCL）、哈斯金斯实验室（Haskins Labs Inc）、蒙特利尔大学（Montreal University）是核心研究机构。麦吉尔大学发文数量为42篇，居于首位。英国伦敦大学紧随其后，发文40篇，且具有高中介中心度（Centrality=0.24），英国伦敦大学与蒙特利尔大学研究合作密切，蒙特利尔大学发文32篇，位列第四。位列第三的是美国耶鲁大学的哈斯金斯实验室，发文38篇。表3显示，拉德堡德大学（Radboud Univ Nijmegen， Burst=3.17， Sigma=1.33）、法国国家科学研究中心（CNRS， Burst=2.7， Sigma=1.22）和麦考瑞大学（Macquarie Univ， Burst=3.1， Sigma=1.18）在感知与产出领域具有高创新性，2012年至2022年的相关发文数量突增，具有极高的研究潜力。

（三）研究前沿和热点分析

1.研究前沿分析

Cite Space通过词频统计、关键词共现、关键词聚类，聚焦某一领域的研究热点。词频分析方法就是通过在文献信息中提取能够表达文献核心内容的关键词或主题词频次的高低分布，来研究该领域发展动向和研究热点的方法。关键词聚类则是对文献主要关键词的高度凝練与概括，对文献的关键词进行词频分析后，找出频率相对较高的关键词聚类成主题词，这在一定程度上可反映该领域形成了哪几个研究类团。节点的大小与关键词出现的频次成正比，各节点间的连线代表不同关键词之间的共现关系，关键词之间共现关系的强度由连线的粗细反映[14]。

通过Cite Space进行词频和关键词聚类分析后，可以得到国外感知与产出研究的关键词聚类知识图谱，图谱中N=184，E=263，网络密度为0.0156，每个时间段排在前50的文献中一共包括了184个关键词，图谱共有263条连线。现将频次排名前20的关键词制成表4。

通过表4可知，国外感知与产出研究领域中出现频次最高的词是“perception”，一共出现588次。高频词反映出以“perception”为中心的其他关键词节点还有“language”“speech”“perception”“English”“acquisition”“discrimination”“brain”“recognition”“children”“FMRI”“frequency”等。国外感知与产出领域研究以感知研究为主，且对英语学习的研究数量较多。研究角度多聚焦于习得、认知、表征、可理解度、人脑语音感知和产出的机制神经等。研究理论多采用感知与产出方面的经典理论模型，如SLM、PAM、NLM等。近十年神经语言学研究技术FMRI是感知产出领域热门的研究方法。在被试群体方面，针对儿童的语音感知和产出研究较多。

突现是指短时间内突然增长或者频次明显增加的关键词。Cites Space的突变检测计算可以检测一个学科内研究兴趣的骤变程度，反映研究前沿的时间变化规律和演化路径。结合突现词和关键词，可以进行以下分析。第一，镜像神经元（mirror neuron）、基地神经节（basal ganglia）、前运动皮质（premotor cortex）等关键词的突现表明近年来感知与产出领域神经科学、脑科学、语音学习等相结合的研究趋势。第二，语音知识和词汇加工之间的关系也受到研究者们的关注，语音短时记忆在词汇加工上发挥著重要作用。此外，许多研究发现，影响语言加工的因素，如经验（experience）、短期记忆（short term memory）等会产生个人差异（individual difference），个人差异研究受到许多学者的关注[15]。

2.研究热点分析

采用Cite Space对关键词进行聚类，采用对数似然率算法，通过提取文献的关键词对聚类进行命名。Cite Space依据网络结构和聚类的清晰度，提供了模块值（Q值）和平均轮廓值（S值）两个指标。聚类的模块值可反映网络的模块度。该值越大，表明网络的聚类效果越好。Q值一般在[0，1）区间内，Q＞0.3就意味着划分出来的社团结构是显著的。聚类的平均轮廓值可反映网络同质性的高低，该值越接近1说明网络的同质性越高。当S值在0.5以上，一般认为聚类是合理的，若在0.7时，聚类是高效率的、令人信服的。

此次共得到了46个聚类，筛选出的前8个聚类（聚类大小＞10）分别为“intelligibility（可理解度）”“speech（语音）”“eeg（脑电图）”“fmri（功能性磁共振成像）”“voice onset time（发音起始时间，VOT）”“language（语言）”“English（英语）”“extended bandwidth（频带扩展）”。

由表6可见，本次共有8个聚类生成。聚类0的标签是“可理解度”，指说话者的言语被实际理解的程度[16]。近年来，可理解度是国外语音教学的研究热点，相关研究数量快速增加[17-21]。聚类1的标签是“语音”。在此聚类下，感知、韵律、可预测性是重要的下一级标签。2012年至2022年间，韵律及其可预测性是语音感知领域研究的热点。聚类2和聚类3的标签分别是“eeg”和“fmri”。这反映了近十年的研究热点是将语音研究与脑科学和核磁共振技术结合，探索人类语音习得的神经机制。聚类4以“发音起始时间（VOT）”为标签。在语音产出领域，塞音的研究最为广泛，VOT是塞音最突出的声学特征。近十年围绕VOT开展的研究多聚焦于音韵发展和语言老化等，其中针对西班牙语的研究数量较多。

聚类5和聚类6的标签分别为“语言”和“英语”，主要包括音韵编码（phonological encoding）、音韵相似性（phonological similarity）、音节重量（syllable weight）、声学线索（acoustic cue）和音位序列频率（phonotactic probability）等。

聚类7标签为“频带扩展”。在此聚类中，语音发展（speech development）、声学特征（acoustic characteristics）突出。频带扩展在不改变信源编码和网络传输的前提下，在解码重码信号中人为添加高频成分，能有效地增强音频。随着对声学感知研究的深入，人们发现佩戴具有频带扩展属性的助听器可以帮助听障儿童听到声音。

语音感知与产出领域跨学科研究趋势愈加明显。随着语言学领域技术的飞速发展，越来越多的实验设备和实验方法被引入语音学领域。眼动实验研究中，眼动仪可以同时追踪被试的阅读路径和朗读录音。神经语言学领域的实验设备如脑电图（EEG）、脑磁图（MEG）、功能性磁共振成像（fMRI）、功能性近红外光谱技术（fNIRS）等技术也应用于语音感知方面的实验中。

四、结论

据本文分析可得，从2012到2022年国外感知与产出领域研究发展迅速，研究论文数量呈快速增加趋势。从研究现状看，该领域跨学科研究趋势明显，语言学、医学、心理学、教育学、人工智能等的交叉结合，在研究方法、研究目的、被试群体上都有明显体现。在实验方法上，研究者多结合EEG、FMRI等神经语言学技术探究人脑对语音习得的神经机制。在被试群体上，成人、儿童、单语者、多语者、听障群体受到更多关注。目前感知与产出领域研究热点包括个体差异、语音意识、可理解度、音韵编码等，主要围绕语音感知的神经机制和语音识别处理。

在感知和产出的研究发展中，研究者对语音感知和产出之间的关系仍然存在争议。肌动理论（Motor Theory）和直接现实主义理论（Direct-Realist Theory）认为产出先于感知，而一般听觉理论（General Auditory Theory）和语音学习模型（Speech Learning Model）则认为感知先于产出。总体而言，对语音产出的关注度不如语音感知高，语音产出方面的研究还有待增加。

——————————

参考文献：

〔1〕常莉.语音感知和语音产出——二语语音习得研究梳辨[J].语文学刊（外语教育教学），2015（04）：47-49.

〔2〕陈莹.语音产出的实验研究方法[J].外语研究，2021，38（05）：6-11+32.

〔3〕Keyser， S.J. and K.N. Stevens. Enhancement and overlap in the speech chain[J]. Language， 2006， 82（01）： 33-63.

〔4〕关雪.语音感知和语音产出关系的分析研究[D].哈尔滨：哈尔滨工业大学，2020.

〔5〕Kuhl P. K. Innate Predispositions and the Effects of Experience in Speech Perception： The Native Language Magnet Theory[A]. Boysson-bardis B.， Schonen S.， Jusczyk P.， et al. Developmental Neurocognition： Speech and Face Processing in the First Year of Life[M]. Dordrecht： Springer Netherlands， 1993： 259–274.

〔6〕Best C. T. A direct realist view of cross-language speech perception[J]. Speech Perception & Linguistic Experience Issues in Cross Language Research， 1995.

〔7〕Strange W. Automatic selective perception （ASP） of first and second language speech： A working model[J]. Journal of Phonetics， 2011， 39（04）： 456–466.

〔8〕Flege J. E. Production and perception of a novel， second-language phonetic contrast[J]. The Journal of the Acoustical Society of America，1993，93（03）.

〔9〕陳悦等.CiteSpace知识图谱的方法论功能[J].科学研究，2015，33（02）：242-253.

〔10〕Lin S.， Demuth K. Children's acquisition of English onset and coda/l： Articulatory evidence[J]. Journal of Speech， Language， and Hearing Research， 2015， 58（01）： 13-27.

〔11〕Ménard L， Turgeon C， Trudeau-Fisette P， et al. Effects of blindness on production–perception relationships： Compensation strategies for a lip-tube perturbation of the French [u][J]. Clinical Linguistics & Phonetics， 2016， 30（3-5）： 227-248.

〔12〕Mitterer H， Scharenborg O， McQueen J M. Phonological abstraction without phonemes in speech perception[J]. Cognition， 2013， 129（02）： 356-361.

〔13〕Munson， B.， J.M. Johnson and J. Edwards， The Role of Experience in the Perception of Phonetic Detail in Children's Speech： A Comparison Between Speech-Language Pathologists and Clinically Untrained Listeners[J]. American Journal of Speech-Language Pathology， 2012，21（02）： 124-139.

〔14〕陈超美，陈悦.科学发现的结构与时间属性[J].科学与管理，2014，34（03）：27-32+81.

〔15〕Fu， R.， The Influence of Individual Differences on Learning a Second Language[R]. Jeju Island： 2013 3rd Inernational Conference on Social Sciences and Society， 2013.

〔16〕Munro M J， Derwing T M， Morton S L. The mutual intelligibility of L2 speech[J]. Studies in second language acquisition， 2006， 28（01）： 111-131.

〔17〕Fogerty D， Ahlstrom J B， Bologna W J， et al. Sentence intelligibility during segmental interruption and masking by speech-modulated noise： Effects of age and hearing loss[J]. The Journal of the Acoustical Society of America， 2015， 137（06）： 3487-3501.

〔18〕Sewell A. The intranational intelligibility of Hong Kong English accents[J]. System， 2015， 49： 86-97.

〔19〕Orikasa M. The intelligibility of varieties of English in Japan[J]. World Englishes， 2016， 35（03）： 355-371.

〔20〕Sheppard B E， Elliott N C， Baese-Berk M M. Comprehensibility and intelligibility of international student speech： Comparing perceptions of university EAP instructors and content faculty[J]. Journal of English for Academic Purposes， 2017， 26： 42-51.

〔21〕Crowther D， De Costa P I. Developing mutual intelligibility and conviviality in the 21st century classroom： Insights from English as a lingua franca and intercultural communication[J]. TESOL Quarterly， 2017， 51（02）： 450-460.

（責任编辑曹彩霞）

Abstract： This paper uses Cite Space software to visualize and analyze foreign speech perception and production that collected by WOS from 2012 to 2022. In terms of research institutions and countries， authors， keywords and keyword clustering， and keyword highlighting， this paper aims to track and capture the development of speech perception and production. The results indicate that there is a clear interdisciplinary trend in the field of perception and output， and new technologies are widely used. Speech awareness， individual differences， and phonological encoding are research frontiers. Research related to perception is more abundant than output， and there is no consensus on the relationship between perception and output.

Keywords： Perception； Production； Cite Space； Knowledge Graph； Research Frontier