嗓音启动时间对汉语与非汉语母语塞音范畴化知觉的影响

2023-11-14 06:35:46陆灵犀陈梁杰晋杨平

心理技术与应用 2023年11期

陆灵犀陈梁杰晋杨平

（1 北京语言大学语言认知科学学科创新引智基地，北京 100083）

（2 北京大学心理与认知科学学院，北京 100871）

1 引言

人类社会交流中，语言通过多层级的结构特性构成了高效的信息载体。语音作为语言的声学表达，具有物理上的连续性，在知觉层面表现出一种非连续性的、具有离散性的范畴特征。即人们倾向于将语音信号划分为有限的类别（王士元,彭刚,2006），研究者将其称为范畴化知觉（Categorical Perception,CP）。

语音的范畴化知觉研究多集中于两类辅音特征，即嗓音启动时间（Voice Onset Time，VOT）和共振峰的音轨（sound track）过渡上（吴宗济,林茂灿,1989;Abramson &Whalen,2017）。前者多指音节中辅音与元音过渡时说话者发音器官的活动交替，即除阻起始和声带振动起始的时间，可用于辅音对的区分；后者则主要用于区分塞音发音时不同发声部位的主要特征（Diehl et al.,2004）。VOT不仅能够反映辅音发声中的清浊、送气或不送气等现象，还能够表现出不同音位间的细微差别，以及说话者发音习惯等特征（Abramson &Whalen,2017）。Lisker和Abramson（1964）按照辅音中VOT的长短将世界语言中的塞音划分为三类：不送气的清塞音、送气的清塞音和浊塞音，但这种笼统的划分方式省略了汉语中缺乏浊塞音的特性，忽视了汉语与其他语系之间的区别。后续研究通过分类识别任务，在VOT连续体上发现清送气塞音的范畴边界在汉语和英语上并不相同（Chao &Chen,2008），这说明不同音系间在依靠VOT进行塞音识别上存在差异。

从表意功能来说，世界上多数语言都以辅音作为词根（冉启斌,2008），而塞音作为辅音中仅有的在所有语言中都存在的辅音类型受到诸多研究（邓丹,2018;刘江涛,2012;Henton et al.,1992;Jakobson et al.,1951）。在汉语音系中，塞音具有自身的特点。相比英语等音系，汉语普通话仅存在四个辅音（即/m/、/n/、/l/、/r/）为浊音，其余辅音全为清音，而成对的辅音间的辨义则体现在送气/不送气特性上。从声学上看，塞音送气和不送气的主要区别在于VOT长度的不同（陈嘉猷等,2002;梁之安,1963）。吴宗济（1986）测量了汉语普通话中不同辅音的VOT长短，发现送气塞音和不送气塞音的VOT长短存在明显区别。对普通话中常见的送气清音/p/、/t/和/k/的分析发现，它们的VOT持续时间在90～110毫秒之间，远长于对应的不送气清音/b/、/d/和/g/（范围在10～25毫秒，Rochet &Yanmei,1991）。所以VOT是研究汉语中塞音范畴化感知的关键。但就不同母语者群体而言，通过VOT线索对非母语音系进行辅音范畴化是否存在差异还有待研究。

以往研究表明汉语母语者对塞音中VOT的知觉是范畴化的（席洁等,2009）。和英语等音系中决定清音和浊音的VOT相似，汉语母语者对音节中送气和不送气的VOT特征表现出良好的范畴化的特点（王韫佳,上官雪娜,2004;张锦玉,2014）。在范畴边界研究中，冉启斌等（2014）还发现汉语中送气和不送气对塞音范畴边界的感知范围存在3:7的特性。然而针对非汉语母语者如何感觉该特征的问题，已有研究尚不充分。李林和董逸飞（2014）对比美国的汉语学习者和汉语母语者在塞音/b/和/p/的VOT连续统中的感知差异，发现两类群体在VOT和音征的交互作用上显著，但没有发现单独的VOT效应。这可能是因为他们选取的被试总数过少（汉语母语者和汉语学习者各3人），统计效应缺失，以及用于生成刺激音节的元音选取不当（元音/a/在VOT的变化过程中会引入音轨变异的干扰）所导致的。

综上所述，在汉语普通话中，VOT线索是区分送气塞音和非送气塞音的关键线索。本研究提出假设：汉语母语者比非汉语母语者能更好地应用这一声学线索，表现出明显的范畴化感知。为了验证这一假设，本研究利用汉语语音合成方法改变塞音的VOT长短，生成语音刺激连续体，借此在范畴性知觉的研究范式下探究汉语母语者和非汉语母语者在VOT范畴性知觉的区别。

2 方法

2.1 被试

通过G*Power（Faul et al.,2009）对所需被试量进行先验分析（F检验，效应尺度0.2～0.25），达到0.05显著性水平需要的被试量为36～ 56。本实验最终招募48名来自北京语言大学的健康成年人被试参与实验，其中有24名汉语母语者（13名女性，平均年龄23.1±2.1岁）和24名非汉语母语者（17位女性，平均年龄22.8±3.4岁）。所有被试均为右利手，自我报告听力正常，且无精神疾病史。其中，非汉语母语者的母语背景包括俄语（10名）、阿拉伯语（4名）、西班牙语（3名）和越南语（2名），另有波斯语、乌兹别克语、塔吉克语、哈萨克斯坦语和尼泊尔语各1名；他们的汉语学习时间为1～10年，平均汉语学习时间为3.9±2.0年（均值±标准差，M±SD），其汉语水平考试（HSK）分布为三级（2名）、四级（6名）、五级（14名）和六级（2名）。所有被试在实验前均签署了知情同意书，并获得一定的实验报酬。

2.2 实验材料

辅音刺激选用汉语普通话中常见的不送气音/d/和送气音/t/，二者的声学特征主要通过VOT的长短区分。在本研究中，我们只关注VOT的变化对辅音范畴化的影响，所以选用元音/i/与二者构成单音节/di/和/ti/。这是因为VOT的变化会改变后续元音的音轨，即共振峰的过渡，而元音/i/的共振峰的变化相对平滑，受VOT长短变化的影响较小，不会引入额外的声学线索。

实验刺激选用的原始音节（/di/和/ti/）均使用Neospeech汉语合成器独立生成（http://www.neospeech.com/，男性，Liang），该合成器模拟的是汉语普通话，能够保证语音上的文化性。音节/di/的持续时间为196毫秒，音节/ti/的持续时间为237毫秒。VOT的连续体采用逐步削减和替换法生成（progressive cutback and replacement method），这种方法是通过将元音的起音逐渐删除，并使用大致等长的辅音替代来生成过渡音节（Winn,2020）。本实验一共生成了九个连续体，VOT的长度从10毫秒到70毫秒，平均步长为7.5毫秒，即从/di/音节10毫秒的不送气辅音范畴逐步过渡到/ti/音节70毫秒的送气辅音范畴。所有音节的平均声强固定为64dB SPL。此外，为了避免和共振峰变化类似的干扰，将所有刺激的F0（139Hz）进行固定。

2.3 实验设计

采用2（母语背景：汉语母语组、非汉语母语组）×9（VOT连续统：水平1到9）的双因素混合实验设计，母语背景为被试间变量，VOT连续统为被试内变量。因变量为被试将音节判断为/ti/的概率（即1-判断为/di/的概率）。

2.4 实验程序

在VOT识别任务中，被试点击鼠标后听到一个单一的声音刺激，然后判断这个声音是音节/di/还是/ti/，并做出相应的按键反应。当被试做出选择后，主试会强制播放持续1秒宽带白噪声（0～10 kHz，64 dB SPL）以去除前项干扰。噪声结束后，被试可以继续进行后续的刺激播放和判断。VOT连续统的9个独立声音刺激各重复20次，共计180个音节。实验过程中，所有声音刺激均为随机播放。

所有实验流程均已获北京语言大学人体实验伦理委员会的审批。

2.5 数据处理与统计方法

在获取单个被试在九个VOT水平上的判断概率后，利用心理物理函数对每个被试的判断概率进行拟合，得到单个被试的/di/-/ti/类别判断阈限及斜率。心理物理函数如下：

其中，x代表VOT水平，y代表将音节判断为/ti/的概率，σ代表心理物理函数的斜率，μ代表50%的概率将音节判断为/ti/时所对应的VOT水平，即/di/-/ti/类别判断阈限。此外，通过每名被试拟合的斜率进一步计算其最小可觉差（Just-Noticeable Difference,JND）。

在统计检验时，对判断概率进行母语背景×VOT双因素方差分析，对/di/-/ti/类别判断阈限，斜率和最小可觉差进行组间独立样本t检验。在事后检验中，对所有重复测量的统计检验均进行Bonferroni矫正。

3 结果

3.1 汉语与非汉语母语背景被试的VOT 感知差异

分析汉语母语组和非汉语母语组在不同VOT水平的/di/-/ti/判断概率（图1）。在VOT最短（VOT=1）时，判断为/di/的概率为0.994±0.02（M±SD）；在VOT最长（VOT=9）时，判断为/ti/的概率为0.996±0.01，这很好地反映了随着VOT变化被试对/di/-/ti/音节的范畴感知变化。

图1 被试判断概率随VOT 的变化折线图

对/di/-/ti/判断概率的母语背景×VOT双因素方差分析显示，VOT的主效应显著（F8,368=700.02，p<0.001，=0.94），母语背景的主效应不显著（F1,46=2.60，p=0.113，=0.05），双因素的交互作用显著（F8,368=6.03，p<0.001，=0.12）。为进一步探讨交互作用，进行简单效应分析。由于在VOT极小（VOT=1和2）和极大（VOT=8和9）时，判断为/ti/的概率接近0和1，为避免天花板效应和地板效应，对VOT=3、4、5、6、7这五个水平进行组间比较。结果显示，在VOT=6（55毫秒）时，汉语母语者与非汉语母语者的判断概率有显著差异（t32.4=4.09，p=0.001，Bonferroni矫正）；在VOT=5（47.5毫秒）时，差异达到边缘显著（t46=2.65，p=0.056，Bonferroni矫正），在其他VOT水平上，差异均不显著（p>0.05）。可见，VOT=5和6是汉语母语者与非汉语母语者进行/di/-/ti/音节范畴感知的关键水平（图2）。

3.2 汉语与非汉语母语个体的感知阈限和最小可觉差比较

通过心理物理函数对/di/-/ti/判断概率进行拟合后，提取每名被试的判断阈限（μ）和斜率（σ）。汉语母语组平均阈限为VOT=4.50 ±0.58，斜率为2.55±0.18；非汉语母语组平均阈限为VOT=4.81±0.17，斜率为1.78±0.20。独立样本t检验结果表明，不同母语背景的被试/di/-/ti/的判断阈限无显著差别（p=0.141），汉语母语组被试的阈限所在VOT的变化斜率显著大于非汉语母语组被试（t46=2.85，p=0.006，Cohen’sd=0.86）。可见，在将音节进行/di/-/ti/的类别判断时，汉语母语者在类别间的转化较快（迅速地从判断/di/转变为/ti/）。这说明汉语母语者对VOT的细节变化可能更为敏感，表现为心理物理曲线在阈限附近的变化更为迅速（图3）。

图3 汉语母语与非汉语母语组的判别阈限

为了进一步探究汉语与非汉语母语者分辨/di/-/ti/的敏感度差异，计算了每名被试的最小可觉差水平。汉语母语组平均最小可觉差为0.21±0.07，非汉语母语组平均最小可觉差为0.35±0.17。独立样本t检验结果表明，不同母语背景的被试/di/-/ti/判断任务的最小可觉差存在显著差别（t46=-3.51，p<0.001，Cohen’sd=1.08）。结果说明汉语母语者相比于非汉语母语者，对VOT变化引起的/di/-/ti/辅音对的分辨更敏感，即在塞音分辨时需要的VOT变化差异更小（图4）。

图4 汉语母语与非汉语母语组的最小可觉差

3.3 非汉语母语组的感知阈限与汉语水平的关系

为了探讨非汉语母语者对汉语的熟悉程度与塞音辨别感知阈限之间的关系，分析非汉语母语组被试的HSK等级、汉语学习时间这两个指标与辨别阈限及斜率之间的相关性关系。斯皮尔曼相关性分析表明非汉语母语者的HSK等级与塞音范畴化感知的行为指标之间没有显著性相关关系（50%辨别阈限：r=0.29，p=0.169；斜率：r=-0.04，p=0.841）；个体汉语学习时间与辨别阈限和斜率之间也没有显著性关系（50%辨别阈限：r=-0.02，p=0.929；斜率：r=0.15，p=0.481）。

4 讨论

回顾本研究的实验结果，我们发现当VOT处于5和6水平时（47.5毫秒和55毫秒），汉语母语组和非汉语母语组之间的判别比例存在显著差异。后续的斜率分析进一步证明汉语母语者在塞音类别间判别的过渡更快，表现为心理物理曲线在50%阈限附近的变化更为迅速。即相比于非汉语母语者，汉语母语者在VOT范畴化边界上的划分更明显。这表明汉语母语者和非汉语母语者在进行塞音范畴化判别时，对其VOT长短线索的敏感度不同，即汉语母语者对VOT的变化更为敏感。

听者为了形成音位范畴的稳定心理表征，需要忽略范畴内的细微变化并对范畴间的变化更敏感。汉语中VOT是用来区分送气和不送气的重要特征，对于这种特征的区分，汉语母语者的范畴边界一般在30毫秒以上（王韫佳,上官雪娜,2004）。本研究的实验结果符合该范畴。需要注意的是，在50%的判别阈限上结果并未发现汉语母语者和非汉语母语者的显著区别。这可能是因为对于西方等音系而言，VOT虽然不作为区分塞音意义的特征，但是它可以用于实现清音和浊音的范畴性判断（Cho &Ladefoged,1999;Elangovan &Stuart,2008）。这导致非汉语母语者同样会利用VOT线索进行音节判别。由此可以推测，VOT50%的判别阈限可能反映了一种更为一般的利用声学特征作为塞音判别的能力，它不具有音系之间的感知差异，是一种纯粹物理属性驱动的外显特征。

汉语和非汉语母语者在50%的判别阈限上接近并不能说明两类群体的范畴边界是一致的。语音的范畴感知需要表现出对VOT连续统的判别曲线快速上升或者下降（Lisker &Abramson,1964）。通过斜率分析本研究发现，汉语母语者在VOT判别率变化的斜率显著大于非汉语母语组，即出现了快速的上升。非汉语母语者则表现出平缓的过渡过程，更符合随物理属性变化的心理物理曲线的特性。这一结果与前人发现的汉语母语者和学习者的知觉分辨线索感知差异的结论相似，即不同音系下塞音感知模式存在差异（李林,董逸飞,2014）。对不同塞音之间的准确分辨是语言理解的关键。Keating（1984）提到的“极化理论”（Polarization）强调，一类语言中不同塞音对应的VOT长度应该处于不同数值范围内，这样才能够形成对应的塞音范畴。对于存在浊塞音的语系群体，他们分布于0毫秒两侧的VOT数值具有更为明显的数值差异。而汉语中的清塞音VOT范围均在正值一端，这可能导致汉语母语者更擅长利用细小的VOT差异来分辨塞音。我们的研究结果进一步说明了汉语母语者能够更敏感地利用VOT线索分辨塞音范畴。

在汉语作为第二语言的感知中，塞音显著影响了语言理解的过程。汉语送气和不送气的特征就有表意层面的差异，这在其他西方音系中是不存在的。“感知同化模型”（Perceptual Assimilation Model）认为，在学习第二语言时，非母语者会根据二语与母语的差异程度把二语中的对立音位归为母语体系内的不同范畴类型（Best,1995）。汉语中的辅音VOT范畴和非汉语语系的辅音VOT范畴存在差异（如法语，卢琰,2021;英语，Chao &Chen,2008），这导致以汉语为第二语言的学习者难以借用自身母语经验建立起精确的汉语范畴知觉。送气和不送气的一对塞音总是可以和相同的元音组合，必须拥有对其准确的范畴知觉才能精确理解意义。在本研究中，我们通过心理物理学实验法为非汉语母语者的塞音范畴化知觉特征提供了实证证据，揭示了非汉语母语者对VOT变化带来的塞音范畴化感知相较于汉语母语者是不敏感的。在范式设计上，本研究对传统的塞音听觉分辨实验进行了有益的补充，细化了多个VOT水平以及采用音轨更为平滑的元音，避免了以往研究中存在的干扰因素。在现实应用上，本研究的结果提示我们在汉语教学中需要强调塞音范畴的区分。在建立正确的范畴感知的基础上，个体才能提升听觉词汇识别的准确性，进而促进言语交流（邹丽娟,2015）。因此，在未来的对外汉语教学实践中，训练和提高汉语学习者的塞音感知可能是帮助其准确理解汉语的重要因素。此外，还可以考虑结合视觉场景输入的多模态场景，这可能有助于汉语学习者区分塞音并正确识别和理解词汇（林桐,王娟,2018）。

由于客观原因的限制，本研究所招募的非汉语母语者被试拥有不同的汉语学习年限及母语背景。虽然多样化的母语背景及汉语水平有利于拓展实验结果在非汉语母语者群体中的外部效度，但是这两个变量也可能是影响非汉语母语者的塞音范畴化感知过程的重要因素。因此，在未来的研究中，控制非汉语母语组被试的母语背景，比较不同母语背景的非汉语学习者塞音范畴化感知的差异，以及探讨汉语第二语言学习的过程中随着汉语水平的提高学习者塞音范畴化知觉的变化特点，都是非常重要的研究方向。