基于音素评分模型的发音标准度评测研究

2011-06-28 07:05:02戴礼荣
中文信息学报 2011年5期
关键词:音素后验发音

严 可,戴礼荣

(中国科学技术大学 讯飞语音实验室,安徽 合肥 230027)

1 引言

普通话水平测试(Putonghua Shuiping Ceshi,PSC)是一项规模浩大的全国性考试,每年约有300多万人参加考试。该测试是以口头方式进行,每人耗时大约15分钟。若测试的评分完全采用人工进行,则每个考场需要2~3名评分员考核以保证评分质量,因此若每个评分员一天工作8小时,则仅能完成15人左右的评分任务。可见进行PSC需要消耗大量的人力和物力。同时,由于评分员工作时间长、任务重,且人与人主观差异性不可避免,使得评分的客观性受到损害。采用计算机进行辅助评测,大大提高了评分效率和评分的客观程度,同时也显著降低了测试费用,因此受到了相关部门的高度重视。目前,PSC自动评分系统(以下简称PSC系统)已在全国十多个省进行了推广试用,并受到广泛的好评。

按照普通话水平测试大纲要求[1],发音标准度是重点考查的内容。在计算机辅助学习(Computer Assisted Language Learning,CALL)领域的研究中,美国的斯坦福研究中心(SRI)提出了后验概率(Posterior Probability)的发音标准度评价策略[2-3],该策略被广泛应用于各种CALL系统[4-7],并被证实具有良好的评测性能和鲁棒性。但研究发现后验概率策略评价发音标准度上存在着严重的缺陷。针对此问题,相关研究人员进行了不懈的研究和探索。魏思等人提出了“根据声韵母时长比例调整后验概率”[8],加重了声母的权重,使得机器评分更符合人工评分情况;刘庆升等人提出了“基于语言学知识”的网络[9-10]、以及基于KLD聚类[7,11]等方法对概率空间进行了优化,并在发音检错[12]及调型检错[13]上得到应用,均显著提升了系统性能。

上述基于规则的改进工作并未很好的弥补后验概率与人主观评测的差异。因此本文提出可训练的“音素评分模型”的概念,通过学习开发集的“知识”,将特征(本文仅采用后验概率)从概率域变换至分数域。因此其思想也可看作是特征变换。在全国采集的498人的普通话考试现场数据集上的实验表明该方法能使系统评分性能有显著的提升: 当后验概率在全音素概率空间中计算时,可使系统性能相对提升约42%;当该方法与上述基于规则的策略合并时,能进一步提升系统性能;在上述基于规则的策略下,有约23%~27%的相对性能提升。

2 PSC自动评分系统结构及其算法

2.1 文本相关评测系统中后验概率算法

令音素集包含I个音素,可表示为P={p1,p2,…,pI}。在目前PSC自动评测系统中,后验概率计算是在切分(Forced Alignment)[11]的音素边界上进行,并采用对数形式。对于某一句的第n个音素,假设其在语料中标记为pi,并起始于第sn帧,终止于第en帧。则该音素的后验概率的计算如式(1)所示(严格来讲应该为“帧规整的对数后验概率”,下文若未加说明,“后验概率”均指“帧规整的对数后验概率”)。

其中O[n;sn,en]代表该音素所对应的声学特征序列,Mi为pi后验概率空间。式(1)是针对一个音素的计算,而对于篇章则需要按式(2)在整个语流上进行归整。

其中N代表句子(篇章)中音素数目,id(n)代表该考生语料中第n个音素在音素集中的序号。

2.2 PSC自动评分系统针对后验概率算法的改进

为了进一步提升式(1)对发音标准度评价的能力,魏思、刘庆升等人做了大量的工作,引入语言学知识及KLD准则,对式(1)中的各音素的概率空间Mi进行改进。这些基于规则的改进既节约了运算量,同时在性能上也得到了大幅度提升,使得PSC系统从实验室走向安徽再走向全国。

目前,在实际应用中的PSC系统根据中国人发音特点,针对性地使用了如下两类概率空间列表进行评测:

1) 基于典型错误模式的概率空间: 总结了一些考生容易犯的典型错误,概率空间中只考虑这类错误影响,有兴趣的读者可参看文献[11]。

2) 基于KLD聚类的概率空间: 为了减少HMM之间的声学相似造成对评分的影响而设计的概率空间,KLD计算方式采用文献[14]所述的Monte-Carlo法。

3 传统音素后验概率策略的不足

3.1 理想情况——数据量无穷多时后验概率策略在衡量发音标准度的不足

样本无穷多时,累加可转换为积分

+const(Mi)

(3)

3.2 实际情况——后验概率描述发音质量的缺陷

上述分析建立在简单的GMM模型且数据量无穷的基础上,但在实际情况中问题仍然如此。因为式(1)的物理意义是: 在概率空间Mi中,发音为pi的概率。显然,概率的值会受到概率空间严重的影响,且增加数据并不能削弱其影响,若在概率空间中有与pi相似的发音,则影响会更为严重。例如,对于标准的发音“ing”和“a”时考虑如下两种概率空间:

1) 概率空间为M1={a,ing,in,o,e,u,v}

2) 概率空间为M2={a,ing,o,e,u,v}=M1-{in}

对于标准的“a”的发音O(a)而言,无论在是M1还是M2中均没有其他与之相似的发音,因此P(a|O(a))≈1。而对于标准的“ing”的发音O(ing)而言,由于“ing”与“in”在声学上天然相似导致该发音根据“ing”与“in”对应的声学模型所计算的声学得分相似,因此在概率空间为M1时,P(ing|O(ing))常常会明显小于1,即评测系统会错误认为该发音不如“a”标准;而当将概率空间变为如M2的概率空间时,有P(ing|O(ing))≈1。

上述分析表明,即使都是发音标准情况,概率空间M1中的音素“in”的存在,会使得音素“ing”的后验概率较其他如“a”等音素的后验概率显著下降,这显然不利于评分;然而,若“ing”概率空间中没有元素“in”,就完全不能解决将音素“ing”错读为“in”的情况。

3.3 后验概率忽略了主观评分标准的变化

评分是主观任务,不同任务的评分标准各不相同。例如对于PSC测试而言,由于大多考生为发音流利、错误较少的中国人,因此评分员着重考察发音标准度,对于如“sh-s”,“ch-c”,“zh-z”,“in-ing”,“en-eng”,“n-l”等典型错误对会重点关注;如中学生学外语或者外国人初学汉语任务上,由于语言学习刚刚起步,评分员会重点考察其发音的可懂度及流畅度,而上述音近的典型在多数情况下并不影响可懂度,因此会占较低的权重。而式(1)后验概率在数学上有着严格的定义,不随主观评分标准变化而相应的变化。

4 基于后验概率的音素评分模型算法

上述分析表明,直接采用概率(或对数概率)作为衡量发音质量的特征存在着明显的缺陷。在实际系统中,由于数据量有限,并有信道、噪声等干扰,式(3)的噪声项难以精确求解。本文提出可训练的“音素评分模型”的思想,将式(1)的音素后验概率从“对数概率域”变换到“分数域”,使其更符合评分员的主观分准则。音素评分模型的参数由开发集“说话”。

4.1 音素评分模型的一般形式

本文仅用式(1)的音素后验概率作为音素评分特征,如式(5)所示:

篇章级机器分为该篇章各音素分的平均,如式(7)所示:

优化目标为最小化开发集的机器分与人工分均根方误差(RMSE),如式(8)所示:

4.2 线性音素评分模型

4.2.1 线性音素评分模型形式

线性音素评分模型假设音素分与音素后验概率成线性关系,记为λi=(αi,βi),对于训练集中第r句的第n个音素,其机器分的计算如式(9)所示:

虽然线性函数结构简单,但鲁棒性好,因此得到广泛的应用。

4.2.2 线性音素评分模型的显式全局最优解

将式(9)代入式(7)有:

写成矩阵形式如式(12)所示:

于是式(9)的解如式(13)所示,具体推导过程可参看文献[15];注意A矩阵中的元素αi,βi即为线性音素评分模型λi的解。

其中

4.3 非线性sigmoid音素评分模型

4.3.1 非线性sigmoid音素评分模型形式及与线性形式的关系

Sigmoid函数是一种“S”形状的非线性函数,如图1所示。它比线性函数更接近人的主观感受。

Sigmoid函数在AB、CD处有较大的压扩,可理解为发音后验概率很低(发音错误)和后验概率较高(发音正确)时的音素分;函数在BC段近似线性。

非线性Sigmoid音素评分模型可记为λi=(αi,βi,γi,bi),对于训练集中第r句的第n个音素,其机器分的计算如式(15)所示,其中αi和βi控制着sigmoid函数的形状及位置,γi控制其取值范围,bi为偏置项:

将式(16)代入式(15),就可转成如式(9)所示的线性音素评分模型形式,如式(17)所示。

4.3.2 非线性sigmoid音素评分模型的梯度下降法求解

可惜我们并不能像线性函数那样简捷地求解,就目前作者的知识而言,只能采用梯度下降法调节模型参数,以逐步逼近局部最优解。对式(8)的辅助函数求偏导,如式(18)所示。

将上式的偏导项展开,有

(19)

(20)

(21)

(22)

因此模型的更新公式如(23)式所示:

a) 使用梯度下降法更新音素评分模型参数至收敛b) 将其看作是对音素评分特征进行sigmoid规整后的线性音素评分模型的参数更新流程图

4.3.3 非线性sigmoid音素评分模型的初始化

梯度下降法仅收敛于局部最优值,因此初始化非常重要。本文采用线性音素评分模型估计出的音素分来进行非线性sigmoid音素评分模型λi=(αi,βi,γi,bi)的初始化,联立式(9)和式(15),有

于是有:

因此非线性sigmoid音素评分模型λi=(αi,βi,γi,bi)的初始值γi=smax(smax为该题型的满分),偏置bi=0。于是αi,βi的初始值的求解问题就变成经典的线性回归问题,可采用式(13)简捷地求取。

5 数据库介绍及音素评分模型实验

5.1 普通话水平考试介绍

普通话水平等级考试满分为100分,由4个部分组成,分别是:

1. 单字朗读: 要求考生朗读100个孤立字,限时3.5分钟,满分10分;

2. 双字词朗读: 要求考生朗读50个词,其中绝大部分为双字词,仅少量三字词,限时2.5分钟,满分20分;

3. 篇章朗读: 要求考生朗读400字的短文篇章,限时4分钟,满分30分;

4. 命题说话: 本部分只给考生一个话题,让其自由发挥,限时3分钟,满分40分。

当前PSC自动评分系统只对有文本的前三题进行评分,第四题的评分仍采用人工方式。

5.2 数据库介绍

1. 训练集:

数据库录音总时间约100小时,发音人均有国家认证的普通话水平测试一甲等级的发音水平,数据采用16k取样,16bit量化。训练集数据详细情况可参看文献[8-11]。

2. 开发集与测试集:

随着这几年PSC自动评分系统的推广,所搜集的数据规模较文献[8-11]无论在数量上还是地域上都有了迅速的扩充。目前有3 885份来自安徽、湖北、山东、江苏、江西、上海等多省市的、有1~3位专家精细评分的PSC现场录音的数据,共计约528小时。并且对分歧较大的数据进行了复审。本文从中随机选择498份作为测试集,剩下的3 387份为开发集。

6 实验及结论

6.1 实验配置及系统评价指标

本文实验采用39维MFCC_0_D_A_Z特征。声学模型采用单音子声(Mono-phone)方式建模。音素集共计64个音素(即64个HMM),包括零声母、静音、填充模型(filler),其中声母3状态,韵母5状态,每个状态16高斯。声学模型训练采用剑桥大学的HTK工具[16]。

本文采用机器分与人工分的相关度(Cross Correlation, CC)作为系统的评价指标,它反映了人机评分的一致程度。其中人工分为各专家打分的平均。当然,虽然相关度从0.5提升到0.6与从0.8提升到0.9都提升了0.1,但显然后者性能提升的改进远远大于前者。因此本文定义“相对提升”的概念,假设改进前、后的系统相关度为CCold与CCnew,则相对提升的计算方式如式(26)所示:

6.2 基于全概率空间的音素评分模型实验

本节实验中,式(1)的概率空间Mi为所有音素的集合*实际系统中,由于声韵母状态数目不一致,在计算上会有问题。因此声母的概率空间为所有声母集合;韵母概率空间为所有韵母集合。。本节考虑如下配置:

③ 如式(15)所示的自由sigmoid变换,采用梯度下降法优化,记为sig-GD;

实验结果如表1所示,评价指标为相关度,括号内为性能的相对提升幅度。

表1 基于全概率空间的音素评分模型性能

可见,采用音素评分模型,将音素后验概率变换至音素分,能大大提升评分性能,这也表明了直接采用传统的后验概率作为发音标准的度量存在着显著的缺陷。

非线性的sigmoid音素评分模型虽然在开发集集内较线性音素评分模型有着显著的优势,当结合线性回归算法优化参数γi,bi时,能进一步提升开发集集内的评分性能;但在测试集上,其性能提升不明显,反映了其鲁棒性不如线性函数。

另外,虽然sig-GD的评分性能好于linear,但其参数优化采用的高维梯度法优化收敛速度非常缓慢,且步长设置非常烦琐。在本文数据量上,大约需3~5天才能收敛;而线性音素评分模型的参数瞬间即可求得。

表2 基于KLD聚类概率空间的音素评分模型性能

表3 基于典型错误对的概率空间的音素评分模型性能

6.3 基于优化的概率空间的音素评分模型实验

本节实验中,式(1)的概率空间Mi为优化后的概率空间,即基于KLD聚类的概率空间和基于典型错误对的概率空间(2.2节)。由于sigmoid音素评分模型过耗时量大,且性能提升并不明显,因此本节仅比较线性音素评分模型的性能。

上述一系列实验表明本文所提出的音素评分模型在目前PSC较优后验概率算法配置下,仍能大大弥补后验概率和人工实际打分的不匹配情况,整体约有23.2%~27.5%相对提升。同时,对比表2、3与表1可以发现,同时采用音素评分模型和优化的概率空间能进一步提升系统性能,但提升幅度相比未采用音素评分模型会减少。

7 总结和展望

本文从理论上指出后验概率用于发音质量评价的不足,并提出了可训练的“音素评分模型”的思想,将音素评分特征从对数概率变换至分数域,使其与主观评测更符合,无论在全概率空间还是在优化的概率空间下,它们均能显著改善系统的评分性能。同时采用音素评分模型和“优化的概率空间”的技术能进一步提升系统的评分性能。

本文研究了线性和非线性sigmoid的音素评分模型并发现: 线性音素评分模型有显式解,能高效计算,且集外推广性好;非线性音素评分模型虽然在集内性能明显好于线性音素评分模型,但其集外推广性略差且计算复杂度大。

另外,后验概率的计算依赖于声学模型。而目前语音评分采用的声学模型均是针对语音识别进行优化和定制,未考虑评分员的评分准则。如何训练更符合评分任务的声学模型是本文下一步研究方向。

[1] 国家语言文字工作委员会普通话培训测试中心,普通话水平测试实施纲要[M].北京: 商务印书馆,2004.

[2] H.L Franco, L.Neumeyer, Y.Kim, O.Ronen. Automatic pronunciation scoring for language instruction[C]//ICASSP 1997: 1465-1468.

[3] L. Neumeyer, H. Franco, V. Digalakis, M.Weintraub. Automatic scoring of pronunciation quality[J]. Speech Communication 30, 2000: 83-93.

[4] C. Cucchiarini, F.D.Wet, H.Strik, L.Boves. Automatic evaluation of Dutch pronunciation by using speech recognition technology[J]. ICSLP. 1998,5: 1739-1742.

[5] S.M Witt. Use of speech recognition in computer assisted language learning[D]. Doctor’s dissertation of Cambridge, Nov. 1999.

[6] S.M Witt, S,J.Young. Phone-level pronunciation scoring and assessment for interactive language learning[J]. Speech Communication 30, 2000, 95-108.

[7] C. Cucchiarini, H. Strik, L Boves. Quantitative assessment of second language learners’ fluency by means of automatic speech recognition technology[J]. Acoustical Society of America, Feb. 2000, 989-999.

[8] 魏思,胡郁,王仁华. 普通话水平测试电子化系统[J].中文信息学报,2006,21(4):92-96.

[9] 刘庆升,魏思,胡郁,等. 基于语言学知识的发音质量评价算法改进[J].中文信息学报,2007,21(4):92-96.

[10] Qingsheng Liu, Si Wei, et al. The application of phone weight in Putonghua pronunciation quality assessment[J]. ISCSLP 2006.

[11] SiWei, et al. Putonghua Proficiency Test and Evaluation [M]. Advances in Chinese Spoken Language Processing, Chapter 18: Springer Press, 2006.

[12] 张峰,黄超,戴礼荣. 普通话发音错误自动检测技术[J].中文信息学报,2010,24(2):110-115.

[13] 潘逸倩,魏思,王仁华. 基于韵律信息的连续语流调型评测研究[J].中文信息学报,2008,22(4):88-93.

[14] Peng Liu, Frank K. Soong. Kullback-Leibler Divergence between Two Hidden Markov Models[R]. Microsoft Research Asia, Speech Group, 2002.

[15] 王松桂,陈敏.线性统计模型[M]. 高等教育出版社,1999.

[16] S.Yong, D.Kershaw, J. Odell. The HTK book[M]. Microsoft Corporation, July, 2000.

猜你喜欢
音素后验发音
I’m a Little Teapot
新目标英语七年级(上)Starter Units 1-3 STEP BY STEP 随堂通
依托绘本课程,培养学生英语音素意识
基于对偶理论的椭圆变分不等式的后验误差分析(英)
小学英语课堂中音素意识与自然拼读整合训练的探索
贝叶斯统计中单参数后验分布的精确计算方法
❷不定冠词a与an
一种基于最大后验框架的聚类分析多基线干涉SAR高度重建算法
雷达学报(2017年6期)2017-03-26 07:53:04
Playing with h
Playing with /eI/