基于RFC模型的英语语调差异性研究

2016-09-13 07:25刘猛潘洋绪
电子设计工程 2016年3期
关键词:基音斜度基频

刘猛,潘洋绪

(河海大学 计算机与信息学院,江苏 南京 210098)

基于RFC模型的英语语调差异性研究

刘猛,潘洋绪

(河海大学 计算机与信息学院,江苏 南京210098)

本文主要对英语语调差异性进行研究,分析中国英语语者与英语母语者语调差异性。对实验数据语音文件利用已建立的实验包通过MATLAB软件提取基频,基于提取的基频生成基频曲线。对得出的基频曲线基于上升/下降/连接模型(RFC模型)[]在起始位置斜度,结束位置斜度,基音频率均值,频域范围,语速五个方面参数方面进行研究。分别对中国英语语者和英语母语者就上述五个参数进行分析。实验数据表明基于RFC模型的语调差异性研究可行,中国英语语者和英语母语者在分析的5个参数上都有明显的差异。

语调;MATLAB;基频;RFC模型

语调通常指的是语音语句基频的变化,基频承载了大量的语调信息。语调是目前语音分析,语音合成等领域都比较关注的重要课题。目前,现代英语语调研究大体可分为三大流派[2],偏重于语音层面的构形方法研究;偏重音位层面的音高音位方式研究;试图在音系和语音层面建立联系的自主音段-节奏方式研究。国外的英语语调习得研究主要是对不同母语学习者的语调的习得过程、语调特征和口语发声时定的描述性研究[3]。在语调模型研究方面,Fujisaki提出重音和短语以对数形式相加的语调模型[4]。国内对中国英语语者的语调研究起步于理论研究,主要通过对比分析英汉两种语言在语调上的差异,解释中国学习者这语调习得中存在的问题[5]。

也有研究学者通过实证研究,借助语音实验研究软件分析频谱语图来揭示中国英语语者的语调特征[6]。该类研究多是从语言学的角度去分析中国学习者的口语语调特征,缺乏对中国英语语者语调模式的概括。本文根据语音合成中用来描述语调的RFC模型 ,利用能够很好反映出中国英语语者和英语母语者的语调差异方面的特征参数。通过实验对比计算特征参数间的差异,得出结论。

1 总体设计

本文的目标是基于RFC模型分析中国英语语者和英语母语者语调的差异性。通过利用RFC模型原理建立基频语调模型分析参数差异性,从而得出语调的差异性大小是否明显。总体的流程图如图1所示。

图1 总体设计流程图Fig.1 The overall design flow chart

步骤一:实验数据集的得到,文中用 COOLEDIT软件录制语音文件,生成原始语音材料;步骤二:对得到的原始语音材料进行预处理,包括重采样改变文件的格式,采样率等便于后面利用软件包提取基频;步骤三:利用实验室前期建立的实验包以及MATLAB软件提取基,生成基频曲线;步骤四:对得到的基频曲线通过分析起始位置斜度、结束位置斜度、基音频率均值,基音频率范围、语速5个参数,得出中国英语学习者和英语母语者语调在这5个参数上的差异性。

2 基于RFC模型的参数分析

s为一句语音的单词数,采样频率fs=16 000,t1和t4分别为起始位置采样点数和结束位置采样点数。由于采样率fs为16 000 Hz,即每秒有16 000个采样点,因此在计算时乘以采样率得到语速单位为单词数/秒。

起始位置斜度,用δ1表示,定义为

大部分的语调信息主要隐含在基频中,因此分析基频中可以很好的得到语调的差异。Cruttenden研究中指出起始位置和结束位置的上升或下降是反映不同的口音类型语调的一个重要指标[7]。上升/下降/连接模型是用来描述在音调轮廓的差异。通过提取的基频生成基频曲线,利用RFC模型原理建立基频语调模型[8-9]。本文就是通过此模型分析起始位置斜度、结束位置斜度,基音频率范围,基音频率均值,语速五个参数分析差异性。图2是一个反映语调的基频曲线图模型,其中实黑线是基频曲线。横坐标是采样点数,用表示,纵坐标是频率,用表示。

这里对需要分析的5个参数进行定义:

语速,用表示,则语速定义为

即从起始采样点处到基频曲线第一个上升段和下降段结合点处的相对斜度,可直观的显示出语音语句开始时的起伏程度。

结束位置斜度,用δ2表示,定义为

即基频曲线最后一段曲线的起伏程度,基频曲线最后采样点处到最后一段曲线下降时最高点处的相对斜度,可直观的显示出语音语句结束时语调。

基音频率均值,用fθ表示,定义为

即基音频率均值是所有采样点出频率的均值。

基音频率范围,用λ表示,定义为

即基音频率范围是基频曲线中最大值与最小值的差值,反映出说话人音域范围的宽窄度。

3 实 验

3.1实验数据集

来自WSJCAM0数据库和英国学术口语语料库BASE的包含多种句型的语篇。随机找寻中国英语学习者和英语母语者(男女比例大致相当)在噪音小的环境下朗读语料,利用COOLEDIT进行录音,采样率为16 kHz,格式为PCM的语音。对录制的语音材料进行处理,利用COOLEDIT将每个录音中的每个语句切分出来,形成实验数据集,分别包含108句中国英语语者句子(男性、女性各54句)和80句英语母语者句子(男性、女性各40句)。

图2 反映语调的基频曲线图模型Fig.2 Reflect the intonation of the fundamental frequency graph model

3.2提取基频曲线

对语句进行处理得到基频曲线,包括以下实验步骤:

1)对得到的语音语句用COOLEDIT软件进行转化格式,转为格式为采样率为每秒16000,单声道的WAV格式。转化后的格式便于语音在MATLAB中进行进一步的处理。利用实验室前期建立的实验包对WAV格式语音文件进一步处理,生成pmk格式文件,文件中是初步提取的基频信息。

2)对生成pmk文件在MATLAB中打开,方式示例为fid= fopen(‘语音2.pmk’,‘r’);output=fread(fid,inf,‘uint16’);fclose(fid)。这里output是矩阵,矩阵中数值为每个采样点是频率值。由于提取时会出现提取的频率值是基频的一半(半频)或是基频的二倍(倍频)的错误,需进一步对半频和倍频处进行处理,设定一个阀值(本文中设定阀值为基频频率均值),将频率值中小于的值乘以2β,大于的值除以2β,消除半频和倍频。然后对其分别进行一次5点中值平滑和7点中值平滑消除奇点和部分未处理到半频以及倍频。再经过修正,去掉没有基频地方的频率值,将得到的离散的采样点值利用插值函数生成基频曲线。利用MATLAB中软件处理的语音波形及提取的基频曲线如图3所示。图3中最上面部分是原始语音波形图;中间图是没有经过半频、倍频处理以及中间平滑处理的各离散采样点处的频率值;下面图是经过平滑处理和半频、倍频处理后,将各离散采样点处的值经过插值处理后生成的基频曲线图。

3.3实验参数分析

对提取的基频曲线用本论文上面描述的反映语调的基频曲线图模型的参数分析进行处理,分别就语速,起始位置斜度,结束位置斜度,基音频率均值,频域范围五方面进行分析。这里在分析时,对男性和女性分开进行分析处理。我们将中国男性语者、中国女性语者、英语母语男性语者、英语母语女性语者的语速按照柱状图进行统计。图4、5、6、7分别为中国女性语者语速分布图、中国男性的语速分布图、英语母语者男性语速分布图以及英语母语者女性语速分布图,可以看出均呈现高斯分布。从而语速的均值能够很好的体现中国英语语者和英语母语者整体语速的特征。因此计算语速的均值和方差。表1数据为中国英语语者和英语母语者语速均值和方差。

图3 原始语音波形、离散采样的频率值以及经过处理后生成的基频曲线Fig.3 The original voice waveform,frequency value of discrete sampling points and processed pitch contour

图4 中国男性语者语速分布Fig.4 Chinese male speaker Speed Distribution

图5 中国女性语者语速分布Fig.5 Chinese female speaker Speed Distribution

对比来看,英语母语者男性语速高于中国英语者男性达到27.52%,英语母语者女性语速高于中国英语者女性达到42.37%。两者存在着明显的差异,从中可看出外教的语速明显高于中国学习者的语速。对另外4个参数按照语速分析的方法进行分析,得出均值和方差,如表2和表3所示。

从表格中数据均值的对比来看,可以看出中国英语者男

图6 英语母语者男性语速分布Fig.6 Speed distribution of male native English speakers

图7 英语母语者女性语速分布Fig.7 Speed distribution of female native English speakers

表1 中国英语语者和英语母语者语速的均值和方差Tab.1 The mean and variance of Chinese English speaker speed and English native speakers speed

表2 音域频率范围和基音频率均值的均值和方差Tab.2 The mean and variance of Frequency range and the pitch frequency mean

表3 起始位置斜度和结束位置斜度的均值和方差Tab.3 The mean and variance of start position and end position slope

性和中国英语者女性的音域频率范围比相对应的英语母语者男性和英语母语者女性要高,其中中国英语者男性音域范围均值比英语母语者男性高出53.82%,中国英语者女性音域范围均值比英语母语者女性高出10.81%。中国英语者男性和中国英语者女性的基音频率均值比相对应的英语母语者男性和英语母语者女性要高,其中中国英语者男性基音频率均值比英语母语者男性高出18.45%,中国英语者女性基音频率均值比英语母语者女性高出8.62%。

对比起始位置斜率,中国英语者男性和中国英语者女性比相对应的英语母语者男性和英语母语者女性要高,其中中国英语者男性起始位置斜度均值比英语母语者男性高出41.13%,中国英语者女性起始位置斜度均值比英语母语者女性高出19.67%。对比结束位置斜度,中国英语者男性结束位置斜度均值比英语母语者男性高出58.24%,中国英语者女性结束位置斜率均值比英语母语者女性高出36.87%。

4 结 论

基于RFC模型的语调差异性研究为语音识别,说话人识别等方面研究提供了语调方面的理论方法。本文正是基于该模型的分析,研究了中国英语语者和英语母语者语调的差异性。通过实验分析了起始位置斜度,结束位置斜度,基音频率均值,基音频域范围,语速五个参数。可以看出中国英语语者与英语母语者在这五个参数方面都有明显的差异。相对于英语母语者,中国英语语者的语速相对较慢,基音频率均值相对较大,同时频率范围也相对较大。在起始位置斜度和结束位置斜度上,中国英语语者相对于英语母语者都相对较大,即语句开始和结束时的起伏度大。

[1]Paul Taylor.The rise/fall/connection model of intonation[J]. Speech Communication,1994,15(94):169-186.

[2]Ladd D R.Intonational Phonology[M].Cambridge University Press,1996.

[3]Wenk B J.Speech Rhythms in Second Language Acquisition [J].Language and Speech,1985(2):157-175.

[4]Fujisaki H,Wang C,Ohno S,et al.Analysis and synthesis of fundamental frequency contours of Standard Chinese using the commend-response model[J].Speech Communication,2005,47(1/2):59-70.

[5]陈桦.中国学生英语语调模式研究[M].上海:上海外语教育出版社,2008.

[6]Setter J.Speech rhythm in world Englishes:The case of Hong Kong[J].TESOL Quarterly,2006,(4):763-782.

[7]Cruttenden A.Intonation[M].Cambridge University Press,1997.

[8]Yan Q,Vaseghi S.Modeling and synthesis of English regional accents with pitch and duration correlates[J]. Computer Speech and Language,2010,24:711-725.

[9]Yan Q,Vaseghi S,Rentzos D,et al.Analysis of acoustic correlates of British,Australian and American accents[J].Proc. IEEE Automatic Speech Recognition and Understanding Workshop,2003,3(39):345-350.

Study of English intonation difference based on RFC model

LIU Meng,PAN Yang-xu
(College of Computer and Information of HoHai University,Nanjing 210098,China)

The paper mainly researches on English intonation difference and analyzes the difference between English speakers in China and English-as-mothertongue speakers.Pitch is extracted from the experimental data in speech file on MATLAB and then pitch curve is generated based on the extracted pitch.Besides,the pitch curve is discussed based on raising/falling/ connection(RFC model)from five parameters as starting slope,ending slope,average pitch,pitch range and speech speed. Also,the above mentioned parameters are analyzed for English speakers in China and English-as-mothertongue speakers. Experimental data show that the study of English intonation difference based on RFC model is feasible and there is great difference between English speakers in China and English-as-mothertongue speakers in the above parameters.

intonation;MATLAB;pitch;RFC model

TN912.3

A

1674-6236(2016)03-0152-04

2015-05-19稿件编号:201505163

刘 猛(1990—),男,安徽合肥人,硕士。研究方向:信号与信息处理、语音处理与识别。

猜你喜欢
基音斜度基频
语音同一认定中音段长度对基频分析的影响
基于时域的基频感知语音分离方法∗
川西海相超深大斜度井井身结构优化及钻井配套技术
桥面铺装层对中小跨径桥梁基频影响分析
基于多分类支持向量机和主体延伸法的基音检测算法
大斜度井偏心双管高压分注工艺技术
基于基音跟踪的语音增强研究
大庆油田大斜度定向井录井油气显示识别方法
45000kHz基频晶体滤波器
大斜度井中套管磨损机理研究