江苏 孙海林 尹巧萍
基于语音基音频率特征对人性别识别的研究
江苏孙海林尹巧萍
本文利用基音频率作为语音特征,研究了文本无关说话人性别判别的方法。根据所计算出的不同性别说话人的语音基音频率累积密度函数之间的差异,识别出文本无关说话人的性别,实验结果显示该方法能够有效地识别不同说话人的性别。
语音基音频率说话人性别识别
随着科学技术的飞速发展,通过对语音信号进行分析处理,进而提取语音特征参数来识别说话人身份已经成为可能。根据语音特征来识别说话人的身份,具有不会被遗失和忘记、无需记忆、不需接触、使用方便、系统设备成本低、能实现远距离识别等很多独特的优点,因此越来越受到人们的欢迎。
基音频率作为表征语音信号本质特征的参数,属于语音分析的范畴。语音识别率的高低依赖于对语音信号分析的准确性和精确性,因此研究基音频率在语音信号的处理应用中具有十分重要的作用。例如,在说话人性别识别领域,基音频率是性别识别极其重要的鉴别依据,它体现了说话人发浊音时声带的振动频率。一般而言,男性说话者的基音频率较低,大部分在50~200Hz之间;女性说话者和小孩的基音频率相对较高,主要分布在200~450Hz之间。因此,在说话人性别识别中,对基音频率进行准确而可靠地估计显得非常重要。
本文利用基音频率作为语音特征,研究了文本无关说话人性别判别的方法。说话人性别识别按照说话内容的类别,可以分为“文本相关”和“文本无关”两种。“文本相关”指说话人按照规定的文本内容发音或按提示内容发音;“文本无关”指无论说什么内容都可以对说话人性别进行识别。在某些领域,人们是不可能知道说话人的文本内容,如公安司法鉴别、说话人语音跟踪等,因此文本无关的说话人识别应用更为广泛、灵活,也更加受到人们的重视。
我们利用不同性别语音基音频率统计模型的差异对性别进行判别。为此,首先需要估算基音信号的概率密度函数。估算概率密度函数的基本公式为:
将(6)带入(1)式,可以得到:
(5)式就是利用正态窗进行对基音频率的概率密度函数进行Parzen窗法估算的公式。利用(5)式对于语音信号基音频率的概率密度进行估算,然后再对概率密度函数积分,得到不同性别的基音频率累积密度函数如图1所示。
图1 不同性别的基音累积密度函数
实验语音数据取自在实验室环境下,录取40个人(20男、20女)的语音,其中每人说15个不同的字词,每词说2遍共1200个语音。每个人的第一遍15个字词语音进行训练,获取每个人的模型参数。然后用另一遍15个字词进行测试。实验结果显示,输入的语音信号持续时间越长,识别的准确率越高。对于持续时间在20秒以上的长句子,识别的准确率高达98%;对于持续时间较短的短句子或者单个词语,准确率可以达到89%以上。
本文利用基音频率作为语音特征,研究了与文本无关说话人性别判别的方法。判别的基本流程一般分为三步:首先,对输入的语音信号进行处理;其次,提取所需基音频率特征参数;最后,将所提取的特征参数与已有的说话人识别模型进行比对,从而判别出说话人的性别。通过对40名实验者的性别判别实验,结果显示该方法能够有效地识别不同说话人的性别。
[1]赵力,语音信号处理.北京:机械工业出版社[M],2003:236-253.
[2]王冶平,情感语音信号特征分析与识别.东南大学博士论文[D],2005∶61-73.
[3]尹巧萍,赵力,利用语音基音统计特征的说话人性别判识的研究,声学技术[J],2007,26(4):206-208.
[4]R. W. Picard, Affective Computing . Cambridge∶ MIT Press, 1997.
(作者单位:泰州机电高等职业技术学校)