郑 莹,陈 明
(宜春学院,江西 宜春 336000)
自然语言处理是一种技术,通过自然语言在计算机领域实现通讯,研究利用计算机通过计算理解和生成自然语言,亦称为计算语言学。姚天顺等(1995)认为自然语言处理通常包含三个主要过程:首先,将自然语言处理的对象在语言学上形式化,通过某种规整而严密的数学形式表现;其次,将严密且规整的数学形式称为算法,并在计算上形式化算法;最后,依照算法编写计算机程序,并将程序在计算机上加以实现。
计算机上的自然语言理解包括自然语言的口语理解(如语音识别)和自然语言的书面语理解(如机器翻译)。本文的研究对象主要指向自然语言中的口语理解部分。
首先,语音以语言的物质外壳形式存在,语音也是承载人类思维和信息的物质载体。因此,语音作为一种声音形式具有物理属性。经过形式化的语音,可以存储、压缩、传输和再生人类的思维和信息,进而最大限度地拓展人类思维和信息传播的时间范围与空间范围。其次,语音也具有生理属性,是人脑控制发音器官共同作用的产物,也是人类感知外界信息的主要来源。再者,语言具有社会性,而作为语言要素之一的语音,其社会性主要体现为社会对语音各种功能的既定性。
实际上,语音的物理、生理和社会属性彼此相互联系。因此,从多角度对语音现象展开分析对语音的形式化研究具有指导意义。
自然语言处理中的语音形式化需要经历模拟和数字两个阶段(胡航,2005)。模拟语音信号会连续对声音变化态势实施取值;数字化语音信号所实施的取值具有离散性。数字化语音信号的离散特性较模拟语音信号更加便于分析和演算、可靠性高和保密性强。
依据语音学理论,语音被分解为若干单位,其中最大单位是音句,而自小单位为音素。在自然语言理解过程中,为了便于语音形式化,音素又被进一步分解成具有区别性特征的更小单位。因为人类的自然语音具有连续性,因此,自然语言理解中的语音分解被归属为离散化分析,要求将连续语音分解为各种离散的具有区别性特征的序列,用“0”和“1”组成的二进制序列表示语音信号。对连续语音的进一步分解,为语音数字化的不断发展奠定良好基础。
分析处理语音信息之前,应对语音信号实施编码。1937年提出的脉冲编码调制 (PCM) 经过一系列的传承与发展,依据对语音进行采样、量化、编码的基本原理和过程,在语音编码方案中PCM一直占据主要位置(胡航,2005)。
1.采样阶段
自然语音信号首先由话筒接收,然后被转为模拟的电信号,以连续变化的电压波动形式呈现。随后,这些电压波动被切割成时间片段,在时间轴上被离散化。至此,电压波动转变为数字信号。采样是针对离散化后时间片段内的电压值。
如图1,选取时间轴上等时长的八个采样点,这些采样点均以不同的电压值呈现自然语音信号,他们构成了一个脉冲序列为0,0.11,0.21,0.20,0.09,-0.05,-0.19,-0.25。这些采样电压值呈现出电波振幅的变化轨迹。
图1 语音信号采样示意图
值得一提的是采样频率并非随意选择,Nyquist采样定理认为当采样频率是信号频率的两倍或两倍以上时,原语音信息才不被失真(韩纪庆等, 2007)。
2.量化阶段
经采样离散化后的语音信息的电压值(振幅)仍具有连续性。量化的目的就是分级处理采样数据,将采样数据逐一归入有限的数字栅格,从而离散化波形幅度值。本文采用宽度为0.06的七个栅格分级处理上文选取的八个采样值。
如图2所示,采样值被置于不同的区间,区间从-3到+3被逐一标号,八个采样值分别对应区间上的数值0,2,3,3,1,0,-2,-3 。任意采样值在(-0.22,0.22)区间内均能被离散化为七个量化值之一,进而有效的实现了有限量化值。
图2 采样值量化示意图
但是,量化值与采样值之间存在误差,被称为量化误差。密度均匀和平稳是量化误差的主要特征。该特征对语音信号的影响主要表现为响亮的“嘶嘶”声。实际上,量化误差与量化分级之间有着紧密的关系,量化分级越细化,量化的数值就越精确,语音信号的噪声就越小。
3.编码阶段
基于前两个阶段的语音信息处理,语音信号在时间和振幅上均被离散为数字信号,真正实现语音的传输、存储和分析,仍需完成编码阶段的任务。
由电路的物理特性决定,制造与运转现代电子设备主要依据二进制。因此,电子设备的工作模式通常是二进制的。编码过程的实质就是多进制数据向二进制数据的转化。
用三位二进制数对在时间和振幅上均被离散的数字信号进行编码,得出二进制序列和码表(电压数值与二进制数值的对应表)。依据查表步骤,脉冲信号与二进制数据之间可以互相转换。该表的制定也要遵循就近原则,即要求二进制码在相邻的量化区间内只允许1位不相同;目的在于,一旦传输过程发生故障,不会影响信号整体。
在该阶段,一系列的二进制序列被得到,语音数字化基本得以实现。二进制序列作为单纯的语音转换数据,不包括量化位数、采样频率和其他数据结构的信息,但能够辅助存储语音产出者语音样本片段的主要信息。
语音识别的最终目的是让机器能够像人一样能够接受、理解和分析收到的语音信息,它是实现人机对话不可或缺的环节。语音识别的基本过程包括预处理阶段、声学特征提取阶段、距离测度计算阶段和判断阶段。
预处理主要处理原始连续语音,移除原始连续语音中的多余片段,并实现部分去噪和检测个体发音差异。经过预处理阶段,自然语音信号更能反映语音信号的本质特征。特征提取阶段主要针对频谱特性、共振峰、LPC线性预测系数以及某些超音段特征等常见声学特征。特征提取阶段可以是单个特征提取,也可以涉及两个或两个以上的特征提取。经过特征提取阶段,最具区别性的语音信号特征将被保留。距离测度计算阶段,包括板仓一斋藤测度、欧式距离测度、主观感知测度等,主要对比输入语音信号中的特征值与参考模式库中样本值之间的相似度,为下一步处理提供充足的参考数据。判断阶段,即依据前一阶段的数据结果实施判断,对应参考模式库中与输入声学特性对应匹配的语音单位。
在整个语音识别的过程中,每一个语音产出者都拥有自己独有的个体语音特征。为使语音识别系统中的参考模式库与语音产出者的输入声学特性能够最终匹配,通常在实验实施前,需要适当的提前训练语音产出者,要求其诵读一段文本。此后,语音产出者的个体语音特征就是语音识别系统比对出的个体语音样本和标准语音样本之间的差异结果。语音识别系统能够依照个体语音特征针对性地建立个性化参考模式库,也能够建立个性化语音矫正参数(吴义坚等,2006)。通过参考模式库的训练,能够有效提升语音识别的准确率,因此该库一般被用作高级语音识别系统的标准组成部分。
语音模式识别常用的计算方法是模版匹配法和概率统计法。模板匹配法的参考模式库主要记录离散化语音单位的特征参数,比对个体语音样本和标准语音样本,判断个体语音样本的归属,提取参数与选择距离测度是该方法的应用关键;该方法的优点是训练时间少,缺点是对系统运算速度要求 高且计算量大。后者的参考模式库主要记录数学模型,通过统计语音样本符合数学模型的概率实施语音识别和判断;该方法的优点是灵活、计算量小,反应速度快,充分利用语音频谱的相关性与动态变化。但是,实际语音识别系统的操作过程中,较多使用模板匹配法,因为大量的训练才能保证较高的识别准确率。
随着科技的不断发展和进步,各种不同的现代化信息处理方式不断涌现,其中,语音作为人类最重要的信息物质载体之一,必须顺应时代的发展和需要。因此,自然语言理解下对语音进行形式化的研究,能够充分利用各种有限的物质形式分析并重塑自然语音信号,拓展自然语音信号的适应性,使其满足各种现代应用领域的需要。
参考文献:
[1]胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2005.
[2]吴义坚,王仁华.基于HMM的可训练中文语音合成[J].中文信息学报,2006,(4).
[3]姚天顺等.自然语言理解:一种让机器懂得人类语言的研究[M].北京:清华大学出版社,1995.