赵 楠,武明虎,熊 炜,陈晶晶
(湖北工业大学 电气与电子工程学院,武汉 430068)
基于Android语音信号处理教学平台的设计
赵 楠,武明虎,熊 炜,陈晶晶
(湖北工业大学 电气与电子工程学院,武汉 430068)
以智能移动设备作为载体,具有语音信号的采集、语音分析和处理及图形显示等功能的基于Android的语音信号处理教学演示平台,不仅节约了教学成本,激发学生的学习兴趣,而且有助于学生对课程基本理论的理解以及分析问题和动手实践能力的提高。同时,该平台涉及到多个学科领域,能扩展到其他课程的教学实践中,为现代化教学改革提供新思路和手段。
语音信号处理;Android;移动教学平台;实践经验
语音信号处理(speech signal processing,SSP)是利用数字信号处理技术对语音信号进行分析和处理的一门学科,涉及数字信号处理、语音学、信息论、随机过程、模式识别等许多学科领域[1-3],是一门理论性强、实用广、难度大的交叉学科。该课程所涉及的知识理论性强,基本概念抽象,传统板书或简单的PPT教学方式很难让学生深入地理解和掌握其基本原理[4-6]。
近年来,随着无线移动技术的发展,移动学习充分利用可便携设备实现了跨越地域限制的学习方式,逐渐受到研究者的青睐[7-8]。而作为移动设备发展最为迅速的Android系统平台,其各种应用层出不穷,在高校中拥有庞大的用户群体。
湖北工业大学电气学院通信教研组经过多年探索和尝试,希望将Android系统与移动学习理念引入语音信号处理课堂教学中,开发了基于Android系统的语音信号处理移动辅助教学软件,以图形方式形象地展示语音信号的特点,从而丰富学生的感性认识,提高其学习主动性。同时,学生可随时随地在手边的Android移动设备上进行课程内容的演示和学习,既省时又便捷。这种灵活、多样、自主的学习方式,能够帮助学生建立对抽象的“信号”的认识,为相关理论的学习和研究打下基础。
Android系统是当今移动终端使用量最大的操作系统。本文利用其普及性、移动便捷、快速运算等特点,开发了基于Android系统的语音信号处理教学辅助平台(SSP educational platform by Hbut,SEPH)。用户只需在其移动终端上安装SEPH软件,借助无线移动通信技术,即可实现随时随地移动学习[9]。SEPH改变了现有的单一教学手段,将虚拟实验与课堂理论有机结合,能极大地激发学生的学习兴趣。其良好的移动性和交互性,在节约教学成本的同时,能有效地提高教学效果。
SEPH平台实现基本的语音分析和处理功能,包括时域分析、频谱分析、倒谱分析、线性预测编码技术(linear predictive coding,LPC)等。
基音周期是语音信号处理中的一个非常重要的参数,能够准确地检测出基音周期对语音信号的分析、合成、编码以及识别,具有重要的意义[1]。短时自相关函数法和倒谱分析法是基音周期估计较为常用的方法。本节基于SEPH系统,探讨在基音检测教学中如何利用语音分析技术对实际的语音信号进行分析与检测。
2.1 基于倒谱分析法的基音检测
语音信号的倒谱分析是估计语音生成模型的有效方法,通常用于语音编码、合成、识别等方面[2]。根据语音产生理论,语音信号s(n)由语音信号的声门激励信息e(n)通过声道h(n)产生,在频域,语音信号可表示为:于是,s(n)的对数幅度谱为:
借助傅里叶变换技术,lg|S(ω)|中与激励信息E(ω)相关的高频部分和与声道信息H(ω)相关的低频部分被有效地分离,从而获得声道共振峰的特性和基音周期。
清音帧没有周期性和强烈的峰起,而浊音帧存在明显的尖峰,其峰值的位置就是浊音基音周期的良好估值。同时,利用低时窗,将倒谱的低时部分的声道信息h(n)提取出来,能够获得该段语音信号的共振峰频率。因此,利用倒谱分析,不仅能进行清、浊音的判别,而且能够估计语音信号的共振峰频率和浊音的基音周期。语音的基音频率随着声音的变化情况,如图1所示。
图1 基音频率图(倒谱法)
2.2 基于短时自相关函数法的基音检测
对于语音信号x(n)来说,其短时自相关定义为:
式中,k为延迟点数。
图2 基音频率图(短时自相关函数法)
清音帧的短时自相关序列杂乱无章,类似于噪声,而浊音帧的短时自相关序列具有周期性。通过估计该自相关序列的周期,可以获得该浊音帧的基音周期。基音检测图如图2所示。可以直观地看出,在发声的整个过程中,浊音语音的基音频率随着声音的变化幅度波动很大,纵坐标值为零的语音段是清音语音。
同时,根据图1和图2的基音频率图,学生能清晰地理解这两种检测方法的原理和作用。自相关函数法算法简单直观,但准确率不高,容易产生倍基音;倒谱法能较好地检测出语音信号的基音周期,但计算量大。通过对比实验,将以前枯燥的语音特性分析与基音检测原理,变为直观的、形象的视觉效果,来展示不同类型语音信号和检测方法的特点,激发了学生的学习兴趣,有利于学生迅速理解相关知识。
在语音信号处理中,共振峰频率表征发音时声道特性的关键参数,在语音合成、语音识别等方面有着重要的应用价值。本节结合常见的倒谱法和LPC法,来说明在共振峰检测方面使用SEPH的优势。
3.1 基于倒谱法的共振峰检测
倒谱将基音谐波和声道的频谱包络分离,其低时部分可用于分析声道、声门等信息。利用低时窗提取倒谱信息,再进行DFT后的输出,即为平滑后的对数模函数。这一平滑对数谱表现出语音段的谐振结构,即谱的峰值基本上对应于共振峰的频率。因此,通过对平滑对数谱的峰值进行定位,可以有效地估计共振峰频率[10]。图3给出了前3个共振峰频率的轨迹图。
图3 共振峰轨迹图(倒谱法)
3.2 基于LPC法的共振峰检测
在语音信号处理技术中,LPC分析是一种谱估计的方法[11],一个语音的采样能够用过去若干个语音采样的线性组合来逼近,即:
式中,p为LPC阶数,ak为线性预测系数,e(n)为线性预测误差。
在最小均方误差意义上,通过线性预测得到的采样逼近实际语音采样,从而获得一组唯一的预测系数,即线性组合中的加权系数[12]。
对于p阶线性预测来说,有:
为了分析语音信号的频域特性,该LPC功率谱可表示为:
式中,G为模型增益。
用户通过手指在SEPH界面中选择某一语音帧(光标所在位置如图4(a)所示),其对应的LPC谱就会出现在演示界面的上半部分。通过这样灵活生动的用户体验,形象直观地展示语音特性,既调动了学生的积极性,又活跃了课堂气氛。
图4(a)显示了浊音帧及其相应的LPC谱,学生可直观看出语音的LPC特性以及峰值对应的共振峰频率。通过对预测多项式系数的分解,可以确定共振峰的中心频率和带宽[1]。给出浊音和清音共振峰频率随着声音的变化情况如图4(b)所示。
从图3和图4(b)的共振峰轨迹图中可以看出,倒谱法频谱曲线的波动较小,估计共振峰参数的效果较好,但计算量大;LPC法用一个全极点模型逼近语音谱,但较难匹配含有零点的语音,同时亦受LPC阶数p的影响。在教学过程中,可以引导学生根据不同方法的特点自主进行分析验证,通过灵活地更改参数设置,动态地让学生理解共振峰检测的基本原理,加深其对课程内容的理解和掌握。
图4 LPC法
语音信号处理知识理论性强、概念抽象。针对该课程教学特点,本文基于Android系统开发了一个移动教学演示平台,其良好的移动性和交互性、直观的图形展示、灵活的参数配置和丰富的语音分析及处理功能,不仅减少了相关教学平台的投入成本,而且极大激发了学生的自主学习、自主探究的兴趣,有效提高了学生分析问题和动手实践能力。该教学演示平台不但可应用于本科生和研究生相关教学实践,而且为后续研究奠定了较好的基础。
[1]胡航.语音信号处理(修订版)[M].黑龙江:哈尔滨工业大学出版社,2002.
[2]刘卫东,孟晓静,王艳.语音信号处理实验教学研究探索[J].实验室研究与探索,2008,27(4):72-74.
[3]赵力.语音信号处理[M].北京:机械工业出版社,2003.
[4]谢斌,蔡自兴.项目驱动式教学在语音信号处理课程改革中的尝试[J].计算机教育,2012(18):63-66.
[5]张雪英.数字语音处理及MATLAB仿真[M].北京:电子工业出版社,2010.
[6]杨毅,邓北星,马晓红.《语音信号处理》实验教学研究与实践[J].实验科学与技术,2012,10(6): 112-116.
[7]李云飞.移动学习系统及其相关学习模式[J].开放教育研究,2012,18(1):152-158.
[8]杨佳.M-Learning中的学习活动设计[J].软件导刊(教育技术),2011,10(1):89-91.
[9]薛建强.大学英语移动学习模式的构建与发展研究[J].实验技术与管理,2014,31(3):176-179.
[10]肖正安.基于MATLAB分析语音信号频域特征[J].湖北第二师范学院学报,2011,28(8):35-37.
[11]赵淑敏.基于MATLAB实现对语音信号频谱分析[J].江西通信科技,2010(4):15-17.
[12]盖正杰.基于矢量量化的说话人识别分析与研究[D].长春:长春理工大学,2009.
Design of Teaching Platform of Speech Signal Processing Based on Android
ZHAO Nan,WU Minghu,XIONG Wei,CHEN Jingjing
(School of Electrical&Electronic Engineering,Hubei University of Technology,Wuhan 430068,China)
An attractive Android-based mobile educational platform for teaching speech signal processing is presented in this paper.The proposed platform has the advantages of high portability,strong affordability,adequate interactivity,and easy adoptability with high-hierarchy graphic user interface and extensive hands-on experiences.The experimental results show that this platform can significantly cultivate students’learning interest,improve their practical ability,and consolidate theoretical concepts.The platform is also appropriate for the signal-processing related courses,which can provide new ideas and means for the construction of modern teaching reform.
speech signal processing;Android;mobile teaching platform;practice experience
TN911.7
A
10.3969/j.issn.1672-4550.2016.05.017
2015-01-11;修改日期:2015-03-11
湖北工业大学教学研究项目(校2015014)。
赵 楠(1983-),女,博士,讲师,主要从事语音信号处理、通信信号处理方面的研究。