基于改进的FastICA盲源分离算法的多人语音评测系统实现

2020-02-04 02:03孟繁平

电子技术与软件工程 2020年20期

孟繁平

（长春金融高等专科学校吉林省长春市 130028）

1 引言

随着科技的进步和公众的需求，近几年来越来越多的科研技术人员开始涉及人工智能方面的研究，旨在使人类的生活越来越智能化。通过智能分析技术可以使得课堂教学更加智能化和个性化。智慧课堂主要是通过利用信息技术来构建智能、高效和个性化的课堂全过程。国内的不同学者对于智慧课堂都有各自不同角度的理解。学者唐烨伟等认为智慧课堂是在信息技术的加持下将智慧教育融入到课堂中构建智能、高效和个性化的新型课堂。学者庞敬文等认为智慧应该以学生为导向，利用创新技术构建愉快的数值化教学新模式，让学生能够发挥特长，有智慧的学习。学者孙曙辉等认为智慧课堂应该以学习为导向，运用新一代科学技术来构建智能高效的全过程教学课堂。

目前国内针对智慧课堂教学进行深入研究和探讨依然在理论层面，实际应用研究尚浅，针对语音评测的研究目前国内主要研究的公司包括科大讯飞、有道、云知声和驰声科技等，主要是针对单个发音者进行语音评测，无法针对课堂教学场景中的多人发音进行语音评测。本文设计的基于FastICA 盲源分离的改进算法的口语教学多人语音评测系统，可以为课堂师生提供一种高效的教与学模式。

2 相关工作

盲源分离技术来自Colin Cherry 在1953年提出的鸡尾酒会问题的语音分离技术，主要目的是分离在同一房间里同时说话的多人发音。

目前，许多盲源分离算法被提了出来。源信号的混合方式可以将盲源分离算法分为线性和非线性两种。从源信号与观察信号数量关系上可以将现有的盲源分离算法分为超定（观察信号数量大于或等于源信号数量的情形）和欠定（观察信号数量小于源信号数量的情形）两种情况，针对超定场景中的主要算法包括独立成份分析(ICA)方法，非负独立成份分析(Nonnegative ICA)方法，最大信息熵(Infomax)方法，针对欠定场景中的主要算法包括稀疏成份分析的方法，基于信号时间-频率(TF)分布特性的方法，基于特征函数的方法，基于贝叶斯估计和MCMC(Markov Chain Monte Carlo)采样的方法以及基于空间几何和聚类分析的方法等，针对欠定场景中的盲源分离是当前研究的热点。

目前针对声纹识别主要分为说话人辨别和说话人确认，针对说话的的内容可以分为文本无关和文本相关两部分，说话人无关只能识别出说话的人身份与说话人所说的内容无关，而文本相关既可以识别出说话人的身份同时可以识别出说话的内容。目前采用比较多的声纹识别算法是GMM 模型。

图1：标准语音信号

图2：标准语音信号

随着语音识别技术的发展，发音自动语音评测已经成为计算机辅助语言学习系统的研究热点，计算机辅助语言学习系统起源于20世纪60年代，最著名的代表是PLATO 系统，主要采用的方法是通过矢量量化和动态时间对齐来计算标准发音和测试者发音之间的差异程度，并以此差异程度评测发音标准程度。到了20世纪80年代末，Rabiner 等研究者提出了隐马尔科夫模型，可以针对连续语音的发音进行评测。20世纪90年代后期到21世纪初，代表性的如美国斯坦福研究中心语音技术研究组的VITL 系统，以及英国剑桥大学人工智能实验室语音组和麻省理工学院人工智能实验室联合研制的SCILL 系统。

3 系统框架

本文设计了基于改进的FastICA盲源分离算法的多人语音评测系统，将盲源分离与声纹识别技术相结合，打造一款智慧课堂口语教学系统，为口语教学提供了新的智慧教学模式。在该模式下，当老师读完一个单词或句子后，该系统记录下老师的语音信号作为标准发音，学生们跟读后，系统再次记录下几十个学生的语音混合信号，并通过蓝牙传入PC 客户端，客户端利用盲源分离技术将每个学生的语音信号分离出来，然后再利用声纹识别技术匹配出说话人，每个说话人的语音信号都与老师的标准发音作对比，进行发音评测，根据匹配程度进行打分。

3.1 基于GMM的声纹识别算法仿真实现

本系统采用基于高斯混合模型（Gaussian Mixture Model，GMM）的声纹识别算法，在训练过程中，通过提取到每个说话人的语音特征参数，这里考虑提取梅尔频率倒谱系数（MFCC），通过对每个说话人的语音的MFCC 特征参数进行估计建立说话人模型，在识别过程中，可以对比测试语音的MFCC 特征参数与建立好的MFCC 特征参数模型之间的相似度，进而可以确定具体的说话人。本仿真实现考虑从特征参数的维数和GMM 的混合数探究声纹识别性能。实验中的训练和测试样本信号，共13 个说话人，即13 类。不同特征参数维数下的识别结果，不同GMM 混合数的识别结果。当特征参数的维数从0 到18 增加的时候，语音的识别率是提高，但是当特征参数的维数增加到18 以后的时候，识别率提高的幅度并不大。表明了通过增加有效可靠的特征参数可以提高声纹识别系统的识别率。随着GMM 的混合数增加，识别率呈现先增大后减小的趋势。GMM 的混合数对语音识别系统的性能影响较大，通过选择合适的混合数，可以提高声纹识别系统的识别率，同时还能减少训练和识别两个阶段的计算量

3.2 FastICA盲源分离算法改进及仿真实现

FastICA 算法是由芬兰学者Hyvarinen 在1999年提出的批处理的顺序提取算法，算法根据非高斯性的度量不同，常用基于负熵的方法，负熵的计算如公式（1）所示。

FastICA 算法的性能和算法的稳定性主要依赖初始矢量W0的选择。因此我们采用K-means 聚类算法设置W0的方法对原方法进行改进，称为KM-FastICA 算法。

K-means 聚类算法是在基于属性和特征在若干组中进行分类或分组，通过计算每个数据与相应的聚类中心的距离进行迭代更新实现的，给定一组观测值K-means 聚类算法目的是把N 个观测值分到K 个类中关于最小化函数的计算公式如公式（2）所示：

这里的μi是Si类的均值矢量，i=1,2,...K。

K-means 聚类算法输出的是均值矢量μ1,μ2,...,μk。μi(i=1,2,...K)是聚类中心并且代表对应类的特征。因此，选择在μi(i=1,2,...K)中选择初始矢量W0，这样的选择可以使算法具有较好的鲁棒性和收敛性。

3.3 基于DTW的发音评测算法仿真实现

基于改进的FastICA盲源分离算法的多人语音评测系统实现采用最为成熟的基于特征比较的评测方法。通过训练得到标准发音的模板，通过将待测语音与标准语音模板进行相似度度量，将距离值带入评分映射公式中能够计算出最后的得分，得分越高，发音与模板相似度就越高。

本系统的发音评测中的特征提取采用Mel 频率倒谱系数（MFCC），其原因之一是MFCC 特征考虑了人耳的听觉特性，具有良好的识别特性和抗噪特性，较好地体现了语音的内容，其二是本系统在声纹识别时已经计算了各分离语音信号的MFCC，可以直接用于发音评测的距离计算。

当得到了待测语音信号和标准语音模板的特征向量后，就需要用到特征比较方法来计算出两个特征向量的距离。采用了DTW（Dynamic Time Warping）计算语音之间的相似度。DTW 是基于动态规划的思想设计的一种将时间规整和距离测度结合起来的算法，如果参考模板为测试数据记为那么DTW 的主要目的便是在由T、R构成的平面上找出一条最佳的对应路径使得测试数据与参考模板间的距离D 最小，其中，。

本实验使用的语音是在手机录音APP 进行采集的，本试验为12 名来自不同地区的学生，说话汉语内容为一首唐诗——“白日依山尽，黄河入海流，欲穷千里目，更上一层楼”，各录制一遍。选择其中一个学生的语音作为标准语音，剩下12 个学生的语音与之对发音评测对比。标准语音信号如图1所示，12 个学生的发音评测得分直方图如图2所示。从图中可以看出来盲源分离和语音评测准确率都在96%以上，通过该口语教学系统，能让老师及时掌握每一位学生的口语发音情况，提高教学效率，增加课堂互动性与积极性。

4 结束语

本文设计了基于改进的FastICA盲源分离算法的多人语音评测系统，通过把本系统应用于口语课堂教学，可以将几十个学生的混合跟读语音分离处理，并分别与老师的标准语音做自动发音评测，且能及时地进行信息交互，将学生的发音情况清晰快捷地展示给老师。每个说话人的语音信号都与老师的标准发音作对比，进行发音评测，根据匹配程度进行打分，盲源分离和语音评测准确率都在96%以上，通过该口语教学系统，能让老师及时掌握每一位学生的口语发音情况，提高教学效率，增加课堂互动性与积极性。

该智慧课堂口语教学系统由硬件系统和PC 客户端组成。硬件系统分为语音采集模块、语音传输模块和片上MCU。PC 客户端负责盲源分离、声纹识别和发音评测等核心算法本系统的盲源分离、声纹识别和发音评测三个核心算法分别采用的是改进的FastICA、GMM 和DTW。从测试结果可以看出，该系统的盲源分离、声纹识别和发音评测算法性能满足系统要求，在未来，课堂教学模式必将越来越个性化、智能化、数字化。而随着传感器技术能够越来越快速的获取语音信号，且各种智能算法的性能能够越来越强大，相信随着技术的发展和需求的进步，未来的设计必将更加智能和完善。