范永超,韩佳南
(1.武汉烽火信息集成技术有限公司,湖北 武汉 430000;2.烽火通信科技股份有限公司,湖北 武汉 430073)
本文所涉及的语音识别技术是一种对声音信息进行匹配和辨别的技术,同时也是利用生物识别技术对声音信号进行分析的技术。从个体器官的角度进行分析,发生控制器在声带、口腔、舌头、嘴唇、软腭、咽腔、肺容、鼻腔、牙齿等影响下,其发音频率以及音色、音高等也有所不同,以此来实现一种具有独特形式的个体语音特色。一般均是由90多种不同特征组成了这些要素,使其对频率、节奏、波长、强度等都有着充分的表现。在世界上没有完全相同的两种声音,仔细观察可以发现,每种声纹都有其不同的特点,因此,在语音识别技术中,最为重要的就是需要对这些微小的差异进行识别和辨析。
语音识别技术已经广泛地应用在我国各项生产生活之中,它是继指纹识别和DNA识别技术之后应用最为广泛的生物识别技术之一。针对目前的实际应用情况进行分析,我国科研机构在进行语音检索中,已经在十亿级库容中实现了对“1:N”级别的检索,一些关键性的词语识别准确率已经达到了95%以上。从应用的角度来看,语音是人体的一项基本生理功能,而且具有鲜明的特异性,在语音识别技术中,需要对不同生物体的语音进行采集与识别,同时开展数据库的建模工作,在获取较大的样本之后,才能把全样本的语音集合与个体的语音进行比对和分析,实现快速确定身份的效果。
从唯一以及不可复制性方面进行分析,与人体的其他生物特征相比,语音具有十分相似的特征,但世界上的任何两个个体之间,不可能出现相同语音。如图1所示,从个体中提取相关的语音信号,采用建模和数字化的方式对其进行分析,应用自动化方式对全样本语音集合以及个体语音机械能对比,并以此实现对身份信息的识别,这一过程就是语音识别。
图1 语音识别系统的四个模块
(1)预处理模块。对语音进行识别的第一步就是针对所采集到的语音信号进行转变,使其由模拟语音信号变为数字语音信号。同时在预处理模块中,最为重要的一项功能就是对语音信号进行采集和A/D(模/数)转换,可以看出,波形编辑处理功能以及(D/A转换)回放功能等都属于语音识别系统处理模块的功能。
(2)参数分析模块。为了对个体的发音特征进行准确反应,语音参数的提取是最为重要的一个方面。在对个体语音辨识率的有效性进行辨识的基础上,需要对不同的语音参数进行对比和分析,并将音调曲线、偏相关以及音长参数应用在参数分析模块的TDSI系统中,将其看作个体语音参数,从个体语音的角度进行分析,将正交线性预测参数以及长时间平均频谱应用到参数分析模块的TISI系统中所形成的特征就是特征参数。
(3)训练模块。为了有效建立相关的训练模块,应对语音参数进行提取,并将其作为一个单独的个体进行建立。受到测试语音以及训练语音时间长度差异的影响,在训练模块的TDSI系统中,本文将线性压括技术应用到其中,并对训练语音进行相应的调整,使其可以达到15帧(0.02秒/帧);并将长时间平均技术应用到TISI训练模块系统中,确保其训练语音可以达到1帧(0.02秒/帧)。
(4)识别模块。对比模板库中语音模板和被测试语音的区别,并将模板匹配技术应用其中,在与测试语音相同的个体进行锁定的过程中,应依据“最佳邻近准则”[1]。在本文中主要是将参数加权欧氏距离聚类法应用在语音识别系统模块中,并对被测语音和模板语音中的距离进行计算,将多阶段识别策略应用在TISI识别模块系统中,并在库中进行优先识别,对相似度较高的个体语音进行选择,并对这些个体进行细致的识别,将相似度最高的语音筛选出来。
在目前对人工智能进行研究的过程中,最为重要且最为先进的一项技术就是人工神经网络技术,但在目前的实际应用中,为了真正实现人工智能,神经网络以及深度学习还需要进一步优化。在对人工智能的真实语音进行识别的过程中,还有许多的问题需要解决。比如,在对神经网络进行构建的过程中,所需备份的数据不仅较大,而且在机器人学习中的学习方式也有一定的区别;在对特定的事物进行学习的过程中,对人类来说仅仅需要几个简单的例子就可以很好地掌握,但对于机器人来说,为了可以充分掌握相关知识,需要运用大量的例子;在对信息进行语音识别的过程中,受到大数据和云计算中局限性的影响,往往由于语音识别算法能力较低,进一步影响到智能机器人的正常运行。现如今,华为移动机器人、百度助手、阿里智能机器人等在各大企业中实现了广泛的应用,所有的一切智能操作都与人工智能密切相关,同时在人工智能机器人中应用语音识别技术也最为重要的一个方面,因此,要更好地达到人机交互的效果,就必须克服技术的局限性。
针对人类语言进行识别,并在实际执行的过程中创造出一定的交互量,这一目的就是所谓的人工智能,在此基础上,必须要按照相关的原则和要求对语音识别系统进行整体设计[2]。针对人工智能技术进行分析,人工智能在语音识别方面还存在一些问题,在对人工智能机器人进行音频信号的处理过程产生影响的同时,还会在很大程度上影响到人机交互体验,并出现算法混乱的情况。一方面,要将语音指令检测以及预处理运用在语音控制终端中,并具备相应的转换工具,以便可以更好分析所输入的语音算法,并对其语言进行转化,使得机器人也可以很好地理解;另一方面,必须将一个主要的语音控制系统运用到机器人控制中,对输入声音的交互性能有充足的了解,主要是分析和设计其中较为高效的算法。因此,算法分析和设计是语音识别的首要任务,需要选择编译语言,设计适合机器人实际性能的算法。
(1)采用语音频谱技术进行提取。语音频谱技术主要是以生物体的基础性发声器官如气管、声道以及鼻腔等为主,利用人体的基础发声器来提取相关的参数,然后将提取到的参数进行分类,在语音比对的过程中,可以通过这些参数来找到发声人体的特殊生理结构,从而快速定位发声人。
(2)线性预测提取。在语音识别系统中,提取到的语音样本是属于“过去”的声音,而需要匹配的是“当前”的语音内容。
(3)小波特征提取分析[3]。该提取方式主要是利用小波技术来完成的,小波技术的优势就是能够接受分辨率的改变,但是该技术在应用的过程中要求语音参数实现稳定性的交叉,同时还具有能够和时频域兼容的表征,在当前的应用过程中,小波技术已经相当成熟,而且与人工智能技术的结合也日益紧密。
完成特征提取后,需要进行下一步的深度分析,完成精确的匹配过程。模式匹配识别从本质上来说是一种比对化的操作过程,对比分析没有识别的语音特征参数以及数据库中的语音特征参数,并从其相似度方面按照由高到低的方法将最终的对比结果呈现出来,并用表格或是树状图将相似度的距离显现出来,在识别的过程中需要限定一个相似度距离的值。在目前的具体应用中,模式匹配识别有两种模型。
(1)矢量化模型。在实际应用该模型的过程中,第一步是要实现对语音参数的矢量化,并将矢量化处理的方式应用在个体语音的检测过程中[4]。在实际应用中,为了有效地表示出个人信息的语音矢量,应对被检测人的个体语音特征进行收集,并对其特征参数进行处理,然后提出与之相对应的语音规范标准。
(2)构建随机化模型。在日常生活中,虽然语音特征是每一个个体独特的生理特征,但是一个人的语音在不同环境、不同状态下的表现也不一样,而且人体的语音在变化范围以及变化的概率方面不确定性非常大[5],在该模型的构建中,尤其需要考虑到转移的概率、传输的效率与概率等方面的因素。为了使得随机化模型在应用过程中更加可靠与精确,需要在训练过程中获取状态转移概率的矩阵以及符号输出概率矩阵等方面的内容。在外界环境发生变化的同时,被测个体的语音信息也在随之发生一定的变化,在对语音信息进行识别的过程中,该系统可以进行快速有效的识别,同时针对语音信息在状态转移时的概率可以在最大程度上对语音进行识别,然后利用数据库的相关样本内容来对被检测人的语音模型做出更深层次的分析与判断。
在“互联网+”环境下,人工智能技术得到了飞速的发展,为了对语音信号进行高效的识别与处理,加强和创新人工智能和语音识别系统的结合已成为时代发展的趋势。在利用计算机进行演算的过程中,对识别度高的声学特征数据进行提取和分析,有效提高语音识别的准确度及精确度。在未来发展中,应进一步实现语音系统和人工智能系统的有效结合,并对语音识别系统的功能以及兼容性进行有效的扩展。■