面向特定目标的语音识别系统的设计与研究

2024-05-29 04:22郭都盛志恒齐美旭李明东
客联 2024年2期
关键词:语音识别

郭都 盛志恒 齐美旭 李明东

摘 要:随着科学技术和人类社会的不断进步,人们对美好生活的需求日益增长,人们越来越需要从繁杂琐碎的任务中解脱出来。于是智能机器应运而生,其在家庭中的应用已形成了稳定正常的市场。语音识别中采用Transformer算法,借助正向最大匹配法进行中文分词,提取语音指令中特定物体的关键词。将所提取的关键词与数据库中场景物体类进行匹配,保留符合条件的,过滤无关的关键词。提出了一种多模态融合的特定物体识别测距方法,在图像的基础上融合语音与测距技术,通过语音指定目标识别并测算距离。旨在以高度集成化算法提高整体系统运行效率、减少检测时间。实现了基于语音控制的特定目标识别及测距功能,以识别特定目标为基础,先通过语音识别算法提取说话者指定物体的关键字。

关键词:特定目标;语音识别;Transformer

一、引言

对不同位置的物体进行识别标识,根据立体视觉技术的计算原理,计算出指定物体的距离并通过基于语音控制的特定目标识别系统,将最终结果个性化呈现。由于在实际操作过程中,相机分辨率、镜头材质、标定板的格式等因素会对测算结果的准确度造成很大的影响。且高质量、高精度摄像头价格昂贵,会增加系统成本。所以,本文借助中等品质摄像头设备,采用已优化的算法对精度进行一定的提升,进而满足实际生产需求。

二、语音识别的研究现状

美国微软的开发平台ROBOTIES以及斯坦福大学实验室的ROS系统都在系统层面对机器人的发展提供决策支撑。国内的机器人所采用的系统基本上都是封闭式或半封闭式,即开发者根据自己机器人的特定结构,采用专用计算机、专用机器人语言、专用操作系统进行开发。在系统中所使用的各项技术也日益完善。机器学习技术的发展改变了一些传统的行业,在多个领域中逐步投入应用。深度学习则属于此类技术中的重要课题,其最初源自于人工神经网络,用于对人脑结构进行模拟,便于对输入信号进行多重非线性变化,在图像处理等领域中显示出广阔的前景。因此一些研究者也在此领域投入了巨大的研究精力,致力于在算法以及应用等方面取得突破,使其在语音交互领域中发挥应有的价值。

三、棉线时序链接的端到端的语音识别系统模型

基于HMM的语音识别系统仍然存在一定的问题:传统语音识别框架组件复杂,搭建和训练系统过程繁琐;各部分模块需要单独训练,导致各模块的训练最优结果不一定是全局最优解;各帧训练数据需标注且标签和序列之间需进行强制对齐。针对这些问题,国外研究人员提出端到端模型用于语音识别建模。

CTC模型专门用于时序分类任务的建模,也可以说是用于处理这样的一种序列标注问题,这种序列标注数据输入和输出之间的没有一一对齐。与混合DNN-HMM方法不同,CTC只需使用神经网络就可以对序列的所有方面进行建模,而不再需要将RNN与HMM结合。此外,CTC模型也不需要对训练数据预先分段或者对模型网络的输出进行额外处理以获取序列标签。

(一)CTC算法及对齐方式

根据输入的X,基于CTC算法可以得到各个Y的条件概率,在计算过程中需要考虑到输入、输出对齐的方式,该问题至关重要,将会直接影响到最终的求解结果。因此需要先对对齐方式进行研究,然后阐述通过对齐方式对损失函数计算的过程。

CTC算法并不要求输入、输出保持严格的对齐。然而为了方便训练模型,需要知道X的输出路径和最终输出结果的对应关系,因为在CTC中,多个输出路径可能对应一个输出结果。知道输入输出的对应关系才能更好的理解之后损失函数的计算方法和测试使用的计算方法。为了更好的理解CTC的对齐方法,先举个简单的例子。假设有一段音频长度为6,如果希望输出的序列是Y=[c,a,t],则可以通过一定的对齐方式进行处理,即针对各个输入设置对应的输出,并剔除重复的字符。

(二)目标检测方法

目标检测是一项复杂任务,需要不同的算法和模型进行实现。随着深度学习技术的发展,目标检测的精度和效率均有了显著提高,特别是YOLO的应用使得目标检测技术实现又快又准、又轻又稳,与以往技术相比实现了质的飞跃。YOLO将图像分为网格单元,每个单元预测物体的中心、宽度、高度等信息,并进行分类。YOLO采用卷积神经网络来提取特征,然后使用全连接层进行分类和边界框回归。与其他基于区域提议的方法相比,YOLO具有实时性和快速性的优势。YOLOv5是YOLO算法的里程碑版本,它在运行速度和检测准确率等性能指标上均有良好表现。但是,YOLO算法也有其一定的局限性,在对小目标和重叠目标的检测准确率方面需要根据特定的应用场景进行算法调整。GIOU计算公式如下:

式中A代表图片真实框(Ground truth)的面积,B代表预测框(Prediction)的面积,C是指能包含A与B的最小面积。

四、面向Transformer的语音识别信息及预处理

Transformer的主要思想是使用自注意力机制来学习长距离的依赖关系,并去掉了传统的循环神经网络和卷积神经网络中的序列结构,因此可以大大减少模型训练的时间成本。transformer模型由两个部分组成:编码器(Encoder)部分和解码器(Decoder)部分。编码器(Encoder)的任务是将输入的序列编码成另一个向量形式,解码器(Decoder)的任务是将编码的向量转换为目标序列。其输入到输出的转化过程可以视为一个黑盒。在语言转换任务中,某一语种的句子可以通过这个黑盒被转换成相同意思的另一语种。模型框架如图1所示。

TRANSFORMER模型指的是编码部分和解码部分。其中编码部分是由两个子模块组成:多头自注意力模型和前向传递网络。输入序列首先经过自注意力模型来捕获序列中不同位置的交互关系,然后通过前向传递网络对每个位置的特征进行非线性变换,解码部分也是由由两个子模块组成:多头自注意力模型,多头注意力模型和前向传递网络。

五、总结

从用户层面出发,介绍了利用Transformer模型进行的语音识别,旨在以文本方式存储用户语音信息以便后续的相关操作。然后介绍了对识别出的文本进行关键字提取,这里主要介绍了jieba组件的特性、功能、算法基本思想及提高准确性的方法,紧接着介绍的相似度匹配则是对上一步所提取的关键词与语料库或词典中的字词进行匹配,筛选出相同字词组。接着则介绍了基于改进的YOLOv5s

目标检测算法,从原理、架构、优点改进等方面进行阐述从而为系统成功设计提高算法上的保障。

参考文献:

[1]孙林超. 基于WiFi的语音识别的智能家居控制系统的设计与实现[D].杭州电子科技大学,2020.

[2]李登峰,王雷鸣,徐雪洁.基于云平台的自然语言识别系统的设计[J].信息技术,2017(11):117-120.

基金项目:安徽省教育厅重点科研项目(项目号:2023AH052240),教育部高等教育司产学合作协同育人项目(项目号:202102223021),教育部高等教育司产学合作协同育人项目(编号:220904723130951),教育部高等教育司產学合作协同育人项目(项目号:202102049012)。

猜你喜欢
语音识别
空管陆空通话英语发音模板设计与应用
通话中的语音识别技术
面向移动终端的语音签到系统
语音识别的SVM模型选择分析
农业物联网平台手机秘书功能分析与实现
基于LD3320的非特定人识别声控灯系统设计
航天三维可视化系统中语音控制技术的研究与应用
基于语音识别的万能遥控器的设计
基于语音技术的商务英语移动学习平台设计与实现
基于Android手机语音和Arduino控制板的机器人控制系统