米月琴 王新怀 徐茵
摘要:提出了一种基于梅尔频率倒谱系数(Mel frequency cepstrum coefficients,MFCC)的声音检测装置及 算法实现。通过采集声音的波形,结合特征提取和分类算法,实现对不同声音的智能判断。从嵌入式系统 硬件设计、声音波形特征提取、声音分类算法等方面进行了详细的研究,并对实验结果进行了分析。结果 表明,该设计方案在声音检测方面具有较高的准确性和可行性。
关键词:MFCC;特征提取;嵌入式系统;检测装置
中图分类号:TN912.3;TP277文献标识码:A
0 引言
近年来,信号处理技术和语音识别技术都取得 了飞速的发展。研究人员越来越多地采用信号处理 和语音识别方法来分析声音。数字信号处理技术的 进步,使得研究人员能够借助计算机高效分析声 音,时域分析、频域分析和频谱分析等信号处理手 段为研究人员提供了丰富的工具。在语音识别领 域,信号经过预处理后,再经过模式识别技术进行 分类判断,这些分类判断后的信号对于声音的分析 至关重要。
婴儿啼哭声中包含丰富的信息,如饥饿、疼 痛、不适或疾病等。基于嵌入式系统的婴儿啼哭智 能检测设计可以实时分析和识别啼哭声,及时发现 婴儿的健康问题,为医护人员提供重要参考,从而 采取相应的护理和治疗措施。婴儿啼哭声识别可以 作为一种辅助工具,帮助父母或照顾者更好地了解 婴儿的需求 [1]。婴儿啼哭检测装置通过分析啼哭声 的特征和模式,可以快速判断婴儿的状态,是否饥 饿、是否需要换尿布、是否感到不适等 [2]。
基于嵌入式系统的智能婴儿啼哭检测设计是一 项前沿研究,旨在利用先进的硬件和软件技术,实 现对婴儿啼哭声的实时分析和识别。本文通过探讨 该设计方案的主要内容,包括系统设计、软件设 计、算法设计和测试结果,以期为智能婴儿护理和 健康监测领域提供有益的参考和指导。
1 系统设计
本装置基于嵌入式系统,通过各种传感器来检 测婴儿是否啼哭、是否发烧、是否尿床,从而及时 安抚婴儿。系统采用了高性能的嵌入式处理器作为主控单元,用于控制和管理整个系统的运行 [3]。声 音传感器负责实时采集婴儿的啼哭声信号,并将 其转化为数字信号用于后续处理。湿度传感器可 检测婴儿尿床情况,及时发现湿度变化并进行记 录。温度传感器用于监测婴儿的体温,确保婴儿的 身体状态得到及时关注。这些传感器与嵌入式处 理器通过适当的接口和通信方式进行连接和数据传 输。系统由硬件和软件两个部分组成,通过精心设 计的算法和可靠的报警机制,使得系统能够高效 工作并提供准确的婴儿护理服务。系统组成如图 1 所示。
2 软件设计
系统采用了梅尔频率倒谱系数(Mel frequency cepstrum coefficients,MFCC)算法和软件设计,实 现对传感器数据的处理、分析和报警。通过声音信 号处理算法,系统能够提取婴儿啼哭声的特征和模 式,以判断婴儿的情绪状态和需求。湿度数据和温 度数据经过处理和分析,用于检测尿床和体温异常 情况。基于这些数据和算法,系统能够及时发出警 报信号,通过声音提示、LED 指示灯等方式提醒看 护者婴儿的情况,以便及时采取相应的护理和照顾 措施。软件流程如图 2 所示。
3 算法设计
算法设计主要包括声音信号预处理、特征提取 算法。声音信号预处理主要负责对采集到的信号降 噪,并进行滤波、归一化等处理,以便于后续特征 提取 [4]。特征提取算法需要将声音信号转化为可以 用于分类的特征向量,本文采用上述提到的基于时 域、频域和小波变换的特征提取方法,算法设计内 容如下。
(1)婴儿啼哭声音信号的采集与预处理。首先 需要通过麦克风等设备采集婴儿啼哭声音信号。为 了确保信号质量,可对采集到的声音信号进行预处 理,包括去除背景噪声、预加重滤波以补偿信号中 高频部分的能量损失等。预处理后的信号是后续 MFCC 算法提取特征的基础。
(2)特征提取算法。MFCC 算法通过应用离 散余弦变换的方式将梅尔频谱转换为频率系数。然 后,选择一部分系数作为特征向量,将高维度的频 谱数据降低为较低维度的特征向量。该方式有助于 减少特征向量的冗余性,提高分类器模型的效率和 准确性。
(3)特征表示和分类。通过将选定的一部分系 数组合成一个特征向量,可以将婴儿啼哭声表示为 一个数值向量。该向量包含了声学特征,可作为输 入向量提供给分类器模型。分类器模型根据训练数 据中不同类型的啼哭声模式进行学习,对输入的特 征向量进行分类预测,判断啼哭声是否属于特定类 型。图 3 和图 4 分别为婴儿哭声 MFCC 提取结果、 婴儿哭声维数与幅值的关系;图 5 和图 6 分别为成 人声音 MFCC 提取结果、成人声音维数与幅值的 关系。
由此可见,婴儿哭声在各方面都与成人声音有 所区别。在频率特征上,婴儿哭声通常具有较高的 频率,主要集中在高频段;常见噪声则在频率上均 匀分布,包含各种频率。在時域特征上,婴儿哭声 的时域特征通常表现为连续且有规律的振荡,具有 一定的周期性;常见噪声则在时域上表现为随机的 波动,缺乏明显的周期性。在动态特性上,婴儿哭 声具有较明显的动态变化,包括音高、音量和音 色的变化,且随着婴儿情绪的变化而变化;常见 噪声通常是固定的、稳定的,不具备明显的动态 变化 [5]。
4 测试结果
4.1 数据收集
为了训练一个有效的模型,需要收集大量的正 类(婴儿哭声)和负类(其他背景声音)样本。针 对已有的婴儿哭声音频,可以将其切分成多个较短 的片段以增加样本数量。然而,仅依靠这一个音频 是不够的,还需要收集更多音频文件。 本文的测试收集了 50 个正类和 50 个负类音频文 件,每个文件时长为 2 s。总样本量为 100 个。
4.2 数据预处理
确保所有音频文件具有相同的采样率、比特率 和声道数,保证特征提取过程具有一致性。因此, 所有转换后的音频文件采样率为 44 100 Hz、比特 率为 16 bit/s 且为单声道。
4.3 MFCC 算法处理
为了测试该装置对信号的降噪作用,将各种 不同程度噪声信号与婴儿哭声音频叠加后参与识 别,测试结果可反映出本产品中采用的算法是否完备且有效。对婴儿哭声样本分别叠加 5 dB、10 dB、 15 dB 的噪声,基于 MFCC 算法提取的特征参数, 最后统计识别数量,并与之前未加噪声时的样本数 量比较,得到叠加噪声后识别率比较(表 1)。
由此可见,系统在不同噪声环境下都能保持识 别率不会低于 83%,具有较强的抗干扰能力。这意 味着在现实生活中,如家庭、医院等各种环境中, 系统都能有效地识别婴儿哭声。
5 结论
本文通过嵌入式系统设计和各个传感器采集 数据实现了硬件系统的设计,采用 MFCC 算法进 行特征提取并在微控制单元(microcontroller unit, MCU)上编程实现。实验结果表明,本文提出的 嵌入式系统检测婴儿哭声的设计具有较高的准确率 和抗干扰能力。本设计在实际应用中具有重要意 义,有助于家长及时了解婴儿的需求和状况,为医 护人员提供有力的辅助手段。
参考文献
[1] 罗聪,李辉,彭旺,等 . 基于 STM32 的智能安全监 护系统设计 [J]. 仪表技术,2022(5):18-20.
[2] 杨振雷 . 智能婴儿监护系统设计 [J]. 电子世界,2012 (22):127-128.
[3] 王赫楠,燕燕,王甜宇,等 . DTW 算法在嵌入式语 音识别系统中的应用研究 [J]. 科技创新导报,2014, 11(8):71.
[4] 许爱功 . 基于 ARM 和 FPGA 的语音识别系统的研究 [D]. 北京:北方工业大学,2014.
[5] 崔战士 . 复杂背景噪声中的婴儿啼哭声检测研究 [D]. 哈尔滨:哈尔滨工业大学,2019.