基于MFCC的声音检测装置及算法实现

2024-05-12 11:28:10米月琴王新怀徐茵

电子产品世界 2024年1期

米月琴王新怀徐茵

摘要：提出了一种基于梅尔频率倒谱系数（Mel frequency cepstrum coefficients，MFCC）的声音检测装置及算法实现。通过采集声音的波形，结合特征提取和分类算法，实现对不同声音的智能判断。从嵌入式系统硬件设计、声音波形特征提取、声音分类算法等方面进行了详细的研究，并对实验结果进行了分析。结果表明，该设计方案在声音检测方面具有较高的准确性和可行性。

关键词：MFCC；特征提取；嵌入式系统；检测装置

中图分类号：TN912.3；TP277文献标识码：A

0 引言

近年来，信号处理技术和语音识别技术都取得了飞速的发展。研究人员越来越多地采用信号处理和语音识别方法来分析声音。数字信号处理技术的进步，使得研究人员能够借助计算机高效分析声音，时域分析、频域分析和频谱分析等信号处理手段为研究人员提供了丰富的工具。在语音识别领域，信号经过预处理后，再经过模式识别技术进行分类判断，这些分类判断后的信号对于声音的分析至关重要。

婴儿啼哭声中包含丰富的信息，如饥饿、疼痛、不适或疾病等。基于嵌入式系统的婴儿啼哭智能检测设计可以实时分析和识别啼哭声，及时发现婴儿的健康问题，为医护人员提供重要参考，从而采取相应的护理和治疗措施。婴儿啼哭声识别可以作为一种辅助工具，帮助父母或照顾者更好地了解婴儿的需求 [1]。婴儿啼哭检测装置通过分析啼哭声的特征和模式，可以快速判断婴儿的状态，是否饥饿、是否需要换尿布、是否感到不适等 [2]。

基于嵌入式系统的智能婴儿啼哭检测设计是一项前沿研究，旨在利用先进的硬件和软件技术，实现对婴儿啼哭声的实时分析和识别。本文通过探讨该设计方案的主要内容，包括系统设计、软件设计、算法设计和测试结果，以期为智能婴儿护理和健康监测领域提供有益的参考和指导。

1 系统设计

本装置基于嵌入式系统，通过各种传感器来检测婴儿是否啼哭、是否发烧、是否尿床，从而及时安抚婴儿。系统采用了高性能的嵌入式处理器作为主控单元，用于控制和管理整个系统的运行 [3]。声音传感器负责实时采集婴儿的啼哭声信号，并将其转化为数字信号用于后续处理。湿度传感器可检测婴儿尿床情况，及时发现湿度变化并进行记录。温度传感器用于监测婴儿的体温，确保婴儿的身体状态得到及时关注。这些传感器与嵌入式处理器通过适当的接口和通信方式进行连接和数据传输。系统由硬件和软件两个部分组成，通过精心设计的算法和可靠的报警机制，使得系统能够高效工作并提供准确的婴儿护理服务。系统组成如图 1 所示。

2 软件设计

系统采用了梅尔频率倒谱系数（Mel frequency cepstrum coefficients，MFCC）算法和软件设计，实现对传感器数据的处理、分析和报警。通过声音信号处理算法，系统能够提取婴儿啼哭声的特征和模式，以判断婴儿的情绪状态和需求。湿度数据和温度数据经过处理和分析，用于检测尿床和体温异常情况。基于这些数据和算法，系统能够及时发出警报信号，通过声音提示、LED 指示灯等方式提醒看护者婴儿的情况，以便及时采取相应的护理和照顾措施。软件流程如图 2 所示。

3 算法设计

算法设计主要包括声音信号预处理、特征提取算法。声音信号预处理主要负责对采集到的信号降噪，并进行滤波、归一化等处理，以便于后续特征提取 [4]。特征提取算法需要将声音信号转化为可以用于分类的特征向量，本文采用上述提到的基于时域、频域和小波变换的特征提取方法，算法设计内容如下。

（1）婴儿啼哭声音信号的采集与预处理。首先需要通过麦克风等设备采集婴儿啼哭声音信号。为了确保信号质量，可对采集到的声音信号进行预处理，包括去除背景噪声、预加重滤波以补偿信号中高频部分的能量损失等。预处理后的信号是后续 MFCC 算法提取特征的基础。

（2）特征提取算法。MFCC 算法通过应用离散余弦变换的方式将梅尔频谱转换为频率系数。然后，选择一部分系数作为特征向量，将高维度的频谱数据降低为较低维度的特征向量。该方式有助于减少特征向量的冗余性，提高分类器模型的效率和准确性。

（3）特征表示和分类。通过将选定的一部分系数组合成一个特征向量，可以将婴儿啼哭声表示为一个数值向量。该向量包含了声学特征，可作为输入向量提供给分类器模型。分类器模型根据训练数据中不同类型的啼哭声模式进行学习，对输入的特征向量进行分类预测，判断啼哭声是否属于特定类型。图 3 和图 4 分别为婴儿哭声 MFCC 提取结果、婴儿哭声维数与幅值的关系；图 5 和图 6 分别为成人声音 MFCC 提取结果、成人声音维数与幅值的关系。

由此可见，婴儿哭声在各方面都与成人声音有所区别。在频率特征上，婴儿哭声通常具有较高的频率，主要集中在高频段；常见噪声则在频率上均匀分布，包含各种频率。在時域特征上，婴儿哭声的时域特征通常表现为连续且有规律的振荡，具有一定的周期性；常见噪声则在时域上表现为随机的波动，缺乏明显的周期性。在动态特性上，婴儿哭声具有较明显的动态变化，包括音高、音量和音色的变化，且随着婴儿情绪的变化而变化；常见噪声通常是固定的、稳定的，不具备明显的动态变化 [5]。

4 测试结果

4.1 数据收集

为了训练一个有效的模型，需要收集大量的正类（婴儿哭声）和负类（其他背景声音）样本。针对已有的婴儿哭声音频，可以将其切分成多个较短的片段以增加样本数量。然而，仅依靠这一个音频是不够的，还需要收集更多音频文件。本文的测试收集了 50 个正类和 50 个负类音频文件，每个文件时长为 2 s。总样本量为 100 个。

4.2 数据预处理

确保所有音频文件具有相同的采样率、比特率和声道数，保证特征提取过程具有一致性。因此，所有转换后的音频文件采样率为 44 100 Hz、比特率为 16 bit/s 且为单声道。

4.3 MFCC 算法处理

为了测试该装置对信号的降噪作用，将各种不同程度噪声信号与婴儿哭声音频叠加后参与识别，测试结果可反映出本产品中采用的算法是否完备且有效。对婴儿哭声样本分别叠加 5 dB、10 dB、 15 dB 的噪声，基于 MFCC 算法提取的特征参数，最后统计识别数量，并与之前未加噪声时的样本数量比较，得到叠加噪声后识别率比较（表 1）。

由此可见，系统在不同噪声环境下都能保持识别率不会低于 83%，具有较强的抗干扰能力。这意味着在现实生活中，如家庭、医院等各种环境中，系统都能有效地识别婴儿哭声。

5 结论

本文通过嵌入式系统设计和各个传感器采集数据实现了硬件系统的设计，采用 MFCC 算法进行特征提取并在微控制单元（microcontroller unit， MCU）上编程实现。实验结果表明，本文提出的嵌入式系统检测婴儿哭声的设计具有较高的准确率和抗干扰能力。本设计在实际应用中具有重要意义，有助于家长及时了解婴儿的需求和状况，为医护人员提供有力的辅助手段。

参考文献

[1] 罗聪，李辉，彭旺，等 . 基于 STM32 的智能安全监护系统设计 [J]. 仪表技术，2022（5）：18-20.

[2] 杨振雷 . 智能婴儿监护系统设计 [J]. 电子世界，2012 （22）：127-128.

[3] 王赫楠，燕燕，王甜宇，等 . DTW 算法在嵌入式语音识别系统中的应用研究 [J]. 科技创新导报，2014， 11（8）：71.

[4] 许爱功 . 基于 ARM 和 FPGA 的语音识别系统的研究 [D]. 北京：北方工业大学，2014.

[5] 崔战士 . 复杂背景噪声中的婴儿啼哭声检测研究 [D]. 哈尔滨：哈尔滨工业大学，2019.