基于Mel声谱图与改进SEResNet的鱼类行为识别

2024-02-21 07:38杨雨欣杨宗轶林远山
渔业现代化 2024年1期
关键词:特征提取鱼类养殖

杨雨欣,于 红,杨宗轶,涂 万,张 鑫,林远山

(1 大连海洋大学信息工程学院,辽宁 大连 116023;2 大连市智慧渔业重点实验室,辽宁 大连 116023;3 设施渔业教育部重点实验室(大连海洋大学),辽宁 大连 116023;4 辽宁省海洋信息技术重点实验室,辽宁 大连 116023)

精准养殖是鱼类养殖的新趋势[1],鱼类行为识别为精准养殖提供技术支持[2]。目前,鱼类行为监测主要采用计算机视觉技术量化和识别鱼类的多种行为[3-5]。赵梦等[6]将SKNet注意力机制与YOLOv5融合,构成了关注像素级信息的特征提取网络,有效增强了检测效果;韦思学等[7]提出通道非降维双重注意力机制ECBAM,对降维操作进行了优化,进一步提高了识别精度。然而,在规模化、集约化等更为复杂的养殖环境中,计算机视觉方法仍有局限性[8],研究者考虑到声波在水中衰减小且不受水体浑浊影响、传播范围更广,开始将深度学习引入声音识别领域[9]。Kong等[10]提出了在大规模AudioSet数据集上训练的预训练音频神经网络(PANNs),并证明可以将神经网络转移到其他音频相关任务,但网络提取声音特征能力受限;Desplanques等[11]提出利用1D卷积神经网络融合Res2Net和SE模块以聚合声音不同层次的特征,增强特征通道相互依赖性,但难以处理声音细节特征。在鱼类行为识别领域中,同样可使用声学特征[12-13]。Meng等[14]提出将鱼类摄食音频转换为声音特征信息,使用卷积神经网络(CNN)模型对鱼的摄食强度进行分类,但CNN对鱼类细粒度声音信息提取能力有限;胥婧雯等[15-16]采用能对鱼类声音特征进行细粒度分类的ResNet网络,实现低维细节特征与高维语义特征融合,但样本种类较少,且深度残差网络中有大量冗余层、网络提取关键信息少。

基于以上分析,可用神经网络增强鱼类声音特征提取[17],识别鱼类行为,但现有鱼类声音数据和识别模型存在不足[18-19]。本研究首先开展鱼类行为声音信号数据采集,然后提出基于Mel声谱图与改进SEResNet的鱼类行为识别模型TAP-SEResNet,通过Mel声谱图对频率特征进行非线性映射,提升网络对鱼类声音高级语义特征提取能力;通过融合时序聚合池化层TAP,使SEResNet保留最佳声音特征信息。以上改进使SEResNet在复杂养殖环境下鱼类行为识别的准确率与F1值的性能指标得到显著提升。

1 材料与方法

1.1 数据集

1.1.1 试验对象与环境

本试验在大连海洋大学鱼类行为学实验室进行,试验系统共3个养殖池,养殖池直径60 cm,高度60 cm,养殖水深40 cm,如图1所示。

图1 鱼类行为数据采集系统

以虹鳟鱼(Oncorhynchus mykiss)为试验对象,选取体长8~10 cm、平均规格10 g,共30条,养殖水温保持15~18℃,密度9.2 kg/m3,pH为6.5~6.9,溶氧质量浓度12±2 mg/L,将虹鳟鱼按数量均分为3个养殖池以保持最适养殖鱼群密度,均经过1个月的养殖适应期。每天定量投喂两次[20],投喂时间分别为早上10:00和下午18:00。在饲料投喂时段,通过摄像头观察鱼类行为,采集鱼群摄食、游泳和跳跃声音信号,试验期间保持室内安静。

为采集鱼类不同行为的声音信号,使用水下声学测量系统,水听器型号为AQH20k-1062,采样频率20~20 000 Hz,覆盖鱼类发声频率范围。为避免水听器撞击水箱壁造成杂音,将铅锤垂直放置于养殖池水面下方10 cm的位置,水听器绑在铅锤上固定在养殖池中央。另一端连接计算机存储数据,存储为wav格式。为实时观察鱼类行为且不妨碍鱼类正常生活,摄像头(海康威视网络摄像机)架设在高于水面30 cm的养殖水箱旁,同时连接计算机。

1.1.2 数据集构建

虹鳟鱼是一种具有商业价值且养殖广泛的鱼类,其跳跃行为对于鱼类健康监测和养殖环境改进有重要意义[21]。经过分析[22],将鱼群行为分为“Feed” “Swim” “Jump”三种,采集声音信号,声音频谱图如图2所示。其中,“Feed”表示摄食行为,“Swim”表示游泳行为,“Jump”表示跳跃行为,红色虚线表示跳跃轨迹。

图2 鱼类行为数据集划分

为了保证声音包含一个完整周期的行为信息,每个行为采集时长为120 s。由于鱼类行为声音时长短,将采集到的声音信号按照每段2 s进行人工切分并编号;另设一组噪声对照组同步采集背景噪声,以便获取环境噪声。收集不同时间段的试验数据并重复进行上述采集过程,采集虹鳟鱼摄食声音信号样本300个,游泳声音信号样本420个,跳跃声音信号样本300个,共计样本1 020个。训练、验证、测试集按照7∶2∶1比例随机划分。

1.2 鱼类行为识别方法

1.2.1 声音特征提取

鱼类声音信号是非稳态信号,在时域中难以看出其特性,需要将每帧信号进行傅立叶变换得到相应频谱图,以分析声音特征。目前,声音特征提取常用方法为声谱图(Spectrogram)[23]、Mel频率倒谱系数(MFCC)[24]和Mel声谱图(Mel spectrogram)[25]等。声谱图能够捕捉频率变化,但对于非稳态声音信息处理能力不足,丢失部分细节时域信息。Mel频率倒谱系数具有较强特征表达能力,但是通过离散余弦变换转换为较低维度的特征向量时,压缩过多频率尺度,致使识别准确率不高。

Mel声谱图通过应用Mel滤波器对音频信号进行傅里叶变换,将能量非线性映射到频域梅尔刻度上,提取出鱼类声音中的重要频率特征,在频率轴上对音频信号进行有效压缩,提高声音信息分辨能力;在保留鱼类声音关键信息的同时降低特征维度,能更完整地提取鱼类细粒度声音信息。因此,为了精准表示鱼类行为声音特征,选择高分辨率、特征表示较好的Mel声谱图特征提取方法,提取不同鱼类行为Mel声谱图特征如图3所示。鱼类摄食行为声音信号含有断断续续的峰值波动,因此Mel声谱图呈现出明显的鱼类摄食强度变化;游泳行为声音是连续的波动信号且强度较弱,因此Mel声谱图特征微弱,呈现出较为明显的周期性特征;跳跃行为声音为短暂的脉冲信号,因此Mel声谱图持续时间短,信号振幅大。

图3 不同鱼类行为的Mel声谱图

1.2.2 TAP-SEResNet框架设计

由于真实养殖环境下存在各种刺激源,饲料投放、水流变化等外部条件刺激将导致鱼类产生不同的声音响应,因此鱼类声音数据具有复杂性和多样性,对鱼类的行为识别必须具有较高的抗混淆能力与精准性。ResNet网络[26]中的残差结构能够有效降低鱼类声音特征之间的相关性,增强模型对于差异化特征的感知能力,避免关键信息逐层消失;SENet[27]能够对鱼类声音中的关键特征进行加权计算,增强模型对于鱼类细粒度声音的特征提取和区分能力。因此,SEResNet对于鱼类声音能够高效提取特征、关注重要信息,可满足鱼类行为识别要求。

TAP-SEResNet基于SEResNet,其模型结构如图4所示。TAP-SEResNet由SEResNet、TAP、全连接层和Softmax分类器构成。输入Mel声谱图信息,首先经过SEResNet的残差连接,得到鱼类原始声音特征,通过嵌入的SE注意力机制模块进行关键特征加权计算,学习鱼类声音关键信息,并和原始特征相加;针对养殖环境中频率波动大、特征差异小的鱼类细粒度声音信息提取困难问题,通过融合TAP,提升对鱼类声音信息的特征提取能力,最后将深层声音特征提供给全连接层整合信息,经过Softmax分类器输出鱼类行为识别结果。

图4 TAP-SEResNet结构图

1.2.3 TAP模块

针对养殖环境下复杂多样的鱼类行为声音信息,SEResNet的残差结构和SE注意力机制能够有效提取鱼类声音深层细粒度特征,但是残差网络中声音特征尺寸过度压缩会导致关键信息丢失。为保留最佳鱼类声音特征信息同时不丢失背景信息,提出TAP模块。TAP通过融合池化区域的最大值和平均值,兼顾鱼类声音信号的局部关键信息和整体背景信息,从而强化空间信息,提升空间感知能力,提供更丰富、全面的特征表达。时序聚合池化层TAP结构如图5所示。

图5 时序聚合池化层TAP结构图

设鱼类行为声音经过卷积处理后的特征向量为ht,沿着总时间维度t,同时进行平均池化μ和最大池化f(x)。平均池化能提供区域内特征的整体趋势和背景信息;最大池化则能够捕捉输入区域内的最显著特征,保留重要局部细节和去除冗余信息。最后将池化后的鱼类声音特征信息进行拼接操作,得到融合后的向量E,计算如公式(1)~(4)所示:

ht=(h1,h2,...,ht)

(1)

(2)

f(x)=max(0,hi)

(3)

E=[μ,f(x)]

(4)

式中:hi(i=1,2,...,t)是特征向量分量;max表示取特征向量最大值;[,]表示拼接操作。

1.3 试验平台与评估指标

1.3.1 试验平台与模型训练参数

本研究试验环境为Intel Core 17-9700 CPU 3.00 GHz 3.00处理器,RTX3090显卡,32GB内存,操作系统为Windows10,运行环境Python3.8,开源深度学习框架Pytorch版本为1.13.1。训练参数设置batch_size为32,epoch为100。

1.3.2 评估指标

本研究所提模型评估采用准确率、F1值作为模型性能评价指标,分类评估采用精确率、召回率和F1值作为分类性能评价指标。

准确率(Accuracy,Ac)反映的是被预测为正确鱼类行为样本数与样本总数的比值,即是模型正确识别各种鱼类行为的概率;精确率(Precison,Pr)反映的是在特定鱼类行为下,正确分类样本在所有预测为该鱼类行为样本中所占的比例;召回率(Recall,Re)反映的是正确分类的鱼类行为占所有该行为总样本的比例;F1值(F1-score,F1)作为分类器的综合指标,是精确率和召回率的调和平均数。计算如公式(5)~(8)所示:

(5)

(6)

(7)

(8)

式中:TTP(True Positives)为在正样本中预测出正确鱼类行为的样本数;FFN(False Negatives)为在正样本中预测出错误鱼类行为的样本数;FFP(False Positives)为在负样本中预测出正确鱼类行为的样本数;TTN(True Negatives)为在负样本中预测出错误鱼类行为的样本数。

2 试验设计与结果分析

2.1 消融试验

为验证时序聚合池化层TAP对SEResNet改进的有效性,设计消融试验内容如下:分别在有池化层TAP和无池化层TAP条件下进行了鱼类行为识别对比试验。试验结果如表1所示,加入TAP模块后模型的准确率、F1值分别提升3.23%、4.33%,表明所提模块有效。通过融合TAP模块对SEResNet模型进行改进,结合最大值和平均值,保留鱼类声音信号的局部关键信息和整体背景信息,使鱼类细粒度声音完整提取,减少有效信息丢失,提升模型性能,可更好满足鱼类行为识别要求。

表1 消融试验

2.2 对比试验

2.2.1 特征提取方法对比

为验证Mel声谱图对于鱼类声音特征提取的有效性,设计对比试验内容如下:在TAP-SEResNet的基础上与目前常用的声音特征提取方法声谱图[23]和Mel频率倒谱系数[24]进行对比。试验结果如表2所示,Mel声谱图相比其他方法准确率分别提升8.36%、0.97%,F1值分别提升8.8%、0.47%。由分析可得,声谱图处理非稳态声音信息能力不足,Mel频率倒谱系数压缩过多频率尺度,影响模型准确性。Mel声谱图在频率轴上有效压缩鱼类声音信号,增强声音信息特征提取和分辨能力,与Mel频率倒谱系数和声谱图相比,更适用于提取鱼类声音信息,明显优于其他方法。

表2 特征提取方法对比

2.2.2 模型对比试验

为验证TAP-SEResNet在鱼类行为识别的有效性,与先进声音识别模型进行对比试验,对比模型分别是:Kong等[10]通过迁移学习方法,提出声音识别网络PANNs-CNN14;Desplanques等[11]通过结合Res2Net模块和SE注意力机制并使多层特征聚合,提出语音识别网络ECAPA-TDNN;胥婧雯等[15]通过结合MFCC和ResNet,提出鱼类行为识别网络MFCC+ResNet。试验结果如表3所示,与其他方法相比,TAP-SEResNet准确率分别提升5.32%、2.80%和1.64%,F1值分别提升5.93%、1.96%和2.00%。经分析可得,PANNs-CNN14通过将神经网络用于音频任务,学习声音特征,但是CNN对声音信息提取能力有限;ECAPA-TDNN通过在1D卷积网络基础上融合Res2Net和SE模块以聚合声音不同层次的特征,但是对噪声和环境变化比较敏感;MFCC+ResNet通过将残差模块中的最大池化替换为平均池化,多维度学习鱼类声音特征,但是深度残差网络含有大量冗余层,有效声音信息提取不够。TAP-SEResNet通过融合TAP模块保留更多的鱼类行为声音关键特征,同时不丢失声音背景信息,促进SEResNet对鱼类细粒度声音信息进行有效提取,达到最优识别性能。

表3 不同模型与TAP-SEResNet的性能对比

2.3 TAP-SEResNet识别结果

为验证TAP-SEResNet对鱼类行为识别的分类性能,识别结果和归一化混淆矩阵如表4和图6所示。

表4 TAP-SEResNet鱼类行为识别结果

图6 鱼类行为识别归一化混淆矩阵

由表4数据分析可得,“Feed”行为由于声音信息较丰富,分类效果最好,评估指标均在98%以上;“Feed”和“Jump”鱼类行为识别精确率均达到98%以上,“Feed”和“Swim”鱼类行为识别召回率均达到99%以上,3个鱼类行为识别F1值均达到89%以上,模型整体准确率为91.15%。由图6可知,归一化混淆矩阵的左上到右下的对角线表示每个分类的识别准确率,对角线外区域表示错误分类区域,“Feed”和“Jump”分类精确率均达到98%,稳定性好。故TAP-SEResNet通过融合TAP模块,增强模型分类性能,试验结果表明所提模型改进的有效性。然而本算法仍具有局限性,由于鱼类游泳行为动作幅度小、特征不明显,游泳行为有效声音信息较少,故图6中游泳行为识别结果的精确率仅达到81%,与摄食、跳跃行为识别结果相差17%,识别效果较差,说明部分鱼类声音信息仍然无法高效捕捉和分辨,同时试验环境中可能存在影响声音检测的其他干扰因素。

对比鱼类品种识别[28-29],本研究识别难度在于鱼类行为声音信息难采集、频率波动大和特征差异小等特点使得目标特征信息难以捕捉,声音关键信息的提取准确率低;对比鱼类摄食强度量化[30],本研究识别难度在于真实养殖环境通常比较复杂,鱼类行为声音信息易受环境噪声影响且含有多样性和复杂性,增加了识别难度。针对上述难点,TAP-SEResNet识别模型通过采用Mel声谱图提取声音特征信息,从而降低了鱼类声音信息提取难度;同时提出融合TAP模块加强对关键特征的提取,从而增强SEResNet对鱼类细粒度声音信息的识别能力。

3 结论

本研究提出基于Mel声谱图和改进SEResNet的鱼类行为识别模型TAP-SEResNet,鱼类声音信息由Mel声谱图特征提取,通过融合TAP模块保留鱼类声音的局部关键信息和整体背景信息,减少关键信息丢失,提高SEResNet模型识别能力,可为研究鱼类行为识别领域提供技术支持,有助于养殖过程中对鱼类行为实现精准检测。然而,本研究仅在实验室环境下进行,对复杂养殖环境中含有杂乱背景声音信息的问题,仍需进一步研究改进,同时还可以针对鱼类声音特点考虑其他更有效的特征提取方法。

猜你喜欢
特征提取鱼类养殖
青山绿水 健康养殖
基于MFCC和ResNet的鱼类行为识别
红螯螯虾的养殖技术
黄颡鱼养殖,不变不通
鱼类运动会
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
鱼类是怎样保护自己的
猪市虐我千百遍 我视养殖如初恋
基于MED和循环域解调的多故障特征提取