基于L(2+1)D的养殖鱼类摄食状态下活跃程度识别方法

2024-09-20 00:00:00唐晓萌缪新颖
现代电子技术 2024年8期
关键词:图像预处理卷积神经网络特征提取

摘" 要: 鱼类行为的活跃程度是鱼类行为研究中的关键指标,可为水产养殖过程提供有用的基础数据。然而现有的计算机视觉方法在活跃程度识别的应用中依赖于大量存储和计算资源,在实际场景中实用性较差。为了解决这些问题,提出一种鱼类摄食活动识别模型——L(2+1)D,将3D卷积分解为2D大空间卷积和1D时间卷积,使用少量的大型卷积核来增加感受野,实现更强大的特征提取效果。将空间卷积和时间卷积串联成用于时空特征学习的时空模块,并减少时空模块数量,达到减少参数数量的同时提高准确性的效果。实验结果表明,所提方法可以在实际水产养殖中准确识别鱼群的活跃程度,准确率可达到65.02%,并更适合部署在资源受限的设备或现场。

关键词: 鱼类活跃程度; 卷积神经网络; 图像预处理; 特征提取; 时空特征学习; 行为量化

中图分类号: TN957.52⁃34" " " " " " " " " " " " "文献标识码: A" " " " " " " " " " " "文章编号: 1004⁃373X(2024)08⁃0155⁃05

Method for identifying activity level of cultivated fish under feeding state based on L(2+1)D

TANG Xiaomeng1, MIAO Xinying1, 2

(1. Information Engineering College, Dalian Ocean University, Dalian 116023, China;

2. Key Laboratory of Environment Controlled Aquaculture, Ministry of Education, Dalian 116023, China)

Abstract: The activity level of fish behavior is a key indicator in the fish behavior research, providing useful basic data for aquaculture processes. The existing methods based on computer vision rely on a large amount of storage and computing resources in the application of activity level recognition, which has poor practicality in practical scenarios. To address these limitations, a fish feeding activity recognition model named L(2+1)D is proposed. 3D convolution is decomposed into 2D large spatial convolution and 1D temporal convolution. A small number of large convolutional kernels are used to increase receptive fields, so as to realize a more powerful feature extraction effect. The spatial convolution and temporal convolution are concatenated into spatiotemporal modules for feature extraction, and the number of spatiotemporal modules is reduced, achieve the effect of reducing the number of parameters while improving accuracy. The experimental results show that the proposed method can accurately identify the activity level of fish schools in actual aquaculture, with an accuracy rate of 65.02%, and is more suitable for deployment in resource limited equipment or sites.

Keywords: fish activity level; convolutional neural network; image preprocessing; feature extraction; spatiotemporal features learning; behavioral quantification

0" 引" 言

随着我国水产养殖产量稳步增长,实现水产养殖智能化、自动化、数字化是水产养殖可持续发展的必然趋势。其中,鱼类活跃程度识别在实际场景中扮演着重要的角色,具有多方面的意义和应用[1]。鱼类摄食状态下活跃程度的识别对于鱼类养殖和捕捞具有重要的意义。在养殖过程中,了解鱼类的摄食状态和活跃程度可以帮助养殖者调整饲料的投放量和时间,以保证鱼类的健康和生长[2]。在捕捞过程中,了解鱼类的活跃程度可以帮助渔民选择更有效的捕捞方法和工具,提高捕捞效率和收益。此外,鱼类摄食状态下活跃程度的识别还可以帮助科学家研究鱼类的行为和生态习性,为保护和管理水生生物资源提供重要的参考依据[3]。

目前,鱼类在摄食状态下的活跃程度识别仍然主要依赖养殖者的经验。使用人工直接观测鱼类行为来辨别鱼类摄食强弱的方法,在养殖中具有应用局限性[4],比如:费时费力、观察结果难以参数化。这可能导致饲喂不足或过度饲喂。摄食不足可能会影响鱼类的生长速度,降低肌肉转化率,影响生产效率,极端情况会导致同类之间出现抢食行为和相互攻击现象[5]。另一方面,过度喂养可能会导致食物浪费,提高养殖成本[6]。而且残留在水中的饲料会产生氨氮和有害的硝酸盐化合物,这些化合物会影响鱼类的健康生长、污染水质环境,进而影响可持续发展[7]。

在早期阶段,传统手工方法是常用且有效的方法,但需要依赖人的专业知识提取目标特征,包括背景模型[8]、帧差分方法[9]、光流技术[10]。这些方法会受到水面反射噪声的扰动或超参数轻微波动的影响,导致网络不稳定[11]。计算机视觉与深度学习技术的深度融合以快速、高效、非入侵、无需人工干预等特点,为鱼类活跃程度识别方法提供一种潜在的解决方案[12]。因此,本文提出了一种基于深度学习的养殖鱼类在摄食状态下活跃程度识别方法,旨在探究养殖鱼类摄食状态下活跃程度与水花信号特征之间的关系;同时,探索一种客观、精准、实时、有效的鱼类活跃程度识别方法,为摄食状态的行为分析、摄食量化评估提供基础数据。该识别方法成为饲料智能投喂研究课题的一项重要研究内容,为养殖鱼类活跃程度研究在现实方面的应用提供一种新的思路[13]。

1" 图像数据采集与预处理

1.1" 图像采集

本研究在大连海洋大学水产养殖设施与装备工程研究中心进行,采用4套循环水综合实验系统,每个系统有3个养殖桶,养殖桶直径为0.93 m,桶高为1 m,取水量为0.8 m3/h。实验以褐点石斑鱼为研究对象,平均规格为100 g。在119尾试验鱼背部肌肉注射电子芯片标记,追踪每个个体的生长信息。水产养殖系统自动排放污染物并补充水,水源为经过沉淀的天然海水。盖住养殖桶的顶部以遮挡光线,光源为全光谱LED灯。灯的开关是自动控制的,摄像系统采用定点俯拍。摄像头距离水面0.5 m,可以清晰捕捉到全水面图像,并记录下投饵前1 min到饵料吃完后1 min的完整视频。在一个喂鱼期,共采集70个完整的喂鱼视频进行剪辑,分辨率为480×270像素。整个系统在第16车间E6养殖池,池塘大小为6.7 m×6.7 m×1.2 m,水深约1 m。将照相机放置于培养池上方1.5 m处,整个系统如图1所示。

1.2" 建立数据集

从采集的视频数据中捕获视频帧,获得鱼群图像以构建本文的数据集。由于视频每秒有24帧,并且为了避免构造的数据集中的相似图像问题,通过每4帧拍摄图像来获得鱼群图像。此外,与鱼群图像相似度较高的图像被手动消除。所获得的鱼群图像为红绿蓝(RGB)jpg格式,大小为2 560×1 920。根据鱼类活动程度将视频分为强摄食状态(186个短视频)、弱摄食状态(217个短视频)和无摄食状态(216个短视频)3个不同的类别。整个数据集按照2∶1的比例分为训练集和验证集,具体分布如表1所示。

2" 基于卷积神经网络的鱼类活跃程度识别模型的实现

2.1" 识别鱼类活跃程度模型总体设计

为判断鱼类在摄食状态下的活跃程度,本文提出了一种基于L(2+1)D的鱼类在摄食状态下活跃程度的识别方法,以实现水产养殖中的鱼类行为分析、按需摄食。将数据集的视频信号作为输入信息送入网络,首先进行切帧、随即裁剪等图像预处理操作,输出的图像进入计算机视觉模型,将特征图先后进行空间上和时间上的特征提取,通过计算得到行为量化结果,采用Softmax函数取得概率最大值来判断鱼类活跃程度的类别,即无摄食、强摄食和弱摄食三种状态。鱼类活跃程度实验框图如图2所示。

2.2" 数据集预处理

由于数据集中鱼群图像背景复杂、光照不均匀、亮度和色调都有一些变化,因此在喂食图像中存在大量的鱼和鱼之间的显著重叠。通过对鱼群图像进行预处理,增强了数据样本的多样性,提高了模型的性能。首先,从采集到的视频数据中获取视频帧,构建鱼群图像的数据集,总共73 474幅RGB帧图像,具体分为:用于无喂食状态的22 888个图像、用于强喂食状态的23 728个图像以及用于弱喂食状态的26 858个图像。其次,对鱼群图像进行随机宽高比裁剪,将图像随机裁剪成不同的大小和宽高比。

在此前提下,通过改变旋转角度和旋转中心点对图像进行随机旋转,再将旋转图像修剪为统一大小。最后,鱼群图像在亮度、对比度、饱和度和色调方面被随机改变,达到数据增强的目的,增加了训练样本的多样性,从而提高模型的泛化能力和鲁棒性。

三种摄食行为的RGB帧图像如图3所示。

2.3" L(2+1)D识别模型

在真实高密度水养殖场景下,鱼类大多具有集群行为,以不同的状态分布运动。本文中鱼群图像特征提取是通过提取水面上的代表性信息来描述整个图像,用其作为识别鱼群活跃程度的基础。本文提出的L(2+1)D模型是一种在R(2+1)D网络基础上改进的鱼类活跃程度识别模型,将3D卷积分开成2D空间卷积和1D时间卷积,并将增加空间卷积核尺寸和调整输入时间帧数的方法应用在水下视频特征提取中,2D空间卷积在空间维度上对图像进行特征提取。L(2+1)D网络的总体结构如图4所示。

针对分类任务需要上下文信息、3×3卷积核的感受野小且提取特征过少的问题,首先,在特征提取的骨干网络中改变空间卷积核的尺寸,将原有的3×3卷积核增大到25×25,同时通过重参数化将尺寸为5×5的小卷积核提取的特征与大卷积核提取的特征相融合,给模型提供了足够大的感受野和更好地聚合空间信息的能力,使模型在特征提取时更加准确,进而提升识别精度。其次,由于2D卷积仅仅考虑到视频空间维度的信息,而没有考虑到时间维度的帧间运动信息,本研究提出的模型在关注空间信息的同时也考虑到视频信号的时间信息,并在时间维度上改变帧间间隔,即使用快速刷新时间分辨率来有效地对快速变化的运动进行建模,以便于网络能看见更多的水花信息,有利于鱼类活跃程度的识别。最后,减少时空模块的数量,即减少2D空间卷积和1D时间卷积层数,从而大幅度减少参数量,实现了模型轻量化,达到了数据处理即时性效果,提高了模型方法应用的便捷性和实用性。

在原有模型中,卷积神经网络大多通过堆叠较小的卷积来增大感受野,这会导致每个输出所包含信息的范围较小,而通过增大卷积核尺寸增加有效感受野,可包含更多的上下文信息,提高特征提取的能力。通过实验获得最佳效果,达到了精准识别鱼类活跃程度的效果。该模型设计更易于优化,提高了实际应用场景下的识别速度。

2.4" 行为量化结果

在模型提取出图像中显著特征的基础上,进行行为量化结果分析。当饵料投入养殖水池,鱼类表现活跃且在水面处有强烈水花,从而判断为鱼类强烈摄食状态;当鱼类表现平静且水面处有微弱水花时,可判断为鱼类微弱摄食状态;当饵料投入养殖水池后,鱼类无反应且水面处无水花,可判断为鱼类无摄食行为。随着投喂次数增加,记录摄食反应时间和活跃程度持续之间的变化,确定饱食投喂次数,从而确定鱼群饱食量。

3" 实验过程

实验使用A100显卡,通过Anaconda环境管理器安装相关工具包,在Pycharm编译器上实现Python代码编译,同时在PyTorch 1.10架构上进行模型的训练和测试。

3.1" 模型训练

在训练阶段,首先将预处理后的鱼群图像输入至L(2+1)D网络,在2D空间卷积和1D时间卷积上分别提取鱼群图像特征和时序信息,并在卷积层之间增加BN层,在卷积层之后,对特征图进行归一化,从而加速网络学习,进一步提高模型性能;其次,将提取的特征传入2个3×3卷积核;最后,通过计算损失函数等指标不断优化模型参数,直至训练出最优辨识模型。

对比模型的试验结果,分析各改进模块的有效性,具体设计如下:

1) 对每个模型均训练130轮,设置相同的初始学习率、损失函数等超参数,具体参数设计如表2所示。

2) 从每个模型训练生成的权重集合中选取最优的权重文件,根据评估指标比较改进模型的提升程度。

在推理阶段,利用得到的最优鱼群摄食活跃程度识别模型对测试集中的图像进行测试,对鱼群摄食状态下的活跃程度图像进行识别,识别结果分别为强摄食状态、弱摄食状态和无摄食状态。

3.2" 模型评估

3.2.1" 评估指标

使用不同的评价指标可以客观、准确地评估网络的检测性能,综合鱼类活跃程度识别速度快、准确率高、适应水下环境能力强、部署模型灵活的要求,本研究从不同角度对模型识别效果进行评价,评价指标为模型参数量(Params)、识别准确率(Accuracy)。准确率是正确和错误预测的类实例的总和(TP+TN)与总实例(TP+FP+FN+TN)的比率,公式如下:

[Accuracy=TP+TNTP+FP+TN+FN]

3.2.2" 消融实验

为评估提出的方法在不同模块情况下的有效性,主要进行了不同卷积核尺寸和不同卷积核个数的实验。通过增减时空模块数量和改变空间卷积核大小,设计4种实验方案,分别是两层的17×17、两层25×25、三层17×17和三层25×25的空间卷积核。由消融实验结果可得,卷积核尺寸越大,准确率越高。在鱼群摄食行为数据集上验证了训练策略对算法识别性能的影响,如表3所示,在两层空间卷积核尺寸为25×25的情况下,实验取得最佳效果。

3.2.3" 对比试验

为评估本文提出方法的性能,在鱼群摄食行为识别数据集上将消融实验结果最优方法与3种基准分类方法进行比较。在L(2+1)D训练过程中,原始图像缩小至265×265,作为L(2+1)D的输入。再进行数据增强,用于扩大样本数量,如随机水平翻转,随机旋转,具有亮度、对比度、饱和度的颜色抖动。最后,使用Pytorch框架进行了摄食行为识别算法训练。如表4所示,本文提出的模型在ResNet50、ResNet101的2D网络基础上准确率分别提升了30.27%、26.33%,在R(2+1)D基础上提升了23.27%。此外,在参数量方面也大幅度减少,在原模型R(2+1)D的基础上减少29.98×106,便于实际应用的部署和实现。

4" 结" 论

本文提出了一个不同的时空卷积来识别鱼群摄食行为时的活跃状态,共分为三种行为状态,包括无摄食状态、弱摄食状态和强摄食状态。该方法对养殖者制定最佳摄食决策、提高养殖效率和促进鱼类健康生长具有重要意义。此外,为了更有效地捕捉空间信息,设计了一种由大卷积核组成的新型骨干结构,即L(2+1)D。其中时空模块的空间卷积核增大,进一步优化了特征提取,使鱼群摄食识别更加准确。本文提出的时空模块可以很容易地取代标准卷积核,在参数量大幅度减少的情况下精度有所提升。在真实的鱼类摄食视频数据集上进行测试,识别准确率达65.02%,实验证明了所提方法的有效性和泛化能力。因此,所提出的方法适合于部署在资源受限的设备或实时应用中,并能根据鱼类的摄食需求动态调整投喂量,有效控制投喂量,降低养殖费用,保证鱼类健康生长,为实现智能鱼类行为分析和智能水产养殖提供了实践指导。未来的工作将探索一个在此基础上优化的基于时空数据视频分析的模型,进一步细化鱼群的行为状态。

注:本文通讯作者为缪新颖。

参考文献

[1] 杨玲.基于机器视觉的工厂化鱼群摄食行为智能分析方法研究[D].北京:中国农业大学,2022.

[2] 何佳,黄志涛,宋协法,等.基于计算机视觉技术的水产养殖中鱼类行为识别与量化研究进展[J].渔业现代化,2019,46(3):7⁃14.

[3] 陈彩文.基于计算机视觉的鱼群摄食行为分析研究[D].太原:太原理工大学,2017.

[4] YANG L, LIU Y, YU H, et al. Computer vision models in intelligent aquaculture with emphasis on fish detection and behavior analysis: a review [J]. Archives of computational methods in engineering, 2021, 28(4): 2785⁃2816.

[5] YANG L, YU H H, CHENG Y L, et al. A dual attention network based on efficientNet⁃B2 for shortterm fish school feeding behavior analysis in aquaculture [J]. Computers and electronics in agriculture, 2021, 187: 106316.

[6] TRAN D, WANG H, TORRESANI L, et al. A closer look at spatiotemporal convolutions for action recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 6450⁃6459.

[7] THU T, VO E, KO H, et al. Overview of smart aquaculture system: focusing on applications of machine learning and computer vision [J]. Electronics, 2021, 10(22): 1⁃26.

[8] UBINA N, CHENG S C, CHANG C C, et al. Evaluating fish feeding intensity in aquaculture with convolutional neural networks [J]. Aquacultural engineering, 2021, 94: 102178.

[9] QIU Z, YAO T, MEI T. Learning spatio⁃temporal representation with pseudo⁃3D residual networks [C]// IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 5534⁃5542.

[10] WEI D, BAO E, WEN Y, et al. Behavioral spatial⁃temporal characteristics⁃based appetite assessment for fish school in recirculating aquaculture systems [J]. Aquaculture, 2021, 545: 737215.

[11] WAGEEH Y, MOHAMED H E D, FADL A, et al. YOLO fish detection with Euclidean tracking in fish farms [J]. Journal of ambient intelligence and humanized computing, 2021, 12(1): 5⁃12.

[12] BARRETO M O, REY P S, YANG Y, et al. Emerging indicators of fish welfare in aquaculture [J]. Reviews in aquaculture, 2022, 14(1): 343⁃361.

[13] ZHANG L, WANG J, DUAN Q. Estimation for fish mass using image analysis and neural network [J]. Computers and electronics in agriculture, 2020, 173: 105439.

作者简介:唐晓萌(1997—),女,满族,辽宁铁岭人,硕士,研究方向为基于深度学习的计算机视觉。

缪新颖(1977—),女,满族,河北承德人,博士研究生,教授,研究方向为智能控制、数据挖掘。

猜你喜欢
图像预处理卷积神经网络特征提取
基于Daubechies(dbN)的飞行器音频特征提取
电子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP脑电特征提取算法
基于深度卷积神经网络的物体识别算法
基于LabVIEW雏鸡雌雄半自动鉴别系统
深度学习算法应用于岩石图像处理的可行性研究
软件导刊(2016年9期)2016-11-07 22:20:49
表格图像特征目标识别技术的研究
科技视界(2016年23期)2016-11-04 23:14:15
基于深度卷积网络的人脸年龄分析算法与实现
软件工程(2016年8期)2016-10-25 15:47:34
基于MATLAB的图片中字符的分割与识别
基于卷积神经网络的树叶识别的算法的研究
基于投影法检测光学元件面形的图形处理算法
光学仪器(2015年6期)2016-01-08 03:12:23