基于轻量化网络和密集光流法的精子活力检测

2024-05-30 10:05董睿李传江张崇明

上海师范大学学报·自然科学版 2024年2期

董睿李传江张崇明

摘要：基于便携式家用精子检测仪的研发需求，研究了轻量化卷积神经网络在精子活力检测方面的应用.利用Farneback光流算法提取出不同帧间距的精子视频的密集光流帧图像，并通过多通道图像叠加的方式将其与原始视频帧图像进行叠加.把叠加后的图像作为轻量化卷积神经网络ShuffleNet的输入图像，用于检测视频中精子的活力水平.实验结果表明：使用ShuffleNet能在基本不降低检测精度的前提下显著降低网络整体的计算量和模型所占用的内存，更适用于嵌入式和移动设备.此外，采用多通道叠加密集光流帧和原始帧图像作为输入图像，相较于单一的原始帧图像，有效提升了网络模型的性能.

关键词：精子活力；轻量化；卷积神经网络； Farneback光流算法

中图分类号： TP 183 文献标志码： A 文章编号： 1000-5137（2024）02-0278-05

Sperm motility detection based on lightweight network and dense optical flow method

DONG Rui， LI Chuanjiang， ZHANG Chongming^*

（College of Information， Mechanical and Electrical Engineering，Shanghai Normal University，Shanghai 201418，China）

Abstract： Based on the research and development needs of portable home sperm detection， the application of lightweight convolutional neural network in sperm motility detection was studied in this paper. The Farneback optical flow algorithm was used to extract the dense optical flow frame images of sperm videos with different frame intervals， which were stacked with the original video frame images by multi-channel image superposition. These stacked images were used as the input of the lightweight convolutional neural network ShuffleNet to detect the motility level of sperm in the video. Experimental results showed that by use of ShuffleNet the overall computation cost of the network and the memory space could be reduced significantly without reducing the detection accuracy， which was more suitable for embedded and mobile devices. Furthermore， compared to utilizing only original frame pictures as input， the performance of the network model was effectively improved with the adoption of using multi-channel superposition of dense optical flow frame images and original frame images as input.

Key words： sperm motility； lightweight； convolutional neural networks； Farneback optical flow algorithm

傳统的人工检测精子活力存在一些弊端，包括主观性影响、负担和疲劳、受限的数据量和复杂度、时间和效率，以及可重复性和标准化问题等^［¹^］，而计算机辅助精子分析技术（CASA）也存在一些弊端和限制，标准化仍然未能实现，精确性和可靠性受到技术的限制，需要专业训练和设备的辅助^［²^］. 此外，CASA设备成本高、体积大，不能满足患者居家自测的需求.

相较于经典的机器学习方法，基于深度学习方法利用特定的卷积神经网络模型对精子视频和图像进行分类和识别，具有更快的识别速度和更高的精度^［³^］. THAMBAWITA等^［⁴^］提出了一种基于视频帧的密集光流的方法，用于精子形态分类和精子活力检测. 该方法将ResNet34网络作为主体，以叠加原始帧和不同帧间距的密集光流帧图像及叠加9个连续的灰度帧图像分别作为输入图像进行了实验，结果表明，前者是更为有效的输入图像.

本文作者使用ShuffleNetV2轻量化卷积神经网络模型^［⁵^］，提取出不同帧间距的精子视频密集光流帧图像，并采用多通道叠加的方法作为网络模型的输入. 相比传统深度神经网络，ShuffleNetV2的推理速度更快、占用的内存更小和计算量更少. 此外，还对原始视频帧图像和不同帧间距的密集光流帧图像的叠加方式进行了更深入的研究.

1 网络模型和原理

1.1 ShuffleNetV2网络

ShuffleNetV2的基本模块如图1所示. 先将输入特征图在通道维度下平均分成2个分支. 保持通过左侧分支的特征图不变，右侧分支包含3个连续的卷积，并且其输入和输出通道相同，其中2个1×1卷积不再是分组卷积，最后将2个分支的输出拼接（concat）在一起，进行通道混洗（channel shuffle）操作，以保证2个分支之间的信息交流. ShuffleNetV2的下采样模块如图2所示. 该模块移除了通道拆分的操作，每个分支都是直接复制一份输入，最后拼接在一起，这使得特征图的空间大小减半，输出通道的数量翻倍.

ShuffleNetV2采用了轻量化的设计，能在资源有限的设备上快速高效地运行.ShuffleNetV2利用了通道拆分和分组卷积等技术，在保持模型体量较小的前提下，提升了精度和性能. 因此，ShuffleNetV2更适用于嵌入式和移动设备.

1.2 Farneback光流算法

光流法的基本假设是相邻帧之间的像素亮度保持不变，即对于同一个物体上的像素点，在不同帧之间的亮度值应相等. 基于这个假设，光流法通过计算像素点之间的灰度或颜色差异，估计出每个像素点的运动矢量.

Farneback光流算法的主要实现思路是通过每个像素点的邻域信息（由邻域像素点的像素值大小和位置来确定权重）来对该像素点的坐标位置进行多项式展开，得到一个以原坐标（x₀，y₀）为自变量，新坐标（x，y）为因变量的多项式，并代入坐标数据来求取该像素点在x和y方向上的移动量（d_x，d_y），得到每个像素点在前后两帧图像中的位移矢量，包含振幅和相位.

1.3 多通道密集光流帧图像和原始帧图像的叠加方式

采用的多通道密集光流帧图像叠加方法，将输入扩展为9个通道. 使用3通道的原始视频帧图像，加上3通道帧间距为x的密集光流帧图像，再加上3通道帧间距为y的密集光流帧图像作为输入图像.x和y在1～10之间取值. 整个精子活力检测的实现流程如图3所示. 为了研究提取密集光流帧的帧间距对模型性能的影响，实验分别设计了4种不同类型的数据集输入：A，A+B1+B10，A+B1+B1，A+B10+B10，其中A為原始视频帧图像；B1为帧间距为1的密集光流帧图像；B10为帧间距为10的密集光流帧图像.

加载预训练权重，对参数进行初始化，将预处理好的数据集图像作为输入送到ShuffleNetV2网络模型中进行特征提取，最后改变全连接层，输出3个分类结果，对精子活力的类型进行检测和判定.

2 实验结果与分析

2.1 数据集预处理

本实验使用VISEM数据集^［⁶^］. VISEM是一个多模态视频数据集，用于研究人类精液质量，以辅助计算机视觉和人工智能领域的研究，其中包含来自85个不同参与者的匿名数据和精液样本视频，原始帧率是50 帧·s^-1.

利用Farneback光流算法准备了相邻1帧和相邻10帧提取的密集光流帧图像作为训练和测试数据集，每个视频提取了250张密集光流帧图像，一共21 250张. 数据集进行了标准化处理，大小统一为224×224 pixels.

使用了VISEM数据集中的68个精子视频作为训练集，训练过程采用三折交叉验证的方法，其余17个精子视频作为测试样本，测试模型的性能和通用性.

2.2 实验配置和参数

为了模拟在嵌入式和移动设备上的检测环境，选择了配置较低的GPU：NVIDIA GeForce GTX 1650，其显存容量为4 GB. 实验的开发环境基于Pytorch1.13.1深度学习框架和torchvision0.14.1计算机视觉库，以及NVIDIA的CUDA11.7版本作为训练过程中的加速器. 模型训练的超参数统一设置为初始学习率为0.001，使用Adam优化器进行梯度优化，批次大小为32，训练迭代轮次为20轮.

2.3 评估指标

在训练过程中，均方误差（MSE）被用作反向传播误差的损失函数，而平均绝对误差（MAE）被用来计算基于精子活力实际值（人工测量数据）的预测值的实际损失，

，（1）

，（2）

其中，n是样本数量；是实际值；是预测值.

2.4 数据集类型选择

表1为不同数据集类型作为输入的MAE对比. 将预处理后的VISEM训练集平均分为三折进行交叉验证，如表1中Fold_1，Fold_2，Fold_3所示.相对于原始方法，多通道叠加密集光流帧图像的方法MAE较小，表明混合使用密集光流帧图像和原始视频帧图像作为输入图像能够提升模型的性能. 此外，A+B1+B1的MAE为9.495，A+B10+B10的MAE为10.679，由此可知，采用3通道原始帧图像叠加2个3通道的帧间距为1的密集光流帧图像，能够更加精确地获取精子视频运动信息，这有利于模型检测精度的提升.

2.5 对比实验

如表2所示，在多个不同方面比较了 ShuffleNetV2和ResNet34网络的检测性能. 其中在A+B1+B1数据集类型下，ShuffleNetV2的平均MAE略高于ResNet34. 此外，使用torchstat工具对比了ShuffleNetV2和ResNet34的性能. 结果显示，ShuffleNetV2在Flops、参数量和模型文件大小方面都明显小于ResNet34.

2.6 检测结果分析

用训练好的ShuffleNetV2模型对测试样本进行精子活力检测. 表3为其中3个精子视频样本在采用A+B1+B1类型输入时的检测结果与人工检测数据的对比. 结果表明，所提出的检测方法和人工检测的结果一致.

3 结语

基于深度神经网络，本文作者提出精子活力检测方法，采用了轻量化网络ShuffleNetV2，有效减少了网络的计算量和模型的占用内存，可在嵌入式和移动设备上实现精子检测. 使用Farneback光流算法，提取了不同帧间距的密集光流帧图像，并通过多通道密集光流帧和原始帧图像叠加的方法，最终实现了对精子视频的三分类. 实验结果表明：选取适当的密集光流帧图像的帧间距和帧数，可以显著降低精子检测的平均绝对误差. 本研究尚有一些不足之处，比如相比于更加复杂的网络，使用ShuffleNetV2网络检测精子的MAE略有下降. 未来的研究方向将聚焦于探索更轻量化且性能更好的神经网络模型，以及探索更有效的适用于较高密度小目标跟踪的光流预测算法.

参考文献：

［1］ GOH V H， ASARI M A B， ISMAIL L H B. 3D convolutional neural networks for sperm motilityprediction ［C］//IEEEInternational Conference on Intelligent Cybernetics Technology & Applications. Bandung： IEEE， 2022：174-179.

［2］ DEARING C， JAYASENA C， LINDSAY K. Can the sperm class analyser （SCA） CASA-mot system for human sperm motility analysis reduce imprecision and operator subjectivity and improve semen analysis？［J］. Hum Fertil （Camb），2021，24（3）：208-218.

［3］ OTTL S， AMIRIPARIAN S， GERCZUK M， et al. MotilitAI： a machine learning framework for automatic prediction of human sperm motility ［J］. iScience， 2022，25（8）：1-18.

［4］ THAMBAWITA V， HALVORSEN P， HAMMER H， et al. Stacked dense optical flows and dropout layers to predict sperm motility and morphology ［J/OL］. arXiv：1911.03086v1， 2019 ［2023-12-01］. https： // arxiv.org/abs/1911.03086.

［5］ MA N N， ZHANG X， ZHENG H T， et al. Shufflenetv2： practical guidelines for efficient CNN architecture design ［J/OL］. arXiv： 1807.11164v1， 2018 ［2023-12-01］. https： // arxiv.org/abs/1807.11164.

［6］ HAUGEN T B， HICKS S A， ANDERSEN J M，et al.VISEM： a multimodal video dataset of human spermatozoa ［C］//Proceedings of the 10th ACM Multimedia Systems Conference. New York ：ACM， 2019：261-266.

（责任编辑：包震宇，郁慧）

DOI： 10.3969/J.ISSN.1000-5137.2024.02.021

收稿日期： 2023-12-25

作者简介：董睿（1999—），男，硕士研究生，主要从事基于深度学习的精子检测方面的研究. E-mail： 2802249984@qq.com

* 通信作者：张崇明（1973—），男，副教授，主要從事智能硬件和人工智能应用技术方面的研究. E-mail： czhang@shnu.edu.cn

引用格式：董睿，李传江，张崇明. 基于轻量化网络和密集光流法的精子活力检测［J］. 上海师范大学学报（自然科学版中英文）， 2024，53（2）：278?282.

Citation format： DONG R， LI C J， ZHANG C M. Sperm motility detection based on lightweight network and dense optical flow method ［J］. Journal of Shanghai Normal University （Natural Sciences）， 2024，53（2）：278?282.