张媛媛 穆浩文 孙哲 郭松涛 许鹏飞
智能科技推动野生动物保护事业蓬勃发展,为该领域带来新的活力与机遇。传统的野生动物监测技术如红外线技术、远程摄像、人工观察等方法具有分辨率有限、成本高、覆盖范围小、易受天气和环境影响等缺点。而智能科技通过先进的数据采集设备与AI算法模型帮助科研人员提高监测和追踪野生动物的效率,更准确地了解物种分布、迁徙路径,以及数量变化,为保护策略的制定提供有力支持。
智能科技助力野生动物保护是指使用计算机视觉技术监测野生动物,主要体现为野生动物的精准检测、追踪和智能识别。计算机视觉技术监测野生动物的流程一般为:①数据采集。使用无人机、高清摄像机等智能设备采集目标野生动物的图像或视频。②数据处理。人工手动筛选图像,去除模糊图像与无目标图像,再对剩余数据进行标注。③模型训练。将标注好的数据分为训练数据与测试数据,根据不同的监测要求选择合适的深度学习网络模型进行训练与测试。④模型评估。选择合适的评价指标度量模型,根据反馈改进网络,进而提升性能。
野生动物智能精准检测有助于野生动物计数、遏制非法猎捕野生动物和保护濒危野生动物。野生动物智能检测是指在复杂场景中使用传统机器学习方法或深度神经网络及其他算法对无人机、相机陷阱、车辆摄像头等设备采集的视频或图像中的动物进行精确定位与分类。
发展迅猛的AI技术大力推动目标检测模型的更新迭代,目标检测由最初基于传统机器学习算法的检测方法发展到基于深度学习的方法。动物检测方法跟随AI发展的趋势,也逐渐由基于传统机器学习方法的检测方法过渡到深度学习检测模型。顺应深度学习发展的热潮,目标检测模型的更新层出不穷。两阶段的检测模型如R-CNN[1]、Fast R-CNN[2]、Faster R-CNN[3]到单阶段的检测模型如YOLO系列、SSD[4]、RetinaNet[5]等都展示出优越的检测性能。这些卓越的模型最初用于检测行人,以及车辆、房屋、树木等物体,但也可以用于检测难度更大的处于复杂场景中的动物。大量研究已经表明基于深度学习的检测模型不仅可以检测动物,还能克服动物检测领域的挑战并显著提升动物检测的准确率。
传统的基于特征的检测方法分为3步:①区域选择。使用滑动窗从左到右、从上到下对图像进行滑动,裁剪图像。②特征提取。采用一些传统机器学习算法如HOG、Haar、SIFT等来对图像块进行特征提取。③分类器。如使用支持向量机等分类算法对目标动物进行分类。虽然传统的基于特征的目标检测方法因计算复杂度高、滑动窗口冗余及复杂环境条件下鲁棒性较低等固有缺陷导致其逐渐边缘化,但基于深度学习的检测模型受到计算机资源、检测基础理论、数据集等条件的限制,因此传统检测方法没有销声匿迹,动物检测相关研究中仍有它的身影。
基于深度学习的检测方法可以分为两类:①两阶段检测方法。将检测中的定位与分类分开操作,先生成区域建议再进行分类。②单阶段检测方法。直接生成目标动物的位置坐标和类别概率。两阶段的目标检测方法检测精度高但速度慢,单阶段的目标检测方法检测速度快但精度不如两阶段的目标检测方法。在动物检测领域中,经常根据不同场景与检测需求选择合适的检测方法,两阶段与单阶段的检测方法都应用广泛。
随着深度学习的蓬勃发展及众多学者对目标检测模型的研究,基于深度学习的检测方法已经突破传统目标检测算法带来的瓶颈,并成功解决动物检测过程中遇到的许多挑战,成为当下检测算法的主流技术手段。与传统目标检测方法相比,基于深度学习的检测方法可以同时学习图像的低级特征和高级特征,且学到的特征比传统方法学到的更具有代表性。基于深度学习的检测方法在一些问题与挑战的处理上具有良好的潜力,例如:①解决动物与车辆在公路上发生碰撞的问题。②解决野生动物入侵人类居住区域的问题。③防止偷猎野生动物。④实现复杂自然场景下的动物检测。摇摆的树、混浊的水、暴风暴雨天气等复杂的自然环境,以及动物自身状态多变严重影响检测性能,而使用基于深度学习的模型可以有效改善这一困境。如2021年研究者针对复杂的水下环境[6],使用YOLOv4准确检测出处于浑浊水质及低亮度环境中的水下动物,其平均准确率达到97.96% [7]。
除了深度学习模型以外,动物检测中还有一些使用运动目标检测算法的研究。常见的运动目标检测算法有背景差分法(也称背景减法)、帧间差分法、光流法等,在动物检测领域较为常见的是背景减法。如2019年有研究者以区分人与动物为目的,采用背景减法检测和分类运动目标,将人与动物快速检测出来[8]。
总而言之,动物检测研究涉及的数据主要来源于常规设备采集、无人机拍摄和相机陷阱捕获。相比于传统的目标检测算法,基于深度学习的目标检测算法的使用率更高,大部分相关研究都是使用基于深度学习的方法来进行目标动物检测。而在基于深度学习的目标检测算法检测动物的研究中,尽管两阶段的Faster R-CNN应用较为广泛[3],但单阶段的目标检测方法比两阶段的目标检测方法更受欢迎,尤其是YOLO与后来出现的RetinaNet[5]。除此以外,针对运动动物目标检测,背景减法在研究中出现的频率较高。背景减法是将图像序列中的当前帧与已经确定好或实时获取的背景参考模型(背景图像)做减法,找不同,计算出与背景图像像素差异超过一定阈值的区域,将其作为运动区域,从而来确定运动物体位置、轮廓、大小等特征。将背景减法与其他运动目标检测算法相结合也是一个提高检测性能的发展方向。高性能的检测模型不仅有助于动物检测的研究,同时也能推动其他动物智能监测任务前行。
在动物智能识别以及其他动物智能监测中,动物追踪发挥着极其重要的作用,有效的追踪技术能够减少科研人员在动物智能监测相关任务中消耗的时间与精力。动物追踪指使用一些追踪算法如卡尔曼滤波算法或深度学习网络给出图像序列、视频中的单个或多个目标动物的身份标签或者运动轨迹,并使得目标动物的身份标签随着时间序列的更新而保持不变。
在视觉领域中,目标追踪技术有很多,如GPS追踪、摄像机陷阱追踪、车辆追踪、无线电追踪、卫星追踪、射频识别等,它们各有优缺点。但这些侵入性的方法并不适用于动物追踪领域,因为它们会给动物带来痛苦和压力,损害动物的健康。而基于计算机视觉的追踪方法是更好的选择,这些方法具有对动物友好、易维护、成本低的优点。
目前,在多数动物追踪的相关研究中,使用传统机器学习方法如卡尔曼滤波算法,少数研究使用端到端的基于深度学习的追踪网络。尽管目标追踪在深度学习发展的浪潮下日趋成熟,但由于其研究的出发点不是针对动物,所以这些经典的追踪模型很难直接应用于动物追踪领域。因此,早已具备完整成熟体系的传统追踪算法则被广泛用于动物追踪任务中。这些算法大多是基于检测的追踪算法,即先检测图像或视频帧中的目标动物,然后在此基础上使用一些追踪算法追踪这些动物。基于检测的追踪能够简化追踪过程,自深度学习出现以来,目标检测比目标追踪受到学者们更多的关注,相对而言目标检测的发展更为成熟。并且在动物研究领域中,大量动物智能监测的研究是关于动物检测或基于动物检测的,因此在动物追踪中结合目标检测的模型具有很大的发展前景。
尽管使用基于传统机器学习的追踪算法可以在一定程度上解决动物追踪任务中遇到的困难,但是在面临由于遮挡出现动物身份切换、大量动物群体的频繁移动、动物移动速度很快并改变行动方向、水下动物追踪遇到漂浮物遮挡及水质浑浊等挑战时,仍具有一定的局限性。在追踪阶段,直接应用深度学习方法会使模型在面对这些挑战时性能更上一层楼。
2017年研究者使用自己搭建的CNN跟踪斑马鱼[9]。由于当时的追踪技术在追踪大量目标时,无法在发生严重遮挡后长期保持动物身份的正确,因此开发出一款名为CNNTracker的追踪软件。CNNTracker首先从每一帧中提取每条鱼的头部特征图,然后利用两帧中相同头部点之间的位移和同一条鱼的头部特征图形成连续两帧之间的头部点对。通过连接相应的头点对,可以得到鱼的轨迹片段。根据片段终点和起点之间的位移,以及终点和起点之间的帧差生成用于训练的初始轨迹。有些片段可能在很短的时间跨度内共享相同的时间戳,如果这些片段的数量与图像序列中鱼的总数相同,则可以将这些片段与初始轨迹融合,并作为CNN训练的初始训练样本。通过使用迭代CNN训练方法来优化CNN的精度,将轨迹的每一段输入最终训练的CNN中以确定它属于哪个身份。这些片段根据其分配的身份进行连接,形成时间顺序的轨迹。最后,软件检测并修正轨迹错误,填补轨迹空白,并评估轨迹的可信度。整个过程是完全自动的,不受误差传播的影响,能为任何复杂的交叉给出可靠的正确标识,以及在严重遮挡下长时间保持动物的身份。
总体来说,基于深度学习的追踪方法具有更强大的核心竞争力,不论是专业的追踪模型还是其他类型的深度学习网络,在面对动物追踪任务中涉及的挑战时都具有优秀的潜力。
动物智能识别(身份识别)是指利用非生物特征或生物特征识别方法对照相机、无人机、深度相机、红外相机等设备拍摄的图像或视频中的动物进行识别,即给出该动物的身份标签。随着计算机视觉技术的快速发展,动物智能识别领域的相关研究也跨入新的高度。诸如耳标、文身、植入芯片(如可注射应答器)、射频识别及油漆标记等非生物特征识别方法,因具有侵入性、对动物不友好、不易维护、易丢失、耗时耗力等缺点,逐渐被发展成熟的计算机视觉技术所代替。动物智能识别方法中蕴含的计算机视觉技术是指基于生物特征的识别方法,主要表现为传统机器学习方法与深度学习方法。
具有非侵入性、成本低、易维护等优点的生物特征识别方法不仅深受广大学者的欢迎,而且对动物十分友好。最初的生物特征识别方法以传统机器学习算法为代表。使用传统机器学习方法实现动物智能识别主要包括4个阶段:数据预处理、特征提取、识别分类(特征匹配)和评估。基于传统机器学习方法的动物识别技术常用于家畜识别,也可用于野生保护动物的识别。如2017年研究者设计出一个狐猴识别系统LemurFaceID,首次使用面部特征识别狐猴[10]。LemurFaceID的实质是通过LBP、MLBP和LDA相结合的方式实现特征提取与特征匹配,其准确率高达98.7%±1.81%。
发展逐渐成熟的深度视觉技术给动物智能识别研究带来新机遇,解决了许多传统机器学习方法不能处理的识别难题,生物特征识别方法也逐渐从传统机器学习方法转变为深度学习方法。不像传统机器学习方法需要手动提取特征,深度学习模型可以通过多层神经元连接来实现自动特征提取和表征学习。具体来说,深度学习模型通过多层神经元连接来逐层学习图像的特征,每一层都可以看作是对原始图像的不同级别的抽象表示。初始层可能捕捉到像素级别的细节,而后续层会逐渐学习更高级别、更抽象的特征。例如, CNN 中的卷积层使用卷积核来检测图像中的特定特征如边缘或颜色斑块。通过卷积操作,模型能够捕捉到局部的空间关系。在训练过程中,为更好地区分不同类别的目标并使得模型能根据不同的数据自动提取和优化特征,深度模型通过反向传播算法调整权重以最小化预测误差。
基于深度学习的动物智能识别方法的基本流程是将含有目标动物的图像或视频作为输入,送入预先训练好的深度神经网络模型中,最后输出目标动物的身份。一些研究在基本流程的基础上进行扩展,常见的拓展方式有3种:①将识别与检测结合起来形成一个自动化的识别体系(两阶段模型);②应用注意力机制或其他算法模块;③设计或更换模型的损失函数。
基于深度学习的动物智能识别方法形式多样,应用较为灵活。不论是家畜还是野生动物,不论是提取动物面部特征还是鼻印特征抑或皮毛特征,不论是视频数据还是图像数据,不论是常规设备采集还是诸如无人机、监控摄像头采集的动物数据,深度学习方法都能高效、精确地识别目标动物的身份。
挑战
⑴山地林区野生动物监测:走不到、看不全、看不清、难辨别。
目前技术主要是利用探测器网络和AI相结合,逐步实现了人工监测到半自动化监测,也达到了智能化监测。但现阶段,数据探测、采集、处理及智能监测等都面临着困境:如何在探测层面实现大尺度野生动物监测,解决走不到、看不全的问题;如何建立自动化数据采集体系,实现多源数据智能化处理和智能识别,解决看不清、难辨别的问题。
⑵水生动物智能监测:水下环境复杂多变,技术空白多。
水生态(水环境和鱼类资源)问题突出,智慧监测与评估是水生态保护的必要手段和未来发展方向。国内智能监测技术发展缓慢,尤其是鱼类智能化监测还处于技术空白阶段,国外设备使用不够便捷,且存在跨域不可用的问题,亟须研究相关设备及先进技术来解决水下生物保护行业获取清晰图像、机器鱼引导、仿生鱼设计等问题。
⑶智能识别与监测技术:初始数据库创建难、环境不受控。
在数据采集工作过程中,野外环境变化不受控,如刮风、暴雨、暴雪天气会影响研究人员的观测以及动物的踪迹。动物行为动作变化多样以及动物不配合等因素也会导致数据很难采集。此外,一些野生动物的生存环境人类无法到达,借助无人机等设备会惊扰动物,也不便于采集数据。
未来
⑴野生动物智能监测未来发展方向:探索“数据+机理”驱动的智能监测技术。
⑵智能科技未来发展方向是人机协同、人机共融。
⑶生态监测和新一代信息学科交融点应该更多考虑在技术上的共性。
⑷落实产品化:研究成果与产品落地应用需要市场驱动和利益权衡。现阶段要在技术创新的基础上形成一个完整的便于应用的装置,需要工程化设计和产业化推广。建议组建创新性科技公司,或者联合创新性公司开展技术产业化,实现技术落地。
未来野生动物智能监测应聚焦于数据与机理相结合的技术,促进人机共融与协同发展,并通过市场驱动和产业化推广,实现技术产品化和落地应用。
[1]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 580-587.
[2]Girshick R. Fast R-CNN//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1440-1448.
[3]Ren S Q, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems, 2015, 28.
[4]Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector//Computer Vision–ECCV 2016: 14th European Conference. Springer, 2016: 21-37.
[5]Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection//Proceedings of the IEEE International Conference on Computer Vision. 2017: 2980-2988.
[6]Rosli M S A B, Isa I S, Maruzuki M I F, et al. Underwater animal detection using YOLOv4 //2021 11th IEEE International Conference on Control System, Computing and Engineering. IEEE, 2021: 158-163.
[7]Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv: 2004. 10934, 2020.
[8]Yousif H, Yuan J, Kays R, et al. Animal scanner: Software for classifying humans, animals, and empty frames in camera trap images. Ecology and Evolution, 2019, 9(4): 1578-1589.
[9]Xu Z P, Cheng X E. Zebrafish tracking using convolutional neural networks. Scientific Reports, 2017, 7(1): 42815.
[10]Crouse D, Jacobs R L, Richardson Z, et al. LemurFaceID: A face recognition system to facilitate individual identification of lemurs. Bmc Zoology, 2017, 2(1): 1-14.
关键词:智能监测 计算机视觉 深度学习 野生动物保护 ■