张雪莹 张浩林 韩莹莹 翁 强 袁峥嵘* 姚 远
(1.北京林业大学生物科学与技术学院,北京,100083;2.中国科学院自动化研究所,北京,100190)
野生动物作为生态系统的重要组成部分,与维持生态平衡与稳定息息相关。由于自然环境恶化、野生动物非法捕猎与交易等问题的存在,使得野生动物物种多样性锐减,濒危野生动物的保护已经成为当前社会关注的热点问题。因此,如何开展野生动物资源的观测与评估工作,更高效、更准确地获取野生动物相关数据成为了研究的重点问题。深度学习作为一种新兴手段,开始逐渐出现在人们的视野中,并不断被深入研究与使用。近几年,深度学习在动物识别中的应用在全球范围均取得了巨大的进展。在其基础之上,研究学者实现了野外条件下的动物物种识别、数量统计、行为检测、栖息地观测等智能化、无人化工作,不仅节省了大量人力与时间,更提高了精确度,具有明显的优势。笔者对此领域已有的研究进行归纳总结,并对深度学习在野生动物保护领域应用存在的问题及发展方向做出探讨。
人工智能的核心领域是机器学习,而深度学习是机器学习研究中的一门新兴技术[1]。深度学习的概念于2006年被Hinton等[2]及其学生正式提出,并立即引起了巨大的反响。它受到人脑多层神经网络的启发[3],以数学和工程为支撑,近年来在自然科学、交通安全、医疗诊断等诸多领域逐渐被广泛应用。从人工智能、机器学习、深度学习3种学习方式的关系上,可以看出深度学习在人工智能领域中的重要性及关键性(图1)。
图1 人工智能、机器学习、深度学习的关系
深度学习构建的是一个多层网络,相比浅层机器学习,深度学习具有强大的特征提取能力,对图像、声音、文本等高维数据的识别与分析有显著优势[4]。因此,在计算机视觉、自然语言处理、图像与视频分析等领域,深度学习已经成为研究的热门方向。
常见的深度学习网络模型有:适用范围最广的卷积神经网络(Convolution Neural Network,CNN),目前被应用较多的AlexNet、VGGNet、ResNet、GoogLeNet、DenseNet等深度学习网络,其基础都是CNN;适用于处理序列数据问题的循环神经网络(Recurrent Neural Network,RNN),在其基础之上进行优化产生了长短期记忆网络(Long Short-Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)、分层RNN、双向RNN等常用网络模型;生成式对抗网络(Generative Adversarial Network,GAN)、深度信念网络(Deep Belief Network,DBN)、胶囊网络(Capsule Network,CapsNet)等。在不同的应用环境下可以根据功能特性选择不同的网络模型进行训练(表1)。
表1 典型深度学习网络模型对比
为了提高深度学习的效率,各种开源学习框架也不断被提出并应用[5]。例如Google研发的TensorFlow、Facebook的Torch、Microsoft的CNTK、百度的PaddlePaddle等,这些框架主要应用于图像识别、自然语言处理、语音识别等,它们使深度学习的操作更为简便高效,达到了事半功倍的效果。
野生动物作为生物多样性的重要组成部分,其生存发展状况对生态系统的稳定与人类自身的发展密切相关[6]。近年来,人们投入大量人力物力加强对生态环境的保护,同时开展重要地区野生动物资源考察统计及栖息地恢复等工作,努力维护野生动物物种多样性,这虽然使部分濒危物种的生存状况得到一定程度上的改善,但仍然存在许多客观问题,导致保护与治理的结果并不十分理想[7]。因此,除了对野生动物实行直接及间接的保护之外,监测与识别工作的开展也与野生动物保护有着紧密的联系。为了进行更深入地分析与研究,人们通过对野生动物进行识别与分类、物种数量监测、迁徙轨迹跟踪等途径获得其相关信息,并以此为依据制定计策与规划,使野生动物的保护具有更强的针对性与更明确的方向性。
起初人们对动物监测识别及其生存空间的研究与评估是通过直接观测的传统方法,观测物种的活动轨迹并记录,之后通过实地调查与查阅相关文献等手段获取更多相关数据,但由于较多客观影响因素而导致观测结果较为粗糙。19世纪末,人们用相机陷阱来拍摄野生动物,但需要特定的触发条件。直到20世纪90年代中期,具有红外传感器的相机陷阱开始应用于各个领域。1994年,马世来等[8]最早于云南省高黎贡山地区将自动感应红外相机应用于野生动物的分布研究。21世纪初期,数码相机与红外相机相结合产生的数码红外相机诞生,性能得到了进一步完善。2010年后,红外相机性能不断提高,价格不断下降,因而得到了进一步普及,被广泛应用于野生动物的种群监测与评估等保护工作中[9]。
计算机及网络技术的快速发展与逐渐完备的地理信息技术体系加速了人们对野生动物及其栖息地关系的研究进程,进而更好地对物种进行保护。3S技术,包括遥感技术(remote sensing,RS)、地理信息系统(geography information systems,GIS)和全球定位系统(global positioning systems,GPS),作为新兴技术手段,对数据的提取、处理及分析具有更高的精确度,在野生动物保护、环境资源调查与管理等方面发挥了重要作用。
3S技术主要利用GPS实现实时定位,通过RS与GIS获取环境数据并进行分析与数据更新,并且随着技术的不断发展,3S技术也可配合各种分析模型对物种数据进行评价与预测[10]。例如Harrision等[11]、Bian等[12]在3S技术的支持下结合各种统计模型分别对狼(Canislupus)、驼鹿(Alcesalces)的生存环境及动态变化进行了分析与评估。宓春荣等[13]将3S获得的数据与物种分布模型结合,高效获取了黑颈鹤(Grusnigricollis)与白头鹤(Grusmonacha)的物种数据。盛琪等[14]结合GIS空间分析技术,使大兴安岭濒危物种紫貂(Marteszibellina)生境适宜性分级评价的分析结果更加精确。翟天庆等[15]则将3S技术与BIOMOD模型结合,预测了朱鹮(Nipponianippon)的物种数据变动,从而制定对朱鹮保护的针对性策略。除此之外,在3S技术提供如此丰富的基础数据的平台上,近年来,无人机[16]、GPS项圈[17]等新兴技术的辅助也为野生动物的观测提供了更加精细与全面的数据。
种群密度作为种群的基本数量特征,是调查和保护野生动物的重要依据,与动物生存环境相结合,用于判断生态系统的变化对种群密度的影响,从而实施针对性保护。目前人们监测野生动物的传统调查方法主要分为人工监测和智能监测2种。
2.2.1 人工监测
人工监测以定期人工野外调查获得相关数据。其中对哺乳动物、鸟类及鱼类等野生脊椎动物的调查主要使用样线法[18]、样点法、抽样调查法、计数法、标记重捕法[19]等,以动物独特的天然标记作为鉴别依据[20],再根据获得的数据估计动物种群数量及密度的变化参数。尽管人工监测对设备方面要求较低,更为经济,但会消耗大量的时间与人力,分拣成本高,且易受环境条件及其他因素影响,导致效率低、数据结果准确度低等问题。
2.2.2 智能监测
由于人工监测受时间环境等各种因素的限制,动物监测也逐渐向智能化发展,不仅节省了人力物力财力,使监测相对高效,同时也减少了人类对动物及其栖息地的影响,从而使数据更加准确。智能监测主要包括无线电遥测技术、自动感应红外相机技术[21]等。无线电遥测技术以目标动物佩戴发射器为媒介,通过无线电波的发射和接收来跟踪动物轨迹并获得其活动状态,适合观察大型动物的运动及繁殖[22]。红外相机通过温差传感器自动拍摄动物照片,主要应用于陆生兽类。尽管智能监测较人工监测便利许多,但也存在着一些问题,如硬件设施成本较高,受限于数据存储方式及传输速度导致时间成本大,易受自然环境影响而造成数据传送、存储管理、丢失、共享不及时等[23]。如今,人工智能的出现引发了动物监测与识别的巨大变革,面对海量的数据,信息技术的发展趋于将空间数据管理转化为分布式存储,并与云端GIS、人工智能等技术结合,将成为未来野生动物调查与治理的主要发展方向。
目前,野生动物识别与分类的方法主要分为2种:一是人眼识别,虽然相对准确,但由于数据量极大,人的连续工作时间有限,很容易疲劳而产生差错,使效率和准确率降低;二是计算机识别,即以基于神经网络的深度学习技术为基础,帮助计算机完成对动物的数据监测、物种识别、栖息地观测等工作,节省了大量人力与时间,具有明显优势。
CNN作为一种学习效率极高且易于训练的深度学习模型,在动物识别中最为常用,并且在不断进步。在CNN基础之上,人们通过对卷积层、池化层、全连接层等结构的交替与优化,加强对图像的特征提取并通过调整网络层数加强学习能力,进一步训练提高识别性能。2014年Chen等[24]研究发现CNN的学习能力明显优于传统的Bag of visual words(BOW)模型,但通过CNN进行野生动物物种分类的准确率仅有38%。2016年,Okafor等[25]在Wild-Anim数据集的基础上,通过减少全连接层中神经元的数量改善CNN架构,简化了识别流程,并且提高了识别的效率。Norouzzadeh等[26]在Snapshot Serengeti数据集(现存最大的野生动物标记数据集)的基础上,使用2阶段多任务学习的检测方式,对48个物种进行识别并对其行为等其他特征进行分析,准确率达到93.8%以上。Shi等[27]通过构建DCNN(Deep Convoluted Neural Network)框架对40只东北虎个体进行识别,准确率达到93.5%,且较于其他神经网络大大缩短了运行时间。拉毛杰等[28]基于Darknet-53框架,通过数据增强实现了部分畜牧业动物图像的识别,准确率达到87.9%。王文成等[29]利用ResNet50网络框架对10种鱼类进行分类识别,准确率达到93.3%。马梦园[30]利用DCNN网络对70种鳞翅目(Lepidoptera)昆虫进行分类,识别率达到了99.8%。Guo等[31]基于Tri-AI技术,对41种灵长类动物进行识别,准确率高达94.1%,该技术不仅适用于多物种识别,也可应用于夜间数据分析。此外,CNN可结合其他神经网络架构,如RNN的LSTM[32]、GAN[33]等,增强特征提取能力,进一步优化网络结构,提高识别准确度。以CNN为基础的动物识别流程见图2。
图2 通过CNN进行动物识别简化流程图
相对于静态图像识别的广泛应用,目前深度学习在视频识别方面的研究较为欠缺。主要原因为图像识别、视频识别分别处于空间和时空领域,二者有着很大程度上的不同。视频中物体通常存在运动模糊、视频散焦等问题而导致外观难以识别,因此需要层次更深、结构更复杂的网络模型进行训练,以发掘连续帧之间观测对象的关联,而这些要求导致的巨大计算量与训练时间成为难以解决的关键问题。
视频识别主要有3种方式:一是利用多张序列融合[34],即利用CNN提取每张图像特征并输入到LSTM网络中,最后进行多分类标签输出;二是利用双流架构[35],即空间流与时域运动流,二者通过多卷积层进行分类,最后对结果进行融合,是目前视频识别领域的主流路线;三是利用三维卷积(3D Convolutional Neural Network,3DCNN)的方式[36],需要对视频进行预处理,再利用3D的卷积核进行特征提取并输出结果。
目前,视频识别在人体行为识别、交通、医疗等方面得到了较为广泛地应用,但在动物识别方面应用较少。陈建促[37]通过构建包含时间序列信息的野生动物检测数据集WVDDS(Wildlife Video Detection Datasets)并结合YOLOv3模型解决了野生动物视频中的遮挡问题。赵凯旋等[38]利用卷积神经网络精确识别奶牛个体,视频识别率为93.3%。Nyiringabo[39]利用SSD网络(Single Shot Multibox Detector)对卢旺达国家公园的10种动物进行检测,精度达到了82.5%。Ravbar等[40]通过对苍蝇视频进行行为识别,设计了一种基于时空特征的识别系统,可以和CNNs结合应用于其他动物视频识别中,但仍存在输入转换(如平移和旋转)后的不变性的表达问题。Schofield等[41]基于CNN对黑猩猩(Pantroglodytesrerus)进行跟踪监测与识别,准确率高达92.5%,显示了视频监测识别的潜力,但由于其观测个体相对较少,研究结果具有一定局限性。可见,将深度学习应用于动物视频识别仍有很大的发展空间及应用趋势。动物视频识别简化流程见图3。
图3 动物视频识别简化流程图
近年来,利用生物声学的监测方式也开始在野生动物生态学中应用。人们将深度学习神经网络与一系列自动记录装置结合,并不断改进分析方法,收集大量的动物音频数据进行处理,将有效信息提取,从而对目标物种进行识别与检测。其原理是将音频转化为声谱图,将图片识别算法应用于声音的识别。Ruff等[42]通过CNN对5种猫头鹰(Strigiformes)的叫声进行识别,节省了大量时间与人力,提高了检测效率。之后,Ruff等[43]又通过对系统的进一步完善,对14种鸟类和哺乳类动物的音频片段进行检测,大部分物种的识别准确率超过90%,而自动检测相比手动数据筛查,减少了近99%的人工工作量。冯郁茜[33]将CNN与LSTM结合建立双模态分类算法,对鸟鸣声进行特征提取,使鸣声算法得到进一步优化,完成了基于鸣声的物种自动分类与数量统计工作。
深度学习在音频识别方面的应用虽然在一定程度上解决了如何高效自动检测目标物种的问题,但准确率仍受物种活跃度及音频质量的影响。此外,对于自动检测目标物种往往需要大型的声学数据集,数据的收集与处理不仅可能耗费大量的时间,更依赖于计算机的性能。如何解决这些问题仍然是人们研究的重点方向,但对于行迹难以发现的稀有野生动物来说,用相对较容易获得的音频进行处理与识别,不失为监测与保护的一条新路。
深度学习已经在计算机视觉领域被广泛应用并取得了相当显著的研究成果,但在野生动物识别方面,仍然存在许多难题亟待解决。若针对以下问题进行更深入地探讨与研究,有望进一步推动深度学习在动物识别方面的发展,并加强其在野生动物保护方面的应用。
目前,深度学习取得的有效成果大部分源于监督学习,无监督学习的准确性往往不如监督学习,但如果想让人工智能有更进一步地发展,无监督学习将起到举足轻重的作用。在无监督学习中,机器可以自主学习没有人为正确标签的数据并进行预测,但所需的巨大的计算量及深层次的网络结构引起欠拟合问题仍有待解决。
一些深度学习模型本身存在训练时间长、训练难度大、由于存在过多参数设计困难、自身模型过于庞大、样本利用率低等问题。因此,如何对参数进行调整或通过利用不同模型搭建集成模型可以成为解决问题并提高准确率的方向[25]。除此之外,也可提出全新的算法与设计,或制造出全新的硬件来配合模型训练,例如Google为Tensorflow设计的ASIC芯片TPU取代硬件方面的GPU、Google Deep Mind通过Learning to learn算法[44]调整网络结构使学习效率更高等。
数据集获取难易度不同,大部分来源主要为网络或人工拍摄整理,由于野生动物活动隐蔽、位置变动快、背景环境复杂等客观原因,可获取的完整数据集较少。若受到光照、气候条件、捕捉角度、个体姿态、部分或完全遮挡等影响,也将造成数据质量参差不齐,这需要人工或计算机进行后续处理,此过程需要大量的时间和成本,处理的完成度与后续训练和识别等工作的顺利展开有重要联系。同时,训练结果也受限于数据的数量及质量,如果物种数据来源不够广泛且不具有代表性,训练和测试的准确率可能较低。数据量与复杂度的增加也会对识别过程造成一定影响,需要根据需求改善或改变网络参数与结构,因此对硬件环境的要求较高,需要更多的资金投入。
针对于动物数据集的数量与质量问题,有3种解决方案:一是对深度学习框架性能的提升,包括对网络架构的优化、识别速度的提高、识别准确度的强化等。目前的识别学习网络需要以大量的样本数据为依托进行训练,而野生动物的数据资料往往比较匮乏,因此对小样本数据进行训练并有效识别可能成为未来的研究方向之一;二是通过数据增强,例如旋转、翻转、移位、裁剪等增强技术,在无法获得更多数据的情况下获得更多的参数,提升学习网络的性能;三是加强对野生动物资源调查与评估的投入,需要大量的资料收集和录入工作来充实野生动物数据库中的信息资料。
获得大批量准确的带标签数据往往需要耗费大量的人力物力财力,因此如何减少训练所需标签的数量也成为研究的一个新方向。He等[45]曾提出对偶学习范式减少训练对带标签数据的依赖,这对于标记数据难以收集的珍稀物种的识别将会更为有利。
将深度学习与其他技术结合,应用于野生动物识别与调查。例如,微软的AI for Earth项目利用CNN网络结合OpenCV和Caffe框架对物种识别分类及监测种群状况,并使用DNA采样和GPS项圈跟踪物种以了解总体种群数量与其栖息地的关系。此外还有以下几种思路:一是直接将卫星遥感与深度学习结合进行物种识别。目前比较成功的例子是Yang等[46]利用卫星图像在神经网络算法的基础上对牛羚(Budorcastaxicolor)、布氏斑马(Equusburchelli)进行了自动识别,Sergio等[47]也发现GPS与卫星数据在濒危物种保护与管理的应用不断增多,人们可以通过这些数据对物种死亡率进行调查并评估潜在死亡风险,甚至可以远程追踪威胁野生动物的非法活动。二是将GIS空间分析与深度学习结合进行分类并评估。三是基于深度学习的无人机检测方法[48],可以高效地识别定位目标、获取地物信息。例如,Eikelboom等[49]通过无人机与卷积神经网络结合搭建的半自动检测方法对肯尼亚大草原的非洲象(Loxodontaafricana)、长颈鹿(Giraffacamelopardalis)、平原斑马(Equusquagga)等物种进行检测,发现空中观测与人工观测相比,不仅在效率上有很大提升,其受到飞行速度、物种群体规模、观察者状态等干扰因素影响极小,精确度会有所提高。这些方法虽然还在完善之中,但都有望成为对野生动物进行监测与保护的有力技术支撑。
人工智能的应用领域在不断扩大,基于深度学习的识别算法也在不断进步,这个趋势已成为发展的必然。深度学习是一个十分抽象的领域,但它却有着不可小觑的上升潜力。研究表明,将人工智能应用于动物数据分析与评估在国内外均已略显成效,但在动物视频、音频识别方面仍有较大的局限性。相信在互联网大数据时代的推动下,人工智能将更广泛地应用于野生动物资源的监测与识别,并通过对野生动物的动态变化与栖息地的观测,对其生存状态做出更完善地评估,辅助野生动物保护机构更好地进行有针对性的研究与保护工作,为维护自然生态平衡贡献新的力量。