人工智能识别与人工识别红外相机动物影像准确率分析:以上海大金山岛猕猴监测为例

2023-07-25 06:38李必成张晨曦季钰翔孙锬锋丁屹旻谢汉宾王军馥张云飞李雪梅王小明
生态与农村环境学报 2023年7期
关键词:猕猴生境红外

李必成,张晨曦,季钰翔,孙锬锋,丁屹旻,张 伟,谢汉宾,王军馥,张云飞,李雪梅,王小明,杨 刚,①

(1.上海科技馆/ 上海科技馆长三角城市群生态安全与生物多样性保护实验室,上海 200127;2.上海海洋大学海洋学院,上海 201306;3.上海交通大学网络空间安全学院,上海 200240)

红外相机技术作为一种可靠且易于推广的生物多样性监测手段,近年来已在全国大部分自然保护区广泛应用[1],用于监测大中型野生动物,特别是哺乳动物和鸟类[2-3]。随着该技术的大规模普及应用,数据存储、识别和鉴定日益成为亟待解决的主要问题[4]。传统人工筛选对识别人员的专业水平有较高要求,虽然专业人员对一定数量图像的鉴定准确率较高,但随着工作量的不断增大,误判率就可能明显上升[5]。随着红外相机技术特别是灵敏度的不断提高,在野生动物活动频繁的地点布设红外相机,其年均照片数量往往数以万计[6],因此,运用机器学习等人工智能识别技术对海量数据进行快速、准确分析就显得尤为迫切。

早在21世纪初,人工智能识别技术就已经被科学界提出,并逐步应用于包括人脸识别在内的多种图像识别领域[7]。近年来,随着人工智能技术应用场景不断多元化,生物多样性研究与人工智能图像识别技术交叉学科已经逐渐成为研究热点之一[8-10]。宫一男等[4]基于YOLO v3模型深度学习识别了东北虎豹国家公园的部分野生动物。史春妹等[11]开展了自动识别人工饲养繁育的东北虎个体的研究。谢将剑等[12]基于鸣声样本集提出了多特征融合的鸟类物种识别方法。人工智能识别技术要求一定算力和可训练样本量,并且对样本的清晰度和背景的单一化程度具有较高要求。而红外相机拍摄的野生动物图像往往由于生境原因背景复杂,清晰度一般,这给人工智能识别带来一定挑战[12]。因此,有关野生动物红外图像的准确率研究一直是亟待解决的问题之一。另外,人工智能图像识别与人工识别的准确率、效率比较也是关系到该技术能否大规模推广应用的关键因素[13]。

因此,笔者选择上海大金山岛的猕猴(Macacamulatta)及其野外红外影像作为研究对象,应用YOLO v3模型进行训练与测试,探讨利用YOLO v3模型识别大量红外相机图像的可行性。同时,对比人工智能图像识别与人工识别的准确率与识别效率,找出特定样本容量条件下识别方式的最优解。

1 材料与方法

1.1 研究地点

实验数据来自2018年上海大金山岛红外相机拍摄的影像图片。上海大金山岛位于杭州湾东北角,面积为0.22 km2,是上海市海拔最高和面积最大的基岩岛,是上海金山三岛海洋生态自然保护区的核心区[14]。由于历史原因,大金山岛分布有一定数量的猕猴种群[15]。大金山岛植被以亚热带常绿林为主,人为干扰较少,且是一个较为封闭的岛屿,是研究野生动物种群的理想场所。2018年7—10月,研究团队利用网格法在大金山岛布设29台红外相机,用于猕猴野外监测,共获得红外影像97 244张,经初筛判读,发现照片中猕猴和人类(Homosapiens)的影像较多,因此以猕猴和人类分别设计模型。

1.2 模型训练

在所有29台相机拍摄的影像中随机选择训练集和测试集,共选出2 400张图片,其中400张作为训练集,另外2 000张作为测试集,照片不区分昼(RGB)、夜(灰度)图像。对图片进行统一标准的清洗和人工打框(图1),将动物和人所在区域用矩形框选,使其尽可能与动物或人躯体所在范围贴合,应用卷积神经网络,采用深度学习算法YOLO v3模型实现对红外相机影像中猕猴和人类的自动识别[16]。在对模型进行校正的过程中,可在原有训练集基础上下载其他来源的清晰图像。

图1 对图片进行人工打框示意

1.3 人工智能识别与人工识别准确率的测定及计算方法

通过对YOLO v3模型的研究发现,YOLO v3模型有自身算法的“准确率”,是采用人工智能算法通过模拟计算出的精确率(精度),是基于测试集计算出的准确率[4-5]。而对于测试集之外新的样本集的准确率有待检验,因此,该研究采用同一场景下的新样本集(图片集)验证模型的准确率,进而探讨人工智能识别大量照片的可行性。

1.3.1图片集选择

在所有29台相机中,部分相机由于自然及人为原因,拍摄的照片数量较少(<100张),去除这些相机的数据后,在剩余的相机中随机选择500张(≤500张的则全部选择)图片进行人工智能识别与人工识别。

1.3.2人工智能识别图像

固定专业人员利用1.2节中研发的模型对1.3节中提及的图像进行人工智能识别,判读图像中有无猕猴或人类,记录人工智能识别所有图像的总时长。

1.3.3人工识别图像

固定专业人员采用人眼识别方法对1.3节图片集中所有图片进行判读,人眼判别图像中有无猴或人,判别时间不做限制,可以对图像进行反复观看以保证准确率,记录人工识别所有图像的总时长。

1.3.4准确率测定及计算方法

组织两名以上的专业人员对图片进行再次判读,作为最终专家判读结果,并将其与1.3.2和1.3.3节的识别结果进行比较。人工智能识别和人工识别准确率的计算方法:人工智能识别准确率为人工智能识别与专家判读结果一致的照片张数与总张数的比值,人工识别准确率为人工识别与专家判读结果一致的照片张数与总张数的比值。

1.4 红外相机所在位置的生境划分

对拍摄照片进行目视判读,如相机拍摄照片中有一半以上的面积为同一植被层次(乔木层、灌木层、地被层)或同一人工生境(道路等),则定义为简单生境,其他则定义为复杂生境[17]。

1.5 数据分析

经单样本 Kolmogorov-Smirnov 检验确认数据符合正态分布的情况下,采用配对样本t检验分析人工识别准确率与人工智能识别准确率的差异。采用Mann-Whitney 检验分析简单生境的人工智能识别准确率与复杂生境之间是否存在显著差异[18]。

2 结果与分析

2.1 模型分析

由于野外固定地点拍摄的照片具有高相似度,且猕猴和人类的姿势或是侧身,或是在树林中难以分辨,所以提取有用特征的难度较大,在未加入具有明显特征的猕猴照片之前,训练出来的模型在测试集上分类的错误率较高。因此,在原有训练集基础上挑选164张照片并将其与网上下载的67张照片共同组成231张照片的数据集,包含猕猴和人类。在加入下载的照片之后,在前100轮训练中,模型的训练指标损失函数(loss)的下降速率比加入照片前明显加快,且loss的波动幅度较小。该实验使用的显卡为单张RTX 3060,显存为12 GB。以5×10-5的学习率开始训练,在经过700轮的训练后达到最优解,后续7 000轮训练中的最优解均与之相近,提升微小。在阈值为0.5的情况下,对猕猴识别的精确率为85%,对人类识别的精确率为82.35%,模型的平均精确率(mAP)为83.02%。

2.2 人工智能识别与人工识别结果

在所有29台相机中,由于自然及人为原因,有6台相机拍摄照片较少(<100张),分析不具备统计学意义,因此,仅对23台相机中的图片进行人工智能识别与人工识别的比较。最终,23台相机中的11 106 张照片进入该研究的图片集(表1)。人工识别共用时12个工作日,人工智能识别模型研发及校正共用时10个工作日,识别图片集共用时2 h。人工智能识别总准确率为69.0%,均值为68.2%。人工识别总准确率为99.0%,均值为99.1%。人工识别准确率显著高于人工智能识别准确率(t=-9.256,df=22,P<0.01)。

表1 人工智能识别与人工识别准确率比较

2.3 图像识别与生境复杂度

图片背景为简单生境的相机共有9个,图片背景为复杂生境的相机共有14个(图2)。简单生境背景的人工智能识别准确率显著高于复杂生境(Z=-2.270,P=0.023)。简单生境背景的人工识别准确率与复杂背景无显著差异(Z=-0.406,P=0.685)。

图2 典型的简单生境与复杂生境示意

3 讨论

3.1 人工智能识别红外相机照片的可行性分析

与人工识别相比,人工智能识别误判率较高,主要是因为植被、石头或栏杆等的遮挡对识别对象的图像完整性造成一定程度的改变,如只有尾巴等较少部位等。这些照片特异性较高,无法形成有效的训练集[19],因此导致误判率较高。而对于拍摄模糊的对象,由于红外相机照片中模糊对象的比例较高[20],容易建立有效的训练集,因此,人工智能对模糊对象的识别准确率较高。人工智能识别简单生境中拍摄的照片准确率高于平均值,这是因为简单生境中拍摄对象大多出现在视野中央并且没有遮挡物遮挡,在图片中较明显。以DJS020为例,其识别准确率高达94.0%。该相机拍摄的背景生境大部分为道路,背景极其简单,有利于人工智能识别。在复杂生境背景中,猕猴多出现于视野四周并且大多数图片中猕猴被植被等遮挡,出现完整猕猴个体的比例小,不易被人工智能识别。另外,以DJS016为例,幼猴比例高也可能导致识别准确率下降。若图片上出现其他生物,也可能导致人工智能判断识别错误。综上,人工智能识别可用于生境及背景单一的红外影像,但需谨慎用于识别复杂的生境背景。另外,人工智能识别还可用于对大量照片的初筛。

3.2 人工识别红外相机照片的优劣势分析

由于人具有自动检索分析图像的能力,更容易对复杂图像进行快速判断[21-22]。因此,人工识别更容易识别复杂的生境背景、不完整的对象和多个个体[23]。并且,在上述特殊情况下,人工会更加集中注意力搜寻目标[24],而对于简单目标的重复反而会产生一定程度的视觉疲劳[25]。人工识别可用于识别复杂生境背景的照片和对人工智能初筛后照片的复核。笔者研究中,对11 106张照片的人工智能识别总时间(包含模型训练阶段)略少于人工识别时间,且准确率显著低于人工识别。对于万张级的样本量,人工智能并未显示出明显的时间优势,人工识别反而具有准确率优势。因此,人工识别红外相机照片的优势在于对一定样本量的复杂背景照片的识别准确率较高,而对大量确定的存在目标物种的背景单一照片更易产生视觉疲劳。

3.3 人工智能识别红外影像的应用前景

人工智能识别红外影像应用的物种主要包括非洲草原象(Loxodontaafricana)、欧亚野猪(Susscrofa)、北美驼鹿(Alcesamericanus)和草原松鸡(Tympanuchuscupido)等大型脊椎动物[13,26],这些物种往往体型较大,易于拍摄;并且红外相机机位可选择拍摄背景简单的空地区域,便于人工智能识别,笔者研究结论与之一致。另外,对于猕猴,特别是其面部识别较为深入[5,26],这是因为猕猴不仅是野生动物,也是实验动物。对于实验动物,采用特写拍照方式形成的训练集有效样本量很大,因此准确率往往可以达到90%,甚至95%以上[27]。而红外相机照片中面部特写照片少,目标各部位(面部、身体、尾部、侧身等)样本量分布较为平均,这就需要对不同部位照片分别单独建立训练集进行训练。对于动物的人工识别,专业人员一般比非专业人士更准确[28]。专业人员在看到动物整个身体时比只看到脸部时表现出更好的识别能力,在看到动物全身图像时,会花费更长时间观察面部以外的区域,因此耗时较长[28]。基于此,推测随着各类训练数据集的不断建立与开放应用,对于大型脊椎动物,特别是一些公众熟知的明星物种的人工智能识别可能会率先代替人工识别。

猜你喜欢
猕猴生境红外
网红外卖
小猕猴征集令
闪亮的中国红外『芯』
小猕猴学习画刊
枣树适应干旱生境研究进展
小猕猴侦探社
TS系列红外传感器在嵌入式控制系统中的应用
小猕猴侦探社
基于快速递推模糊2-划分熵图割的红外图像分割
金秀瑶族长鼓舞传承的文化生境