陈云霞 周婷媛 邹智元
摘要:文章提出一种基于计算机视觉的象牙鉴定方法,通过专用图像采集设备实现高清象牙纹理图像拍摄,采用图像增强方法对原始图像进行预处理并建立象牙纹理图像数据集,基于深度神经网络训练象牙识别模型对象牙纹理图像进行特征提取和分类,从而实现猛犸象牙与现生象牙鉴定。结果表明该方法能够快速、有效地对象牙制品进行鉴定与识别,解决目前的执法难题。
关键词:象牙鉴定;计算机视觉;深度神经网络
中图分类号: TP391.4 文献标志码: A
0 引言
现生大象是珍贵的濒危野生动物,非洲象、亚洲象均已列入《濒危野生动植物种国际贸易公约》(Convention on International Trade in Endangered Species of Wild Fauna and Flora,CITES)名录。其中,亚洲象主要分布于云南省南部以及南亚和东南亚地区。象牙及其制品的市场贸易持续得到国家决策层和学术界的关注,由于不法人员对大象的大规模猎杀,野生大象的数量急剧减少。因此,限制象牙制品贸易和抵制象牙及制品,对保护野生动物资源具有重要意义。然而,在执法过程中如何快速、有效地对类象牙制品进行鉴定与识别,是目前亟待解决的问题[1]。
目前,在野生动物保护执法过程中,象牙识别可以参照CITES提供的象牙及其仿制品鉴定方法。该方法为野生动物保护执法人员、科学家和管理人员提供了一种非破坏性的識别手段,以实现初步的真伪鉴定。通过肉眼观察鉴别象牙主要依据牙纹,即施氏线(Schreger Line)以及施氏线相交形成的施氏角(Schreger Angle)。其中施氏角包括:(1)凹角,角顶点指向象牙外围的牙骨质;(2)凸角,角顶点指向象牙中心。表1是对2类象牙施氏角的统计数据,其中,现生象牙(亚洲象或非洲象)的施氏角(凹角和凸角)的平均角度大于110°;猛犸象牙的施氏角平均角度小于100°;而象牙仿制品的断面则无明显的施氏线。除施氏角外,还可以通过内部象牙质的退化状态进行辅助判断,若未出现明显的退化则为现生象牙,否则为猛犸象牙[2-3]。
通过化学、物理或分子方法鉴定象牙,主要依据象牙成份的化学性质、物理性质或基因序列,这种检测方法通常会对象牙制品造成一定的损坏。通过文献研究发现,目前,尚没有通过数字成像和计算机图像识别算法进行象牙鉴定与识别的技术或方法。
本文采用专用图像采集设备实现高清象牙纹理图像拍摄,通过图像增强方法对原始图像进行预处理,建立象牙纹理图像数据集,最后基于深度神经网络训练象牙识别模型进行特征提取,从而实现基于象牙纹理图像的猛犸象牙和现生象牙分类。
1 象牙鉴定方法
本文提出一种基于象牙纹理图像和深度学习模型的计算机视觉象牙鉴定方法。首先,通过高清相机采集象牙表面纹理图像;其次,对原始象牙图像进行图像增强,并建立高清象牙纹理图像数据集;最后,训练深度神经网络构建象牙分类模型,从而实现猛犸象牙和现生象牙识别。通过该方法能够在不损伤象牙制品的条件下进行鉴定,以下分为3个方面进行详细介绍。
1.1 象牙纹理图像采集
针对象牙纹理图像采集问题,本文通过建立象牙图像采集系统对象牙制品的表面纹理进行拍摄。在采集大量象牙高清图像的同时,根据样品属性对所采集图像标注其具体类型,包括猛犸象牙和现生象牙,为建立象牙高清数据集提供基础信息。
为实现上述象牙图像采集效果,本文采用高清相机建立象牙图像采集系统,包括硬件和软件部分。其中,硬件部分由高清CCD工业相机、LED光源、镜头、供电模块、USB模块等组成。建立高清图像采集模块,进而设计并开发专用象牙图像采集软件。象牙图像采集系统的硬件部分先通过USB方式与计算机连接,再与象牙图像采集系统的软件部分对接,从而实现实时的象牙图像采集与存储。
1.2 象牙纹理图像数据集
建立象牙纹理图像数据集主要包括3个环节:图像预处理、图像标注、图像划分。数据集主要依靠人工结合计算机批处理来完成。
首先,对原始象牙图像进行预处理,具体包括:(1)针对原始象牙图像截取有效区域并进行旋转校正和畸变校正;(2)针对校正后的象牙图像,采用基于滑动窗口的图像增强方法,批量截取不同区域的图像块(Patch),并记录每个Patch的原始图像信息;(3)针对截取所得的Patch进行筛选,保留具有清晰象牙纹理的Patch,剔除其他非纹理区域的Patch,筛选过程可采用计算辅助人工来完成。
其次,对筛选所得具有清晰象牙纹理的Patch进行类别标注。本文主要对猛犸象牙和现生象牙进行分类,因此,在对象牙图像数据进行标注时,其数据标签应当主要包含2种类别标签,其中,0表示猛犸象牙,1表示现生象牙。数据标注采用计算机自动处理,直接根据图像采集时记录的象牙制品类型获得。
最后,对标注后的象牙纹理图像按照一定比例进行划分,建立训练集、验证集和测试集,划分比例通常采用8∶1∶1,根据模型训练需求的不同,也可以采用其他比例。其中,训练集用于深度学习模型训练,验证集用于优选模型训练的权重,测试集用于评价模型性能。
因此,本文建立的高清象牙纹理图像数据集主要包括4个部分:训练集、验证集、测试集和额外测试集。该数据集可用于象牙识别算法的模型训练、权重优选与性能评估。
1.3 象牙识别算法模型
针对野生动物保护执法过程中需快速、有效地对类象牙制品进行鉴定与识别问题,本文基于深度卷积神经网络建立象牙识别模型,通过高清象牙纹理图像进行模型训练,实现猛犸象牙和现生象牙的鉴定。
本文采用神经网络架构自动搜索技术,由架构搜索算法对深度卷积神经网络结构层数、类型和配置参数进行搜索,找到合适的网络架构,从而对深度模型的大量试错训练过程进行简化,进而构建基于神经网络单元的模型架构。残差模块结构如图1所示。
本文通过神经网络架构搜索得到的2种网络架构分别是基于残差模块的ResNet-8网络架构和基于Fire模块的SqueezeNet-6网络架构。其中,残差模块的结构如图1所示。3个f1(x)和f2(x)实现特征提取,原始输入x通过跳跃连接与学习残差进行加和从而实现残差学习。ResNet-8网络架构则是依次堆叠8个残差模块建立。Fire模块的结构如图2所示,包括一组由3个1×1卷积运算组成的挤压块(Squeeze)和一组由3个1×1卷积运算与3个3×3卷积运算构成的扩展块(Expand)。SqueezeNet-6网络架构则是依次堆叠6个Fire模块,并且分别在第1个和最后1个Fire模块之前与之后添加1个卷积层。
图2 Fire模块结构
2 模型训练与评估
本文基于高清象牙纹理数据集中的训练集对2种架构的象牙识别网络模型进行训练,基于验证集优选拟合效果最优的模型权重,基于测试集与额外测试集对模型的学习性能和泛化能力进行评估。
2.1 实验设置
本文基于Ubuntu 16.04 LTS操作系统,构建模型训练和测试的实验环境。为提高模型训练速度,在硬件方面配备了2个型号为NVIDIA GeForce GTX TITAN X的GPU,其中,每个GPU包含12 GB显存和3 072个CUDA并行计算核心。在实验算法程序运行上,采用了NVIDIA提供的CUDA 9.0、cuDNN 9.0、NCCL 2.2等深度神经网络运算加速技术及多卡并行计算技术。
实验数据方面,训练集、验证集、测试集采用数据量比例为8∶1∶1,原始象牙图像的分辨率为1 000×1 000像素,共采集312张。进而,采用多种分辨率截取Patch,具体包括768×768像素、512×512像素、384×384像素、256×256像素、128×128像素。同时,考虑到Patch分辨率较高时,实际截取的Patch数量会减少,采用水平镜像的方式进行图像增强,从而增加训练数据量。额外测试集共采集原始象牙图像320张,在进行象牙识别模型的泛化能力评估时,会根据训练时采用Patch的分辨率对原始象牙图像进行截取。
2.2 实验结果
基于ResNet-8模型的象牙识别实验结果,如表2所示。表2依次列举了训练所得象牙识别模型在验证集、测试集、额外测试集上的精度。其中,数据划分依次为训练集、验证集、测试集所包含的象牙纹理图像Patch数量,采用水平镜像进行图像增强时,Patch数量会增加1倍。
该实验结果可以得出,在Patch分辨率为512×512像素时,ResNet-8模型对训练数据的拟合性能和泛化性能达到最优,精度分别为87.25%和85.04%。采用水平镜像的方法可以有效提高模型的拟合性能,对提高模型的泛化能力也具有一定的作用。Patch分辨率为768×768像素时模型的拟合性能最低,但其在额外测试集上的泛化能力略优于分辨率为384×384像素、256×256像素、128×128像素时的泛化性能。虽然,Patch分辨率为384×384像素、256×256像素、128×128像素时,模型的拟合性能和泛化性能逐渐提高,但仍低于Patch分辨率为512×512像素的模型,特别是他们的泛化性能均远低于Patch分辨率为512×512像素的模型。
基于SqueezeNet-6模型的象牙识别实验结果如表3所示。从表3可以得出,在Patch分辨率为512×512像素时,SqueezeNet-6模型对训练数据的泛化性能达到最优,精度为85.62%;在Patch分辨率为384×384像素时,SqueezeNet-6模型对训练数据的拟合性能达到最优,精度为90.71%。水平镜像的方法也可以有效提高该模型的拟合性能。该模型在Patch分辨率为256×256像素、128×128像素时,也具有相对ResNet-8模型较高的拟合性能和泛化性能。
2.3 实验分析
对本文在所建立的高清象牙纹理图像数据集上实验结果进行综合分析,可以得出,在Patch分辨率为512×512像素时,ResNet-8模型和SqueezeNet-6模型的泛化性能达到最优。相对较大分辨率的Patch,模型对较小分辨率Patch的拟合性能更好,说明在这些分辨率下,象牙纹理具有更强的表达能力,更容易通过深度卷积神经网络模型进行特征提取。
通过上述实验可以证明,本文所提出的基于象牙纹理图像和深度卷积神经网络模型的计算机视觉
象牙鉴定方法,能够有效解决猛犸象牙和现生象牙的识别问题。根据在额外测试集上的实验结果可知,ResNet-8模型和SqueezeNet-6模型的泛化性能均已达到85%以上,基本达到实际应用的需要。
3 结语
针对禁止现生象牙贸易中象牙品种鉴定的难题,本文提出一种基于计算机视觉的象牙鉴定方法,通过采集高清象牙纹理图像并建立数据集,进而基于ResNet和SqueezeNet 2种深度卷积神经网络架构训练象牙识别算法模型,对猛犸象牙与现生象牙的纹理进行特征学习。实验结果表明,该方法能够实现肉眼难以分辨的象牙制品的识别,为禁贸执法现场提供一种快速、有效的初筛手段。
由于采集象牙制品的紋理图像数据量有限,本文训练所得ResNet-8和SqueezeNet-6 2种象牙识别模型的泛化性能还有较大提升空间,模型识别结果的稳定性还有待提高,尚无法用于精准鉴定象牙品种,在实际使用中还需要结合其他人工鉴定方法才能确保最终鉴定结果的正确性。在未来工作中,可以继续采集象牙纹理图像,对象牙识别模型进行优化训练,从而不断提高模型的泛化性能和稳定性,达到替代人工鉴定的效果。
参考文献
[1]崔啸峰.中国内地象牙、穿山甲片等野生动物及制品走私案件分析[D].哈尔滨:东北林业大学,2020.
[2]胡红.象牙及其制品鉴定技术标准的研究[D].哈尔滨:东北林业大学,2010.
[3]中华人民共和国海关总署.象牙及其制品鑒定技术规范:SN/T5275—2019[S].北京:中国标准出版社,2019.
(编辑 姚 鑫编辑)
Computer vision-based identification method for mammoth and live ivory
Chen Yunxia1, Zhou Tingyuan2, Zou Zhiyuan3
(1.School of Criminal Science and Technology, Nanjing Police University, Nanjing 210023, China;
2.The 15th Institute of China Electronics Technology Group Corporation, Beijing 100083, China;
3.Computer School, Beijing Information Science and Technology University, Beijing 100101, China)
Abstract: In this study, a computer vision-based ivory identification method is proposed. A special image acquisition device is used to capture high-resolution ivory texture images, a dataset of ivory texture images is established, and deep neural networks are used to train ivory recognition models to extract and classify ivory texture images, so as to realize the identification of mammoth ivory and live ivory. The experimental results show that this method can quickly and effectively identify ivory products and solve the current law enforcement problems.
Key words: ivory identification; computer vision; deep neural network