孙 钰 脱小倩 蒋 琦 张海燕 陈志泊 宗世祥 骆有庆
(1. 北京林业大学信息学院 北京 100083; 2. 北京林业大学林学院 北京 100083;3. 北京航空航天大学网络空间安全学院 北京 100191)
害虫识别是虫害预测预报的首要工作,对害虫综合治理具有重要意义(陈梅香等, 2015)。钻蛀性害虫以林木为寄主蛀食成孔洞或隧道,直接危害林木主干和主梢生长,轻则阻碍林木养分、水分传导,重则导致林木枯萎死亡(冯国民, 2011; 高晓兵, 2010; 王晓园, 2011)。目前,虫害监测一般利用人工或图像识别技术监测成虫(Yaoetal., 2012; 孙钰等, 2018; 张怡, 2017),然而钻蛀性害虫幼虫在取食阶段对寄主的危害更早也更严重,传统监测方法难以发现隐蔽生活的幼虫,早期预警能力有限。随着声音识别技术不断发展,利用幼虫钻蛀振动信号进行虫害监测,具有高效、简单、成本低、预警时间早等优势,应用前景广阔(卜宇飞等, 2017; 韦雪青等, 2010; 祁骁杰, 2016)。
国内外基于声音识别技术对害虫进行侦听监测,研究对象多聚焦于木材检疫害虫(许小芳等, 2011)、仓储害虫(郭敏等, 2001; Njorogeetal., 2016)、水果害虫(Hansenetal., 1988)、林业钻蛀性害虫(Mankinetal., 2008)等隐蔽性活动的害虫。在侦听监测过程中,由于钻蛀振动信号在树干-空气界面会大幅衰减,因此不宜使用麦克风直接采集传播至空气中的声音(娄定风等, 2013),而需将压电式振动传感器嵌入树干直接侦听(Mankinetal., 2011)。目前,采集钻蛀振动信号的典型仪器是美国AEC公司搭配SP-1L接触式探头的便携式声音探测仪AED-2000/2010L。在国外,Herriick等(2012)采用AED探测仪对密闭和开放环境下的红棕象甲(Rhyncophorusferrugineuss)幼虫钻蛀振动进行研究,发现在至少5~10 cm的距离内能检测到所有龄期的幼虫;Dosunmu等(2014)采用AED探测仪利用Raven和DAVIS程序分析红棕象甲钻蛀振动的时频特征,实现了红棕象甲幼虫的识别;Mankin等(2016)采用AED探测仪在果园环境下对红棕象甲和蛀犀金龟(Orycteselegans)幼虫的钻蛀振动进行研究,发现其脉冲特征相差较大,实现了2种幼虫的识别;Njoroge 等(2017)在装满谷物的密闭玻璃罐中采用AED探测仪录制米象(Sitophilusoryzae)成虫的钻蛀振动,研究了密封贮藏对害虫活动和死亡率的影响;Mankin等(2018)采用AED探测仪在疑似被南美硬木锯天牛(Mallodondasystomus)侵害的鳄梨(Perseaamericana)树上进行测试,从11株树中正确识别所有4株被侵害树木,仅误报1株健康树木。在国内, 祁骁杰(2016)对杨(Populus)树木段中不同数量的光肩星天牛(Anoplophoraglabripennis)幼虫脉冲进行研究,发现脉冲个数与幼虫数量存在线性关系; 卜宇飞等(2016)采用AED探测仪对7种蛀干害虫钻蛀振动进行研究,总结了害虫时域、频域特征的基本规律,证明了构建声音侦听系统的实用性; 卜宇飞等(2017)还采用AED探测仪对2种天牛的4类行为特征进行探索,发现取食钻蛀振动脉冲时间短、振幅大且频率高,可用于实际的声音侦听中。也有研究者使用美国农业部Mankin团队录制的昆虫声音库,实现了基于梅尔倒谱系数和矢量量化的昆虫声音自动鉴别识别(竺乐庆等, 2010),且探索了基于梅尔倒谱系数和混合高斯模型的昆虫声音自动识别方法(竺乐亦等, 2012),均获得较高识别精度。
钻蛀振动信号经传感器录制后被保存为音频格式,可使用声音识别技术进行分类。声音识别的一个重要任务是关键词检测,即对声音信号中目标关键词进行识别。关键词检测与害虫钻蛀振动识别类似,均以音频中的短脉冲为识别对象。传统关键词检测是基于隐马尔可夫模型实现的(陈玉平等, 2008),随着以深度学习为代表的人工智能技术迅速发展,将其应用于声音识别领域也取得了重大突破。Chen等(2014)使用深度神经网络进行关键词检测,与隐马尔可夫模型相比识别性能提高了45%;Sainath等(2015)和Sun等(2016)分别将卷积神经网络和长短期记忆网络用于关键词检测,相比深度神经网络识别性能分别提高27%~44%和67.6%;利用谷歌公开的语音识别数据集(Google speech commands dataset),Tang等(2018)研究深度残差学习和空洞卷积在关键词检测的应用,设计的ResNet15变体网络得到了95.8%的精度; Zeng等(2019)使用DenseNet网络提取局部特征和时间序列特征,得到了96.6%为精度。
本研究针对园林场景中侧柏(Platycladusorientalis)和臭椿(Ailanthusaltissima)混交种植的情况,使用压电式传感器监测主要蛀干害虫双条杉天牛(Semanotusbifasciatus)和臭椿沟眶象(Eucryptorrhynchusbrandti)幼虫蛀干取食发出的振动,使用声音识别技术构建钻蛀振动识别模型,设计并训练轻量级神经网络,自动识别双条杉天牛钻蛀和臭椿沟眶象钻蛀振动,以期为提高钻蛀性害虫的早期预警能力提供技术支撑。
害虫钻蛀振动信号采集在实验室隔音箱内进行,采集工具为搭配SP-1L探头的AED-2010L便携式声音探测仪(图1)。SP-1L探头为压电式传感器探头(压电晶体谐振频率40 kHz,前置放大器带宽1~50 kHz,放大倍数40 dB),通过直径6 mm金属探针嵌入树干,直接耦合钻蛀振动。AED-2010L主机连接录音笔,设置采样频率为44.1 kHz,采样精度为16 bit,录制害虫钻蛀振动信号。
图1 钻蛀振动采集环境与工具Fig.1 The environment and tools for the boring vibration collection
从林场采集25段长约30 cm的健康侧柏木段,分成3组并于3月下旬分别接入不同数量的双条杉天牛雌雄成虫,以饲养初孵幼虫;采集6段长约1 m的健康臭椿木段,分成2组并于7月下旬分别接入不同数量的臭椿沟眶象幼虫。于木段中间位置钻孔,每隔5~7天在适宜温度的时间段内(9、10、11时)利用AED-2010L便携式声音探测仪采集害虫钻蛀振动信号(卜宇飞, 2016; 祁骁杰, 2016)。每投音频时长约90 s,保存为.wav格式。当幼虫进入老熟阶段停止进食,害虫钻蛀振动信号采集结束。害虫钻蛀实验室环境下,害虫钻蛀振动信号主要分布在10 kHz内(图2),具有持续时间短、能量集中等特点(卜宇飞等, 2017)。
整理各木段音频,将其分为双条杉天牛钻蛀振动、臭椿沟眶象钻蛀振动和无钻蛀振动3类。双条杉天牛和臭椿沟眶象钻蛀振动的训练、测试集以各木段为单位进行划分,选取具有代表性的3段双条杉天牛和2段臭椿沟眶象木段,将其所有音频作为测试集,其余木段的音频作为训练集,所有木段采集到的无钻蛀振动音频以3∶2比例随机划分为训练集和测试集。最终数据集音频的划分数量及提取用于训练的对数梅尔声谱数量如表1所示,其中测试集中无钻蛀振动的对数梅尔声谱数量指进入第2分支检测出的数量。
表1 数据集划分数量Tab.1 Number of data sets divided
提取对数梅尔声谱作为神经网络学习的音频特征(Kahletal., 2018)。对害虫钻蛀振动信号的预处理包括端点检测、时间规整和提取对数梅尔声谱。害虫钻蛀振动信号短时能量较高,具有间隔、短促、尖锐(卜宇飞等, 2016)的特性,首先对害虫钻蛀振动信号进行端点检测获取钻蛀振动信号片段,然后利用时间规整算法将信号片段规整至统一时长,最后经过时频变换和对数操作提取对数梅尔声谱。
图2 害虫钻蛀振动信号波形和声谱Fig.2 Waveform and spectrogram of insect boring vibration signals
图3 预处理示意Fig.3 The diagram of pretreatment
1.3.1 端点检测 端点检测是指从一段包含有效片段的连续音频中找到能量较高的有效片段起止端点,本研究采用基于短时能量的单参数双门限方法(黎煊等, 2018)对采集到的害虫钻蛀振动信号进行端点检测。以200个采样点(4.54 ms)为1帧,计算每帧的短时能量,与设定的低门限阈值(T1)和高门限阈(T2)进行比较,确定有效音频片段的端点(邢亚从, 2011)。在端点检测时,一般选取音频样本前导无话段计算高、低门限阈值,本研究随机选取5 s无钻蛀振动的音频信号代替前导无话段进行计算。如图 3端点检测部分所示,红色竖线为害虫钻蛀振动脉冲的起始位置,绿色竖线为该脉冲的结束位置,单参数双门限端点检测可有效检测出害虫钻蛀脉冲。
1.3.2 时间规整 端点检测后的信号长度不一,无法满足神经网络输入层要求,需要利用时间规整算法将信号片段规整至统一时长。经试验探索,本研究将长短不一的有效音频片段规整至0.5 s。以端点检测到的起始点向前5帧位置作为时间规整的起始点,向后0.5 s位置作为时间规整的终点,端点检测出的有效片段长度多于0.5 s则拆分,少于0.5 s则前后延长。如图3时间规整部分所示,在端点检测基础上,将有效音频片段规整至统一时长片段。
1.3.3 提取对数梅尔声谱 对规整后时长0.5 s的信号进行预加重(竺乐庆等, 2012)(预加重因子为0.95),以200点为1帧、0.8的帧移重叠比例进行分帧,对分帧信号加汉宁窗以增加帧左右两端的连续性,再以1 024点的长度对每帧信号作短时傅里叶变换,使用64组梅尔滤波器组滤波并进行取对数操作,最后得到对数梅尔声谱作为神经网络最终的输入特征。对数梅尔声谱的特征维度由信号的帧数和梅尔滤波器组的个数决定,如图3提取对数梅尔声谱部分所示,本研究得到的对数梅尔声谱特征维度为109×64。信号的帧数计算方法如下:
Lhop=⎣Nfft×(1-Poverlap)」;
(1)
式中:⎣」表示向下取整;「⎤表示向上取整;Lhop为每次帧移的步幅;Nfft为短时傅里叶变换长度;Povertap为帧移重叠比例;Nframe为帧数;Lsig为信号长度。
设计面向2种蛀干害虫钻蛀振动识别的轻量级卷积神经网络InsectFrames(图4a),以维度(109,64)的对数梅尔声谱为输入,主体部分由4层卷积组成,在全连接层前接全局平均池化以防止过拟合。
图4 InsectFrames网络结构Fig.4 Network structure of InsectFrames
在卷积部分设计2种卷积块结构和2种中间层维度。卷积块结构为: 1) ConvBlock1(图 4b), 卷积核尺寸为3×3,步长为1,每层卷积后引入ReLU激活函数实现网络的非线性变换。连接批量归一化层避免梯度消失,同时加快收敛速度,批量归一化后接步长为2的最大池化层实现降维。2) ConvBlock2(图4c), 同样设置卷积核尺寸为3×3,每层卷积后引入ReLU激活函数,连接批量归一化层。与ConvBlock1不同的是,ConvBlock2未采用最大池化策略,而是在卷积过程中设置步长为2,直接进行降维操作。为了对比中间层维度对识别结果的影响,每种卷积块结构分别对应2种输出维度: 1) 4层卷积的输出维度n1—n4分别设置为[8,16,32,64]; 2) 4层卷积的输出维度n1—n4分别设置为[16,32,64,128]。
综上,本研究基于InsectFrames提出4种具有不同卷积结构的网络变体结构InsectFrames_1—4(表2),如InsectFrames_1卷积结构采用ConvBlock1提取特征并降维,4层卷积对应的输出通道分别设为[8,16,32,64]; InsectFrames_4卷积结构采用ConvBlock2提取特征并降维,4层卷积对应的输出通道分别设为[16,32,64,128]。
表2 InsectFrames 4种变体结构Tab.2 Four different variant structures of InsectFrames
本研究设计的识别模型首先经过训练,通过深度学习有监督地优化模型参数至算法收敛,然后在测试集上评估4种模型准确率。
图5 害虫钻蛀振动识别流程Fig.5 Recognition process of insect boring vibration
在训练阶段(图5a),预处理提取训练集音频的对数梅尔声谱输入到卷积神经网络中,通过前向传播预测类别,利用损失函数计算预测类别与真实类别之间的误差,再通过网络反向传播进行参数更新,经多次迭代完成模型训练。模型训练过程中,采用Adam算法进行优化; 设置初始学习率为0.001,并以余弦衰减方式进行衰减,直至0.000 001停止; 以32个音频为1个批次,最多迭代50次; 使用交叉熵函数(cross entropy function)作为损失函数。
在测试阶段(图5b),将未参与训练的测试集音频输入到训练完毕的模型,测试模型在新数据上的分类准确率。在测试过程中,为了节约计算资源并提高识别精度,进行端点检测时设计了2个分支: 1) 当端点检测未检测出信号片段时(即当前音频的能量偏低),音频直接被判定为无钻蛀振动类; 2) 当端点检测检测出信号片段时,将信号片段转化为对数梅尔声谱,并输入到已训练好的卷积神经网络进行分类预测,此时待识别音频得到多个片段的预测分类结果,利用多数投票的方法进行预测结果汇聚,得票高的类别被认为是该音频的预测类别。
本研究训练模型采用的硬件平台为Intel CoreTMi7-6700K CPU(32 GB内存)以及GeForce GTX 1080 Ti(12 GB显存); 软件为Ubuntu 16.04 LTS 64位操作系统,Lasagne (Raffeletal., 2016)深度学习开源框架。
害虫识别一般以单音频为单位进行,为了避免CPU与GPU之间的数据传输,本研究以音频分类的平均精度(average accuracy)以及在CPU上测试的平均识别时间(average recognition time of CPU)作为害虫钻蛀振动识别的评价指标。待测音频输入网络模型前需经预处理转化为对数梅尔声谱,该过程是音频识别的基础工作,与识别方法的选择无关。
由表 3可知,单个音频的平均预处理时间均为1.8 s左右,在整个害虫识别过程中时间占比较大。在图像分类问题中表现优异的ResNet18网络用于害虫钻蛀振动识别能够达到88.89%的平均识别准确率,但由于ResNet18具有相对复杂的网络结构,单个音频的CPU平均识别时间为229.612 s。广泛应用于昆虫声音识别领域的混合高斯模型(Gaussian mixture model, GMM)时间效率极高,是4种网络变体识别速度的15~60倍,但在此数据集上的识别精度仅为61.81%。本研究测试了4种变体结构简单的卷积神经网络(InsectFrames_1—4),其中在卷积过程中直接实现降维的InsectFrames_3、InsectFrames_4识别精度能够达到90.28%和93.75%,与GMM、ResNet18相比识别精度有所提高; 改变特征降维方式,设置2×2最大池化步长为2,对应的InsectFrames_1、InsectFrames_2 的识别精度能够达到92.36%和95.83%,与在卷积过程实现降维的策略相比均提高2.08%,具有更加明显的识别优势。图6 为识别性能最好的InsectFrames_2测试结果的混淆矩阵,其中有3个双条杉天牛钻蛀振动音频错分为臭椿沟眶象类,1个臭椿沟眶象钻蛀振动音频错分为双条杉天牛类,2个无钻蛀振动音频被错分为双条杉天牛类。
表3 识别结果Tab.3 Identification results
图6 InsectFrames_2测试结果的混淆矩阵Fig.6 The confusion matrix of InsectFrames_20: 双条杉天牛类 S. bifasciatus;1:臭椿沟眶象类E.brandti; 2:无钻蛀振动类 No boring vibration.
当前广泛应用于虫声识别领域的GMM以及在图像分类领域性能较好的ResNet18用于害虫钻蛀振动识别的精度仅为61.81%和88.89%,而且ResNet18运算开销过高,在CPU上平均识别时间是4种网络变体的170~2 000多倍。而本研究实现的4种基于轻量级神经网络的钻蛀振动识别模型InsectFrames_1—4的测试集平均精度均能达到90%以上,采用最大池化降维且中间层特征维度较高的InsectFrames_2模型具有最佳识别性能,平均精度能够达到95.83%,CPU平均识别时间为1.334 s,可利用钻蛀振动有效区分2种钻蛀性幼虫,为虫情监测预警提供技术支持。
传统虫声识别领域广泛应用的GMM为无监督学习,主要由数据驱动实现聚类,在不同类型的昆虫(储粮害虫、蛀干害虫、土壤昆虫、植物昆虫等)识别中表现优异;但双条杉天牛、臭椿沟眶象均属林业钻蛀性害虫,钻蛀振动信号特征相似度较高,利用GMM难以精准区分。ResNet18采用残差结构优化深层网络,可解决网络在深度增加过程中的退化问题,同时增加模型的表示能力,在相对复杂的图像分类任务中性能优异,对于钻蛀振动特征相似的2类害虫也能取得较高识别精度。但钻蛀振动信号特征相对较少,ResNet18网络结构复杂且参数较多,所以时间效率偏低,无法真正应用于虫声识别。本研究实现的4种轻量级神经网络模型很好解决了钻蛀振动信号特征相对较少且相似性高的问题。
由于最大池化策略能够对上一层的输出引入局部平移不变性,且可有效保留图像纹理特征,采用最大池化策略的InsectFrames_1和InsectFrames_2网络相较在卷积过程中直接实现降维策略的网络具有更好的识别能力,但同时增加了运算量,耗时增加约2倍,时间效率相对较低。4层卷积输出维度为[16,32,64,128]的InsectFrames_2能够获取更多的中间特征用于学习,在试验中得到最好的识别结果。InsectFrames_2网络结构简单、泛化能力强,在CPU上单个音频平均识别时间约1.3 s,能够满足正常害虫监测预警的时效要求,适用于蛀干害虫的钻蛀振动识别。
基于轻量级卷积神经网络的钻蛀振动识别方法,可高效识别出信号特征相似度较高的2种蛀干害虫,将其应用于林间虫害监测和防治领域,能够提高监测效率,降低监测成本,为林业蛀干害虫监测提供新的研究思路和技术支撑。未来将探索在含噪森林环境中更多种类钻蛀性幼虫的自动识别技术,提升对隐蔽钻蛀性林业害虫的早期预警能力。