段淑斐,张雪英,ZHANG Jinglan
(1.太原理工大学 信息工程学院,太原 030024;2.昆士兰科技大学 工程学院,澳大利亚 布里斯班4096)
通用型自动物种识别算法的对比研究
段淑斐1,张雪英1,ZHANG Jinglan2
(1.太原理工大学 信息工程学院,太原 030024;2.昆士兰科技大学 工程学院,澳大利亚 布里斯班4096)
在大数据时代,通用型自动物种识别算法的研究对于算法的共享性及可扩展性至关重要。Raven和Song Scope作为通用型自动识别算法的先驱,虽然被广泛使用,但是没有采用实时现场监测数据进行深入的对比研究。在细致挖掘Raven和Song Scope设计原理的基础上,提出时间概率自动机TPA(Timed and Probabilistic Automata),并对Raven、Song Scope和TPA进行了实验对比研究。结果表明,与Raven和Song Scope相比,TPA的平均准确率、回溯率及精确度均提高了大约20% .
自动物种识别;时间概率自动机;声音识别
动物叫声的检测与监测可用于分析物种多样性、丰富性,对于环境保护来说至关重要;同时,不同生态环境下的动物叫声状态也可作为评判整体环境健康与否的指标[1]。人工分析对于识别单一物种是有效的,但是无法处理大时空尺度中的数据集。基于不同技术开发的自动物种识别软件对生态学研究起着重要的辅助作用,通过减少处理时间来提高效率,极大地促进了对野生环境的监测工作,在处理大数据时尤其如此。
多数自动物种识别算法主要是为特定项目服务,即,算法是为特定物种或个体而设计的。这样的算法可以高效、快速且相对精确地定位特定物种,但却很难用于其他物种的识别中。这种模式的自动物种识别算法耗时耗力、成本昂贵,而且可扩展性差[2]。因此,在自动物种识别领域中,亟需研究通用型的识别算法。
目前国际上已有一些通用型的识别算法,多数已以软件形式商业化,其中被广泛认可并使用的有:Raven[3]、Song Scope[4]及Avisoft-SASLab Pro。尽管这些软件对动物叫声自动识别结果的可靠性还远远没有达到可以脱离生态学家仔细验证的程度,然而在一定误差率的允许范围内,它们因处理数据的快速性及便捷性被广泛应用于声音录制文件的物种识别分类[5-9]。迄今为止,尚未见到对这些软件进行对比研究的报道,特别是它们对实时现场监测数据处理表现还没有被挖掘。
笔者旨在对自动物种识别领域中的先进软件Raven和Song Scope进行技术性分析和功能性研究。在此基础上,提出时间概率自动机(Timed and Probabilistic Automata, TPA),并将此三者用于实时现场监测数据,对识别结果进行对比分析。
许多动物叫声具有分层结构。典型的鸟叫结构层次类似于人类语言,由低到高可分为元素、音节及叫声[10]。其中,元素是音节的原子成分,音节是构成叫声结构的基本组成部分,复杂的叫声可以由一种或几种不同的音节构成。
尽管动物叫声因地域、季节、时间或其他因素的影响而不同,然而它们的叫声结构有一些共有音节。这些音节对于动物叫声的句法分析至关重要,因此一些学者尝试给这些共有音节进行定义。McCallum从鸟类声音的发音学角度出发进行定义[11];Brandes着眼于声音的自动分析,根据声音在时频谱图中的离散图像形状[12]进行定义。仔细研究这两种不同的定义方式发现,尽管两种定义中所用的名词不同,但所描述的声学形状在时频谱图中完全一致,两种定义方式在一定程度上互相重复。
鉴于此,在自动物种识别中,为了清晰定义并概括更多的共有音节、建立通用的动物叫声音节库,笔者结合McCallum和Brandes的研究,根据时频谱图中音节的形状,定义了7种不同的音节[13],音节名词的选用延续McCallum的定义。图1所示为动物叫声音节定义及代表性物种,此处所列物种均来自澳大利亚昆士兰州。
图1 声学元素在时频谱图中的形状及代表物种(物种均来自澳大利亚昆士兰州)Fig.1 Acoustic components in spectrogram and representative species (species come from Queensland, Australia)
2.1 Raven软件
Raven是由康奈尔鸟类实验室研发出品的软件,主要用于声音的获取、可视、测量与分析[3]。Raven可以将声音文件以波形和时频谱图(灰度图)两种方式呈现,允许用户使用内置的分析工具。软件专为鸟类叫声分析设计,内置带通滤波器执行手动或半自动元素分割。Raven的界面直观且易操作,其声音播放及片段剪切模块功能非常强大。使用片段剪切,用户可以专注于特定声音片段及频带。同时,Raven有两个检测器用于目标检测:限定频带的能量检测器和幅值检测器。限定频带的能量检测器基于时频谱图,以信号的背景噪声估计为基准,将其与特定时间、特定频带的信噪比(SNR)阈值进行比较;如果超出SNR阈值,则输出信号。幅值检测器基于信号波形,检测波形包络的幅值大小;如果超出一定阈值,则输出信号。对于自动物种识别,幅值检测器在时域波形图上进行检测,无法有效区分重叠声音信号,因此本文不对幅值检测器进行研究。
限定频带的能量检测器采用SNR为特征参数,主要功能是检测特定时间、频带内的声音片段。声音片段内部的信号既可以是音节,也可以是叫声结构。Raven不对声音片段内部的信号进行形状及结构分析。因此,在叫声结构的检测中,由于 Raven忽略音节的形状特征及音节之间的关联结构信息,其检测精度偏低。
2.2 Song Scope软件
Song Scope软件是由Wildlife Acoustics研发出品[4]的一款复杂的数字信号处理软件,旨在对野外录制的音频文件进行快速、简单的扫描,通过声音自动识别特定鸟类或其他物种。
较之于Raven的音频分析功能,Song Scope没有录制和回放功能。此外,Song Scope要求按软件自身要求准备标注训练文件,否则用户不能播放指定时间、频带的音频。Song Scope的界面也是以波形图和时频谱图为主,用户界面简洁,时频谱图采用彩色图形显示。然而,根据1996年IBM的研究,相较于灰度图像,彩色图像显示可能潜在影响用户的感知和对数据的解释[14]。
与Raven不同, Song Scope旨在检测叫声结构,采用梅尔倒谱系数(MFCC)与隐马尔科夫模型(HMM)对声音进行分类。在语音识别中,这种方法已经被证明非常有效[15]。Song Scope首先对音节进行分割,然后对音节进行聚类,进而形成叫声结构。然而,由于HMM对参与建模的元素纯净度要求非常高,这种方法对音节的纯净度非常敏感。如果音节被非目标物种或背景噪声污染,通过HMM建立的模型就会非常敏感,从而影响识别精度。
3.1 TPA与Raven,Song Scope原理分析与比较
多数分类工作,特别是鸟类叫声分类,是对物种内的叫声音节进行模式匹配。当两种叫声结构拥有相似的频谱和时间信息时,忽视叫声结构内音节的关系信息会导致错误分类,因此,音节的形状及音节之间的关联信息对于叫声结构的精确建模至关重要。
Raven的限定频带能量检测器可用来检测音节及叫声结构,但由于其使用的特征是基于背景噪声的SNR,对结构内部的音节形状和音节之间的关联信息没有跟踪识别。
Song Scope在设计算法时,充分考虑叫声结构内部的音节关联性,使用HMM对叫声结构进行建模。然而,Song Scope仅使用MFCC作为唯一参数对所有类型的音节进行表征。对于多样化的音节信号,单一参数表征会降低聚类精确性。HMM是典型的状态集合,每个状态以频谱特征的高斯混合形式来表征频率特性,而时间特性通过状态转移概率表征,整个过程是全自动的。但是,训练HMM需要大量数据,并且生成的模型对状态转移概率是动态的。综上,Song Scope立足于对叫声结构的音节关联信息建模,但仅基于单一参数MFCC对所有类型的音节进行特征表征。
时间概率自动机(TPA)着眼于通用型自动物种识别算法,将识别工作分为两部分:声学音节检测和物种识别。这种算法使用不同的特征参数对不同类型的音节进行表征,然后使用概率自动机对音节之间的关联信息进行建模。TPA打破了单一特征用于所有检测目标(one-feature-fits-all)的局面,使用多重统计特征对多样化的音节进行检测,然后使用这些声学音节作为高层次的特征参数以构建TPA模型。
3.2 TPA算法设计
TPA算法的整体框图见图2。整个系统包含两个过程:训练和识别。其中,训练是半自动的,通过以下处理为叫声结构识别进行参数配置:
1) 包含目标叫声结构的时频谱图由声学音节检测器处理,检测出一组与目标叫声结构相关的音节。
2) 所有音节被分组,计算每组音节参数的均值和标准差。
3) 基于上一步中的音节参数组,使用时间自动机对音节间的gap建模。
4) 定义简化的有限概率自动机,最终用来计算检测到的音节序列是否与目标叫声结构匹配。
训练过程结束后,识别过程是全自动的:
1) 使用音节检测器处理时频谱图,找出与目标叫声结构相关的所有类型音节。
2) 任何不属于训练过程定义音节组的音节全部滤掉。
3) 对保留的音节使用概率自动机,以识别叫声结构,完成识别工作。
图2 系统框图Fig.2 System schematic
为了更加准确形象地阐述TPA算法设计,本文以Eastern Whipbird1的叫声结构为例,对TPA算法思想进行说明。Eastern Whipbird1的叫声结构包含一个whistle和一个click。这对于阐述由不同的声学音节组合而成的复杂的叫声结构是很好的例子。TPA状态转移图如图3所示。
图3 Eastern Whipbird1的TPA模型Fig.3 The TPA model of Eastern Whipbird 1
whipbird 1叫声结构的概率由whistle、click及两者中间的短暂静默片段gap的概率共同决定,见式(1):
P(whipbird)=P(whistle)P(gap)P(click).
(1)
首先,从前期开发的声学音节检测工具箱[13]调用whistle和click detector检测whistle和click,输出为音节参数组(s,t,d,l,h)。其中,s代表元件形状;t代表起始时间;d表示音节持续时间;l表示音节占用的最低频率;h表示音节占用的最高频率。使用输出音节参数对whistle、click和gap(whistle与click之间的短暂静默片段)进行建模。建模之后,应用TPA如下。
Step1:whistle筛选。基于归一化距离Z-score计算每个测试whistle的概率。Z-score由测试样本集与训练样本集的均值和标准差计算得到。将测试得到的概率值与训练样本的概率值进行比较。如果测试概率落入训练集的概率范围,则记为一个确定化的whipbird whistle,得到P(whistle)。滤掉其余无关的whistle。
Step2: click筛选。与step1一致,得到whipbird click,P(click)。
Step3:gap筛选。基于归一化距离Z-score计算whipbird whistle与click之间gap的概率。将概率值与训练样本的概率值进行比较。如果测试概率值在训练概率值的最大值与最小值之间,则确定为whipbird的gap,得到P(gap)。根据这个确定的gap值,一对whistle和click随之确定,得到P(whipbird)。移除其余无关的whistle和click。
Step4:框选whipbird叫声。根据step1中元件检测器输出的参数组及step3中确定保留的成对whistle和click,确定whipbird叫声的起始时间与结束时间、最高频带及最低频带,采用画图函数框选出whipbird叫声结构。
图4是使用TPA算法检测Eastern Whipbird1叫声结构的分步检测输出图。图4-a是Eastern Whipbird1的叫声结构图;图4-b中,红色框是检测输出的whistle信号;图4-c中,红线表示检测输出的click信号;图4-d中,红色框是最终输出的whipbird1叫声。这些结果都显示在去噪之后的黑白二值时频谱图上。
图4 使用TPA识别Eastern Whipbird1Fig.4 Recognition result of Eastern Whipbird1 by TPA
本次实验针对通用型自动物种识别算法的对比研究,使用Raven软件的限定频带能量检测器(以下简称Raven)、Song Scope软件及TPA算法,分别对实验数据中选取的物种设计识别器进行分类识别,并对各个识别器使用混淆矩阵分析,以检测各个识别器的鲁棒性。
4.1 实验数据
实验采用的数据是从澳大利亚昆士兰科技大学购买的Samford Valley实时监控数据。本次实验采用黎明合唱期(4.00 am—9.00 am)作为测试时间段,测试样本及训练样本都从该时期选取。这是由于黎明合唱期的鸟类叫声数量多且杂乱,即使是鸟类专家也很难分辨,而自动分析工具可以帮助鸟类专家在精确度可接受的范围内高效识别感兴趣的物种。因此,选择这个时段可以更为准确有效地测试自动识别算法在高强度噪声背景下的识别率。
实验数据集采用2010年10月13日—15日的声音记录文件。这3 d的声音文件已经被鸟类专家全部标记,可作为真值文件验证Song Scope、Raven及TPA算法。根据真值文件,在2010年10月14日黎明合唱期间,有46个物种发声,形成94种叫声结构。由于TPA的算法设计限制(叫声结构必须含预定义的音节类型),实验从中选取27种可用叫声结构。这27种叫声结构又根据音节类型划分为7组。每组选取1种有代表性的叫声结构进行识别对比研究,具体见表1。实验选用10月14日的数据为测试数据,训练数据从10月13日及15日选取。
表1 选取的7种代表性叫声结构
4.2 实验结果与分析
表2-4分别是依据Raven、Song Scope和TPA三种通用识别算法设计的不同识别器的混淆矩阵结
表2 Raven识别器的混淆矩阵
果。其中,数字1—7表示7组物种;括号里面的数字表示物种的实际真值数字;括号外面的数字表示识别的数字;假正信号表示识别器检测到的非真信号。由表2可见,基于Raven建立的识别器对于7种物种的识别率相对较低,特别是5号识别器(Indian Peafowl)的识别率为0。7号物种Lewin’s Honeyeater1对2—6号识别器都造成了影响,产生了大量的混淆输出。这主要是因为Honeyeater1的叫声结构是时间上紧密重复的click谐振,在信号占用频带中心,能量高度集中;而Raven使用的是限定频带的能量检测器,特征参数是基于背景噪声能量的SNR。Raven使用单一特征参数的同时忽略叫声结构内部音节关系,导致大量的混淆输出及假正信号,识别器鲁棒性很低。
与Raven不同的是,Song Scope虽然也使用单一特征参数MFCC,但是其设计充分考虑叫声结构中音节之间的关联信息。这对识别工作极有助益。表3中,相较于 Raven,Song Scope识别器之间的混淆输出及假正信号大大减少。然而,单一的特征参数不能很好地表征各类音节。同时,HMM模型对于音节纯度要求高。而实验采用黎明合唱期5 h的数据,有大量物种同时发声,非目标物种的数量远远超过目标物种;在高强度噪声的背景下,假正信号及识别器之间的混淆输出仍然很高。
表3 Song Scope识别器的混淆矩阵
表4 TPA识别器的混淆矩阵
表4说明,基于TPA算法设计的识别器对于7种物种的识别结果良好,不同识别器之间的混淆输出低。其中,3号识别器(Brown Cuckoo-dove1)的识别率最高,几乎没有与其他识别器产生混淆;这是因为,Cuckoo叫声占用频带比较低,一般在500 Hz,在频带上不与其他物种混叠。而2号识别器(Eastern Yellow Robin2)与7号物种Lewin’s Honeyeater1产生了比较大的混淆输出;原因是,Robin2与Honeyeater1的叫声在频带上进行了混叠,同时,这两种叫声结构都具有时间上谐振的特性。相较于Raven和Song Scope, TPA假正信号输出比较低。
Raven、Song Scope及TPA的整体检测结果见表5。与Raven、Song Scope相比,TPA在平均准确率、回溯率及精确度上都提高了大约20%。Raven表现最差,Song Scope表现居中。
表5 识别统计结果
通用型自动物种识别算法在环境监测中发挥着越来越重要的作用。Raven和Song Scope两种通用型软件虽然被广泛使用,但是没有采用实时现场监测数据进行深入的对比研究。本文在细致挖掘Raven和Song Scope设计原理的基础上,提出时间概率自动机TPA,并对三者进行了实验对比。
Raven的限定频带能量检测器只考虑录音片段的信噪比(SNR),片段内部声音元件的形状及关系信息被忽略。Song Scope考虑了声音元件之间的关系信息,但是仅使用MFCC表征所有类型的声学元件。相较于TPA系统,Raven和Song Scope会导致假正信号的高输出。TPA系统不仅使用不同的特征表征元件形状,同时使用句法模型建立声学元件之间的关系。简化的概率自动机基于训练模型的先验知识,将状态转移概率设置为“1”。与使用HMM算法自动生成的模型比较,状态转移概率简化可以大大缩小训练集的数量,这种设计方式可以在很大程度上提高识别率。然而,TPA算法的局限性在于,它只适用于包含预定义声学音节的叫声结构。从这个角度来讲,TPA的应用范围比Song Scope的要小。
在今后的工作中,预定义音节的种类还需要进行可持续扩充,相应的检测算法还需要进一步设计。同时,TPA算法的噪声鲁棒性还有待进一步提高。
[1] TOWSEY M,PLANITZ B,NANTES A,et al.A toolbox for animal call recognition[J]. Bioacoustics,2012, 21(2):1-19.
[2] BERWICK R C,OKANOYA K,BECKERS G J L,et al.Songs to syntax:the linguistics of birdsong[J].Trends in Cognitive Sciences,2011,15(3):113-121.
[3] CHARIF R A,STRICKMAN L M,WAACK A M.Raven Pro 1.4 User's Manual. The Cornell Lab of Ornithology, NY.[EB/OL].[2013-12-24].http:∥www.birds.cornell.edu/brp/raven/RavenDocumentation.html.
[4] Song Scope 4.0 User’s Manual,2011.Wildlife Acoustics,Inc,USA.[EB/OL].[2013-12-25].http:∥www.wildlifeacoustics.com/images/do-cumentation/Song-Scope-Users-Manual.pdf.
[5] VENIER L A,HOLMES B S,HOLBORN W G,et al.Evaluation of an automated recording device for monitoring forest birds[J].Wildlife Society Bulletin,2012,36(1):30-39.
[6] DEPRAETERE M,PAVOINE S,JIGUETB F,et al.Monitoring animal diversity using acoustic indices:implementation in a temperate woodland[J].Ecological Indicators,2012,13(1):46-54.
[7] 万鹏威.基于鸟鸣声的移动式鸟类识别系统研究[D].杭州:中国计量学院,2014.
[8] 王恩泽.基于鸣声的鸟类智能识别方法研究[D].杨凌:西北农林科技大学,2014.
[9] CROTHERS L,GERING E,CUMMINGS M.Aposematic signal variation predicts male-male interactions in a polymorphic poison frog[J].Evolution,2011,65(2):599-605.
[10] SOMERVUO P,HARMA A,FAGERLUND S.Parametric representations of bird sounds for automatic species recognition[J].IEEE Transactions on Audio,Speech,and Language Processing,2006,14(6):2252-2263.
[11] MCCALLUM A.Birding by ear,visually[J].Birding,2010,42:50-63.
[12] BRANDES T S.Automated sound recording and analysis techniques for bird surveys and conservation[J].Bird Conservation International,2008,18:163-173.
[13] DUAN S,TOWSEY M,ZHANG J,et al.Acoustic component detection for automatic species recognition in environmental monitoring[C]∥The Seventh International Conference in Intelligent Sensors, Sensor Networks and Information Processing (ISSNIP),2011.
[14] ROGOWITZ B E,TREINISH L A,BRYSON S. How not to lie with visualization[J].Comput Phys,1996,10(3):268-273.
[15] GROβE RUSE M,HASSELQUIST D,HANSSON B,et al.Automated analysis of song structure in complex birdsongs[J].Animal Behaviour,2016,112:39-51.
(编辑:张红霞)
A Comparative Study about Generic Automated Species Recognition Algorithms
DUAN Shufei1,ZHANG Xueying1,ZHANG Jinglan2
(1.CollegeofInformationEngineering,TaiyuanUniversityofTechnology,Taiyuan030024,China; 2.FacultyofEngineering,QueenslandUniversityofTechnology,Brisbane4096,Australia)
Generic automated species recognition algorithms are critical in the era of big data processing for sharing and scaling. As pioneers, though Raven and Song Scope have been widely used for years, they have not been fully tested and compared on the real world data. On the basis of careful excavation of Raven and Song Scope, this paper proposes a generalized automated species recognition algorithm, timed and probabilistic automata. A comparative study of these three algorithms is conducted upon experiments.Results illustrate that in the average precision, recall and accuracy, TPA is outperformed Raven and Song Scope by approximately 20%.
automated species recognition;timed and probabilistic automata;sound recognition
1007-9432(2016)03-0342-06
2016-01-08
国家自然科学基金资助项目:基于认知机理的情感语音识别基础研究(61371193);太原理工大学第四层次引进人才科研启动基金项目(tyut-rc201405b);太原理工大学校青年基金项目(2014QN016)
段淑斐(1983-),女,山西清徐人,博士,讲师,主要从事声音信号处理及动物声音识别研究,(E-mail)15834154405@163.com
张雪英,女,博士,教授,博导,主要从事声音信号处理及语音信号处理研究, (E-mail)zhangxy@tyut.edu.cn
TN912.3
A
10.16355/j.cnki.issn1007-9432tyut.2016.03.013