肖照林,杨志林,刘欢,金海燕*
1. 西安理工大学计算机科学与工程学院, 西安 710048; 2. 陕西省网络计算与安全技术重点实验室, 西安 710048
旷场实验(open field test,OFT)(Hall,1934)又称敞箱实验,是评价实验动物在新异环境中自主行为、探究行为与紧张度的一种方法,在医学、药理学以及行为学研究中广泛应用。旷场实验将实验组和参考组的小鼠分别放在具有相同环境的独立实验箱中观察,记录并分析两组小鼠的运动时间、运动距离、停留区域及停留时间等信息,从而评价小鼠受到药物及外界刺激后兴奋、焦虑和恐惧等状态的变化。目前,旷场实验仍是用于评价动物自发活动及焦虑症状的经典行为学实验(Walsh和Cummins,1976)。医学研究人员在分析旷场实验时对小鼠行为特征常依据观察和人工经验进行提取和统计,导致可分析特征的维度较低,且对两组小鼠特征差异分析及判断较为依赖主观经验。因此,旷场实验人工分析及数据统计面临精确性与可靠性的双重挑战。
本世纪以来,图像分割、目标检测和跟踪、数据统计与分析等方法有效推动了视频分析领域的快速发展。OFT视频分析技术在人工智能与模式识别领域受到关注(Stanford,2007;Novkov等,1997),深度学习技术在目标分类、特征识别以及图像和视频处理领域取得了众多突破性进展。结合深度学习理论,本文探索小鼠OFT视频运动特征的量化方法以及分类问题,采用拼接矩阵方式形成一种对OFT视频中小鼠运动特征的矩阵化表示,进而结合卷积神经网络(convolutional neural network,CNN)的Tensorflow框架,提出一种能够有效区分测试组和参考组小鼠视频的深度学习视频分类方法。该方法有助于量化分析OFT视频中小鼠的行为差异,为OFT分析提供自动化分类模型及计算方法。本文创新可总结为:1)提出将OFT视频中小鼠的可量化特征进行矩阵化表示,并与难以量化的运动路径图像进行拼接,形成对OFT视频运动特征的特征拼接矩阵,形成可用于特征学习的OFT视频量化数据。2)基于OFT视频的特征拼接矩阵,提出基于卷积神经网络的小鼠分类方法,并在真实OFT数据集上验证了分类的准确性。在此基础上,进一步分析不同卷积神经网络结构的影响,发现仅采用层数较少的简单网络便可实现对特征拼接矩阵高精度分类。3)本文实验均基于真实OFT数据,在受过训练的被测试者很难分辨两组小鼠视频差异的情况下,本文算法仍可准确区分两组小鼠视频之间的差异。这为基于OFT视频的小鼠行为差异量化分析提供了新方法,并为OFT视频分类提供了高精度的自动化方案。
自20世纪90年代Cortes和Vapnik(1995)采用软边距非线性支持向量机(support vector machine, SVM)实现高精度的手写字符识别以来,基于SVM的目标分类方法突破了传统特征建模类方法的局限,在多种图像分类和目标识别任务中取得了优异的性能(Durand等,2015;Schuldt等,2004;Lin和Hauptmann,2002),谷军霞等人(2009)对人类行为分析相关早期工作进行了总结。支持向量机(SVM)是一种监督式学习的方法,主要针对小样本的数据分类(陆波 等,2005),且在多分类场景中效果不理想。
近10年,以卷积神经网络为代表的深度学习技术在众多领域得到了广泛应用(Deng和Yu,2014;Nair等,2015;Nam和Han,2016)。在视频分类领域中,Karpathy等人(2014)提出了基于CNN的多分辨率视频分类方法。Ng等人(2015)将循环神经网络和长短期记忆网络连接到底层的CNN输出端,使视频分类的精度上又有了进一步提升。Xu等人(2016)提出了递归卷积神经网络(recurrent convolutional neural network,RCNN),利用帧图像中的局部特征、密集特征以及连续帧之间的时间特征对视频进行分类,对不同种类的视频分类具有显著效果。Wang等人(2016)提出了一个CNN-RNN组合框架,以解决多标签图像分类问题。Zhou等人(2000)将视频的特征提取和内容分析相结合,提出了一种无监督的视频分类系统,并在视频语义分类中取得了较好效果。冯文刚等人(2011)采用无监督学习方式显示了对无线胶囊内窥镜视频的准确分类。Carreira和Zisserman(2017)提出了一种采用3D卷积神经网络构建的双流融合视频分类方法,并在其发布的Kinetics数据集上取得了准确的人类行为视频分类结果。Jiang等人(2018)在研究了诸如人类的复杂行为之后,提出了一种新的视频分类框架,联合利用特征关系和类关系提高分类性能,提出的正则化语义视频建模对视频分类在当前的视频分类中具有明显优势。Brattoli等人(2020)设计端到端的3D卷积神经网络学习待分类样本内部的视觉特征,可由静态图像预训练分类模型,并在指定视频数据上进行微调(fine-tune),已获得更好的分类性能。
Choleris等人(2001)采用旷场实验研究药物使用与小鼠焦虑行为的关系,使用实验小鼠各种行为(即速度、路程、不同区域的停留时间以及站立次数等)的持续时间量化测试药物的药理性能。基于视频的自动化程序处理技术,Decker和Hamprecht(2014)提出精确对小鼠身体不同部分进行检测的方法,有助于对小鼠行为进行识别和分类。Monteiro等人(2014)提出了一种基于深度映射的小鼠图像分割方法,并给出了4种用于小鼠动作识别和分类的典型特征。此外,Hong等人(2015)尝试对两只小鼠进行更复杂的社会交互行为的识别,采用基于视频的模式识别方法可有效区分13种不同的小鼠行为。
在机器学习理论发展的同时,Burgos-Artizzu等人(2012)使用自适应提升(adaptive boosting,AdaBoost)方法(Freund和Schapire,1997)作为集成分类器对实验小鼠进行了社会行为分析,对比了轨迹特征、时空特征以及两者的特征拼接矩阵在AdaBoost下的识别率,结果显示特征拼接矩阵的识别率明显优于单独使用其他两种特征。Giancardo等人(2013)构建了一种实验小鼠的行为识别系统,用时间随机森林法(Svetnik等,2003)对小鼠的交互行为进行分类。Katsageorgiou等人(2016)提出一个数据驱动模型的无监督学习方法对小鼠的相互影响进行分析。上述小鼠行为学分析仍采用单一特征或少量特征组合方式对一只或多只小鼠进行检测和分类,检测精度以及特征可分性仍存在可优化空间。
本文介绍一种面向旷场实验视频分类的特征拼接矩阵学习算法,采用CNN作为基本分类器,通过对22维小鼠量化特征所拼接的特征矩阵学习,实现高精度的旷场实验小鼠视频准确分类。
本文OFT实验中的小鼠分为参考组和测试组,在视频拍摄前对测试组小鼠注射某种抗抑郁药物,对参考组小鼠仅注射安慰剂(不含药物的试剂)。本文目标是采用深度学习方法对测试组和参考组小鼠视频进行自动分类,同时量化评价OFT视频中小鼠各个运动特征的可分类特性。
针对小鼠的OFT视频数据,本文提出一种基于特征拼接矩阵学习的CNN分类方法,算法流程如图1所示。图1中的视频分类流程大致为,从视频集中提取多种小鼠运动特征,并将不同特征进行量化计算,再对量化后的特征进行组合及向量化。在此基础上,将向量化的特征进行矩阵化表达和特征拼接生成特征矩阵B。在此基础上,本文提出一种可学习特征矩阵的卷积神经网络,实现对小鼠视频的准确分类。本文方法不需要将视频中的每一帧图像都作为卷积神经网络的输入,从而显著减少神经网络训练的参数量和计算量,因而具有较好的计算性能。
图1 基于特征拼接矩阵的小鼠视频分类流程Fig.1 An overview of the proposed OFT video classification based on the spliced feature matrices
本文采用特征矩阵A描述小鼠在旷场不同区域的停留时间,具体为
(1)
式中,A表示小鼠在旷场中停留总时间的区域划分,{Ai|i=1,2,…,9}为小鼠在旷场不同区域的停留时间。
为了求取Ai,本文利用小鼠重心所属Ai的范围来统计小鼠在此区域内的停留时间。计算过程为将小鼠在某时刻在Ai区域内的停留时间记为t′,当小鼠重心再次属于Ai时更新Ai=t′+Δt。
为了计算小鼠爬行的转折率f(Ii),对一段OFT视频帧集合{I1,I2,…,In},本文取前后相邻间隔为k的两帧图像,记为Ii-k和Ii+k。对3帧图像Ii-k、Ii和Ii+k计算其中小鼠的重心,计算过程如图2所示。
图2 求小鼠重心过程Fig.2 The calculation of the gravity center((a)original image;(b)difference between the two templates;(c)results of corrosion operation;(d)calculation result of the mouse gravity center)
采用图像的1阶矩计算小鼠重心,计算为
(2)
(3)
(4)
对于小鼠的休息时间tr,本文统计相邻k帧中图像中重心平均移动距离l (5) 与现有基于深度学习的视频分类方法不同,本文采用可量化特征与非量化特征结合的方式解决OFT视频的分类问题。在特征量化阶段,为了更好地识别小鼠直线前进和掉头行为,将0°~180°可能的转弯范围划分为11个转角区间统计小鼠爬行中转弯的频率和幅度。除了最大和最小区间角度范围为0°~25°和160°~180°以外,其余区间均为15°范围。由此,采用22维特征向量F量化表示小鼠OFT视频特征,即 (6) 在此基础上,所有小鼠视频可采用经典SVM进行特征分类。为利用深度学习处理方法同时处理小鼠可量化特征以及非量化的小鼠爬行路径图像ITrk,对可量化特征F及小鼠路径图像采用矩阵拼接,构建小鼠行为特征矩阵B,具体为 (7) 式中,Fw=ωF代表对特征维度的加权后向量,其中权重系数为ω,由不同维度对OFT视频分类的重要性排序决定。G(·)代表将矩阵按行展开成向量,H(ITrk)为小鼠的运动路径信息,H(·)为对路径图像ITrk的尺度变换,“°”代表两个矩阵的拼接。 对于测试组和参考组小鼠的大量视频,本文对每段视频进行特征矩阵样本生成,由此将两组小鼠的视频分类问题转变为对上述特征矩阵集合Q={B1,B2,…,Bm}的二分类问题。综上所述,对量化特征采用其二阶相关性的矩阵化表达,结合非量化特征构建对OFT视频的特征拼接矩阵,并采用卷积神经网络对此类数值矩阵进行训练,以获取对测试组和参考组OFT视频的准确分类。 为了对小鼠行为特征矩阵进行分类,采用卷积神经网络CNN作为自动分类器,结构如表1所示。整个卷积过程中,所有卷积层均采用3 × 3的卷积核进行构建。为评估CNN网络层数以及参数量对分类结果的影响,分别采用了8种不同的网络结构(见表1),其中A—D 4种网络结构仅对可量化特征矩阵进行计算,E—H网络结构对可量化特征矩阵与小鼠路径图像的拼接矩阵进行计算。 表1 本文采用的卷积神经网络结构Table 1 The structures of convolutional neural networks in this paper 由于特征拼接矩阵同时包含量化特征矩阵和小鼠路径图像,故E—H网络结构相较A—D网络结构使用了更多的上采样和下采样操作,而A—D网络则以卷积结构为主。在小鼠运动的有限特征空间中,为了对小规模样本的期望进行近似估计,本文使用随机梯度下降法对样本集的损失函数进行最小化求解。训练阶段的分类损失L为 L=CE(Q,Q′) (8) 式中,数据集Q由m个特征矩阵Bi构成,Q′代表对应Bi分类结果真值的标签集,CE(·)代表交叉熵损失。 现在的高安方言,从广义上来讲,是指高安市境内的一切方言,包括流通在北部华林山风景区一带的客家话以及除此之外其它各区域的赣方言。从狭义上来讲,则仅指其中的赣语部分,通常以市政府所在地筠阳街道办一带的发音作为标准音。本文取其狭义。 除了输出层以外,本文A—H网络的各层结构如表1所示,各网络最后一层均使用softmax作为分类输出,即小鼠OFT视频的分类概率。为了防止网络过拟合,训练过程中令dropout=0.7,即在每次训练过程中,中间层只有70%的神经元进行工作。为了保证预测的准确率,在测试过程中所有的神经元均参与分类运算。 为了观察实验小鼠注射了抗抑郁药物后对新环境紧张的行为差异,旷场实验装置分为旷场反应箱和数据采集两部分,旷场反应测试箱是4个四壁黑色不透明的有机板箱(45×45×45 cm),箱底是白色有机板,中心为15×15 cm的正方形区域。在行为箱上放置一架分辨率为1 280 × 720像素的彩色摄像机记录小鼠的运动情况,如图3(a)所示。 图3 旷场实验场景Fig.3 The OFT experiments setup((a)OFT experiments setups;(b)clawing path images) 实验开始前,将小鼠放在行为测试室适应30 min。实验时将小鼠背朝实验操作者轻柔地放入测试箱的正中央,让小鼠自由活动30 min,其数据不参与随后的计算和统计。由于小鼠在24 h内有其活动的周期,每次实验选择在相同时间段完成。实验同时拍摄32只小鼠的活动数据,其中17只测试组小鼠,15只参考组小鼠。测试组小鼠注射了某种抗抑郁试验药物,参考组均为正常未注射任何药物的小鼠。数据采集完成后,采用2.1节所述的OFT视频数据处理方法对可量化及非可量化特征进行提取,如图3和表2所示。图3中分别展示了小鼠A和小鼠B的拍摄模式及爬行路径图,表2为两只小鼠行为特征的定量计算结果。本文计算平台为Ubuntu17.04操作系统,采用Python语言在Intel(R) Core(TM) i7-6700 CPU@3.40 GHz、内存8 GB、GPU为Nvidia 2080Ti的双计算显卡上进行TensorFlow网络运算。 表2 小鼠爬行可量化特征计算结果Table 2 Calculated results of quantifiable characteristics of mouse crawling 对旷场实验中拍摄的小鼠视频,首先进行特征提取与描述。为了使图像大小保持一致,统一将小鼠路径图像缩放到484 × 484像素,并归一化到-1.0~1.0之间以便深度学习网络训练和收敛。本文整体数据集中有正样本3 080个,负样本1 034个,每个量化特征矩阵为484 × 484维,拼接后的特征矩阵为484 × 968维。在每次训练中分别等量抽取正负样本的75%用于训练网络模型,其余作为测试集数据。 对提取的小鼠特征矩阵B中的特征做框箱图,如图4所示,图中蓝色框箱为参考组视频特征,红色框箱为测试组小鼠视频特征。对比每维特征可以看出小鼠在各个特征维上均具有一定的分类特性。为了进行实验对比,分别使用了人工分类、经典的SVM分类、卷积神经网络分类3种分类方法。 图4 两组小鼠各个运动特征维度的量化对比Fig.4 Quantitative comparisons of each dimension of mice behavioral features 在人工分类实验中,首先要求16位测试者观看标记好的20个小鼠视频并分析两组小鼠运动行为的差异。测试时,选择另外20个小鼠视频,并去除小鼠视频标记,要求测试者将20个视频分为两类,然后统计分类的准确率以及正确分类数占总数的比例。在SVM分类实验中,所有实验应用单类向量分类器(one-class support vector classifier,V-SVC)模型(Schölkopf等,2001),通过比较选择使用线性核函数,并利用交叉验证寻得最优参数,对上述OFT视频的22维可量化特征进行二分类,得到最终的分类精度为75.19%。 为了进一步分析SVM分类中不同特征维度对分类结果的影响,本文逐一将各个特征从22维特征中去除,分别用所剩的21维进行SVM分类,其分类准确率如表3所示。表中A1—A9表示小鼠在9个不同区域的停留时间,排名依据去除某一特征后对准确率影响的大小,排名靠前代表影响显著。 表3 逐一去除某个特征维度后的SVM分类精度Table 3 SVM classification precision after removing a specific feature dimension 通过分析可以发现,实验中小鼠在各个区域的停留时间、速度和休息时间对分类的影响较为显著,这些维度在表中的Rank排名居前10位,而运动过程中的小角度转向频次对小鼠行为分类的影响较小,值得注意的是,去除115°~130°或130°~145°转向频次之后进行分类,结果的精度显著降低至38.09%以下,说明这个区间的大角度运动转向频次对分类起着关键作用。进而,采用特征拼接矩阵进行SVM分类,使用3 000个特征拼接矩阵作为训练样本,1 114个样本作为测试样本,分类结果精度为80.07%。与之前的22维特征相比结果,采用特征拼接矩阵作为输入的分类精度提高了近5%,两种不同输入的SVM分类精度参数如表4所示。 表4 采用22维可量化特征与特征拼接矩阵作为输入的SVM分类比较Table 4 SVM classification comparison between input with 22 dimensional quantitative features and spliced feature matrix 在OFT视频集中随机选取3/4作为卷积神经网络的训练数据集,剩余1/4的小鼠视频作为测试数据集。图5是4种不同网络结构A—D分别采用两种不同输入时分类精度随迭代次数的变化趋势。图5(a)是量化特征矩阵作为输入的分类准确率随样本数的变化曲线,图5(b)是量化特征矩阵作为输入的分类准确率随样本数的变化曲线。表5展示了采用小鼠路径图像及484维量化特征矩阵作为输入时不同网络结构的分类精度。由图5可以看出,分类准确率随着样本数的增加而逐渐趋于稳定,此时网络更深且更复杂的C和D网络未获得更优的分类结果,而当网络深度以及复杂度到达A网络深度时,分类精度达到测试中的最高值。对于分类准确率最高的A和B网络,采用OFT量化特征可以有效提高分类精度4.63%。分析表5可知,与采用小鼠路径图像作为输入相比,采用量化特征作为输入可以显著提高OFT视频的分类准确率,这也证明了本文采用量化特征矩阵作为OFT视频分类输入的合理性。 图5 小鼠视频的分类准确率随样本数变化曲线Fig.5 The curves of classification precision with the number of OFT video samples((a)precision of classification using only the input of crawling path images of mice;(b)precision of classification using the input of the proposed spliced feature matrices) 表5 A—D网络结构的分类精度Table 5 The precision of classification using A—D network structures /% 图6进一步对比了人工分类方法、SVM分类方法与本文神经网络分类方法的准确率及其随样本数量变化的差异。可以看出,随着样本量的增加,除了人工分类方法外,其余方法的分类效率均在显著提升。而人工分类精度总体在0.5左右波动,表明测试人员仅根据人工观察很难对小鼠视频进行分类和判断,而随着样本量的增加,提高样本量并未有效提升人工分类准确率,从侧面反映出OFT视频分类对人工经验的要求较高,经过短期训练的测试者仍不足以高质量地完成OFT视频的准确分类任务。然而,随着样本量的增加,SVM方法与本文分类方法的准确率均有所提升,本文采用的神经网络分类方法显著优于SVM分类方法,表明采用本文深度神经网络对OFT视频分类的有效性。 图6 不同分类方法分类准确率比较及随样本数变化趋势Fig.6 Comparison of classification precision with different classification methods as increasing the number of samples 图7绘制了采用特征拼接矩阵作为输入的4种网络结构的收敛曲线和分类精度曲线。图7(a)为损失值随迭代次数的变化曲线;图7(b)为分类精度随迭代次数的变化曲线。由图7可见,G网络结构能够获得较高的分类性能,其收敛程度与分类精度均优于E和H网络,略优于F网络。其中H网络收敛过程中的较大抖动,反映出采用更深参数量更大的网络结构容易在小样本条件下形成过拟合状态,从而导致网络整体收敛于局部最优的情况。4种不同网络结构E—H的分类精度与损失值的数值比较由表6给出。 图7 E—H网络对OFT视频分类的损失值与准确率曲线Fig.7 The loss values and precision curves of the OFT video classification based on E—H networks((a)curves of the loss values of E—H network with the number of iterations;(b)curves of the classification precision of E—H network with the number of iterations) 表6 E—H网络对OFT视频的分类准确率与损失值比较Table 6 Comparison of precision and training loss of OFT video classification based on E—H network 此外,为了比较训练集与测试集样本比例变化对收敛及分类准确率的影响,采用G网络进行不同比例的测试,结果如图8所示。其中不同颜色曲线表示测试集占总样本的比例,上半部分曲线代表准确率曲线,下半部分代表损失值收敛曲线。由图8可见,随着测试集占比的增大,分类准确率逐步降低。测试集占比小于0.3时,分类准确率降低并不明显。测试集占比为0.5~0.9时,分类准确率明显下降。测试集占比达到0.9时,分类准确率已降至0.7以下(为了与下半部分曲线显示区分,本文对0.7以下的准确率数值进行了截断处理)。依据上述实验结果,通常情况下单次测试数据集与训练数据集比例为0.25时分类结果的准确率较优。 图8 G型结构下不同测试数据集占比对分类准确率及损失值的影响对比Fig.8 Comparison of the influence of different proportions of test datasets on classification precision and training loss based on G network 现有视频分类算法大多将RGB视频帧与运动光流作为输入,侧重在标准视频分类数据集如Hollywood2、Columbia Consumer Video、Kinetics、Something-something、UCF101和HMDB等上进行基于内容的分类。考虑到本文OFT视频分类任务的特殊性,与Jiang等人(2018)提出动态递归的神经网络(recurrent dynamic neural network,rDNN)、类间关系的视频分类方法和零样本学习(zero-shot learning,ZSL)网络(Brattoli等,2020)进行实验对比。采用两种网络的预训练模型的分类结果准确率如表7所示。可以看出,两种主流深度学习视频分类方法未实现准确分类。导致这种结果的原因或可归结为两点:1)两类方法主要考虑视频内容上的差异或运动目标短时的运动特征,而OFT视频分类侧重对小鼠运动特征的长时统计差异,故本文方法的特征提取在计算长时的统计差异方面具有优势。2)rDNN网络等侧重对单人或多人的行为进行分类与识别,其多分类问题的类间差异较为明显,而OFT视频的类间差异显著小于上述公开数据集的类间差异。 在计算复杂性方面,以G型网络为例,本文方法的网络参数量为1.2 M,计算量为4.7 Mflops,预测每段视频时间约1.6 s左右。为了统一对比标准,在计算效率评估阶段,本文选取了200段时长为1.5 min的OFT视频,计算各种方法每段视频处理时间的平均值,结果见表7。可以看出,本文方法量化特征与非量化特征提取部分耗时较长,故总体的运行效率不及rDNN网络和SVM方法。 表7 不同视频分类网络对OFT视频的分类准确率与运行时间对比Table 7 Comparison of precision on OFT video classification with different networks 针对OFT视频对小鼠运动行为进行差异比对问题,本文提出一种基于特征拼接矩阵的卷积神经网络分类方法。首先,通过对小鼠视频中爬行路径、速度、转弯和停留等运动行为特征的计算量化,构建小鼠运动特征的可量化特征矩阵。其次,结合非量化的小鼠爬行路径图像,提出采用特征拼接矩阵方式对可量化特征与非量化特征进行统一描述。在此基础上,采用不同的卷积神经网络对特征拼接矩阵进行学习和分类。 实验基于真实OFT实验视频数据集,实验组小鼠和参考组小鼠分别注射某种抗抑郁药物和安慰剂。通过对OFT视频片段的学习,本文所提基于深度学习的小鼠视频分类方法取得了比人工分类及传统SVM方法更优的分类结果。本文工作证明采用层数不多的简单深度神经网络结构即可以获得准确的OFT视频分类结果。在实验数据集上,本文方法OFT视频分类的精度为99.25%,有效降低了OFT数据分析人员的工作量,提高了对大规模OFT视频分类的准确率。此外由实验结果发现,小鼠的停留区域与时间、大角度转向频次等特征对分辨小鼠的重要性高于其他维度信息。 受OFT实验场景以及数据量的限制,仅在较为单一的OFT实验数据集上测试了提出的方法,未测试在不同类型OFT实验视频数据集上的性能,故本文方法的泛化性仍有待验证。未来工作将进一步研究小鼠可分辨特征与实际行为的关系,并探索更具泛化性的基于深度学习的OFT视频分类方法。 致 谢感谢西安交通大学第一附属医院转化医学中心朱峰教授前期提供小鼠旷场实验视频与极具建设性的讨论。感谢西北工业大学周果清副教授在SVM以及深度学习算法实现方面的讨论和帮助。2.2 行为特征矩阵的拼接生成
2.3 分类方法
3 实验及结果分析
3.1 旷场实验数据及配置
3.2 小鼠OFT视频的人工及SVM分类实验
3.3 小鼠OFT视频的卷积神经网络分类
4 结 论