刘 立,丰洪才,黄 清
(1.武汉轻工大学,a.数学与计算机学院;b.网络与信息中心,武汉 430023;2.武汉市东西湖职业技术学校信息技术系,武汉 430023)
水果种植是现代农业生产的重要组成部分。在乡村振兴背景下,新媒体开启了新时代的农村发展之路[1],新媒体使得视频传播农作物种植技术以及病虫害防治技术成为可能。如何高效地从海量的涉农视频中找出感兴趣的视频镜头,是一个亟待解决的问题。
镜头是视频的基本组成单位,也是视频的最小语义单元,包含了一次连续拍摄的帧序列。视频镜头分割的主要目标是检测出镜头的边缘,将一段视频分割成若干个独立的镜头。视频镜头的边界检测是基于内容的视频检索(Content-based video retrieval,CBVR)的基础技术和关键步骤。因此,视频镜头边界检测的研究与应用一直受到人们的关注,也是视频领域的研究热点之一。视频中镜头的变化主要有突变和渐变两种,突变(切变)是视频中镜头最常见的转换方式,是指一个镜头不采用任何编辑效果直接切换到下一个镜头的切换方式,该过程一般在两帧之间完成。渐变(缓变)是镜头之间通过某种过渡方式,从一个镜头逐渐切换到另一个镜头的转换方式,该变化过程可能在几帧或几十帧之间完成。
视频镜头边界检测通常根据视频相邻帧的物理特征差异来实现,因此需要检测、提取视频帧的物理特征并对他们进行比较。在实际应用中,视频帧的物理特征检测和提取通常可以分为压缩视频域和非压缩视频域两大类方法。非压缩域方法是基于视觉特征的算法,如基于直方图法[2]、像素法[3]、边缘形状[4]、运动[5]以及正交多项式[6]的方法。而基于压缩编码算法主要包括离散余弦变换(Discrete cosine transform,DCT)[7]、宏块编码[8]、HEVC(High efficiency video coding)编码[9]。此外,还有一些融合了压缩域和非压缩域的多种特征[10,11]的算法。镜头边界检测的方法主要有基于模型的方法[12]、基于距离相似度的方法[13]、基于机器学习的方法[14]、基于深度学习方法[15]等,这些镜头边界检测方法都有各自不同的研究角度,并面向特定场景应用领域,但面向涉农领域内的视频镜头分割算法研究甚少。本研究根据农业知识视频的特点,以水果病虫害知识视频为例,提出了一种农业知识视频镜头分割方法。
农业知识视频无论是从选题、拍摄内容、拍摄环境以及角度都是由人们精心策划的,生动形象真实、贴近农业生产活动,且具有传播速度快、覆盖面广等特点。对于水果病虫害知识视频来说,具有以下特点:
1)视频拍摄对象主要为受到病虫侵害的水果作物。水果作物发生病虫害,最早可以追溯到果树病虫害,具有一定突发性,虽然增加了识别病虫害的难度,但是果树在发病初期,一般会出现早期症状,如患轮斑病的苹果,初期果叶呈现褐黑色小斑点,后期病斑中间部位呈褐白色,最终造成果叶穿孔侵害果实,果叶的颜色特征和纹理特征可以作为水果是否发生病虫害的重要标识,为通过农业知识视频识别水果是否发生病虫害提供了依据。
2)水果病虫害知识视频镜头变化以突变为主,但也存在视频镜头渐变的现象,在视频镜头边界检测方案中,两种变化都需要考虑。
3)水果病虫害知识视频帧具有高度的重复性和时间冗余性。为检测水果病虫害知识视频是否发生病虫害,若直接对视频中连续帧比较其差异性,需要花费大量重复的计算时间。
本研究以水果病虫害知识视频为例,使用了双重检验的方法(图1)进行视频镜头检测。该方法的初检阶段采用改进分块的方法提取颜色特征,并结合自适应跳略方法筛选出视频镜头边界候选帧,进而由其构成新的视频帧序列;复检过程使用HSV(Hue,Saturation,Value)颜色空间特征和局部二值模式LBP(Local binary pattern)纹理特征融合的方法计算帧间差,然后将帧间差值与采用自适应方法确定的阈值进行比较,检测出视频镜头中的突变镜头和渐变镜头。
图1 视频镜头检测框架
1.1.1 颜色空间 颜色特征作为一种全局特征,描述了水果视频帧对应的景物表面性质[16]。如成熟的苹果多为红色且色泽光亮,而患褐腐病的苹果果面呈灰褐色。因此,颜色可以作为识别水果成熟度以及发生病虫害的依据之一。颜色特征的描述通常是建立在颜色空间的基础上,常用的颜色空间有RGB(Red,Green,Blue)、HSV(Hue,Saturation,Value)、LAB(Hue,Saturation,Intensity)等。
水果病虫害知识视频以色度影响为主,基于HSV颜色空间符合人眼视觉感知[17],HSV颜色空间包含:色调(Hue)、饱和度(Saturation)和亮度(Value)3个通道,且各通道可以独立感知各颜色分量的变化。但在现实生活中,人们肉眼所能看到的颜色由RGB3种基本颜色构成,因此需要将RGB颜色空间转换到HSV颜色空间,如式(1)、式(2)、式(3)所示:
由于一幅视频帧的颜色非常多,颜色直方图的维度也较高。为减少计算量,本研究采用式(4)的非等间隔量化技术,将色调H分为8份,饱和度S和亮度V各分为3份,对HSV颜色空间非均匀量化。
将非均匀量化后HSV颜色空间的3个颜色分量合成一个72维的颜色特征向量P,如式(5)所示:
1.1.2 非均匀分块 根据心理学认知规律,人们在对物体进行观察时,人眼对图像各区域的识别是非均匀的。当视网膜在采样信息时,其中心区域的分辨率较高,而除此之外的区域分辨率较低。本研究采用优化分块方法(图2),视频帧被不均匀地划分为3×3大小的子块,且块的水平和垂直尺寸分割比均为1∶3∶1,非均匀分块加权直方图方法可以有效地抑制视频四周插入字幕对视频镜头检测产生的影响,考虑到本研究对象是与水果相关的视频,且水果主要呈现在视频镜头中央,包含了一幅帧图像的主要信息。因此,本研究将视频帧中心区域的权重设置为6,视频帧4个角对于整个视频镜头边界检测影响不大,因此将视频帧4个角点的权重设置为0,四周的权重设置为1。
图2 视频帧直方图分块优化
本研究使用绝对距离来度量不同帧对应子块的直方图差异,分别用Hi,k(P)、Hj,k(P)表示第i帧和第j帧在子块k上的颜色直方图,其中,P表示亮度区间,P∈[0,71],因此两个子块的直方图距离可以表示:
分别用w1,w2,w3,…,w9表示每帧图像的9个子块,设加权矩阵为W,可以用式(7)来表示:
则从式(6)和式(7)可以计算出第i帧与第j帧的分块加权直方图差值为:
视频镜头检测算法通常采用逐帧计算帧间差并研究其变化值(图3),该方法最大的缺点是算法的时间复杂度和空间复杂度较高,尤其在视频镜头边界帧数远小于视频总帧数的情况下,算法效率极低。为提高镜头检测算法的总体效率,本研究算法在镜头边界检测初始阶段,就将视频帧进行初次检验的处理,除去冗余的视频帧,筛选出包含镜头边界的视频帧序列。采用Hua等[18]提出的自适应跳略算法对镜头进行初次检验,利用同一个视频镜头内帧间特征具有连续性和相似性及不同镜头特征明显不相似的特点,忽视不必要的比较计算,减少算法执行时间。第一种方法采用固定间隔d帧进行比较计算,该方法虽然简单易行,但是每个视频最优值d可能不同,固定间隔的帧数难以适用于所有的视频;第二种方法是采用动态确定d值的自适应跳略方法,在自适应跳略规则中,每次迭代计算时,算法通过比较当前d值和上一次d值来确定下一次的d值。如果当前d值与上一次d值相似,则增大d值;如果不相似,则减少d值。此外,如果某轮比较中两帧的帧间差值较大变化时,说明两帧图像越不相似,则表明两帧处于两个不同镜头中,就使用逆向自适应跳略方法查找计算视频镜头边界。一旦确定了镜头边界,可以再次使用相同的方法继续向前查找。
图3 镜头边界检测方法
对长为N帧的视频V进行检测,预选出所有可能发生镜头变换的视频帧位置的集合,记为视频序列V。采用自适应跳略方法进行镜头检测的时间复杂度为O(N/d),其中N为待检测视频的长度,d为动态变化间隔帧数,而传统的逐帧比较算法的复杂度为O(N)。自适应跳略方法降低了初次检验的运算量,有利于提高视频镜头检测的效率。
除了颜色可以作为水果表征外,纹理也是水果的重要特征之一。纹理是指视频帧像素灰度呈空间分布特性,其中包含大量信息。纹理反映水果果面是否有伤痕以及缺陷的程度。患炭疽病的苹果,发病初期果面上出现淡褐色小斑点,后逐渐扩大成深浅相间的同心轮纹状排列。常用的纹理特征提取方法有基于局部二值模式(LBP,Local binary patterns)、基于灰度共生矩阵(GLCM,Gray-level co-occurrence matrix)、基于小波变化方法等。
LBP局部二值模式是一种用来描述图像局部纹理特征的算子,具有灰度不变性和旋转不变性等优点[19],该算法因其简单高效,被广泛使用。原始的LBP算子被定义在3×3的窗口内,将中心像素点的灰度值作为该邻域的阈值,再对邻域内各像素点的值进行二值化操作处理。即将周围邻域内各像素点灰度值与阈值进行比较,如果邻域内某像素点值大于等于中心像素点的值,则该像素点的位置被标记为1,否则标记为0。得到的二进制的值,按顺时针方向,再对不同位置像素点的值与对应像素的权重先相乘再相加的结果为该区域中心像素点的LBP值,并用该LBP值来代表该3×3区域的纹理信息(图4)。
图4 原始LBP值的定义
原始的LBP算子仅对比了范围内中心点与邻域内其他点的灰度变化,在该计算过程中没有考虑到中心像素点的灰度值,造成一定的信息丢失,且无法表示更广区域。为了使LBP特征不再局限于3×3的邻接区域,对原始LBP进行了扩展,假设一个半径为R(R>0)的圆形邻域内有P(P>0)个像素点,以圆心为中心点,在半径为R的圆上等间隔地采样P个点,用P个点的灰度值与中心点的灰度值进行二值化比较(图5)。
图5 不同取值的P、R对应的圆形邻域
其公式可以表示为:
式中,P代表半径为R的圆形邻域内像素点的个数,中心像素点的灰度值用bc表示,bi为以bc为中心点且半径为R的圆上第i个像素点的灰度值。s(x)用来判断bi-bc的值,如果bi-bc值大于0,则s(x)为1,否则s(x)为0。
与国际先进水平相比,我国的碳会计披露理论尚处于初步发展阶段,知识技术大多停留在概念外延及书面上,缺乏对实际工作的指导性和应用性。理论研究成果无法实际应用到现实案例中,也是碳会计信息披露面临的巨大挑战。
随着半径的增大,各像素的相关性逐步减小,即在较小的邻域中获得大部分的纹理信息。对应的LBP(P,R)会产生2p种模式,以R=1,P=8为例,此邻域内会产生28=256种二进制模式。随着采样点的增加,模式种类也会随之增加。在特征提取的过程中形成冗余,也会消耗大量的计算时间。
为了解决这一问题,优化等价模式(Uniform pattern)来对扩展的LBP算子进行降维处理,当某种LBP模式对应的循环二进制数在0到1或1到0之间,且最多进行两次跳变,那么该LBP模式所对应的二进制称为一个等价LBP模式。如:000 111 11(1位跳变)、110 011 11(2位跳变)它们属于统一模式,而010 100 10(6位跳变)不是统一LBP模式,这种模式被归为混合模式类。用式(11)可以表示为:
式中,u表示循环二进制数在0到1之间跳变的次数。
在不丢失任何信息的情况下,二进制模式的数量大大减少,从2p种减少到p×(p-1)+2种,其中p表示邻域集内的采样点数,假设半径R为1,采样点为8,由此计算得出LBP直方图维度数目为58。58个Uniform Pattern为一类,其他所有值为第59类,等价LBP模式不仅减少了纹理特征向量的维度数量,还减少了高频噪声带来的影响。
针对视频帧序列N’,构建HSV特征空间和LBP特征空间,并根据HSV颜色特征提取法和LBP纹理特征提取法,针对单帧图像按图2优化分块,分别提取其HSV特征向量P和LBP特征向量Q。
1.4.1 特征向量的归一化 由于提取的两种特征向量表示范围可能不同,需要对各特征向量进行归一化操作[20],如式(12)所示:
式中,ui为初始特征向量,Ui为归一化的特征向量,n为特征向量个数,m为初始特征向量的均值,σ为初始特征向量的标准差,σ2为方差。
1.4.2 特征融合 为突显视频帧的主要信息,将归一化后的两种特征向量,以一定的比例融合,得到该块特征直方图,如式(13)所示:
图6 多特征融合直方图
采用X2直方图匹配法计算相邻两帧中对应块相似度,如式(14)所示:
式中,h(a,b,i)表示第i帧图像中第a行第b列的特征直方图,L表示视频帧的灰度级。
根据各分块权重系数wn,加权计算各块的特征向量,使其构成一个复合向量作为整个视频帧的特征,并用式(15)计算相邻两帧图像之间的相似度(即相邻两帧直方图距离),并形成视频相邻帧间差集合为S={S1,S2,S3,…,Sn}(用Si表示第i帧与第i+1帧的帧间差)。
以MP4格式视频为例,输入一段视频序列V,设该序列中包含有N个视频帧。首先,用式(1)、式(2)、式(3)将视频序列从RGB颜色空间转换为HSV颜色空间,然后利用式(4)对HSV颜色特征分量进行非均匀量化,再将量化后的HSV颜色空间的3个分量,用式(5)构成一个72维的颜色特征向量P。
采用优化分块的方法分块加权,用式(6)分别计算不同视频帧在子块k上的颜色直方图距离dijk,结合式(7)中wn值代入到式(8)中得出,整个视频序列中第i帧与第j帧的帧间差Dij。根据同一个镜头内帧间差具有相似性的原则,采用自适应跳略方法,忽略镜头内帧间一些不必要相似性的计算,进而获得新的视频帧序列V’,包含了视频帧数为N’。
对于新视频帧序列V’中的每一帧图像,结合式(4)、式(5)中的HSV颜色特征提取法及式(9)、式(10)、式(11)中提取LBP特征纹理法,针对单帧图像采用优化分块,分别提取其HSV特征向量P和LBP特征向量Q。由于以上两种特征向量的取值范围有可能不同,因此需按式(12)分别对各特征向量进行归一化处理。将归一化处理后的颜色特征向量P和纹理特征向量Q以6∶4的比例融合,按式(13)得到子块的特征直方图。结合式(7)和式(14)加权计算各块的特征向量,使其构成一个复合特征向量,再利用式(15)计算出新视频序列N’中相邻帧帧间差集合S。
采用双阈值法能同时检测视频镜头中的突变镜头和渐变镜头,并结合活动窗口调节自适应的局部阈值,具体复检过程如下:
假设:高阈值系数为λH,低阈值系数为λL,初始窗口为W,二次检测窗口为w,相邻帧帧间差为Si,平均帧间差savg=,帧间差函数为Dif(i,j)。则低阈值为TL=λLsavg,高阈值为TH=λHsavg,令突变集合为cut,渐变开始帧的集合为grab,渐变终止帧的集合为grae,作如下判断比较:
Step 1:如果Si≥TH,则在第i+1帧处有可能发生镜头的突变,但也有可能是闪光灯引起的误判,所以还需进一步判断;通过对大量视频镜头检测试验,表明闪光帧长一般维持在4~10帧间[21]。针对这一特点,从第i+2帧开始,取一个长度为w的小窗口,再判断此窗口内平均帧间差值是否大于高阈值,如果s'avg≥TH,则第i+1帧为突变帧,并将其写入到集合cut中,否则说明没有发生镜头突变,该步骤完成突变镜头和闪光的判断(图7)。
图7 镜头突变检测
Step 2:如果TL 图8 镜头渐变检测 Step4:结束运算,输出集合cut、grab、grae的值,从而得出突变帧和渐变序列。 试验视频素材均来源于《农广天地》节目,从栏目中选取5段不同水果病虫害知识视频作为试验素材。每期节目大约25 min,帧速率为25帧/s,视频的格式为MP4(图9至图11)。 图9 视频素材展示 图11 芒果病虫害防治视频中镜头渐变 美国国家标准与技术研究院(National institute of standards and technology,NIST)为镜头边界检测给出了一种标准的估计方案,主要以镜头变换的查全率(Recall)和查准率(Precision)2个评价指标来检验视频镜头边界的结果,定义如下: 用MATLAB2020a仿真软件对5段视频进行镜头边界检测的仿真试验,试验前对每段视频的镜头进行人工标注,与试验分割效果进行对比,试验结果如表1所示。 图10 芒果病虫害防治视频中部分镜头 从表1可以看出,5段水果病虫害知识视频镜头分割查全率分别高达95.5%、93.4%、93.1%、93.0%、92.7%,查准率分别达到93.9%、92.5%、94.7%、92.3%、93.4%。查全率平均大于93.5%,查准率平均大于93.4%,较好地兼顾了视频镜头分割的实时性和准确性。 表1 不同水果病虫害视频片段的仿真试验结果 借助视频分割技术,着力拓宽农业科教知识的传播渠道,针对水果病虫害知识视频特点,运用双重检验的视频镜头分割方法。将视频序列中帧间差的变化值作为自适应跳略方法中跳帧值的依据,提高了算法的整体检测效率。复检阶段采用颜色特征和纹理特征的融合,突出显示视频帧的主要内容,同时采用了自适应双阈值选取方式,避免了人工设定阈值存在的误差。该方法分割速度较快,效果较为理想(查准率高于93.4%),提高了水果病虫害知识视频镜头检索效率,使得广大农友掌握病虫害防治技术,进而提高水果作物的产量和质量。视频镜头分割技术也可推广到其他农作物的视频处理上,进一步加大视频分割技术在农业领域的应用,从而推动农业信息化。3 结果与分析
3.1 试验素材
3.2 结果分析
4 结论