曹志强,郑世宝,张重阳
(1.上海交通大学图像通信与信息处理研究所,上海 200240;2.上海数字媒体处理与传输重点实验室,上海 200240)
基于中层语义对象的时空关系提取和对象目标运动趋势的估计将图像处理等技术结合在一起,是现今多媒体研究的一个很有前途的方向。
图像语义包括了底层的特征语义、中层的对象语义和高层的抽象语义,本平台旨在对对象语义层通过识别和推理进而找出图像中的具体对象以及它们之间相互的关系,进行分析研究然后给出语义表达[1](见图1)。
图1 图像语义层次模型
多层次模型的图像,包括颜色、纹理、形状、空间关系的图像语义内容。比起底层特征语义如颜色、纹理等,使用的对象之间的空间关系这一中层语义的图像识别更符合人们的识别习惯。
因此不同于使用颜色、纹理、形状等视觉特征,本研究中基于MPEG-7标准[2-3]的中层语义是对目标图像最直接的语义描述,其导出的特征亦是通过对图像中所描述对象进行某种程度的逻辑推理而得到的,进而对图像中所包含物体的含义和场景的描述进行大量的高层次的推理。
此前的研究主要强调目标对象的空间拓扑关系研究,例如在文献[4]中,主要概括了两个空间所有可能对象关系。而本文在空间关系研究的基础上,更侧重通过与时间关系的结合,即对实时监控中运动目标进行实时标定,测得目标相互之间如上下左右的位置,并结合前后等时间关系,自动组合推理出如目标相遇等高层次的逻辑语义。
文献[5]将空间关系(Spatial Relationship)概括为尺度特征、认知特征、层次特征(Interval Relationship)、拓扑特征(Geometry Relationship)等。
在本文的研究中主要使用的是二维模型,以一个简单的二维对象模型进行建模。而以三维空间现象为重点的空间关系以及具有更不确定性的多层次的复杂空间关系的空间推理也将会是未来在时空关系领域的发展研究的重要方向之一。
本文在空间上构建了如下空间关系:之上(higher),之下(lower),之左(left),之右(right),严格之上(above),严格之下(below),严格之左(left of),严格之右(right of)。图像目标之间的拓扑空间关系如图2所示。
图2 图像目标之间的拓扑空间关系
除了上述利用空间点集拓扑关系来定性表示的空间拓扑关系,图像目标对象之间关系还有投影关系和几何关系等[6]。其中空间几何关系则是通过图像目标的坐标来判断距离与夹角来定量表示。
当叙述一个监控视频对象的时间先后关系时,主要是为了描述事件发生的时间点或时间段内事件涉及目标对象的先后变化。时间关系的表示方式主要有几种,在此研究中选择的时间表示为时间区间和时刻相结合的方式以更方便地判断时间关系,因为这种表示方式既兼顾了时间区间的结构,也包含了时间点所发生事件的信息。
任何两个时间区间X和Y的时间关系可定义为13种[7],这13种时态关系可以用两个时间区间的相交情况重新定义。设X= < t 1,t 2>,t 1≤t 2,Y= < t 3,t 4>,t 3≤t 4,可定义如下13种时间区间的时态关系。
1)之前(before):定义X before Y,仅当t 2<t 3;
2)之后(after):定义X after Y,仅当t 4<t 1;
3)相遇(meet):定义X meet Y,仅当t 2=t 3;
4)覆盖(overlap):定义X overlap Y,当t 1<t 3,且t 3< t 2,t 2< t 4;
5)终点重合(finish):定义X finish by Y,当t 3<t 1且t 2=t 4;
6)包含(contains):定义X contains Y,当t 1<t 3且t 4<t 2;
7)起点重合(starts):定义X starts Y,当t 1=t 3且t 2<t 4;
8)等价(equals):定义 X equals Y,当 t1=t3且t2=t4;
9)被包含(during):定义X during Y,当t 3<t 1且t 2< t 4,以及相对应的 started by,finished by,overlaped by,meet by等4种关系,这4种关系在实现上则是将X和Y的顺序颠倒;
10)被终点重合(finished by):定义X finished by Y,当t 1<t 3且t 2=t 4;
11)被起点重合(started by):定义X finished by Y,当t 4<t 2且t 1=t 3;
12)被相遇(met by):定义X met by Y,当t 1=t 4;
13)被覆盖(overlaped by):定义X overlapped by Y,当t 3<t 1且t 1<t 4,t 4<t 2。
将时间关系与空间关系相结合得到对应的组合逻辑关系:例如将前后两帧物体相对位置改变定义为经过换边,若相对位置不改变,则可进一步定义接近远离等关系此外,亦可定义更高级的组合逻辑事件,例如路口闯红灯与滞留物品。
若检测到前一时间帧内一个人(entity)与一个物体(object)相对距离小于一个值,则判定为接近(near),而后一时间帧内两者相对距离逐渐拉远,可认为是对滞留物品事件的近义检测。
本实验中采取了一段自行拍摄的监控视频序列,从中选取2帧画面进行空间关系判断,如图3和图4所示。
本实验采取的是VIA_1.0标定工具,以画面左上角为原点(0,0),选用对象矩阵左上角点坐标,并辅助矩阵宽和高信息得到四点坐标。例如图3中对象1的坐标信息分别为<X 392 Y 99宽57高106>,对象2坐标信息分别为<X 512 Y 84宽65高69>,对象3的坐标信息分别为<X 586 Y 78宽44高59>。通过计算矩形中心点坐标判断上下左右空间关系,通过比较4个顶点坐标判断相交相离包含等拓扑关系,程序实现上皆用bool函数判断真假,例如:
bool geo_2D_rectleft(rectangle s1,rectangle s2){if(s1.center.x < s2.center.x)return 1;else return 0;}
上述代码当对象目标S 1在S 2左边时则返回真值再作判断。
在选择的这两例帧中,程序读入监控视频图像标定文档可自动输出以下信息:前一帧,对象1在对象2之左,对象2在对象3之左,对象2在对象3之左且靠近相交;后一帧,对象3在对象1之左,对象1在对象2之左,对象1在对象2之左且靠近相交。
在单帧的空间关系判断的基础上,通过加入多帧的时间关系,可以预测出更复杂的时空组合逻辑关系。在此事件中,可定义出相遇、远离、接近等组合逻辑关系。例如当检测在两帧内两对象目标都处于同一边时,判断两者相隔距离的变化,若变大则是远离变小则接近;若检测到处于不同边时则可判断为相遇并远离。
就检测的2帧图像而言,通过输入目标文件,程序可输出以下信息:对象3接近,经过对象2并远离;对象3接近,经过对象1并远离;对象2接近对象1(可预测出即将经过)。
通过对时空关系的组合判断,可定义并预警更加高级的逻辑事件,如图5和图6所示。
图5 视频监控序列帧例3
图6 视频监控序列帧例4
在此视频对象目标检测中,通过空间关系的判断,可输出在相邻多帧之中,对象1与对象2都处于“相邻”关系,位置关系伴随着“之左”和“之右”的变化,将此逻辑关系可定义为“徘徊”。在之后帧检测中目标对象1与对象2的位置关系逐渐“远离”,超过预定的阈定数值,两对象目标间同时出现“徘徊”和“远离”的逻辑事件即可定义出“滞留物品”事件。
本文基于监控视频内容中中层语义模型的构建,结合以往对目标对象空间关系的研究基础对监控视频中层对象语义提取进行进一步的研究。本研究在已实现的简单的时间关系与空间关系函数的基础上,定义此类基于中层语义的复杂逻辑事件并组合时空关系函数加以实现,达到运动目标检测和趋势估计的效果。
[1]CHANG S,SIKORA T,PURI A.Overview of MPEG-7 standard[J].IEEE Trans.Circuits and Systems for Video Technology,2001,11(6):1007-1016.
[2]NACK F,LINDSAY A T.Everything you wanted to know about MPEG-7:part 1[J].IEEE Multimedia,1999,6(3):65-77.
[3]陈晞,杨轶,董育宁.用于图像检索的MPEG-7形状描述子[J].电视技术,2003,27(4):18-21.
[4]杜世宏,王桥,秦其明.空间关系模糊描述与组合推理[D].北京:科学出版社,2007.
[5]章毓敏,基于内容的视觉信息检索[M].北京:科学出版社,2003.
[6]汪彦龙,刘金华,王丽萍.基于对象空间关系的图像检索方法研究[J].计算机技术与发展,2006,16(1):62-66.
[7]ALLEN J F.Maintaining knowledge about temporal intervals[J].Communications of the ACM,1983,26(11):832-843.