莫世鸿,范冰冰
(华南师范大学计算机学院,广东广州510631)
近几年,随着各地城市监控视频建设的持续投入,监控摄像头在城市的部署数量以每年超过30%的复合速率增长,同时从以往的标清逐步向现在的高清过度,大量视频监控设备产生海量视频及其相关的数据,如交通卡口和电子警察记录数据,视频监控领域大数据时代已来临。尽管目前各类视频压缩编码技术已经十分成熟,但是,城市视频大数据的数据量增长速度远远超过视频压缩编码技术的发展速度,从而造成所需的存储开销呈指数级增长。根据美国国际数据公司(IDC)的估计,数据每2年翻1番,10年将增长50倍[1]。
除重要点或案件相关等监控视频外,由于受存储空间限制,国内绝大部分监控视频一般保存时长为30天,没有考虑监控视频价值量的差异性,造成价值量不高的视频占用了大量存储空间,价值量较高的视频保存时长过短而缺失历史数据,对大数据应用产生不可弥补的损失。因此,希望面向应用对城市监控视频进行差异化的存储管理。在无法把所有视频数据保存下来的条件下,首先,不同的摄像头价值量会有所差异,其次,同一摄像头在一天的不同时段价值量会有所差异。基于监控视频价值实现动态存储管理分配与优化,对监控视频大数据应用具有重大意义。
目前,国内外对于视频价值量的研究几乎空白,相关的研究有关于通用数据价值的研究。文献[3-5]给出了数据价值的简单定义。关于数据价值的评定方法,文献[6]等人介绍了基于应用程序的方法对数据价值进行评估。文献[7]介绍了一种基于信息使用的最近时间判断信息的价值。文献[8]等基于电子文件的完整性、真实性、有效性4个指标建立了电子文件价值评估模型。文献[9]提出的usage-time(UT)模型同时考虑了最近使用时间和使用度两个因素,基于访问时间距离当前时间的远近程度赋予访问量不同的权值,从而对总使用度作出一个综合评价,并且经过案例验证了其有效性和健壮性。文献[10]等通过按比例计算数据的固有属性和预期价值,得出数据价值的量化指标。文献[11]等提出了一种基于数据本身重要性和潜在价值的数据价值评估模型。然而,针对监控视频,视频数据往往是以数据流的方式写入和存储的,无法基于文件的方式获取上述信息。此外,上述模型并未考虑监控视频特有的摄像头布点重要性因素和时间戳因素。
此外,还有部分关于视频质量评价或者视频热度分析预测的相关文献[12-15]。在视频质量评价方法上,只回答了视频“可看性”问题,而并未回答视频内容价值量多少的问题。视频热度的相关研究在多媒体视频领域(例如电影电视剧等)分析了哪些视频会更吸引用户的注意,在监控视频领域的研究则是空白。
如何基于监控视频价值量解决存储优化问题,是本文的研究点。据此,在监控视频价值量的评价上,仍存在以下问题:首先,目前对于监控视频价值量的概念缺乏一个明确的定义;其次,对于监控视频价值量的评价缺乏一个科学的评估体系。
综合考虑前人对价值的定义以及监控视频的特性,给出监控视频价值量定义:监控视频价值量是其所包含信息量多少、所含信息可能应用价值、以及其对应摄像头重要性的综合体现。所谓信息量多少,主要指的是监控视频中特征对象出现率,如车、人等,即对象出现率越高,价值量越高。摄像头重要性主要取决于所处区域或位置,例如,若一个摄像头处于交通要道,或在重点目标监控区域(例如大使馆等),则该摄像头所含的信息就越重要,价值量也越高。信息的应用价值主要通过用户的访问、使用来体现,一段监控视频序列访问度越高,则其价值量越高。
基于上述监控视频价值量的概念,评估体系应分为两个部分:首先,要针对监控摄像头的各项访问指标,建立一套评价单个摄像头总体价值量的模型;然后,针对高价值量的摄像头,对一天的不同时段进行分组,采用一定的计算方法,最后筛选出这些摄像头一天中价值量最高的时段。两个部分分别定义为摄像头筛选模型与时间段筛选模型,如图1所示。
图1 监控视频价值评估体系
设计评估体系基于以下4个要素,其一,监控视频数据的价值是通过其使用来实现和体现的;其二,监控视频的价值会随着横向时间的推移而有所差异;其三,不同类别摄像头的数据价值量应有所差异;其四,监控视频数据在每天不同时段其价值量是有明显差异的。
基于UT模型,加入摄像头类别重要性因素,对监控视频价值量评价模型做出适应性改进,提出CUT(camera-usage-time)模型对摄像头价值进行评估,如图2所示。
图2 CUT模型
该模型具体描述如下:
这里,vt(d)指的是摄像头d在时间t的价值,时间t是宏观上的,精确度是某一天。评估周期用vp表示,持续时间为[t-Nt×s,t],s是每个活跃期的长度,Nt是活跃期的个数。f(Ui(d))表示摄像头d在活跃期i的使用值,此处数值是进行归一化处理后的数值,在[0,1]区间内。w(i)是每个活跃期i的权值进行标准化后的数值,权值总和为1。权值w(i)通过上述权值函数指定。i越小,表示活跃期距离现在越近,该权值函数可以表明,距离当前时间越近的活跃期,具有越高的权值。z为每类摄像头的重要级别,由人为指定,取值为1,2,3…,c(z)是每种类别的权重,级别越高,权重越大,q是人为定义的总类别数。最后,把价值尺度vt(d)利用公式(5)标准化为一定区间[ls,us]内(例如[1,10])。
在确定高价值量摄像头的基础上,进一步对一天不同时段价值量进行分析比较,把一天分为多个时间段T1、T2、T3…Tn,针对不同的应用领域,确定不同的评价参数k1、k2…kn,记ck1T1表示参数k1某一天在时间段T1的值,为了使评价结果更加准确,对同一时段多天的数据取平均,记天数为CUT模型中一个活跃期的天数s,可对每个参数在每个时间段取值利用公式(6)取平均,并由此可得到多维矩阵(7):
基于这些参数对不同时间段的价值量进行区分,可考虑采用聚类算法,本文使用的是K-means聚类算法[16]。
3.3 中医健康宣教的重要性 小米粥营养价值丰富,有“代参汤”之美称,一般患者及家属对小米的饮食功效都比较熟悉,但是对于小米其他的作用就了解比较少。我院是中医医院,对患者进行中医健康宣教是护理工作的一个重要组成部分,也是护理质量考核的一个指标。所以对入选本课题的压疮高危患者讲解小米的中医作用是不可或缺的一部分,让患者了解小米的作用后,在知情同意的情况下愿意配合使用小米垫,真正从心里接受此实验方法,符合医学伦理范畴。
K-Means是一种基于距离的排他的聚类划分方法。K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。假设给定集合R={Xm|m=1,2,…,total},对于R中的每个样本给定d个描述属性A1,A2,…,Ad来表示,运用多维向量表示数据样本Xm所拥有属性为:Xm=(Xm1,Xm2…,Xmd),其中Xm1,Xm2…,Xmd是数据样本Xm的具体取值。样本Xi和Xj之间的相似度通常用它们之间的距离d(Xi,Xj)来表示,距离越小,样本Xi和Xj越相似,差异度越小;距离越大,样本Xi和Xj越不相似,差异度越大。欧氏距离公式如下:
算法采用误差平方和准则函数作为聚类准则函数。算法是将样本聚类成k个簇(cluster),具体算法描述如下:
1)随机选取k个聚类质心点(cluster centroids)为:μ1,μ2,…μk∈Rn,
算法流程图如图3所示。
图3 K-means算法流程图
本章将基于交通应用领域对提出的价值评估体系进行分析和验证,为此,对500路交通监控摄像头3个月内(9.1-11.30)的访问数据进行跟踪,并利用这些数据进行验证和分析输出结果。
对CUT模型各参数定义如下:首先把交通领域摄像头按重要级别分为4类,如表1所示。
表1 摄像头类别与对应重要性
则公式(4)中q=4,并取y=2,然后对式(1)~(3)、(5)采用文献中[9]UT模型的默认参数,则:
ls=1,us=10,价值尺度为[1,10]
Ui(d)=访问量,
2.1.1 横向时间因素
根据3种不同的访问状态对摄像头进行分类:突发性访问,周期性访问和常量性访问。如果对一个摄像头所有的访问只发生在很短的时间内,则认为这类摄像头是一个突发性访问摄像头。如果访问发生在某个固定的时间间隔,则该摄像头是周期性的。如果摄像头在整个评估期间不断被访问,则该摄像头具有不变的访问模式。从每种访问类别中随机选择3个同一重要类别的摄像头,并使用60天的评估期计算不同日期的摄像头价值,并默认所有其他参数,输出结果如图4所示,累计访问量如表2所示。
图4 3种类型摄像头价值随时间变化折线图
表2 累计访问量统计
具有周期性和恒定访问模式的摄像头随着时间的推移具有微小的价值变化。突发性访问摄像头显示出相对显着的价值变化。此外,尽管在某些时段突发性摄像头的累计访问量高于常量性摄像头,但是其价值输出结果却不如常量性摄像头,这是由于该模型对不同的横向时间段赋予不同的权值决定的,充分证明了该模型能反映横向时间推移对监控视频价值的影响。
2.1.2 布点重要性因素
从2.1.1节具有常量性访问特征的摄像头里随机选取4个类别不同的摄像头,同样使用60天的评估期计算不同日期的摄像头价值,并默认所有其他参数,显然重要级别越高的摄像头,其整体价值量越高,如图5,重要级别从高到低的平均价值量分别为:7.8、4.5、3.9、1.7,然而,在某些日期不同重要性的摄像头拥有相近的价值量,甚至在11/5、11/12会出现重要级别较低的摄像头价值量反而较高的情况,这是访问度因素导致的,当某段时间访问度大量提高时,由于访问度对结果的影响大于布点重要性对结果的影响,因此这种情况布点重要性因素会对模型输出结果的敏感度降低。
图5 不同重要性摄像头整体价值量折线图
2.1.3 访问量因素
对模型的输出结果根据价值尺度(1~10)划分为4个部分,摄像头价值量分布图如表3所示,根据对模型的输出结果进行分类,可以看出该模型能把不同价值量的摄像头从宏观上较好地区分开来,价值尺度高的摄像头虽然所占比例少,但拥有高访问量。其中,价值量为6~10的摄像头占总摄像头数量的4%,但是其访问量占据了总访问量50%以上,价值量3~6的摄像头占总摄像头数量8%,其访问量占总访问量的18%;相反,价值量为1的摄像头虽然占总摄像头数量的67%,但是其访问量仅占总访问量的3%。显然,该模型对访问量因素具有很好的敏感度。
表3 摄像头价值与访问量分布情况
2.2.1 特征值选择和数据预处理
针对高价值量摄像头进一步进行时间分布性分析,随机选取其中一路高价值摄像头(对应2.1.3节中价值量为(6,10]的摄像头),根据1.3节理论基础,取T=2小时,即把一天分为12个时间区间。针对交通领域,主要的研究对象为车辆。此外,违章检测作为智能交通的重要应用研究,保存大量具有违章行为的视频序列,对智能交通的研究具有重要意义。因此选定评价参数车流量c和违章标记数目p,利用公式(7)对多天同一时段的数据取均值,得到基础数据如表4(括号外数据)。由于这两个特征值的度量单位不一致,它们具有不同的量纲和量纲单位,这种情况可能会导致数据分析结果不准确,而且收敛速度慢。为了消除指标之间的量纲影响,解决数据指标之间的可比性,加快模型收敛速度,需要进行数据标准化处理。对原数据以列为单位经过线性变换,进行标准化处理,使得结果均落在[0,1]区间内。以平均车流量c为例,转换如下,并得标准化数据如表4(括号内数据):
2.2.2 仿真实验结果
取K值为3,利用matlab进行聚类仿真,得到如图6结果。
可见,通过聚类后可以把一路视频大致分为3类:分别为高价质量时间时间段,中价值量时间段,低价质量时间段。其中高价质量视频数据为第5组与第10组,中价值量视频数据为第4、6、7、9组,低价质量视频数据为第1、2、3、12组。最后,可以筛选出该路视频价值量最高的时间段是8:00-10:00与18:00-20:00。
表4 各时段车流量与违章均值数据
图6 聚类结果
本文对监控视频价值评定问题进行了研究,分析了监控视频价值评估过程涉及的关键因素,提出了监控视频价值量概念及其评估体系。通过实验验证,该评估体系具有以下4个特点:1)捕获摄像头价值随时间的变化而变化;2)捕获不同摄像头类别数据之间价值的差异;3)从宏观上把不同价值的摄像头区分开来;4)把同一个摄像头一天中不同时段的价值量区分开来。据此可为基于监控视频价值量实现动态存储管理分配与优化提供理论基础。然而,该评估体系仍然具有一定的局限性,在CUT模型中对摄像头布点的重要性依靠人为指定,缺乏一定的客观性,考虑的因素不够全面,在这方面可继续深入考虑人口(例如外来人口、宗教信仰、年龄结构等)、建筑(例如建筑档次、建筑密度等)、经济(例如人均收入、贫富差距等)等因素对摄像头布点重要性的影响。此外,在摄像头筛选阶段,未考虑到关联性因素,相关的摄像头之间可能存在大量重复冗余的数据。因此,下一步研究方向应对上述问题继续深入探讨。