视频数据的本质属性、特点及其应用价值

2023-01-05 00:51:17赵秀萍

北京警察学院学报 2022年5期

赵秀萍

（山东警察学院，济南 250200）

随着视频监控网络逐步完善和手机等小型电子设备视频摄录功能的普及，视频数据已经成为大数据资源的主体，并逐步被运用于社会生产生活的各个方面。视频数据属于典型的非结构化数据，规模庞大、流转高速、模态复杂、辨识难度高、价值密度低的特性给其应用带来诸多障碍。本文跳出以应用为主体的认识框架，基于系统论的视角，深入分析视频数据的本质特性，试图对视频数据建立客观、真实、全面、完整的理解，以期推动我国学界对于视频数据基础理论的研究，同时促进视频数据在各领域中的应用。

一、视频数据的本质属性

视频是由连续帧的图像组成的动态数据，相较于静态图像，其包含了目标对象的连续运动信息。因此，视频可以被认为是多帧静态图像的集合体，但要保持观感上的连续状态，每秒视频数据需包含24帧以上的图像。视频数据结构复杂，不同视频数据的表现形式和结构特征差异巨大。从视频数据的形成过程可以看出，视频是以形态反映为基础的数据信息，主要具有以下本质属性：

（一）视频的图像反映性

如前所述，视频是图像的一种，可以被认为是多帧静态图像连续显示而形成的动态图像。跟数字、文本等结构化数据不同，作为一种非结构化数据，无论是静态图像还是动态视频都具有信息含量大和信息内涵模糊、不确定的特征。人们通过视觉观看视频，直接获得的是目标对象的颜色、纹理等外部特征信息即形态信息。形态信息背后的含义，比如人的年龄、性别、职业等信息和物的品牌、价值等信息，则需要进一步分析才能确定。

人们对于图像中形态信息的理解，通常遵循从整体到局部再到细节的步骤，即先把握环境和场景特征，然后基于自身既有的知识、经验和理解能力对目标对象进行分类、对比和辨析，从而获得更多的信息。一般来说，一个特定的目标对象的整体特征和部分局部特征通常是比较明确的，比如目标对象是人还是车，人穿的衣服是红色还是黑色等都比较容易确定。因此对视频数据中粗粒度特征的认定通常能够达成一致，而对于其中的细节信息，越细微则理解和把握的难度越大，不确定性即不同主体的理解分歧也越大［1］。

可见，视频数据中的信息含量丰富，但具体而确定的信息有限，大部分信息是不确定的细节信息，需要具有一定的知识和能力才能挖掘和解读出来。因此，对于视频内容的解析需要具备一定的专业能力和经验，不同的人从同一段视频中获得的信息是不同的。也就是说，由于经验和能力等的差异，面对同一段视频，人们能够理解和把握的信息含量具有不确定性，甚至会有很大差异。

（二）视频的数据存在性

根据《辞海》的定义，数据是指进行各种统计、计算、科学研究或技术设计所依据的数值。从计算机技术的角度来看，数据是对客观事件进行记录、以二进制信息单元0和1的形式表示并可以鉴别的符号，是信息的表现形式和载体［2］。视频图像与声音一样，其本身是离散的模拟信息，但通过信息处理设备可以转化成数据信息，并以数字信号的形式进行传输和存储。

感光芯片是图像数字化技术设备的核心部件，能够将模拟的光影信息数字化，被应用在手机、相机、扫描仪等设备上，通过曝光记录光影信息从而得到数字图像。视频数据形成之后，在传输、存储和下载的过程中都完全遵循数据的规律，但若想再现为图像则需依托技术设备在显示屏或投影幕上进行播放。因此，视频数据形式复杂、稳定性差，其形成、传输、存储及再现都需依靠介质，并且容易被篡改破坏。

综上所述，视频数据具有双重属性，其在形式上表现为图像，但在本质上则是一种数据。这两种属性既密切关联、相互依存，又截然不同、容易被割裂。从视频数据完整的生命周期即形成-传输-存储-下载-显示的过程来看，视频数据在不同阶段体现出不同的属性。

二、视频数据的特点

图像数字化技术是图像转化为数据的核心和基础。视频数据的产生主要包括以下几个阶段：被摄目标的颜色、纹理等特征通过镜头结影成像；感光芯片曝光得到模拟的电图像；内部处理器进行模数转换将图像转化为数据；视频数据信号传输与存储。

视频数据的复杂结构决定了其具有多样化的特点。从图像反映性的角度来看，视频数据体量庞大，具有形态表现性和实时动态性；从数据存在性的角度来看，其具有数据类型多样和生命周期完整等特点。

（一）视频数据具有庞大的体量

视频的来源多种多样，除了个人拍摄和上传到网络的海量视频外，当前公共场合中视频监控网络密密麻麻，大量的监控镜头长时间、不间断地拍摄记录，每时每刻都在产生视频数据。视频监控产生了庞大的视频数据，相关统计表明，全球数据量每两年翻一番，其中视频图像等非结构化数据占数据总量的80%以上［3］。

目前新型监控系统的常规分辨率是1080P，每秒产生的数据量大约是518M，一路监控一天的数据量就是45G左右。因此，在存储空间有限的情况下，视频监控系统只能进行循环录制，而当前国家要求视频数据连续保存不得少于30天。视频监控网络产生的巨量数据为大数据分析应用提供了条件，但也对数据传输网络和存储系统提出了巨大挑战。同时，视频数据的特点是信息含量单位密度低但整体价值高，在某一路监控拍摄的大量视频数据中，对于特定案件和事件有价值的部分往往只有短短的几秒。如何从海量视频数据中准确定位并提取有用信息，是视频数据发挥作用的关键。目前有关部门通常采用人工检索与系统自动检索相结合的方法，借助自动视频检索技术分类抽取部分视频，再由技术人员进行分析，进而确定与案件和事件有关的具体视频片段。此外，如何利用智能数据分析和处理技术对超大数量的视频数据进行深度解析与关联应用，从而实现对未来态势的预测分析也是各应用领域面临的重大挑战［4］。

（二）视频数据具有形态表现性

视频是图像的一种，能够客观、真实地记录物体的形态和运动，因而是一种重要的证据。视频具有直观形象和连续记录的特点，能够反映物体的线条、形状、色彩等形态信息，显示人的脸型、发型、五官、衣着、鞋子以及携带的物品等，记录人由于生理或病理原因导致的斑、痣、伤疤或者兔唇、缺指等细节特征，也可以显示车的品牌、型号、颜色，车身上的贴画、车内的纸巾盒和挂饰等。这些形态特征是通过图像进行人身识别、确定车辆身份进而做出同一认定的依据，具有重要的证据价值［5］。

需要注意的是，视频反映形态特征的能力取决于成像质量的高低。受成像规律的影响，不同条件下的成像质量差异巨大。首先，无论是照片还是视频，所有的图像都是以二维平面来反映三维立体和空间，因此成像过程中由于前后遮挡，图像只能反映镜头拍摄方向的部分信息而无法反映全部信息。其次，成像镜头有分辨率的差异、有视场角的局限，加上光照差异、拍摄盲区和物体运动可能造成的模糊等，不同的图像质量差异很大，信息含量各不相同。

（三）视频数据具有实时动态性

视频数据从产生到传输、存储，再到显示、再现，形成一个完整的摄录系统。通过这一系统，人们可以在线远程实时察看并监控事件的发生过程，这正是“监控”一词的由来。利用日益强大的监控网络，警方在节假日或举办大型活动时可以对重要地点和场所进行网上巡控。通过汇聚和分析多点位的视频数据、监测现场人群活动和人流走向，警方可以实现远程指挥和现场调度，从而发现隐患、化解风险，维持正常的活动秩序。此外在需要时警方还可以利用这一系统对重点嫌疑目标进行跟踪、监视，实时掌握其动向。

新一代视频监控系统融合了智能分析和处理功能，不但可以实现多维数据的智能感知和融合，还可以实现对视频数据的实时分析和应用，即通过应用系统将各类数据包括实时感知数据与前期入库数据进行关联、融合、交叉和碰撞，实现智能识别和监测预警。最新的跨镜识别应用系统集实时监控、轨迹检索、离线视频快速分析、人体-人脸一体化识别等于一体，通过前端监控设备的结构化处理，可以从海量视频中截取人体图片，并依据体貌、衣着特征等进行特征提取和建模分析，形成有关人体属性、人体模型等的结构化数据［6］，为各类业务应用提供基础数据支撑。

（四）视频数据具有结构类型的多样性

视频数据的价值密度不高，原始的视频数据体量庞大、冗余信息多，不适合长久保存。但它是所有应用的基础，一旦被覆盖或删除将导致所有应用无用武之地。因此，在原始视频的有效保存期内要尽快完成视频数据的下载保存。在原始视频的基础上，有关部门应当通过检索分析和根据不同的用途提取衍生视频数据，然后分门别类地入库保存。

对原始视频进行结构化解析，将视频内容按语义关系组织成可以被计算机识别、理解和检索的文本信息，这是将庞大的原始视频数据化、结构化，获得结构简单、信息准确的衍生视频数据的常见方法。视频结构化通过对图像信息进行语义标注进而得到衍生视频数据，大大减少了所需存储空间，有利于实现视频数据与其他类型数据的关联和融合应用［7］。因此，原始视频数据、视频结构化数据和涉案件、事件视图库数据各有优势，应用价值各有特点，通过分级分类应用可以实现相互结合、取长补短，进而搭建视频数据应用的完整体系。

（五）视频数据具有完整的生命周期

视频数据从形成、传输到存储、下载再到显示，构成一个完整的生命周期。在第一个和最后一个环节即形成和显示阶段，视频数据呈现出图像反映性，在中间的传输、存储、下载阶段则呈现出数据存在性。上述各阶段相互关联、缺一不可，同时又具有不同的属性和应用特征。作为一个整体，这五个阶段具有统一性：要得到高质量的数据资源，每一个阶段的软件和硬件都要具备突出的性能，其中任何一个阶段的软件或硬件性能降低，都会导致视频数据的高质量失去保障。

视频数据形成阶段需要的摄录设备通常被称为前端设备，而数据的处理和存储设备通常被称为后端设备。由于原始视频数据无法长期存储，除了截取的有用视频片段外，最终能够长期存储的是经过分析处理得到的高价值视频数据即衍生视频数据。随着人工智能技术的发展，目前这些数据可以在不同阶段分别通过前端设备和后端设备自动获取。具体而言，在前端视频摄录设备中嵌入智能应用器件，可以从摄录的视频数据中快速提取结构化信息，从而大大减小中后端传输和存储的压力，这种获取方式速度快、灵活性较强，但能够提取的信息有限；在后端设备中则可以通过集成服务群对信息进行实时挖掘处理，这种获取方式功能更多、效果更佳，而且生成的数据种类较多、价值较大，但由于从前端到后端的传输数据量很大，必须以高带宽的传输系统作为支撑。

三、视频数据的应用价值

（一）记录证明价值

视频数据的图像本质决定了它是记录客观事实的手段之一，因此视频数据自产生以来便作为一种证据材料而被认可，在实践中发挥直观再现事实的记录证明价值。

1.通过形态识别进行同一认定

视频中记录的人像、车辆、物品等都对应客观世界中特定的人、车、物等，因此通过形态识别确定图像与特定对象的同一性是同一认定的重要方法，在司法实践中广为应用。早期的同一认定由具备鉴定资格的专业技术人员采取人工的方式比对检材与样本图像的形态，分析二者的同一性特征，最终在特异性特征足够充分的基础上确认二者一致并锁定检材目标的身份。这种鉴定的最终结果以检验报告的形式来呈现，由于鉴定结果是由具备专业资格的人员运用标准的专业技术方法遵循确定的流程来做出的判断，因此最终的检验报告是一种确定的结论。但这一鉴定活动的技术要求高、实施难度大，因而应用范围有限。

计算机视觉技术的发展为目标对象的自动识别提供了可能。自2014年引入深度卷积神经网络之后，人脸识别技术开始走向成熟，目前已广泛应用于安防、金融、民生和政务等众多需要进行身份识别的领域［8］。早期的自动识别系统只能对输入的静态照片进行身份比对，但目前系统已经能够实时采集动态视频并进行入库比对，自动人脸识别技术发展和普及应用的速度都远远超出预期。需要注意的是，一方面，自动人脸识别的结果是基于相似度对图像的排序而非确定的结论，在重点人员管理中则需事先设定阈值，当相似度超过阈值时系统便会发出预警提示，因此，如果出现长相相似的人，系统不可避免地会出现误报。另一方面，由于人像识别的复杂性，视频的拍摄角度、光照、人物的表情和服饰等发生变化都可能导致结果出现误差，因而在同一认定标准严格的案件侦查领域，自动人脸识别只能作为人像鉴定的辅助手段，可以帮助公安机关锁定嫌疑人范围，其鉴定结果不能直接作为定案证据。

2.通过视频内容揭示事实真相

视频内容解析是对视频中人、事、物的特点和变化以及所处环境和场景的客观描述与解释，通常分为对特定目标特点的描述、对活动场景特点的描述、对行为人活动性质的描述，以及结合时空变化规律对目标行为轨迹的描述4种类型。视频内容解析是画面中目标对象的形态反映与解析者的生活经验和认知水平相结合的结果。对视频解析的程度取决于解析者的专业能力和水平，因此视频内容的解析是一项专业活动，需要由专业技术人员来完成，而视频内容解析的程度主要体现在对目标细节的把握和对异常的察觉及分析两个方面。

对于目标细节的解析程度与视频质量密切相关。视频质量越高，画面对细节反映得越好，解析时对于目标细节的把握越容易。高质量的视频分辨率高、曝光准确、图像清晰，目标对象的整体特征、局部特征和细节特征都能得到很好的反映。低质量的视频通常存在分辨率低、曝光不足甚至离焦或者运动模糊等问题，不论是哪种情况，都会降低对目标细节的反映程度，当然图像处理可以在一定程度上解决这些问题，有助于更准确地把握细节特征。同时，专业经验和能力也是影响视频细节解析程度的重要因素，解析者的经验越丰富、专业能力越强，从视频中获得的信息也越多。

功能词：是能给理解提供结构和意义信息的词，包括介词、连词、冠词、代词、副词等，适用于各种文体，意义也没有什么区别。

对视频中异常的察觉和分析也是视频解析的重要任务。关注画面中目标对象的衣着、举止和所携带物品等的异常并探究其原因，是视频内容解析的重要内容。值得注意的是，有一类异常是成像设备造成的，比如红外摄录系统所得的图像与可见光图像具有显著差异，因此必须区分同一物体在常规摄像头与红外摄像头下的不同表现，这样才能避免跨镜头追踪时出现目标错误。另外，有一类模糊可以作为判断行为性质的依据。人体由于其非刚性的特点，在运动过程中图像容易产生局部模糊，因此根据模糊的部位和程度可以推测人体不同部位的运动速度、判断行为人实施的具体行为。比如，在挥刀砍杀的过程中，手和前臂会因急速运动而导致图像严重模糊，而人体其他部位则因运动速度较慢，其图像具有或清晰或轻微模糊的特征，据此在一定程度上可以做出行为人实施砍杀动作的判断。

3.通过真伪检验确定证据效力

视频数据的原始性和真实性检验是确定其能否作为证据的首要环节。原始的视频数据具有特定的哈希值，因此哈希值是视频保持原始状态的证据。如果提取原始视频时没有提取和固定哈希值，当对视频的证据效力存有疑义时便需要进行真实性检验。

真实性检验的方法与视频伪造的方法密切相关。早期的视频检验往往根据视频生成的条件，从前后帧之间的连续性、镜头成像的透视规律，以及同一条件下画面中不同对象光影的一致性等方面进行分析。但随着技术的发展，深度伪造技术（Deepfake）通过对视频中目标人进行换脸、唇形同步、面部复现和动作转移等操作，可以实现对成段视频中人物的完整替换，并达到以假乱真的程度。同时近几年深度学习算法不断迭代，使伪造视频的精度越来越高，这对视频真伪的检验提出了巨大的挑战［9］。

（二）数据管理价值

视频的数据化使原本杂乱、无序、非结构化、物理形态的特征要素转换成数据，由此具备了视频数据管理的基础。在大数据背景下，人们对事物的认识不再局限于事物自身，而是可以根据事物的相关性进行拓展关联，编织一张无限联通的数据关系网。依托大数据自身的增量优势和关联特性，人们可以以特定对象为源点，拓展形成跨时空、跨领域、跨类别的数据拓扑图，以厘清事物之间的相关关系，建立多元、立体的关系框架［10］。

1.通过数据资源的积累形成视频数据库

由于视频数据体量庞大，原始视频数据无法长期存储，但涉案件和事件的关键视频数据则必须提取和保存，由此形成可以满足各类业务需要的视频数据库。视频数据库的建设应当与现实需求相契合，并符合一定的标准，因而不同行业建立的视频数据库有所不同。在公安行业，2017年我国颁布公共安全行业标准《公安视频图像信息应用系统》，规定视频图像信息数据库存储和管理的对象主要包括涉案视频片段、图像及其所包含的人员、车辆、物品、场景和视频图像相关的文件等［11］。经过几年的努力，目前我国的涉案视频数据库已经建成，并实现了全国、省、市、区数据的逐级级联和汇聚。与涉案指纹数据库、DNA数据库一样，该数据库成为在全国范围内互联应用的大型基础数据库之一。

数据库本身是一种信息资源，它不是静止不变的，而是动态的数据聚合。随着数据的累加，数据的组合形式呈几何级增长，以数据为基础分析案件事实的路径也越来越丰富。随着各类数据库的不断完善，公安机关可以实现多源异构数据的融合、关联和碰撞，通过深层次的数据挖掘开展轨迹分析、行为分析、关系分析和规律分析等，从而获得关联信息和隐性线索，间接确认嫌疑目标的身份，固定涉案件和事件的证据。随着技术的发展，视频数据库为人脸自动识别系统、形体自动识别系统、车辆自动识别系统的在线布控和危险预警奠定了基础。

2.为视频综合应用平台提供数据基础

应用平台是由数据驱动、功能支撑、网络协同的业务组织管理系统，其系统模型包括展现层、应用层和数据层，以数据库的联网互通为基础，可以实现对数据的分析和管理。随着视频数据库的完善和互联互通，视频综合应用平台发挥出越来越大的作用，为不同行业的信息化建设和大数据智能应用提供了重要支撑。需要说明的是，视频综合应用平台需要处理海量的视频数据，并通过各类接口与上、下级数据库建立级联，必须以计算系统的强大算力作为基础。因此，为了满足视频数据应用的需要，我国公安部门专门建立了公安视频网，以同公安信息专网相区分，一方面可以避免受到公安信息专网数据传输和计算能力不足的制约，另一方面可以与其他行业的数据相互连通。实践中很多视频综合应用平台的建设都与公安信息专网的建设分别进行，采用双网双平台的模式，并保持功能一致、数据联通。由此大量的数据汇聚、分析和运算往往都在公安视频网进行，而分析处理的结果信息将被传送至公安信息专网保存，在专网内部与其他数据库和业务系统之间实现数据关联应用。

为了满足各行各业的业务需求，视频综合应用平台至少应当具备以下三个功能：（1）数据处理功能，包括涉案件和事件视频的导入、检索、分析和处理，并对视频数据进行比对、关联、标识、转发和清洗等；（2）数据分析功能，包括对视频数据进行分类、聚类、回归等挖掘分析，并与其他数据库互联，通过多源异构数据的关联、融合和碰撞进行模型分析、关联分析、统计分析等；（3）数据管理功能，包括涉案数据的组织和治理以及对数据的分类存储，构建原始库、资源库、主题库、业务库、知识库等并对数据库进行运维管理。另外，新型视频综合应用平台具有智能应用功能，可以从海量数据中快速获取有用数据、线索和证据，对目标对象实施监控和追踪，通过线索挖掘实现态势分析和危险预警等功能［12］。

3.通过动态视频应用系统实施远程监控

视频监控系统可以将在现场采集的视频数据实时传输至异地，并借助各类动态视频应用系统进行数据分析和应用。目前视频监控主要有重要地点监控和重点人员布控两种形式。首先，重要地点监控对监控技术的要求比较低，主要通过视频监控系统远程监测现场状况，并根据情况进行现场干预。这种监控对于前端设备的要求比较高，通常需要建设具有专门功能的监控设施如人脸卡口、交通监控网络和配备专门的设备，如高空摄像头，或者操控无人机进入现场并实时传回视频。对重要地点的远程实时视频监控可以用于指导灾害事故的救援、高峰交通流量的疏散、节假日重要地点人流的控制等。其次，重点人员的布控需要通过自动识别系统，将特定点位采集的人脸视频、车辆视频等实时入库比对，找出与布控目标相似度超过设定阈值的对象［13］。

通过动态视频应用系统进行远程监控对系统的应用性能要求较高，系统的响应速度必须足够快才能实时反馈结果。系统的应用性能取决于系统的视图解析能力和数据比对效率，其中超大数据基于各类算法的融合应用对系统的数据处理能力要求非常高。随着信息化建设和视频数据智能化应用的不断发展，现今许多应用系统都建立了数据中台以满足数据处理的要求，系统的架构也从以应用为中心向以应用和管理为中心转变，由此系统可以通过对视频数据的规范化管理和治理，提升视频数据的质量，优化视频数据的组织和存储，进一步挖掘视频数据的应用价值。

四、结语

在大数据时代，传统的人工分析、经验主导的应用模式已经无法满足当前量级的数据应用需求，自动化、智能化技术成为新时期各领域数据应用的重要手段。算法、算力和数据是大数据智能应用的三要素。如今视频监控网络为视频数据源源不断的汇聚打下了坚实的基础，计算机技术的不断发展也为算力的提升提供了保障，因此算法成为人工智能和大数据应用发展的关键。虽然近些年视频数据在各领域的应用日益深化并发挥出越来越大的作用，但就目前的硬件基础和技术条件而言，这些应用只是刚刚起步，与应有的成效还有很大差距。未来必须加大算法研究的力度，构建面向不同业务系统的数据融合机制，加强视频数据与其他类型数据的集成及信息的挖掘，探索多源异构数据的智能应用路径，从而进一步发挥视频数据的价值，为各领域的业务应用赋能。