深度学习视角下视频关键帧提取与视频检索研究

2020-12-30 11:22苏筱涵

网络安全技术与应用 2020年5期

◆苏筱涵

◆苏筱涵

（武汉轻工大学数学与计算机学院湖北 430048）

随着互联网技术的高速发展，互联网中的视频数据已经成为其中的重要数据类型，且在安全监控及视频网站当中得到了十分广泛的应用。随着互联网的逐渐普及，视频搜索也有了更大的意义，因此对视频检索技术的研究则是非常重要的。视频关键帧提取则主要体现视频中各个镜头的显著特征，通过视频关键帧提取能够有效减少视频检索所需要花费的时间，并能够增强视频检索的精确度。因此，对于视频关键帧提取与视频检索进行研究是非常有意义的。

深度学习；视频关键帧提取；视频检索

从目前的情况来看，视频的数据规模变得越来越大，所以解决视频检索的问题已经迫在眉睫。现有的一些解决方法是对视频序列采用镜头分割的方式，然后在镜头当中获得内容关键帧提取，接着利用“关键帧”来获得底层的形状、纹理和颜色等特征，从而实现检索的功能。所以对于视频检索技术来说，关键帧提取是非常重要的内容。

1 视频检索领域的发展现状分析

从目前的情况来看，很多视频监控在进行目标活动搜索的过程中，仍然需要人工操作的方式来进行，只能够完成某些特定部分的自动操作，工作效率十分低下。在视频检索的过程中，有着非常大的数据量，且有着较高的维度，需要花费大量的时间和内存来进行检索。在主流视频监控领域当中，常用的检索模式为模式识别技术，例如人脸、动作和紧急情况识别技术等等，这些识别技术都是针对特定场景的，无法真正满足实际的需求，无法对特定的视频进行搜索。随着互联网技术的发展，视频片段搜索得到了更多的关注，例如通过搜索视频片段来找到与数据库相似的集，从而将这项技术运用到预处理的过程当中。当前的视频检索相关领域的研究内容相对较少，本文从深度学习视角下来对视频关键帧提取与视频检索进行研究，并提出了相关的方案。

2 关键帧提取的原理

根据视频序列中“相邻帧”所具有的连续性和相似性特征，可以对关键帧提取的原理进行总结：把图像坐标系中每个“视频帧”都叠加在一起，这时镜头中视频帧的特征矢量会在空间中呈现出一个轨迹的状态，而与轨迹中特征值进行对应的“帧”即可称之为关键帧。从抽象的角度来说，对于关键帧进行提取主要分为两个部分，首先是对图像特征的量化参数进行明确，然后对量化参数是否能够作为关键特征值来进行判断。目前对于关键帧的提取时，若无法明确代表特征的情况下，要去掉冗余帧。如果需要进行多幅关键帧提取时，这时应对它们之间的不相关性进行关注。

3 深度学习视角下的视频关键帧提取

关键帧提取的方法主要分为两种，一种是全图像序列，一种是压缩视频，目前大多采用的方法是以全图像视频分析为基础的，主要的区别就在于检测方法的应用和特征的选择以及帧图像的划分。镜头边界方法是将镜头中的第一帧和最后一帧（或中间帧）作为关键帧。该方法简单易行，适于内容活动性小或内容保持不变的镜头，但未考虑镜头视觉内容的复杂性，限制了镜头关键帧的个数，提取的关键帧代表性不强，效果不够稳定。内容分析方法主要是通过颜色、纹理等信息来进行关键帧的提取，其中较为常用的方法为“帧”或者直方图的平均法，这两种方法计算起来较为简单，但在选取固定数量的关键帧时，无法对多个物体运动进行有效描述。在对视频进行解码之后，会将其分为多个场景，而在每个场景当中还会分为多个镜头，在每个镜头当中又分为了多个关键帧。在视频内容检索的过程中，关键帧提取是非常重要的预处理过程，但当前人们在操作的过程中只是进行随机的关键帧选择，这种操作的方式精确度较差。在视频当中，实际上包含了时间、剧情以及空间等多方面的信息，如果直接进行视频特征的提取，那么这将会是一项十分复杂的操作过程，需要花费掉大量的时间和空间。一旦关键帧提取的过程缺乏足够的精确度，那么必然会对视频检索的过程造成负面的影响。当前所存在的一些关键帧提取方案存在着一定的不足，具体包括以下几个方面：首先，如果将视频镜头中的第一帧作为关键“帧”来进行处理，那么必然会失去很多信息。其次，如果通过镜头中“帧”的相互比较来进行选择，那么将会花费掉大量的计算成本。最后，如果对镜头中各个帧进行相似性的测量，那么则需要选择出一个阈值来确定关键帧，但该阈值无法有效的确定，且无法去适应其他的镜头。对于上文提出的这些不足，要求关键帧提取不仅仅需要较高的精确度，同时也要能够提升计算的速度，本文所探讨的是一种自适应关键帧提取技术。实际上在各个镜头当中，有很多“帧”是相互重复的，所以不需要对所有“帧”都进行处理，首先要做的是提取镜头中的摘要信息，然后确保所提取的关键帧当中包含了最多的特征。在获得镜头平均帧的数值之后，再将该数值作为提取关键帧的依据，从而达到了自适应关键帧提取的效果。

4 深度学习视角下的视频检索

在完成关键帧的提取过程后，通过将内容为基础来进行视频的检索，即可实现精确高效的视频序列检索。从目前的情况来看，无论是视频检索还是图像系统当中，都使用的是深度学习框架，其中包含了很多的参数，从而增加了深度学习框架的难度，不但实现的难度较大，且会花费大量的计算时间。本文所讨论的视频检索技术，是对神经网络外部结构进行改进，通过模型训练机制来实现信息的先验过程，进而得出了维度较低的视频和图像，从而实现计算时间的减少和空间需求的降低。本文所选用的深度神经网络模型是在大规模数据训练基础上所得到的结果，其中包含了八个训练神经网络层，其中五个为卷积层，三个为全连接层，其中的七个网络层采用了非线性激活函数，另外一个属于分布式的结果。但在这其中也存在的一些问题需要解决：首先，所采用的激活函数属于空间排列的方式，因此卷积层中对于信息进行了保留，输入神经元的连接，所以其中不对信息进行保留。其次，全连接层所选择的模型具备的参数要比卷积层多得多。第三，全连接层要对输入图像大小进行预知，但卷积层则无须了解这部分信息。所以全连接层没有进行特征提取的责任，全部由卷积层来负责提取。想要解决这些问题，就需要使用第四或者第五“卷积层”维度为13×13×384个特征，并将该层中的各个视频帧利用256“维”或者384“维”特征来进行表示。这里所提到的重新训练机制包含了无监督重新训练机制、半监督重新训练机制和监督重新训练机制。在无监督重新训练机制当中，以给定数据为基础来对卷积神经网络模型进行训练，从而对于视频中的关键帧提取进行最大化处理，并利用该特征来将其作为兴趣层目标，帮助神经网络模型提供回归任务，并进行权重初始化处理，使用后向传播法来对目标数据进行训练。在半监督重新训练机制当中，所采用的是可用类标签推导的方式来增强信息深度，并对符的特性进行描述。通过这种方式来进行目标符的描述，能够利用后向传播技术及关键帧信息来实现对神经网络的训练。在监督重新训练机制当中，这种训练机制思想主要源自反馈理论。这里所说的反馈理论是指各个用户所提供的反馈信息，这些信息主要是由查询内容的关键“帧”来组合而成。这项方案的主要目的在于对模型参数进行修改，从而将查询和关键帧两者之间的余弦相似性进行最大化处理。

5 结束语

从目前的情况来看，关键帧提取的提取技术仍然不够成熟，仍然没有可以通用的提取方法。当前已经拥有的关键帧提取方法都有着一定的缺陷，在具体进行应用的过程中需要通过镜头类型和特征来进行合理选择。同时，当前应用的计算方法也应进一步提升“检准率”和“检出率”。未来的关键帧提取和视频检索将会在以下几个方面进行深入研究：首先，找到有效特征向量，将其应用于“帧”相似性的度量。其次，将压缩域作为关键帧提取技术的研究基础。第三，加大对自适应阈值的研究。最后，通过辅助视频信息来进行关键帧提取。

[1]张萌.视频检索中关键帧的提取和特征匹配的研究[D].北京：北京邮电大学，2012.

[2]侯严明，李菲菲，陈虬.基于多特征融合的视频检索算法[J].电子科技，2019，32（5）：44-48，54.

[3]赵清杰，王浩，刘浩，等.基于相对编辑相似度的近似重复视频检索和定位[J].北京理工大学学报，2018，38（1）：85-90.

[4]上海极链网络科技有限公司.一种海量视频特征提取、存储和检索方法及系统：CN201910047518.3[P].2019-05-28.