基于哈希的视频快速检索技术研究

2019-08-08 06:23刘惠

电脑知识与技术 2019年18期

关键词：哈希

刘惠

摘要：提出了一种基于哈希的考场视频和高考网上评卷教室视频快速检索方法。该方法将哈希检索技术应用到视频数据中，通过深度网络的强大学习能力来获取考场视频和高考网上评卷现场视频的特征表示，在深度网络中设计一个哈希层来学习哈希函数，将原始高维的数据映射到特定长度的哈希码，同时保持原始数据的语义信息，实现视频的快速检索。为实现考场行为观测和考试期间的考生行为分析以及评卷教师的行为分析等提供便利，保障考试公平公正。

关键词：视频检索;哈希;考生行为;评卷老师行为

中图分类号：TP37 文献标识码：A

文章编号：1009-3044（2019）18-0199-03

1 背景

随着多媒体技术的发展，文本、图像、视频等信息以大规模的形式呈现在网络上，如何在海量的多媒体数据中快速准确地检索到所期望的数据，是我们面临的一个重要问题。哈希近邻检索技术以其较低的内存消耗和快速检索的优势，成功地应用到了信息检索、数据挖掘、多媒体分析等多个领域，并且取得了较高的检索准确率。目前，深度网络强大的特征提取能力进一步地促进了哈希检索技术的发展。不论是只利用深度网络进行数据特征提取的非端到端的哈希方法，还是直接利用深度网络来学习哈希函数的端到端的哈希技术，都取得了很好的效果。

在教育领域中，考场监控和评卷教室监控视频的数据量都是十分庞大的，在如此大规模的视频数据中搜索到我们需要的相关数据，将是一个很大的难题。如果直接使用原始数据在数据库中进行检索，那所需要的检索时间和内存消耗是不可想象的，相对于所付出的代价，这样的技术应用是没有实际意义的，一个可行的解决方案是将视频哈希检索技术应用到教育领域视频数据检索过程中。

2 基于哈希的视频检索技术

视频哈希检索技术是指利用哈希技术来获取到关于原始数据压缩后的二值哈希码，将高维的原始视频数据通过特定的哈希函数映射到低维的海明空间中，在这个映射过程中保持原始数据的语义信息，然后基于映射后的哈希码和哈希函数在数据库中进行相关检索项的快速检索。

在视频检索过程中，首先，要提取视频中的关键帧，并使用关键帧表示原始数据;其次，对视频中的关键帧进行特征的提取，既可以使用传统的手工特征提取方法，也可利用深度网络的强大学习能力来获取视频的特征表示。深度网络在计算机视觉领域的成就验证了其有效的特征提取能力，在实际的实现过程中，我们选择利用深度网络进行特征提取。

深度网络采用多个卷积层和全连接层，在全连接层的后面设计一个哈希层来学习哈希函数，用来生成关于原始视频数据的紧凑的二值哈希码。通过学到的哈希函数生成所有视频数据的哈希码，完成将原始高维的数据映射到特定长度的哈希码，同时保持原始数据的语义信息。基于学到的紧凑的哈希码进行检索项与被检索项的海明距离计算，最终返回检索到的相关数据。

3 教室视频哈希检索技术实现

3.1 视频关键帧的提取

在提取视频的关键帧时，通常是选择视频内容变化较大的几个帧;而对于内容比较平缓、变化幅度较小的视频，可以选取几个特定位置的帧作为关键帧，比如开始帧、结束帧和几个中间位置的视频帧。选取的关键帧要具有一定的差异性，同时特征鲜明，避免帧数据的冗余。选取几个有代表性的数据帧来表示整个视频数据内容，对于后期提取视频的特征、理解整个视频的语义含义具有重要的意义。

3.2 基于深度网络的视频哈希学习

在哈希函数的具体学习过程中，可以充分利用深度网络的强大学习能力来提取视频数据的特征，并进行哈希函数的学习，同时设计一个关于语义相似性保持和量化误差控制的损失函数，来达到使用学到的哈希码保持原始数据语义相似性的目标。

深度网络使用基本的CNN结构，网络的输入是上一步所获得的视频的关键帧，通过多个卷积层和全连接层来获取视频帧中的数据特征，降低了原始数据的维度，并且原始数据的语义信息在提取的特征中也能够得以保持。在深度网络获取视频数据特征的基础上，采用以下方法来生成视频数据的紧凑二值哈希码，同时学习相关的哈希函数。

1）非端到端的深度哈希方法

此方法主要是利用深度网络提取视频数据的特征，将网络中最后一个全连接层的输出作为哈希学习的输入来学习低维的哈希码和哈希函数。

在具体的学习过程中，为了避免量化误差影响哈希码的质量，可以引入一个中间语义态来表示数据特征。首先，将深度网络提取的数据特征映射到一个低维的实值空间，同时通过数据的语义相似性约束来保持视频样本间的相似性关系，保证了检索过程中的准确率。其次，进一步将中间语义通过旋转矩阵生成最后的哈希码，在哈希码生成的过程中同时学习到哈希函数，哈希码和哈希函数都是基于视频数据的特征获得，提高了哈希码的鲁棒性。在优化的过程中，利用迭代算法一步一步地生成高质量的哈希码、更新哈希函数的参数，直到收敛或者达到最大迭代次数。

2）端到端的深度哈希方法

与非端到端的深度哈希方法相比，端到端的方法是在深度网络提取深度特征后，直接学习哈希函数生成哈希码。具体的实现是：在深度网络特征提取层后面加一个哈希映射层。哈希映射層的主要功能是将视频特征从高维的数据空间映射到低维的海明空间，海明空间的维度即为最后生成的哈希码的位数。哈希学习的整个学习过程都是在一个完整的深度网络中完成，从输入关键帧，到输出哈希码，获得哈希函数都是基于深度哈希网络实现的。

端到端的深度哈希框架主要包括两个部分：

一是特征提取层，主要由卷积层、池化层、激活函数和全连接层组成，采用VGG网络结构。这一部分主要是针对视频中的关键帧进行视频语义特征的提取，捕捉视频中内容信息。

二是哈希层的设计，在特征提取后即全连接层的后面加上一个哈希映射层，将高维的数据特征映射到低维的实值空间，其中哈希层的神经元个数即为哈希码的位数，每一个神经元的输出对应哈希码的一个位，哈希层每一个神经元的输出应该尽可能地具有较小的相关性，避免哈希位的冗余，从而使哈希码能够充分表示原始数据的内容信息。最后利用阈值函数对哈希层的输出进行阈值化处理，将连续的实值哈希码映射到取值为1或-1的二值哈希码。在哈希层的末端设计一个交叉熵损失函数，用来进行语义相似性以及量化误差的控制，从而获得高质量的哈希码和较高判别性的哈希函数。

深度哈希网络结构如下图所示：

通常来说，各种类型考试的考场视频数据集和网评教室视频数据集，不同于一般的视频数据集。由于考试纪律的要求，除了考生进场、试卷下发、监考巡场、考生交卷等行为，考场视频中的内容变化不明显，网评教室的情况也类似;视频内容中也主要以学生、老师、课桌、窗台等为主，视频对象相对稳定，这些都大大增加了考场视频检索的难度。

考场和网评视频哈希检索基本上属于细粒度的视频检索，对于检索的对象更加关注于细节的变化。对于考场和网评视频数据，如果使用基于一般的视频数据集预先训练好的神经网络进行检索，一般不能取得较好的检索结果。所以，在实际的深度哈希网络学习中，要求使用考場和网评视频数据集从头开始训练网络结构，以适应考试视频的数据分布。

而对于内容变化较大的艺术考试视频数据集来说，视频中的内容稍微接近于一般的视频数据，如果数据集相对较小的话，可以采用预先训练加微调的方式对哈希网络结构进行训练，提高训练效率。

3.3 视频哈希检索

利用训练好的哈希函数，可以将数据库中的所有视频数据转换为对应的哈希码，大规模的考场视频数据以哈希码的形式存储在数据库中将极大地降低存储消耗。

对于一个需要检索的考场视频，例如，利用一个存在考生作弊的视频或评卷老师违规行为视频去检索数据库中相似的视频时，首先将此视频利用哈希函数生成其对应的哈希码，然后去和数据库中的每一个视频所对应的哈希码进行距离计算，最后按照距离的大小，即视频内容的相似性程度生成一个排序列表，并按照我们的要求返回所需要的相关视频。

在检索的过程中，视频样本之间的距离计算是非常关键的步骤，距离计算的时间消耗将严重地影响检索的速度，而利用视频的哈希码进行距离的计算所采用的是哈希位之间的异或操作，时间消耗相较于实值之间的计算消耗要小得多，这也是哈希方法可以实现大规模快速检索的原因。

考场和网评视频哈希检索的主要步骤：

1）针对考场视频或网评视频特定数据集训练一个合适的哈希函数。

2）利用训练好的哈希函数将数据库中的视频数据生成其对应的哈希码。

3）对于需要检索的视频数据首先将其映射成其高质量的二值哈希码。

4）相似度测量：将第3步生成的哈希码与数据库中的视频哈希码进行异或操作计算海明距离。

5）生成距离排序列表，返回检索到的视频。

4 总结

基于哈希的考场和网评视频检索技术可以解决视频数据规模较大、内存消耗高、检索速度慢等问题，实现了在降低数据维度的同时保持原始数据信息的高效检索性能。将哈希检索技术用于考试领域的视频检索中，可以对考场中存在的考生作弊、左顾右盼、考试期间离场等异常行为以及网评教师的违规行为进行检索，同时能够对不同类型的考试（如普通高考、艺术考试、无纸化考试等）中进场、发卷、考试、交卷、离场等不同考试阶段的视频进行检索，对于实现后期考场行为的观测、考试期间的考生行为分析具有重要的意义。

参考文献：

[1] 王戊林. 面向视频检索的高效哈希技术研究[D].济南：山东大学， 2016.

[2] 周佺. 基于深度哈希学习的大规模图像检索技术研究[D].哈尔滨：哈尔滨工业大学， 2018.

[3] 路程. 视频内容检索技术概述[J]. 山西科技， 2018， 33（2）： 56-58.

[4] 孙瑶. 深度学习哈希研究与发展[J]. 数据通信， 2018（2）： 49-54.

[5] 丁苗苗. 基于考场监控视频的智能监考方法研究[D]. 合肥：中国科学技术大学， 2017.

[6] 欧阳杰，高金花，文振焜，等. 融合HVS计算模型的视频感知哈希算法研究[J]. 中国图象图形学报， 2018， 16（10）： 1883-1889.

【通联编辑：谢媛媛】