融合异构信息网络和图嵌入技术的视频检索方法

2022-08-19 00:54杨舰

电视技术 2022年7期

杨舰

（昆明理工大学信息工程与自动化学院，云南昆明 650500）

0 引言

如今，互联网上的视频资源日益增多，通过传统的关键词匹配来进行视频信息检索，其检索信息过于模糊，这会导致实际检索出来的视频与用户需求出现一定的偏差。例如，用户想要检索Web 系统开发教程，同时还想限定一些系统需求信息，如系统开发框架、系统特殊接口需求等。这时候通过输入检索关键词“个人博客开发教程”检索出来的视频内容讲解的Web 框架各异，会出现大量的关于个人博客开发的视频，用户需要浪费很多精力从这些大量的视频当中挑选自己需要的教程视频。这时候就需要一个非关键词检索的视频检索方法，可以个性化地从用户输入的一段文本当中提取有效信息，从而进行相似度匹配，为用户检索出最符合用户想法的视频。

1 相关工作及理论

本文的研究内容主要涉及异构信息网络和图嵌入这两个技术。谷歌2012 年提出知识图谱概念之后[1]，在自然语言处理领域对异构信息网络研究非常多。本文主要应用异构信息网络来将用户的搜索文本和视频介绍文本进行图表示，从而更好地进行视频检索。近年来，利用异构信息网络进行的研究非常多。徐小玉[2]等人提出了基于异构信息网络的学生成绩预测与预警模型，该方法通过元路径计算得到学生间相似度矩阵，利用相似度矩阵构造成绩变化趋势矩阵和幅度矩阵，投票得到学生成绩预警与预测结果。王勤洁[3]等人基于异构信息网络理论，提出一种可以融合多语义信息的科技文献推荐方法。崔鑫[4]提出一种基于异构信息网络的推荐方法，首先对问答社区中的问题属性和用户属性建立异构信息网络，在此基础上，采用元路径来获取异构信息网络中丰富的语义信息，然后使用基于元路径的相似度计算方法分别计算问题与用户的相似度矩阵，最终得出推荐结果。林怿星[5]等人为了提高在数据稀疏情况中推荐的准确性，利用异构信息网络构建推荐对象中的关联关系，再计算路径的相似度矩阵，从而提高模型推荐的准确度。郭攀杰[6]等人利用异构信息网络在处理多节点和多类型不同边的优势，基于该网络把用户和项目的评分融入到模型中改善模型的推荐性能。

图嵌入技术是在异构信息网络研究基础上提出的一种将异构信息网络嵌入到低维度向量空间的技术，用于深入挖掘异构信息网络数据的内在特征。然而，图作为非欧几里德数据，传统的数据分析方法普遍存在较高的计算量和空间开销。图嵌入技术是一种将原图数据转化为低维空间，保持重要信息的一种有效方法，可以提高节点分类、链接预测、节点聚类等下游任务的性能。自2013 年TransE 模型被提出之后[7]，相继有很多优秀的图嵌入表示模型，如TANG[8]等人提出的LINE 模型，其通过优化目标函数达到保留局部和全局网络结构，同时提出了一种边缘采样算法，解决了经典随机梯度下降的局限性，从而提高推理效率。PEROZZI[9]等人提出的Deepwalk 模型则是一种学习网络中顶点潜在表示的新方法。ZHU[10]等人提出的DGGAN 有向图嵌入框架，其基于生成对抗网络部署了一个鉴别器和两个生成器，对每个节点的源向量和目标向量都进行共同学习，从而在图挖掘任务中取得更好的效果。ZHANG[11]等人提出了层次感知知识图嵌入HAKE，在接预测任务的基准数据集上明显优于现有的最先进方法。这些模型都可以很好地对异构信息网络进行低维度表示，从而方便进一步进行计算。

2 模型设计

本文的模型框架如图1 所示，通过对用户检索文本进行信息抽取，从其中提取出有效的信息三元组，从而组成文本异构信息网络，再使用TransE 图嵌入技术对异构信息网络进行向量编码，得到用户检索文本的向量表示后，与视频介绍数据的向量编码进行相似度计算。本文所用的相似性计算方法是计算两个矢量编码的余弦相似性，最后根据相似度的大小进行视频排序，得到最终的视频检索结果，推送给用户。

图1 模型框架图

文本异构信息网络采用的是三元组提取模型，模型的流程如图2 所示。

图2 三元组提取模型

通过TransE 模型就可以将根据用户检索文本得到的异构信息网络图进行图嵌入。得到的最终图嵌入表示为Vecuser(a)，以式（2）中的损失函数最小化为目标，不断更新整个异构信息网络的嵌入表示，使得Vecuser(a)最终结果更加准确。

式中：S表示正例三元组，S´表示由正例三元组构造出来的负例三元组，χ表示间隔值。

图3 TransE 模型图

得到用户检索文本的图嵌入Vecuser(a)之后，需要将其与视频介绍数据的图数据进行相似度匹配，视频介绍数据的嵌入为Vecvideo(b)，在此，相似性计算使用的是余弦相似度，如式（3）所示：

3 实验结果与分析

3.1 数据集介绍

本文的视频数据爬取自Bilibili，主要从视频中爬取视频简介、作者信息、视频编号信息等，将爬取的视频简介制作成模型设计中的图数据备用。

3.2 评价指标

本文使用的评价指标为信息检索常用的NDCG（Normalize Discounted Cumulative Gain，NDCG）评价指标，指标计算方法如式（4）和式（5）所示。DCG（Discounted Cumulative Gain，DCG）可以对用户的检索结果列表进行评估，若用该指标对某个检索算法进行评估，需要对所有用户的推荐列表进行评估，由于用户实际列表的长度不同，因此不同用户之间的DCG 相比较没有任何意义，所以要对不同用户的指标进行归一化。为此，计算出每个使用者真实列表的DCG 分数，并用IDCG（Ideal Discounted Cumulative Gain，IDCG）来表示，然后用每个用户的DCG 与IDCG 之比作为每个用户归一化后的分值，最后对每个用户取平均得到最终的分值，即NDCG。

3.3 实验平台

实验环境信息如表1 所示。

表1 实验环境信息

3.4 参数设置

本文模型的参数设置如表2 所示。

表2 模型参数

3.5 实验结果

本文主要基于对比实验来验证方法的有效性。对比实验主要与传统的关键词匹配方法的检索准确性进行对比。从表3 的实验结果可以看出，传统关键词匹配方法得到的NDCG 值为0.413 1，词嵌入匹配方法的NDCG 值为0.528 4，本文模型得到的NDCG 为0.655 7，相比较于传统关键词匹配得分提高了0.242 6。本文模型得分较高，取得了较好的效果，再次证明了融合异构信息网络和使用图嵌入技术可以更一步提高视频检索的结果，验证了该方法的有效性。

表3 模型对比实验结果

相似度检索的方法有很多，为了验证最适合本文方法的相似度度量，本文对不同的相似度计算方法进行了实验验证。使用余弦相似度计算时，本文模型的NDCG 指标得分达到了最高，如表4 所示。

表4 相似度度量实验

4 结语

针对传统关键词检索无法根据用户输入的检索文本精确地检索视频这一问题，本文提出了融合异构信息网络和图嵌入的检索方法，将用户需求进行深度数据分析，从而返回视频信息。实验证明，本文的方法相对于传统的检索方法和词嵌入匹配方法有显著的性能提升。