基于跨媒体协同优化的网络视频事件挖掘研究

2022-06-23 01:08张馨文

无线互联科技 2022年7期

张馨文,刘静,周叶

(湖北广播电视台,湖北武汉 430000)

0 引言

由于网络视频越来越多,信息传播速度越来越快,渠道越来越广。信息生产者和传播者无处不在,普通用户通过搜索获得大量的网络视频,往往会无所适从。网络视频的视觉相似性检测错误和文本信息的数据稀疏性问题,都是基于海量网络视频突发事件挖掘的难题。这要求人们提出一种有效的跨媒体信息融合模型,利用视觉近似关键帧集合来丰富文本信息,同时利用文本信息在视频中体现的高级语义关联,从而降低视觉近似关键帧检测错误的概率,以改善网络视频事件的挖掘效果。

综上所述,网络视频的突发事件挖掘研究虽然面临许多挑战,但是该研究可以改善搜索引擎的反馈效果,帮助普通用户迅速把握突发事件发展脉络,不再需要消耗大量精力和时间。

1 跨媒体协同优化的事件挖掘研究框架

本文提出了跨媒体协同优化的事件挖掘研究框架,并进行了详细的展示。事件挖掘研究框架主要包括网络视频数据的预处理、网络视频文本信息与视觉信息的协同优化、多重对应分析和事件挖掘等基本步骤。基于此,本设计提出了模型评估的方法,将其作为实验效果验证的标准。

网络视频文本信息与视觉信息的协同优化主要包括三个步骤,首先统计单词在NDK 中分布情况,然后挖掘NDK 的高级语义关联,最后根据NDK 之间的相关性来丰富稀疏的文本信息[1]。值得注意的是,本设计用线条建立起了单词与单词、单词与NDK、NDK 与NDK 之间的连接,线条越粗,相关性越强。

2 单词在NDK 中分布情况的统计

如表1 所示,研究网络视频,可以从文本和视觉两个方面出发。其中视觉信息是内容相关的视觉近似关键帧组成的NDK 集合,文本信息是从视频的标题和标签中提取的单词。所有的特性组合成一个矩阵,NDKs作为行,单词和事件标签作为变量的类列,由于同义性、多语性和表达习惯等原因,有些词即使使用频率不高,也可能发挥重要作用。因此,本文使用TFIDF(NTij) 来计算单词在NDK 中的分布。这个指示矩阵可以在一个2d表NT(NDKs vs 单词)中表示,其中,NT 中的每个元素NTij定义为:

表1 单词在NDK 中的分布情况统计

3 挖掘NDK 的高级语义关联

光照、镜头、视频编辑以及视觉相似性检测算法等因素,容易造成视频的视觉信息中一些视觉上相似的视觉近似关键帧被分到不同的NDK 中。另外,视频拍摄者不同的拍摄手法和展示方式会导致实际上表现的是同一个内容的视觉近似关键帧被聚成不同的NDK[2]。如表2 所示,从NDKu和NDKv对应的单词集中都包含了“Opening and“song”,两个NDK 描述的主题都是“北京奥运会开幕式歌曲”,但是NDKu中对应的单词是Opening,Song,Music 等,而NDKv对应的单词是Opening,Song,Olympic 等,描述“北京奥运会开幕式歌曲”的单词如Music 和Olympic 被分散到不同的NDK之间,导致单个NDK 对应的文本信息中单词的分布呈现很大的稀疏性。

表2 NT 计算后每个NDK 中单词的分布情况

每一个NDK 对应的文本描述为若干个单词组成的单词集合T,可用公式2 表示如下:

其中ti表示第i个单词,TNDKu表示NDKu对应的单词集合,NTNDKu,t表示分布在NDKu对应的单词的TFIDF值,每一个NDK 对应的单词分布具有明显的稀疏性。但是,这些视觉上相似的或者内容上相关的NDK 之间都具有相同的文本描述,即存在着丰富的语义相关性。如表2 中所示NDKu对应的单词集TNDKu={t1,t2,t4},NDKv对应的单词集TNDKv={t1,t2,t3} 两个NDK 都有相同的文本描述,即t1和t2。这意味着在文本信息层面NDKu和NDKv存在语义相关性。本文通过建立跨媒体融合模型,利用这种语义相关性,挖掘NDK 的视觉相关性,将错误分配到不同NDK 中的在视觉上相似关键帧以及表现形式不同,内容相同的NDK 重新聚在一起。

利用NDK 之间的语义关联,结合NDK 对应单词集的各个单词分布的TFIDF 值NT,可以计算出NDK 之间的相似度,从而找到被错误分配到不同NDK 中的关键帧和表现内容相同、表现形式不同的NDK,形成视觉上相关的新的NDK 集合[3]。

4 结语

综上所述,本文提出了基于跨媒体协同优化的网络视频事件挖掘研究的整体框架。本文介绍了在获取大量网络视频数据之后,在文本信息方面进行规范化,中文分词和去停词的预处理,同时通过镜头检测、提取视觉近似关键帧,形成视觉近似关键帧集合为代表的视觉信息。针对文本信息少、噪声多,视觉相似性检测不准确的问题,本文利用网络视频文本信息与视觉信息协同优化的算法加强视频的语义关联。此外,视觉近似关键帧结合也可以在一定程度上丰富文本信息。然后,利用多重对应分析和事件挖掘方法发现热点话题所包含的视频。