融合媒体下视频内容关联聚合的研究

2015-09-19 03:42:10罗莉，苗方，吴敏

电视技术 2015年22期

罗莉，苗方，吴敏

(1.中国传媒大学信息工程学院，北京100024;2.中国国际广播电台技术管理办公室，北京100040)

随着数字技术和网络技术的发展，信息传播进入了融合媒体时代。媒体内容的采集、汇聚、生产、分发和呈现形式发生了巨大的转变。传统的媒体传播形式已不能充分满足广大用户的需求，新兴的视频网站、IPTV、手机电视等视听媒体的出现，使得媒体内容更多地通过互联网渠道发布，并通过电视、手机、平板、计算机等多终端方式呈现。电视台纷纷设立网络电视台，新兴视频网站如爱奇艺、优酷土豆等也纷纷自制电视节目涉足广电行业，电视观众转变为多屏互动下的用户，线上的节目内容与线下的互动结合日益紧密。

融合媒体环境下，媒体内容碎片化和媒体数据的异构化趋势使它们之间的语义关联更加复杂。如何实现媒体内容资源的有效聚合、存储、管理、利用，如何在海量异构的媒体数据和多样的用户需求之间进行匹配，形成信息的精准高效的分发和传递是亟待解决的问题。海量的媒体数据价值仍有待挖掘，对视频、图片、文本等异构数据的管理和利用显得日趋重要。一方面，对海量视频内容的检索技术并不像简单文本检索，对资料文本标注进行索引，目前应用中主要侧重于对视频的文本描述的元数据检索。而对视频的内容检索主要是对视频底层特性的提取，而缺乏对视频语义信息的提取。因此语义信息的检索和聚合成为近年来研究的热点;另一方面，为了方便有效地对资源进行管理、检索、聚合，传统的元数据编目规范有待改进。因此，在媒体资产管理系统中，需要构建视频内容的关联信息库，利用网络访问和交互的用户行为数据以及视频内容关联信息等异构元数据，进行深层次的关联聚合，进而通过智能挖掘与推荐形成用户个性化互动的新业务模式。

1 海量媒体信息管理技术

对海量媒体信息的管理主要包括信息的检索过滤、编目描述以及数据挖掘。视频的信息检索即基于内容的视频检索，包括对特征信息的提取、高层语义的分析、建立索引等;融合媒体的元数据需要更加全面地对内容及其关联信息进行描述;此外还需要利用分类、聚类等数据处理技术，进一步挖掘视频内容资源的价值。

1.1 基于内容视频检索技术

基于内容的视频检索是自动地对视频数据进行分析和处理，提取视频的底层特征和语义信息，并将特征和语义信息存入到数据库，建立索引。这包括四个过程［1］:镜头分割、关键帧提取、特征提取和形成索引。其中，涉及到视频内容关联信息的过程是特征提取。

特征提取是在镜头分割和关键帧提取的基础上，对视频中描述的信息分布进行提取。视频内容关联信息分布在三个层次［2］:

1)底层特性。从原始视频数据中利用自动分析技术提取出来的特性，如颜色、纹理、形状、运动等。2)物理对象时空信息。包括从视频中提取出来的物体、它们的运动轨迹以及它们之间的时空关系。3)语义信息。是人类在观看视频时所感知到的信息，反映人们对于视频内容的理解，如对象、行为、场景或者感情色彩等高层语义。

3 层信息中，底层特性和物体对象时空特性能利用特征提取的方法，一方面，可以在镜头和关键帧层次上进行特征提取。对镜头的特征提取一般是提取镜头中的运动信息(物理对象时空信息)。对关键帧的特征提取，一般是提取关键帧的视觉特征(颜色、纹理、形状等)信息。另一方面，可以在提取的镜头特征与关键帧特征的基础上，对镜头进行聚类，从而形成较高层次的视频描述即场景。而语义信息，需要单独构建底层特性与语义描述的映射。

1.2 媒体元数据编目描述规范

国内媒体元数据描述应用主要采用两种方式。一种是传统电视台音像资料编目和大部分互联网视听媒体网络公司采用的元数据规范“Dublin Core Metadata”。该规范提供了易于掌握和使用的网络资源著录格式和的检索途径，较全面概括了电子资源的主要特征。原国家广电总局采用Dublin Core Metadata 制定了GYT202.1—2004《广播电视音像资料编目规范第1 部分:电视资料》［3］，该规范定义了电视节目资料编目的元数据框架，使用DC 的15 个元数据项分配编目项目，根据电视节目资料本身的特点，将编目分为4 个层次，从上到下依次是节目层、片段层、场景层、镜头层。

另一种媒体元数据描述借鉴国外网络运营商应用于同类业务所采用的元数据定义标准，如美国Cable Television Laboratories 制定的视频点播业务VOD 标准及资产分发接口ADI定义标准。制定GYT259—2012《下一代广播电视网(NGB)视频点播系统元数据规范》［4］吸取了ADI 规范的长处，适用于各有线电视网络公司新部署的NGB 视频点播系统业务。优点是包含了点播业务的互动设置，如拆条信息、打点信息等内容标记，缺点是国外的编目元数据定义方式与国内业务运营的实际应用存在较大出入，不能够与互联网视听媒体数据交换。元数据交换统一采用XML 格式，满足传统媒体和新媒体的异构平台的数据交换。

1.3 数据挖掘技术

数据挖掘，就是从大量无序的数据中发现隐含的、有价值的知识，根据特点的情况建立模型，得到所需的信息。聚类、分类技术作为数据挖掘的主要方法之一，对于建立高效的数据库索引、实现快速准确的信息检索具有重要的理论和现实意义。聚类分析是一种把数据对象划分为许多簇，使得簇内的对象之间相似度尽可能高的过程，常用的聚类方法有kmeans 算法、层次聚类方法、基于统计学或神经网络等模型的方法等。分类是一种重要的数据分析形式，它提取和刻画重要数据类的模型，形成分类器，通常分为两个阶段，一是训练数据集学习来构造分类器，二是使用训练得到的分类器对每个数据对象进行分类。常用的分类方法有决策树、神经网络、朴素贝叶斯分类、支持向量机等。

2 视频内容关联

视频内容的关联信息主要是指人们观看视频时所理解的信息，即视频中发生的事件、对象以及场景等语义信息，与其他内容资源形成关联映射。这样用户能够通过信息主题词关联到视频，从视频关联到下钻信息。因此，需要建立语义信息库，同时完善元数据的描述规范。

2.1 建立视频语义信息库

视频语义信息库对于视频内容的描述，反映了人们观看视频时对视频内容的理解，如对象、行为、场景或者感情色彩等。特征提取的算法只能自动提取出视频内容关联信息的底层特性和物理对象时空信息，目前基于内容的视频检索还未做到基于语义信息的检索，建立视频语义信息库可以利用特征提取与机器学习技术提取视频低层特征、高层语义，再采用统一的视频内容描述标注对低层和语义信息标注。

2.1.1 利用特征提取和机器学习提取视频关联信息

视频低层特性通过特征提取技术，提取视频中关键帧、镜头层的图像的颜色、空间、场景特征。而视频语义信息的提取是从底层特征中采用机器学习抽象出视频的语义特征。具体过程是待检索视频入库后，首先提取视频中关键帧的图像的底层特征，采用一定的分析方法，如使用HSV 颜色模型分析运动对象的颜色，使用背景建模分析轮廓特征、场景特征，使用小波变换分析文字特征等;其次将图像的底层特征存入数据库，通过机器学习的方法训练分类器，如贝叶斯分类器、支持向量机和神经网络等监督学习，对待检索的视频进行处理，生成相应的图像帧的语义信息库。

2.1.2 利用MPEG－7 统一标准描述视频内容

MPEG－7 是动态图像专家组提出的视频描述接口标准，该标准利用结构化文本，如XML 的形式来描述视频的低层特性、高层语义信息［5］。MPEG－7 描述的底层特性包括颜色描述子、纹理描述子和形状描述子。对于底层特性的描述方案，可以通过自动分析、分段、特征提取工具而获得，而对视频高层语义上的问题，目前研究阶段需要人工参与标注才能完成。通过对所有入库视频进行预处理，入库前对视频资源进行编辑、压缩、格式转换，结合视频低层特征对语义标注。这样就建立了视频的底层特征与高层语义信息的关联，使得计算机能识别图像中的语义内容，实现视频的语义检索。建立视频语义信息库的框架如图1 所示。

图1 视频语义信息库框架

2.2增加关联信息的规范描述

视听媒体元数据库主要分布在各大电视台和互联网视听媒体，由于它们均采用的都柏林核心元数据集DC，从媒体融合的角度出发，本文充分考虑对广播电视音像资料编目规范的继承和对互联网视听新媒体元数据的应用，扩展DC 元数据项和扩展DC 元数据的修辞词(标签)来增加视频内容关联信息的描述。

2.2.1 扩展DC 元数据的修辞词

DC 规范包括的15 个元数据项包括三类，其中资源内容描述类元素属于对视音频节目信息的描述。借鉴NGB 视频点播的拆条信息、打点信息元数据项互动设置［4］，可增加视频关联信息的互动，具体是通过在资源内容描述类元素“描述”的修辞词类别中，增加视频拆条信息、视频打点信息、视频对象信息，具体如图2 所示。视频拆条信息对应视频片段，视频打点信息对应图像，视频对象信息对应视频图像某区域，以此建立了描述视频内容关联信息的标签。

图2 扩展“描述”元数据项结构

2.2.2 扩展DC 元数据项

将互联网视听媒体交易运营模式加入到原有的DC15 元数据项中，添加“运营”元数据项，其标签包括:收藏、点播、推荐、收益、评论、记录、分级［6］。

16 个元数据项的元素修饰词(标签)根据融合媒体的特点限定和表示，部分元数据项如类型、来源、相关资源、运营等由URL 描述。

应用扩展的媒体元数据规范，在电视台和视频网站电视节目制作中，对节目媒资灵活编目，不用涵盖电视台规范的四层体系，对节目层、片段层等关键字段编目。编目内容涉及视频内容关联信息的部分如图2 所示，描述了对视频片段、视频图像、视频图像某区域的标签。

3 视频关联信息服务平台

视频关联信息服务平台是对媒体内容的关联信息形成管理、利用、聚合、分发的整体架构。媒体信息采集入媒资库，进到媒体内容资源管理平台后，构建出与视频内容关联的信息库，包括自动特征提取的视频底层特性库、视频语义信息库和来自电视台和互联网视听网站的媒体元数据库。有线电视运营系统和互联网门户网站后台提供用户行为数据库。通过高效数据汇聚索引技术，将这些存储于数据库中结构化、半结构化、非结构化的异构数据的存取地址形成一个索引目录，可采用非关系型数据库，如NoSQL，构建分布式存储和管理平台。当有请求到达时，能快速访问视频及相关数据。可采用基于媒体大数据的智能挖掘算法［7］对视频内容的关联信息进行分析挖掘和智能推荐。由多渠道发布为用户提供个性化服务，如电视互动、电视电商T2O、社交互动以及各门户网站的消费、评价等。电视终端和移动终端的数据分别通过有线电视运营系统后台和互联网门户网站系统后台进行反馈并更新用户行为数据库，视频内容关联的信息库通过多渠道内容汇聚及时更新，这些反馈数据将进一步影响媒体内容的生产和管理。总体来看，视频关联信息服务平台是对视频内容关联信息的管理、利用、聚合、分发一体化的闭环架构(见图3)。

图3 视频关联信息服务平台架构

4 结束语

融合媒体环境下海量的媒体内容以及丰富多样的信息关联，使得对内容的深度挖掘和高效智能管理愈发重要。各种创新的业务模式，需要建立以用户为核心的运营体系，主要包括媒体内容实时、智能编排，异构元数据自动归类、识别，大规模用户数据分析挖掘，高效索引汇聚，多渠道发布，反馈体制完善等方面构建。建立视频关联信息服务平台，有利于实现电视媒体和用户的深层互动，使得传统广电媒体真正具有互联网思维。

［1］曹长青.基于内容的视频检索技术中关键帧提取算法研究［D］.太原:太原理工大学，2012.

［2］王煜，周立柱，邢春晓.视频语义模型及评价准则［J］.计算机学报，2007，3(30):337－351.

［3］GYT202.1—2004，广播电视音像资料编目规范第1 部分:电视资料［S］.2004.

［4］GYT259—2012，下一代广播电视网(NGB)视频点播系统元数据规范［S］.2012.

［5］刘峻峰.基于MPEG－7 与内容的图像检索技术的研究［D］.西安:西安科技大学，2008.

［6］张伟.网络视听新媒体内容元数据研究［J］.广播与电视技术，2013，12(8):42－44.

［7］纪海，曹三省. 基于互联网融合媒体的大数据应用技术分析［J］.电视技术，2014，38(21):76－78.