视听新媒体内容元数据研究

2014-09-12 02:30刘俊宇
关键词:音频检索资源

刘俊宇

(中国传媒大学,北京 100024)

1 背景

在国家三网融合政策与迅猛发展的 IP 互动技术的共同推动下,广电新媒体公司、广电网络运营商、电信运营商、互联网视频公司纷纷加大资源投入,积极开展 IPTV、互动电视、互联网电视等各种新媒体业务的运营与探索,抢占全媒体运营制高点,使新媒体行业呈现出前所未有的强劲发展势头。新媒体的发展已经经历了很长时间,其主要包括网页、博客、播客、手机、各种门户网站、网站论坛、网络电视、IPTV 等等,其内容形式的展现也由传统的音视频和纸张向网页浏览器、终端设备等方向变化,其内容的采集方式更是摆脱了传统的采访、摄像等手段,如手机拍摄、作者自己制作的作品和编写的文字,所以现在几乎人人都是新媒体的参与者,在表现内容上也包含了传统的音视频,并且有了像网页互动、图片、FLASH 动画等等可以在互联网上迅速传输的内容。总的来说,由于内容形式的复杂零乱,新媒体在资源管理方面的难度并不比传统媒体小,对于新媒体来说,需要一种可靠、高效的资源管理手段,因此研究新媒体内容用元数据进行标识的方法,建立新媒体内容元数据使用规范,实现元数据和内容的交换,从而保证基础支撑平台以最简单的方式,与多个可能出现的异构业务系统进行良好的业务信息与内容包交互,就显得愈发重要[1]。

另外,随着计算机网络技术的不断发展,网络资源越来越受到人们的重视,它对视听新媒体的发展的影响也日渐凸现,其中最重要的一个标志是对视频音频网站的信息资源检索的影响。视听新媒体是基于网络发展起来的,与传统媒体相比有其独有的特征,比如信息来源更丰富,信息容量更大。面对如此庞大的信息资源,如何进行高效的管理,从而方便用户对所需资源进行准确无误的选择,是网络视听新媒体面临的紧迫的问题。为了解决这一迫在眉睫的问题,各个视频网站服务厂商采用不同的元数据分类方式对自己的视频音频信息资源进行组织管理,同时对于相同的视频音频信息资源不同的视频网站采用的元数据定义也不尽相同,这样用户在不同的视频网站检索信息的效率也会大大不同,同样地,不同的视频网站进行信息资源共享和对各自的视频音频信息资源进行互操作的难度就会大大增加,所以制定适合于视听新媒体的内容元数据的统一标准将更加方便于用户的检索和各视频网站服务厂商之间进行资源的共享与互操作。

传统的广播电视视频点播系统元数据是专门针对广播电视内容的,分为消息层元数据和内容层元数据;内容层元数据又分为内容对象信息和内容实体信息;内容对像元数据分为内容对像基本信息元素以及内容对象特性信息如视频特性信息、音频特性信息、直播流特性信息;内容实体元数据包含内容实体属性描述、内容实体基本信息、内容实体版权信息、视频内容实体信息、音频内容实体信息、图像内容实体信息、直播流内容实体信息和内容实体字段等九级编目,不仅结构比较复杂,而且有其特定的应用场景。所以制定属于互联网视听新媒体内容的元数据分类方式,也会便于用户对所需视频音频信息资源的检索,特定的元数据标签如时间/年代、地区/国家也会有利于视频音频资源检索与存储。

2 元数据研究

2.1 元数据定义

元数据的通常定义为:关于数据的数据(data about data)。它与传统图书馆编目标准的不同之处在于:它除了具有描述功能外,还具有控制、管理信息资源的能力。元数据适用于描述任何网络数据和资源,促进网络信息资源的组织和信息的获取,它是用来标识、描述和定位网络电子资源的数据。其描述对象主要是网络环境下的电子资源,它是关于最广泛意义上的数据,包括数据集、文本信息、图像、音乐和其它任何电子化事物的数据信息。依据其功能可分为:描述型元数据、管理型元数据、保存型元数据、技术型元数据以及使用型元数据[2]。

都柏林核心元素集(Dublin Core Element Set),简称为都柏林核心元数据(DC),具有结构简单、语意互通和可扩展性特点,所以使用广泛,同样也被视听新媒体行业所使用。它由15个数据单元(element)组成,其中包括:

1.内容7个元素:题名(Title)、主题词和关键词(Subject)、内容描述(Description)、资源(Source)、类型(Type)、关系(Relation)、范围(Coverage)

2.知识产权4个元素:作者或创造者(Creator)、出版者(Publisher)、其他责任者(Contributor)、权限管理(Rights)

3.例示4个元素:日期(Data)、格式(Format)、资源标识(Identifier)、语言(Language)

在实际应用中,DC的十五个基本元素的描述能力是有限的,因而必须加以限定和进行若干子元素的规范描述。为了保证互操作性,在进行限定或子元素规范的时候,不能改变元素本身的定义,不能重新对基本元素作出解释,而只能根据自己团体和行业的需要对DC元素进行限定和规范[3]。

最初Dublin Core应用目的是为了网络资源的著录与挖掘,由于DC元素简单易用,加之OCLC的大力推广和网络资源著录的巨大需求,DC发展为可用于任何媒体。

面对收藏量日益丰富的视频、音频资源和用户需求的多样化,收藏机构必须采取有效的方法来组织和管理视频、音频信息资源,以满足用户的多层次的需求,使视频、音频信息资源真正成为收藏机构的资产,充分发挥价值。视频、音频元数据提供了一扇进入视频、音频信息资源的窗户。目前,我国互联网视听新媒体所使用的元数据分类也是在都柏林核心(DC)元数据作为信息资源描述格式的基础上形成的,主要目的是方便检索、储存以及交换。其中包括优酷、土豆等视频网站的在线分类方式,NGB的元数据分类方式以及用户默认的点击率高的分类方式等。

2.2 视听新媒体内容元数据元素的研究

目前国内的一些视频音频网站管理其信息所使用的元数据描述方式都是基于DC而发展起来的,除了使用DC原有的15个基本元素描述之外,还加入了都某些子元素的限定和规范。

视听新媒体元数据分为通用标签组和专用标签组(用于节目买卖和交换)采用的封装方式为XML封装,具体参照GB/T24639-2009元数据的XML Schema置标规则。而对于原有广播电视元数据封装数据的情况,整体封装后保存在新元数据文件里[4]。

以下的元数据元素表是通过对国内的一些视频音频网站(包括土豆、优酷、爱奇艺、迅雷、新浪、veryCD、风行等一系列网站)的元数据标识方式的研究进行归纳总结得出来的,具体内容如下表:

视频音频元数据元素表

续表

续表

3 视听新媒体元数据分类方式的意义

元数据在视听新媒体资源检索中的主要功能为侧重于对信息资源的描述、整合、控制、组织和检索,这与现行的用于广播电视资源检索的元数据相比架构简单,将大大提高检索效率。而且有特定的元数据标签如“年代”和“地区”等,这有助于对视频音频资源很好的描述、存储和检索,同时统一的元数据分类方式也会有助于各个视频音频网站对各自的视频音频资源进行有效的共享与互操作。

总之,这种视听新媒体元数据的分类方式将为用户以及工作人员提供一种更高效、准确的信息资源组织与检索手段。

[1]章菊广,李艳志,王晓东. 三网融合环境下数字内容服务元数据规范研究[J]. 网络新媒体技术,2012( 01) :10 -17.

[2]张晓林.管理元数据的原理与应用[J].图书情报工作.2003(10):12- 17.

[3]刘嘉.元数据导论[M].北京:华艺出版社,2002.

[4]何峰.下一代广播电视网(NGB)视频点播系统元数据规范[J].广播与电视技术,2012.

[5]王汝言,代琦,吴大鹏.中国下一代广播电视网[J].重庆邮电大学光互联网及无线信息网络研究中心.

猜你喜欢
音频检索资源
基础教育资源展示
一样的资源,不一样的收获
瑞典专利数据库的检索技巧
在IEEE 数据库中检索的一点经验
一种基于Python的音乐检索方法的研究
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
资源回收
基于Daubechies(dbN)的飞行器音频特征提取
做好绿色资源保护和开发
音频分析仪中低失真音频信号的发生方法