论视频图书馆的建设

2010-04-05 23:44邓珞华邓东宁陈晟

大学图书馆学报 2010年2期

□邓珞华邓东宁陈晟

邓东宁,中南财经政法大学图书馆,武汉,430073;

陈晟,中石化武汉分公司信息中心,武汉,430082

1 视频图书馆

视频图书馆是国外近几年随着影像资料的增长和计算机影像技术的发展而出现的一个新名词,它主要是指一些专门收集视频资料以及相关的音频资料并对公众提供服务的机构,例如澳大利亚在上世纪末就建立了音乐数字图书馆和图像数字图书馆[1],并在互联网上免费提供使用,美国北卡莱罗纳大学信息与图书馆学院也主持过“开放数字视频图书馆”项目[2]。

上世纪末以来,影像资料的增长呈迅猛发展的势头。目前视频资料的来源主要有3个:一是音像出版社制作的 VCD、DVD、CD光碟和录音带录像带,目前我国300多家音像出版社每年出版量大约2.8万种[3]。二是广播电视电影节目制作单位,据因特网电影数据库统计,1991年全球生产影片5972部,2001年达到10342部。据美国加州大学伯克利分校信息管理与系统学院的“How much information”项目的统计,2003年,全球有电视台21264个,每年播放节目3100万小时。全球有广播电台47776个,每年播放节目 7000万小时,按信息存储量计算,大大超过了美国所有研究图书馆的馆藏总量[4]。三是单位和个人制作的音像资料。随着摄像机、具有摄像功能的手机的普及以及计算机处理图像功能的加强,个人制作的声像节目越来越多,在民间和网上流传。海量的音像资料是视频图书馆产生和发展的前提和基础。越来越多的图书馆开展了音像资料的采集、组织、管理和服务工作,如美国国会图书馆和英国大不列颠图书馆的音视频资料都达到数百万件[5],我国绝大多数中等以上规模的图书馆都建立了声像阅览室,视频图书馆的研究也提上了图书馆理论界的日程表。

目前国内向图书馆提供影像资料的主要是一些中间供应商,如中外合资的武汉缘来文化传播有限责任公司,它主要提供国外影视节目制作单位(如澳大利亚的CLASSROOM VIDEO、美国的 DISCOVERY)制作的影像节目,其特点是节目制作精美,版权问题解决得彻底,中英文声音和文字对照,尤其适合大学读者的需要,其中很多科教节目可以直接用来作大学老师的课件。该公司目前可提供的节目达到一万小时以上。此外,一些做传统文字数据库的供应商,如清华同方公司、北京超星公司等也开始涉足这个领域。

与传统的文字资料相比,声像资料整合了文字、图形、影像、声音及动画等不同信息,具有更直观、更生动的特点,但同时,由于声像资料除了含有文字信息之外,更包含声音、图像信息,因此在著录、保存、使用、版权与软件硬件等许多方面比文字资料更复杂,更具特殊性,本文试图从技术和管理两个层面对视频图书馆的特点进行剖析和总结。

2 视音频元数据的处理

由于视音频数据的特殊性,它的元数据处理在功能设置、元素设置等方面具有更高的要求:1)视音频数据为了加强其描述能力,需要更多的元素和修饰词。例如影视节目的责任者除了有剧本原作者外,还有改编者、导演和演员、配音、灯光、道具等诸多责任者。又如录像带包括时长、制式、画面纵横比、声道数等等纸质文献不具备的物理特征。2)视音频数据中的信息来源是多样性的,如脚本、字幕、图像和声音,因此视音频元数据除了包括传统的文本元数据,还应包括视频元数据和音频元数据以帮助用户高效检索和浏览所需信息。3)为了满足一些专业用户深层次的检索需求,视音频数据需要从视音频资料的片段层、镜头层的角度揭示更为深入的信息内容。

关于视音频元处理的研究在国内外都引起了普遍重视。我国广播电视部2003年出台了《广播电视音像资料编目规范》,北京大学信息管理系国家社科基金项目“视音频信息元数据与检索创新研究”课题组2004年研制成《视音频信息元数据规范》。国外关于这方面的研究则更加深入,并形成了一系列的规范与标准,如美国国防虚拟图书馆项目形成的基于MARC的《数字动态图像元数据指南》,美国、加拿大、英国、荷兰、意大利、巴西、泰国等国数十个机构的100多位专家学者组成的“视频开发计划”视频存取工作组研制的基于 DC的《VIDE用户指南:面向数字视频的DUBLIN核心应用文档》,源自美国国会图书馆电影保存计划的同时支持MPEG-7和DC的《MIC核心数据元素表》,美国北卡莱罗纳大学信息和图书馆学院的“开放式数字视频图书馆”项目形成的《视频元数据和文本数据并重的开放式数字视频图书馆元数据方案》[6]。《国外视音频元数据研究文献综述》介绍了国外大量的视音频元数据研究的机构、成果和研究文献,这里就不一一赘叙了[2]。

3 视音频数据库的检索

视音频数据库检索的最大难点在于声音和图像的检索,尤其是连续图像的检索,这也是它与文本文件检索的最大区别。目前直接以声音和图像的特征对声像资料进行检索,少数的还可以(如能识别少数声音和图像的门禁系统),海量的声像信息检索,技术上难度则相当大。要对海量的声音图像信息进行检索,目前还只能把声音图像信息转化成文字信息,再从文字的角度检索声音和图像。

首先是对视音频资料进行分类和主题标引,这就要借助适合于声像资料管理方面的分类法和主题词表。在原有分类法和主题法的基础上,针对音像资料的特点,增加一些类目、主题词、使用说明、附表等,是可以对音像资料进行分类和主题标引的,尽管仍不能充分表达音像资料的丰富内容,但能满足大部分检索要求。付昕、耿敏在《数字图书馆中的视频信息检索》一文中对这方面进行了很好的说明[7]。

音视频数据库检索最难也是最迫切需要解决的是内容的检索,相当于文本数据库的全文检索,即根据检索标识,找到具有这种标识特征的音视频资料的片段。它不同于传统数据库的检索,是一种近似匹配技术。

基于内容的描述是基于内容检索的前提。基于内容的描述方案包括自动视觉特征抽取和人工语义的特征标注。MPEG专家组制定的基于内容的多媒体描述方案MPEG-7着眼用代码的形式表示和标识视听内容,试图提供一组强大的标准化工具来描述多媒体数据内容,即所谓的“多媒体数据内容描述接口”[7]。

目前国内视频数据库能做到内容检索的只有武汉缘来文化传播有限责任公司。他们采取的方法是将视频资料的脚本中的每一段标上对应的时间段,在脚本中检索到所需要的标识特征后,显示出该段解说词,进而显示出该时间段的影视内容。这种方法比较好地解决了音视频数据库的内容检索问题,同时对生产商和用户而言都比较容易操作。

4 视频图书馆的软件和视频节目的VOD点播

视频图书馆的软件技术主要包括音像数字信息处理技术,如文本、数值、图像、声音信息的编码、解码、压缩、模拟信号与数字信号的相互转换,还有适用于全文本、图像以及声音等非结构化数据库管理系统,此外更为图书馆关心的就是视频节目的点播技术。

目前我国图书馆提供的多媒体信息服务方式主要有两种:一种是开辟视听阅览室,读者将馆藏音像资料(如录音带、录像带、光盘等)借出,借助视听室配置的录像机、录音机、电脑等播放设备阅读。一种是将各种媒体的资料信息以数字化形式整合存储在视频服务器中,利用视频点播系统(VOD),通过网络提供给读者随时点播。据朱咫渝、孙晓的抽样调查,目前我国高校图书馆使用第一种方式的约占65.83%,使用VOD点播的主要是实力较强的一些重点高校图书馆[8]。

流媒体技术的关键在于网络数据传输和客户端播放并行。该技术的实现有几个必备条件:一是宽带网,这是因为音像信息比文字信息占的空间大得多,带宽不够会造成网络涌堵。二是对服务器的性能和存储空间要求较高,这类服务器是为流媒体应用量身定做的,它的价格一般比较昂贵。三是系统平台的稳定性和支持的并发用户数,并发用户的数量要根据图书馆读者的多少和使用的频率而定。

流媒体技术是 Real NetWorks公司首先推出的。目前技术上比较成熟的应用比较广泛的视频点播系统有Real NetWorks公司推出的Real System Windous、微软开发的Media Service和苹果计算机公司推出的 Quik Time[9]。

5 视频图书馆的计算机硬件

视频图书馆的计算机硬件要求一般高于普通数字图书馆,主要表现在三个方面:

服务器:视频图书馆的服务器是视频图书馆的核心硬件,其主要作用是视频资料的存储和发布,目前主要采用流媒体专用服务器或通用服务器两种。专业流媒体视频服务器是为流媒体应用量身定做的,其存储结构和网络结构的设计主要是针对流媒体的特点,针对不同的网络环境的不同的用户需求,提供不同的服务模块。他们大都带有大容量的磁盘阵列,支持多路CPU,扩展性能强,并带有流媒体操作系统和应用软件,价格比较昂贵。通用服务器通常由普通微机担当,配备较大的存储空间,其价格相对便宜,维护简单,但处理能力有限,支持的并发用户数少。

存储器:由于视频信息所占有的空间远远大于文本信息,因此视频图书馆一般采用大容量并可扩展的磁盘阵列柜。

外围设备:由于音视频资料呈猛增势头,目前大多数计算机增设了多媒体插件和光盘,MMX技术逐步完善,出现了多媒体计算机,包括色彩丰富的视频显示器,处理声音图像的数据信号装置、图形缓冲区、点式设备(如鼠标器等)以及其他外围设备。此外采集制作声像节目的数码相机、摄像机、编辑机等也要根据需要配备。

6 音像资料数字化

音像资料的数字化就是利用计算机技术把传统的音视频资料(如录音带、录像带)模拟信号转换成数字信号,以方便利用和长期保存。音频资料的数字化整理一般采用计算机的声卡、光驱和相应的软件来处理,视频资料的数字化,可以视频资料播放设备(摄像机、录像机、影碟机等)、带视频捕捉卡(视频编辑卡)或IEEE1394(俗称“火线”)的计算机、视频线和相应的视频处理软件组成一套视频资料数字化设备。符国伟同志在《基于多媒体技术的图书馆音像资料数字化建设》中比较详细地介绍了音频资料和视频资料数字化的实际操作技术,这里就不再赘述了[10]。

7 视频图书馆的版权问题

问题的主要方面依然是与个人作者的签约。诚然,音视频作品的版权所有者大多数是单位而非个人,但也有相当数量的作品的版权所有者是个人,如中央电视台《百家讲坛》里的节目,其主要版权所有人是主讲人而非电视台,因此供应商在与电视台签约的时候,应该请电视台出示电视台与作者签订的作者允许电视台发行其作品的协议。其次,总版权属于单位的音视频作品中也有部分版权是属于个人的,如电影中的演员肖像是不能随意用来作商业宣传的。

目前我国图书馆音视频资源供应商中,版权问题解决得比较好的是武汉缘来文化公司,他们采取的主要方式是与澳大利亚、德国、美国等影视资源生产商直接签约,而这些西方国家在版权方面的要求是比较严格规范的。

8 视频图书馆的共建与共享

文献资源共享是几代图书馆人的夙愿,和所有的图书馆共享工程一样,视频图书馆的共建共享具有十分重要的意义。视频图书馆的共建共享主要采取两种方式:

一种是在全国、一个地区或一个系统建一个视频图书馆,供全国、一个地区或一个系统内所有人享用。由于只需一套设备、一班人马,避免了大量的重复建设,从经济效益和使用效益上来讲,这种方式是最好的,但这需要政府的决心,尤其是资金上的投入和强有力的协调。根据目前国内文献资源的一些共建共享工程(如文化部的“全国文化共享工程”、科技部的“科技文献共享平台”、教育部的CALIS项目)的进展情况来看,这种可能性还是很大的。第二种方式是图书馆之间签订视频资源的共享协议。这种方式看起来似乎简单一些,实际上操作更为困难,因为它牵涉到各方众多图书馆的利益,在视频资源的团购、资金和人员的摊派、组织机构的设置以及其他诸多方面需要做大量的协调工作。

不过历史潮流不可阻挡,视频资源的共建和共享和其他文献资源的共建共享一样,是历史发展的必然趋势,在计算机技术、网络通讯技术高度发达和文献资源共享意识成为图书馆界共识的今天,视频图书馆的共建和共享在不远的将来必定会成为现实。

1 T he National Library of Austrulia-.[2004-11-20].http://www.musicaustrulia.org/index.html

2 张久珍等.国外视音频元数据研究文献综述.大学图书馆学报,2005(1):22

3 马晓明.关于高校音像资料的管理与发展趋势探讨.黑龙江科技信息,2008(4):19

4 同2:25

5 同2:25

6 姚星星等.国外视音频数据研究综述.数字图书馆论坛,2007(8):57

7 付昕,耿敏.数字图书馆中的视频信息检索.大学图书馆学报,2002(2):31

8 朱咫渝,孙晓.我国高校图书馆多媒体信息服务调查研究.四川图书馆学报,2007(5):53

9 张莉.图书馆音视频资料的网络应用技术.图书馆学刊,2005(2):14

10 符国伟.基于多媒体技术的图书馆音像资料数字化建设.山东图书馆季刊,2006(1):27