智能媒资检索系统设计与实现

2015-10-12 08:05张小博
电视技术 2015年13期
关键词:媒资音频检索

张小博,蒋 铭

(中国电子科技集团公司第三研究所,北京 100015)

智能媒资检索系统设计与实现

张小博,蒋 铭

(中国电子科技集团公司第三研究所,北京 100015)

针对目前媒资管理系统依赖编目信息进行检索而出现的编目信息难以覆盖媒资数据的所有语义内容、由于人的理解不同而导致的编目信息不一致、媒资编目费力费时等问题,设计了不依赖编目信息的基于全文检索、语音识别、人脸识别、关键帧提取等的智能媒资检索系统,对媒资内容自动分析、媒资特征索引、媒资特征检索进行了阐述,并采用基于B/S的分布式架构进行了实现。结果证明,该方案设计具有较高的可靠性和稳定性,在媒资管理中得到了良好的应用。

媒资管理;智能检索;内容分析

随着全媒体大数据时代的到来,媒体数据作为国家、企业和个人的重要资产(简称“媒资”)受到越来越多的重视,在存储技术和管理技术已经相对成熟的今天,数据的再利用成为媒资管理的核心内容,而作为数据再利用基础的媒资检索,显得尤为重要[1]。例如,公安机关需要从数以万计的监控录像中快速查找出嫌疑犯;新闻编辑需要及时地从海量的新闻采访数据中找到所需要的新闻素材;政府部门需要时刻监视社交网络上可能出现的负面舆论。这些应用对媒资检索的及时性和准确性都带来了巨大的挑战。

现有的媒资管理系统采用关系数据库管理系统如Oracle、SQL Server、MySQL等对媒资文件进行存储管理,使用结构化查询语言(Structured Query Language,SQL)对媒资编目信息进行查找,实现对媒资文件的检索,主要存在以下3个瓶颈:1)编目信息需要人工标注,随着媒资数据的爆炸式增长,所耗费的时间成本和人力成本将难以负担;2)编目项难以涵盖媒资数据内容的所有维度,而且不具有通用性和扩展性,难以在不同应用系统之间实现信息共享及自身升级换代;3)不同标注人员对同一媒资数据的标注存在主观上的偏差,导致检索词与编目信息之间存在语义误差。其根本原因在于:1)多媒体数据的非结构化,视频文件的语义内容信息来源于视频字幕、视频关键帧、语音内容,难以用结构化的方法将其全部描述;2)大脑的认知误差,对于同一幅图像,不同人的关注点不同,标注的信息也不同;3)多媒体数据将呈指数级增长。

针对产生问题的根本原因,本文提出一种基于内容结构化分析的智能媒资检索系统。该系统的工作原理是首先采用视频内容分析、图像处理、语音识别、光学字符识别等多种信息处理手段将非结构化的文本、图像、音频、视频转化为结构化的特征数据[2];然后采用特征倒排表的方式生成媒资索引;最后采用特征模式匹配的方法进行检索和相似度排序。整个系统具备媒资上传下载、存储管理、多媒体数据检索输入、跨媒体检索、在线播放预览等功能[3]。

1 总体架构

针对媒资检索系统的应用需求,本文提出的智能媒资检索系统采用如图1所示的体系架构。

图1 智能媒资检索系统架构图

整个系统分为如下5个子系统:

1)上传下载子系统:实现所有媒体数据文件的上传和下载,并进行转码后形成标准的媒资数据。

2)存储管理子系统:实现对媒资数据文件的存储管理,包括媒资记录的增加、删除、修改、查找、在线预览等功能。

3)交互子系统:提供用户输入检索数据的人机交互接口,包括文本关键字和检索图片两种接口。

4)检索子系统:一方面对系统中存储的媒资数据进行自动分析和索引,另一方面根据交互子系统提供的检索输入数据对索引进行查找并按照相似度给出排序结果。

5)播控子系统:对于需要进行播出媒资数据文件进行控制和再利用,同时也可以将结果输送到其他系统。

这5个子系统之间的关系如图1所示,上传下载子系统是整个系统数据采集和输出端口;存储管理子系统对所有的媒资数据进行记录管理;交互子系统是用户检索的输入端口;检索子系统是整个系统的核心模块;播控子系统是整个系统的对外输出端口。

2 系统方案设计

本文的工作重心为检索子系统的算法设计与实现,具体包含:媒资内容分析、媒资内容索引、媒资内容检索匹配。

2.1 媒资内容分析

本系统主要针对广播电视中出现的新闻文本、音频、图片、视频等媒体类型进行分析。

1)文本内容分析

文本内容分析采用自然语言处理的方法[4],将全文本数据切分为一组有意义的字词的集合。如图2所示,具体处理过程包括如下3个步骤:

(1)建立词典:预先根据应用背景建立一个包含单字和单词的词典。

(2)中文分词:将全文本按照分解为单字和单词,本系统中采用开源软件算法库ICTCLAS进行中文分词。

(3)数据清洗:去除无意义的单字和单词,将剩余的集合作为该全文数据的特征,并得到每个单子和单词的出现频率,作为最终的文本特征量。

图2 文本内容分析设计图

2)音频内容分析

音频内容主要指音频中的说话人语音内容,因此,音频内容分析的思路是将音频语音内容转化为文本信息,然后再采用文本内容分析的方法实现音频内容分析。如图3所示,具体处理过程包括如下3个步骤:

(1)语音内容提取:从音频文件中将含有语音内容的部分检测提取出来,本系统中采用静音点检测与场景切换检测融合判定的方法检测语音内容的起止时间。

(2)语音内容识别:使用语音识别技术将语音内容转换为文本,本系统中采用商用软件库PATTEK作为语音识别引擎。

(3)文本内容分析:通过文本内容分析得到音频中的文本特征量。

图3 音频内容分析设计图

3)图像内容分析

图像数据比文本数据和音频数据包含更多更直观的信息,而且由于认知偏差,不同的人对于同样的图像数据会给出不同的内容描述。因此,除了要考虑高层语义内容(如物体、事件、地点等)外,还要考虑底层视觉特征(颜色、形状、纹理等),需要采用不同的方法分别进行分析[5]。图像内容分析设计图如图4所示,具体处理过程包括2个方面。

图4 图像内容分析设计图

(1)高层语义内容分析

高层语义内容是指在图像中可以获取的人物、物体、地点、时间、事件等具有特定意义的信息。目前,较为成熟的是对人物和部分特定物体进行自动检测和识别。本系统中主要采用人脸检测识别技术实现对图像中人物的识别分析,得到图片中的人脸特征量。

(2)底层视觉特征分析

不同于高层语义特征,底层视觉特征是对图像中形状、颜色、纹理等基本图像元素的描述,是图像表达的最基本特征。尽管底层视觉特征没有给出图像内容的具体语义信息,但它是对图像的客观描述,避免了主观认知偏差。本系统中采用颜色直方图、梯度直方图(Histogram of Gradient,HOG)、尺度不变特征(Scale Invariant Feature Transform,SIFT)等得到底层视觉特征量。

4)视频内容分析

视频数据比文本数据、图像数据、音频数据的结构更为复杂,但视频数据又可以看作是由前三者构成的。例如,视频数据的每一帧可以看作是一幅图像、视频数据中的声道是音频数据、视频画面上出现的文字可以看作是文本数据。因此,只需要采用特定的方法将以上数据提取出来,然后采用文本内容分析、音频内容分析、图像内容分析的方法即可实现视频内容分析[6]。基于此思想,视频内容分析的关键是提取音频数据、文本数据、图像数据。视频内容分析设计图如图5所示,其具体过程如下。

图5 视频内容分析设计图

(1)文本数据提取

视频数据中的文本数据主要是指在视频中出现的字幕。由于字幕的位置较为固定,可以直接分割出来,得到包含字幕的区域。之后采用光学字符识别(Optical Character Recognition,OCR)的方法提取字幕内容。

(2)音频数据提取

音频数据提取的关键在于音频数据的检测。本系统中采用静音点检测与场景切换检测融合判定的方法,确定出音频数据的起止时间,从而截取含有语音内容的音频数据。

(3)图像数据提取

理论上每一帧视频数据都是一幅图像,但是由于帧间冗余,只有少部分视频帧可以作为有用的图像数据,一般称之为关键内容帧,简称关键帧。对于关键帧的提取可以根据帧中的内容信息和帧间变化作为检测的依据。本系统中将包含有特定人物和物体及帧间变化较大的视频帧作为关键帧,提取出来的关键帧集合为该视频的图像数据。

得到文本数据、音频数据和图像数据之后,分别采用上文提到的文本内容分析、音频内容分析、图像内容分析的方法实现视频内容分析,得到视频内容的文本特征量、人脸特征量、底层视觉特征量。

2.2 媒资内容索引

媒资内容索引是对媒资内容分析后得到的文本特征量、人脸特征量、底层视觉特征量等建立索引,以便于检索。本系统直接采用目前最为成熟而且有效的倒排索引法对以上特征量进行索引,形成媒资特征量索引文件。以文本特征量倒排索引为例,整个索引包含两个部分:单词项记录词典中的每个单词,文件列表记录包含该单词的所有文件序号及其他信息。如图6所示,其中N为文本词典中的单词总数,mi(i从1到N)为包含“单词i”的文件总数。

图6 倒排索引示意图

2.3 媒资内容检索

媒资内容检索基于输入媒资检索数据,对媒资内容索引进行查找,并对所有查找结果进行相似度排序。媒资内容检索设计图如图7所示,包含如下3个过程。

图7 媒资内容检索设计图

1)输入媒资内容分析:对输入的文本或图片进行内容分析,得到文本特征量或人脸特征量、底层视觉特征量;

2)索引查找:对于3种特征量分别进行索引查找,找到包含3种特征量关键元素的所有文件;

3)匹配排序:将找到的文件的文本特征量或人脸特征量、底层视觉特征量分别与输入的3种特征量进行相似度匹配,并根据匹配结果进行排序。

3 系统实现及验证

3.1 基于B/S架构的系统实现

本系统采用浏览器/服务器(Browser/Server,B/S)系统架构,可同时支持多个客户端同时访问系统。如图8所示,整个系统由检索客户端、Web服务器、检索分析服务器集群、磁盘阵列、存储管理服务器、播出控制工作站、上传下载工作站等通过以太网连接组成。

图8 系统网络拓扑图

整个系统实现遵循J2EE体系,采用Spring+Structs+Hibernate(SSH)框架进行开发,核心检索模块搭建在检索分析服务器集群上,所有算法封装成独立的软件包在服务器上独立运行,Web服务器通过任务调度的形式将任务分配给相应的算法软件包。

3.2 系统结果验证

采用如表1所示的测试环境对本系统的检索性能进行验证。得到以下结果:

1)文本检索可以达到很好的效果,查准率可以达到95%以上,与开源文本检索引擎Lucence的实验结果相吻合,完全能够满足应用需求。

2)音频检索效果稍逊于文本检索,但是能够满足应用需求。通过分析结果,原因在于音频转文本的性能有损失,即语音识别的精度。尽管语音识别引擎对标准中文的精度在90%以上,但在实际应用中,由于受背景噪声、专业领域词汇等的影响,精度会有所下降。

3)图像检索的效果差强人意,距离期望还有一定距离。对于人物的检索,侧面人脸大大降低了人脸检测精度,导致出现图像漏检;另外,简单的底层视觉特征还没有达到需要的效果。

4)视频内容检索的效果与前三者直接相关,基于关键字的视频内容检索效果与文本检索、音频检索相当;基于图像输入的视频内容检索效果与图像检索效果相当。

表1 系统验证环境

4 小结

本文介绍了一种基于数字媒体内容自动分析的智能媒资检索系统的原理设计和技术实现,并进行了试验验证。目前,该系统已被多家单位用于电子档案管理、多媒体情报管理,其功能和性能指标得到用户的认可。今后,为进一步提高系统的适用性和检索准确率,满足不同行业的应用需求,将从以下方面进行改进:

1)优化媒资内容分析关键技术

本文提出的媒资检索系统的核心是媒资内容分析,其中各项关键技术的性能直接影响整个系统的使用性能。目前,图像内容分析技术和视频内容分析技术都采用的是最基本的方法,还具有较大的提升空间,需要更加深入的优化和完善。

2)采用云计算体系架构

随着数据量的爆炸式增长,本系统采用的架构难以满足需求。目前,基于云计算的海量存储和计算技术已经相当成熟[7],可考虑在云计算体系架构下搭建本系统。

[1] 吴迎春. 媒体资产管理系统的应用解析[J].电视技术,2010,34(6):64-66.

[2] LEW M S. Multimedia information retrieval:best papers and expanding frontiers[J].International Journal of Multimedia Information Retrieval,2014,3(2):67-68.[3] 蒙诺,孟放. 浅析媒体资产管理系统在广电系统的应用[J].电视技术,2012,36(14):66-68.

[4] MANNING C D. Foundations of statistical natural language processing[M].Cambrige, Massachusetts, USA:MIT Press,1999.

[5] SONKA M,HLAVAC V,BOYLE R. Image processing, analysis,and machine vision[M].Boston, Massachusetts, USA:Cengage Learning,2014.

[6] DIMITROVA N,ZHANG H J,SHAHRARAY B,et al. Applications of video-content analysis and retrieval[J].IEEE Multimedia,2002,9(3):42-55.

[7] 樊磊. 基于云计算架构下的全媒体资产管理系统[J].电视技术,2012,36(22):63-65.

张小博(1987— ),工程师,主要研究方向为图像处理、模式识别等;

蒋 铭(1984— ),工程师,主要研究方向为信息安全、视频处理等。

责任编辑:任健男

Implementation and Design of Intelligent Media Asset Retrieval System

ZHANG Xiaobo, JIANG Ming

(The3rdResearchInstituteofChinaElectronicsTechnologyGroupCorporation,Beijing100015,China)

In view of the problems of the catalogue based retrieval in current media asset management systems: 1) catalogues cannot cover all the semantic information contained in the media data; 2) inconsistance of catalogues due to different understandings of different people; 3) time-consuming and inconvenience of cataloguing, a catalogue-independent intelligent media asset retrieval system is designed based on full-text search, speech recognition, face recognition, key-frame detection in this paper. And then, technical details of media content analysis, media feature indexing and searching are described. At last, a distribution system is established based on B/S architecture to verify our proposed methods. The experimental results prove that the design and implementation are efficient and effective, and the system has good applications in media asset management.

media asset management; intelligent retrieval; content analysis

【本文献信息】张小博,蒋铭.智能媒资检索系统设计与实现[J].电视技术,2015,39(13).

国家自然科学基金项目(61305007)

TP391

A

10.16280/j.videoe.2015.13.008

2015-04-08

猜你喜欢
媒资音频检索
全媒体时代的版权媒资管理探析
大数据技术的媒资档案管理方法
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
一种智能化媒资检索系统的研究
音频分析仪中低失真音频信号的发生方法
专利检索中“语义”的表现
MRG9000媒资卫士在市级电视台全台网的应用
Pro Tools音频剪辑及修正
国际标准检索