广播监测语音综合处理系统方案设计

2014-06-06 01:35张华斌
科技创新与应用 2014年18期

张华斌

摘 要:随着我国广播事业的不断发展,对广播监测的要求也在不断提高,工作量也越来越大,依靠原有人工识别为主的工作模式已经无法满足现在的业务需求。广播监测网语音综合处理系统的建设很好地解决了这一问题,将监测工作从人工识别向计算机识别发展,提高了语言和节目的识别率,从而提高了广播监测的工作效率。

关键词:广播语音综合处理;语音评估;语种识别;呼号识别

1 需求概述

随着我国广播事业的不断发展,目前广播监测工作量越来越大,如何自动监测和评估这些节目的播出信号质量,以及及时地判断这些节目是否存在空播、错播、停播等异态事件,已经成为我们必须解决的一个现实问题。

目前,广播监测的手段正在由传统依靠人工操作向计算机辅助监测过渡,初步达到了设备控制的自动化和广播信号采集的数字化、信息化和网络化,并实现了部分简单异态事件监测的自动化。在广播监测中,其中一种方式是依靠无人值守的遥控站点采集当地实时收听到的节目,并以录音文件的形式回传到中心机房进行评估,这种主要依靠人工识别的监测方法,在站点数量众多时,需要处理的工作量非常大,人工很难在较短时间内发现并确认汇总异态。近年来广播监测业务规模不断扩大,对监测质量的要求也不断提高,建设一套智能化的广播语音综合处理系统,提高对异态处理的实效性和准确性,对于提高广播监测服务质量和维护空中电波秩序具有非常重要的意义。

2 建设内容

广播监测网语音综合处理系统的核心功能是监测服务区内听众听到的节目是否与播出时节目源的节目和语言一致,如果不一致,确认信号的可听度、干扰强度、及语言等,为此需要完成基于录音文件的自动评估、实时语音语种识别、台名与呼号辅助识别三个主要功能,具体建设内容包括:

2.1 基于录音文件的自动评估

对站点采集的各频次语音数据进行自动评估,输出判断结果及其置信度。其中:

(1)质量评估结果:停播、错播和空播;(2)效果评估结果:评分结果为5分制,其中3分以上直接打分3/4/5,3分以下给出s1/s2形式评分(s1:广播台可听度0~5渐强,s2:干扰情况0~5渐弱),并判断噪声种类(背景噪声或同邻频语音干扰)和干扰强度;(3)语种评估结果:在错播异态条件下,且s2在3分以下时,自动给出错播语种的候选结果及其置信度。

2.2 实时语音语种识别

针对实时采集的数据文件,应能够判断是否按照预定的语言进行播出。如果没有按照预定语言播出,则进行报警,并显示应当播出的语种、实际播出的语种等信息。

2.3 台名与呼号辅助识别

可以对站点采集到的含有外台台名及呼号的录音文件进行台名与呼号识别。

3 设计原则

考虑到综合处理系统具有监测数据处理量大,实时性强,对数据安全性、可靠性、准确性要求高的特点,并结合现有网络传输条件,确定以下设计原则:

(1)可靠性:系统能够长时间稳定运行,设备监测指标准确,信息上报处理迅速,达到系统的最大平均无故障时间;(2)先进性:采用先进的音频智能处理技术,提高处理的准确性和实时性,而且充分考虑到未来技术发展的需要,力争超前设计;(3)安全性:建立在一个专用网络中,注重信息和数据的保护与隔离,可保证广播监测网系统的安全,具有完善、可靠的系统访问权限机制;(4)模块化:系统采用模块化设计和面向服务的构架,当监测任务增加、监测站点增加和网络规模扩大时,通过增加相应的功能模块,就能方便地扩大监测规模;(5)开放性:采用开放式操作系统、开放式网络结构及其协议、和开放式的客户/服务器模式,从而实现充分的资源共享,使平台具有良好的可移植性。

4 系统软硬件设计

4.1 物理结构设计

(1)录音任务下发与回传服务器:该服务器已到位,负责遥控站录音文件的采集和回收;(2)衛星参考源采集服务器:负责卫星参考源信号的实时采集存储;(3)数据库服务器:负责存储数据和结果信息,是业务层交互信息的核心存储区;(4)Web服务器:负责系统页面的展示;(5)调度服务器:负责数据处理任务的调度,并负责处理结果的回收入库,负责负载均衡控制,以充分利用计算机集群的计算能力;(6)引擎计算服务器:负责实时对调度器下发的任务进行音频比对计算,并把计算结果通知调度器;(7)同步服务器:负责运行图的实时同步,和数据库信息的同步;(8)磁盘阵列:负责存储录音文件和参考源数据。

各个服务器均可为主流机架式计算机物理部署,服务器之间通过千兆局域网互连。用户业务系统在基于J2EE的Web服务器管理下,实现多用户并发数据访问。

4.2 软件架构设计

广播监测网语音综合处理系统的软件架构采用模块化设计原则,每个模块保持一定的功能独立性,在协同工作时,通过相互之间的接口完成实际的任务,模块化设计将功能模块有机地结合起来,在保证正确性和健壮性的基础上,提高了软件的可扩展性和可复用性。

系统的软件架构采用分层逻辑结构,整个系统自下到上分为3层:数据采集存储层、数据分析处理层、表示层。

4.2.1 数据采集存储层

数据采集存储层主要实现三部分数据采集与存储工作:

各电台参考源信号的采集与存储:基于组播技术,给定IP和端口,实时采集几十套电台的多语种广播节目,每套节目每天存储量约2GB。

中短波调幅广播的采集与存储:对接收机输入一路中短波调幅广播信号,基于V8指令,在1分钟内切换频率进行采集,并把数据存储到磁盘阵列中。

录音回传数据的数据库存储:对监测网数据采集系统所回传的录音文件进行同步,把文件相关信息,比如文件名、路径、语言、时长等同步到数据库中进行存储,数据库采用oracle11g,可存储百万条数据记录。

4.2.2 数据分析处理层

数据分析处理层综合利用固定模板检索、语音比对、语种识别与确认、音频分类、音频质量评估等先进的智能处理技术,通过ESB企业级服务总线,为上层“表示层”的系统业务应用提供中间层的服务支撑。

在本系统中,ESB企业级服务总线封装了各服务的差异性,使得所有在总线上通信的服务能够适应于不同的服务使用者,消除了提供中间服务支撑的软件间的差异性,在很大程度上也为系统将来的功能扩展奠定很好的一个基础服务平台,能够很方便地加入新的音视频智能处理服务。

另外,“表示层”可通过服务总线调度分布式集群并行计算环境,在分布式集群并行计算环境中进行音视频内容的智能分析,并将结果输出给“表示层”进行显示,用户可对置信度较低的智能识别结果进行人工编辑审核。

4.2.3 功能模块表示层

功能模块表示层负责向数据分析处理层提交任务,通过动态网页与数据分析处理层进行交互以及数据通信,其中包括提交增加,删除,查询,修改,管理等操作,并提供时间轴控件显示音频波形数据,以达到辅助人工快速审核计算机智能处理结果的目的。

功能模块表示层包含的功能子系统主要有:广播效果智能评估、频谱收测实时评估。

功能模塊表示层采用C/S架构,以页面形式将各个功能进行展示,用户可打开客户端界面对系统进行登录和访问。

5 系统功能流程设计

步骤1:打开并读取mp3格式的音频文件,如果文件小于3秒,则报文件错误异常,否则进行下一步。

步骤2:把音频文件以1秒为测试单位,分成语音、音乐和噪声,并计算其中的音乐比(音乐时长占总时长的比例)、噪声比(噪声时长占总时长的比例)和语音时长,同时把语音片段提取出来保存为语音片段文件。

步骤3:根据静音比例,如果静音比例很高,则判断信号为空播,并给出置信度,否则进行下一步。

步骤4:根据噪声比例,如果噪声比例很高,则判断信号为停播,并给出置信度,否则进行下一步。

步骤5:根据信噪比,对音频文件进行质量评估,得到初始信号质量分数,然后根据音乐比和噪声比,对分数进行调整,从而得到最终质量分数。

步骤6:对音频文件进行台名呼号模板检索,如果检索到,则根据该台名呼号所属的语种节目得到识别语种和置信度,此时把在步骤2中保存的语音片段文件删除,清理内存并输出结果。

步骤7:判断音频文件是否是录音回传模式,如果是,对录音回传模式的音频文件,判断音频文件中的语音长度是否大于10秒,如果是,则查找参考源进行语音比对。

步骤8:如果与各电台节目比对结果一致,则给出本节目语言及其置信度,否则进行下一步。

步骤9:对非录音回传模式的音频文件,或者未找到参考源的音频文件,或者比对不一致的音频文件,判断音频文件中的语音长度是否小于10秒,或者语音质量低于3分,如果是则给出话少结果,否则进行下一步。

步骤10:进行语种确认,如果确认结果的第一名与指定语言相对应,则给出语种确认结果及置信度,否则进行下一步。

步骤11:进行语种识别,给出前5名识别语言的候选及其置信度。

6 结束语

目前广播监测网语音综合处理系统已基本建设完成,处于试运行阶段,系统运行稳定。该系统应用了多项音频智能处理技术,监测结果可靠,自动化程度很高,值班人员仅需要对低置信度结果进行审核即可,大大减轻了人工工作量。未来随着监测站点规模不断增加、语言种类不断扩大,相信该系统的投入使用,可以大大提高监测工作效率,为安全播出提供有力的技术保障。

参考文献

[1]L.Lu,H.-J. Zhang,and H.Jiang. Content analysis for audio classification and segmentation. IEEE Transaction on Speech and Auido Processing. 10(7):504-516,October 2002.

[2]Kashino K,Kurozumi T,Murase H. A quick search method for audio and video signals based on histogram pruning [J]. IEEE Transaction on Multimedia,2003,5(3): 348-357.

[3]Haitsma J,Kalker T. A highly robust audio fingerprinting system [C]// Proceedings of International Symposium on Music Information Retrieval . Paris,France,2002: 107-115.

[4]姜洪臣,任晓磊,赵耀宏,等.基于音频语谱图像识别的广告检索,清华大学学报(自然科学版),Vol.51,No.9,pp 1249-1252,2011.

[5]姜洪臣,郑榕,张树武,等.基于SDC特征和GMM-UBM模型的自动语种识别,中文信息学报.Vol.21 No.1,pp 49-53,2006.

[6]R van Zwol,S Rüger,M Sanderson and Y Mass: Multimedia information retrieval: new challenges in audio visual search. SIGIR Forum,41(2),pp 77-82,2007.