石 军
(北京市保密技术研究中心,北京 100005)
智能音频检索技术在侦收系统中的应用研究*
石 军
(北京市保密技术研究中心,北京 100005)
为提高各类侦收系统的自动化程度,提出基于智能音频检索技术的侦收设备工作原理,讨论其特点,并给出提高检索效率的方法以及语种识别、
检索、
语音检索、关键音频检索及关键说话人检索等工作模型。对于基于移动通信网的多通道、基于无线电侦测的单通道侦收系统和internet等公共信息网,分别给出了智能音频检索技术应用的工作原理框图及实现方式,希望研究结果能够对信息监管起到重大的推动作用,最终达到为国家安全服务的目的。
元信息;语种识别;
检索;音频检索;侦收设备
随着大数据(Big Data)时代的到来,仅靠人工方式获取所需要的音频信息已远远不能满足侦收工作的需要。据2004年法国《世界报》报道,2003年全球电话通话1 800亿分钟,其中1/10被美国国家安全局窃听;而到2013年,据英国《卫报》报道,美国安全局在年初仅仅一个月内就收集了1 240亿次电话数据。可见,快速获取所需要的音频信息已成为紧迫的需要。音频与其他信息一样,是一种重要的信息载体,但又与其他载体明显不同,具有瞬时性。若能够将智能语音检索技术应用于各类侦收系统,则无疑会大大降低工作量。尤其在反恐等活动中,快速获取目标音频信息,有利于将损失降到最低。例如,据中国光明日报网2007年报道,德国挫败一起历史上最大的恐怖袭击事例,其缘由就是从截获电话和电子邮件等以及美国情报部门提供的资料中获得了重要线索,就是现实中智能语音检索技术应用于侦收系统的具体体现。这种音频信息借助于智能音频检索技术(在线或离线)检索的系统称为智能音频检索系统。音频检索系统可对各类固定通信、移动通信内容进行自动语种识别、关键字(文本、语音、说话人确认、关键音频等)检索,可广泛应用于公安、安全、保密、国防等需要对通信音频内容进行监控管理的行业,以实现对特定信息的全天候自动化监控。
1.1 智能音频检索系统工作原理
智能音频检索系统的工作结构如图1所示。
图1 基于智能音频检索技术的侦收设备系统组成原理
图1中,侦收设备主要指的是并行输出设备,如各类G、C网移动通信侦收系统、串行输出设备如无线电监测系统等;样本信息转化设备主要是指各类声电转换设备、各类关键词音频信息获取系统等,目的是获得各类音频信息样本。
音频通过转化设备输入到音频检索系统,系统将得到的音频样本与侦收设备输出的即时、模型库存储的信息进行比较,输出最匹配的音频库文件、位置等结果,从而完成所需音频信息的输出过程,这就是智能音频检索系统的工作原理。
1.2 智能音频检索系统特点
(1)工作方式分为在线和离线两种,前者是对现场实时采集(存储)数据进行分析处理,后者是对已存储数据进行分析处理。
(2)支持以下及其组合检索方式:语种识别、文本、
语音、关键语音及关键说话人等。
语音、关键语音与关键说话人三种检索方式主要分别是指对词的意思、词的意思和音频属性、被检索人在音频库中所有的音频信息(即检索的是特定人的音频属性)的搜索。
(3)支持多路并行在线离线检索方式。根据系统软硬件配置情况,为提高工作效率,采取多通道值守与轮询可相互切换结合工作方式,即既可只轮询也可只值守,也可自由选择轮询和值守信道数量。
(4)支持语音识别模型库的自适应优化处理,尤其对在线工作模式下,建立特定人的专用语音识别模型尤为重要。该模型能够根据采样量的累加自动进行优化保存。
(5)支持自行调节音频检索系统阈值,以提高检索结果中标率。
在智能音频检索系统设计阶段,引入以下三个概念:
第一个概念:检索有效性。定义为正确检出的样本数/
检出的样本总数,又称正确率。
第二个概念:检索可靠性。定义为正确检出的样本数/
样本总数,又称召回率。
第三个概念:检索系统相对误差。定义为绝对值(样本总数-
正确检出的样本数)/
样本总数。
总体设计阶段要求检索系统相对误差要小,对每一个单独的系统设计来说,要求具有更高的有效性和可靠性。在音频检索系统算法不变的情况下,提高检索效率的方式:第一,对存储的音频信息进行多关键词交叉检索;第二,选用适合特定应用环境的经验阈值;第三,选用在特定应用环境中的语音信息,分别建立各自的参考模型库,并分别应用于各自的检索环境中。
音频检索总体方案设计模型如图2所示。
图2 音频检索方案设计原理模型
图2中,预处理功能主要有音频信号处理、文件多格式转换等。特征提取主要是利用声学、文法模型进行语音识别并进行说话人分析,最终输出元信息(特征、因素图、说话人分析结果等)。元信息是指可以描述音频属性和内容的信息。为了正确有效地充分利用音频,系统必须具有提取并结构化地描述元信息的能力。训练是按一定规则对元信息聚类,最终形成参考模型库;模式识别是根据一定的规则及相关知识,计算输入音频特征与参考模型库之间的相似度,最终从音频库中检测出与给定关键信息一致的音频信息。
2.1语种识别模型[1]
语种识别检索结构框图如图3所示。
图3 语种识别检索工作原理
图3中,首先根据各种语音音频数据和EM算法(Expectation Maximization,EM)训练一个全局背景模型(Universal Background Model,UBM),然后通过这个模型基于最大后验概率(Maximum a Posteriori,MAP)进行自适应,生成各语种高斯混合模型(Gaussian Mixture Model,GMM),并根据输入音频特征,在GMM上通过自然对数似然比假设检验来进行判决。设H0表示待识别音频来自目标语言,H1表示来自假冒者,Th表示根据实际场景所选用的门限值,则:可见,在实际监测环境下,若不小于所选定的阈值Th,则可以给出待识别语音属于何种语言;否则,检索系统给不出待识别语音的语种。
基于声学特征和音素层次的主流语种识别系统主要有GMM-UBM系统、GMM-SVM系统、两者的组合、及其基于音素搭配的系统等。本文采用第一种方式,并在以后工作过程中不断加以完善。另外,基于文本的语种识别目前可集成语种识别应用软件(如互联网Langid在线、Polyglot 3000及各种通专用识别等软硬件)进行识别,但出于信息安全性考虑,具有自主知识产权产品是以后工作的重点。
2.2检索[2]
检索结构框图如图4所示。
图4检索工作原理
图4中,在检索阶段,声学模块识别使用了基于段长分布的非齐次隐马尔科夫模型(Duration Distribution Based Hidden Markov Model,DDBHMM)、基于语音学分类的三音子识别及无监督最大似然线性回归自适应等算法,提取出关键音素串,在元信息因素图中基于动态规划(Dynamic Programming,DP)原理进行匹配搜索,最终形成多个
候选列表(语音文件,文件内偏移,置信概率),再根据后验概率置信度计算进行排序,输出最终检测结果。用户可根据实际运行情况,使用置信度门限值对候选结果进行筛选。由于大计算量的语音识别只运行一次形成模型库,
对应的音素串只在多候选拼音图上搜索匹配,因此检索速度快。
2.3 关键音频检索[3]
关键音频检索结构框图如图5所示。
图5 关键音频检索工作原理
图5中,由关键音频和音频库文件与之长度一致的各分段区间,提取声学特征并建立公共分量高斯混合模型(Common Component GMM,CCGMM),计算在关键音频与每个区间段之间的库尔贝克-莱布勒(Kullback-Leibler,KL)距离,用KL距离衡量关键音频片段与在音频文件频库模板GMM上作滑动窗滑动等长区间的匹配度。若当前匹配度较大,则可以跳过一定数量的段时间进行下一次区间匹配。优点是使用KL距离准确度量了两个概率模型的差异,提高了关键音频检索对不同压缩方式、不同程度失真的鲁棒性。
2.4 关键说话人检索[4]
关键音频检索结构框图如图6所示。
图6 关键说话人检索工作原理
图6中,在关键说话人检索阶段,根据MAP准则由UBM自适应建立说话人GMM模型,再通过对数似然比假设检验检索结果:
实际工作过程中,分母由离线计算,以加快在线检索速度。
3.1 应用于各类移动通信G、C网多通道侦收系统
由于G、C网侦收系统具有N路信息输出,其系统组成结构如图7所示。
图7 基于智能音频检索系统的移动通信侦收设备工作原理
图7中,虚线框图传输系统可包括交换机、路由器、加密系统等;侦收系统作为客户端,负责把G、C网接收的多路语音数据发送到多台检索系统服务器端;服务器端负责接收以太网传输过来的数据包,并进行相应的并行处理。在在线工作模式下,数据包采用UDP包,且使用固定IP方式传输数据。不同服务器端依靠端口号和IP地址识别接收不同路语音数据包并进行相应处理。图7中,虚线框图表示如在本地工作,不需远程传输数据,可把传输系统改为交换设备,最简单的如Hub或直连网线等,
以适应侦收的便携式要求。
3.2 应用于单通道无线电侦测系统
智能音频检索系统可应用于无线电侦测系统,目的是提高侦收设备的自动化程度,其系统组成架构如图8所示。
图8 基于智能音频检索系统的无线电侦测工作原理
图8中,自动扫频解调设备应具有自动扫描、场强探测、自动信号可识别性解调、间隔处理等功能。
本部分主要介绍一个在保密工作中的应用。检索系统在保密工作中主要体现在监控、取证等任务中。根据一段涉密信息,通过检索系统提取嫌疑人的语音信息,进而对这一特定说话人身份进行识别,根据相关法律,录音作为法定证据形式之一,可作为案件查处过程中的重要取证手段。
3.3 应用于公共信息(互联)网音频信息检索
互联网音频信息检索系统组成结构如图9所示。
图9 基于智能音频检索系统的公共信息监控网工作原理
图9中,网络爬虫是按一定目标抓取网页语音信息的一种信息平台(程序),一般主要有数据挖掘器、采集管理、URL哈希表等几部分组成。信息处理平台能够有效对采集到的海量语音数据处理任务自动合理地进行任务调配,并且能够方便地根据需求配置服务器容量。
本文基本能够实现对音频信息进行检测的需求,能够及时准确地响应用户的查询监控,具有较好的社会与经济价值,但应加大后续维护工作,并在现实中不断加以改进。音频检索系统除了应用于公安、安全、保密、国防等领域外,还可广泛应用于民用公共事业领域,如各广电音频公司剪辑、各外语口语学习系统、电话交换系统(通信信息审计等)等方面。未来随着技术的不断成熟,也可应用于安防设备进行身份识别、访问控制等领域,以实现登录密码的增强要求。同理,更扩展一步来说,图像识别也与语音识别一样,应用于以上领域,但具体有效性实现常态工作不易,是以后可以进一步研究的领域。
[1] 刘杰.自动语种识别系统设计与实现[D].哈尔滨:哈尔滨工业大学,2011. LIU Jie.The Design and Implementation of Automatic Language Recognition System[D].Harbin:Harbin Institute of Technology,2011.
[2] 罗骏,欧智坚.一种高效的语音检索系统[J].通信学报,2006,27(02):113-118. LUO Jun,OU Zhi-jian.Efficient Keyword Spotting System for Information Retrieval[J].Journal on Communicatio ns,2006,27(02):113-118.
[3] Y·陈.用于快速音频搜索的方法和设备[EB/OL].(2014-06-01)[2016-07-09].http://www.google.co.uk/ patents/CN101553799A?cl=zh&hl=zh-CN. CHEN Y R.Method and Apparatus for Fast Audio Search[EB/OL].(2014-06-01)[2016-07-09].http://www. google.co.uk/patents/CN101553799A?cl=zh&hl=zh-CN.
[4] 张彩红,洪青阳,陈燕.基于GMM-UBM的说话人确认系统的研究[J].心智与计算,2007,1(04):420-425. ZHANG Cai-hong,HONG Qing-yang,CHEN Yan. The Research of Speaker Verification based on GMMUBM[J].Mind and Computation,2007,1(04):420-425.
石 军(1975—),男,硕士,高级工程师,主要研究方向为混沌在通信系统及信息技术中的应用、通信信号识别及信息安全等。
Research on Intelligent Audio Information Retrieval Technology Application of Electronic Reconnaissance Receiving and Processing System
SHI Jun
(Institute of Information Security Technology, Beijing State Secrets Bureau, Beijing 100005, China)
In order to increase electronic reconnaissance receiving and processing system automation,its working principle based on intelligent audio information retrieval technology was proposed and its characteristics was discussed.These methods for improving the retrieval efficiency was given. Language identification、keyword spotting、keyaudio spotting and keyspeaker verification working principle model were proposed. These working principle diagrams based on intelligent audio information retrieval system of electronic reconnaissance receiving and processing system based on both the multi-channel mobile communication network and the single channel radio detection system and public information network such as Internet are presented. It is hoped that this research results can play a major role of information supervision,and eventually serve for the national security.
meta-information; language identification; keyword spotting; intelligent audio information retrieval; electronic reconnaissance receiving and processing system
TN912.34
A
1002-0802(2016)-10-1415-04
10.3969/j.issn.1002-0802.2016.10.028
2016-06-07;
2016-09-15
data:2016-06-07;Revised data:2016-09-15