◆赵恺捷 朱永强 郑焓 项倩红
(1.中共杭州市委办公厅 浙江 310000;2.成都网安科技发展有限公司 四川 610000;3.杭州市保密技术测评中心 浙江
310000)
随着信息化的普及与技术的发展,语音信息同传统的电子文档一样,频繁的成为人与人之间信息传递的重要载体。当语音信息中包含敏感信息时,由于过失等原因将这类语音信息违规存储或拷贝的行为,会给国家保密工作带来巨大的风险。目前,针对电子信息的保密监管工作主要针对文本类型及图像类型的电子文档,对于语音信息的保密监管存在着巨大的缺失,因此有必要设计与研发针对语音文件的监管系统,以保障国家保密信息监管工作的多维度与完备性。
目前,对于保密语音监管的具体业务应用技术研究在国内尚属起步阶段,相关研究与资料较少,而与之有一定相似性的研究工作(如:语音唤醒词识别)其具体的应用场景又与保密语音监管的实际应用场景有差异,如:唤醒词识别一般以识别准确率为主,而语音监管为了保证监管覆盖率,需优先考虑召回率参数等,因此,针对语音保密监管,需以业务需求为中心,探讨其具体的应用方法与技术手段。
针对语音保密监管业务,由于现阶段此类文件在被监管环境中存在基数较少、单体文件较大的特点,因此现阶段的核心,为保证保密监管的覆盖率,即提升算法的召回率,同时综合利用语音整体信息,对准确率进行修正,由于语音信息保密监管的监管手段主要是匹配语音中包含的关键词信息,结合具体的业务环境,对语音保密的监管存在两种的技术路线,分别为:
(1)“语音->语音匹配”方式,即直接使用关键词对应的语音信息,对待监管的原始语音信息进行匹配。
(2)“语音->文本->文本匹配”方式,即将语音文件转换为文本文件,再用文本关键词匹配的方式进行匹配。
本文会在后续章节讨论两种技术路线的选型。同时,语音识别技术作为语音信息保密监管的核心技术,也是本论文介绍与讨论的重点。
语音识别(Speech Recognition)技术是一种将人的语音转换为文本的技术。它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。
图1所示为语音识别系统的典型结构,语音识别系统的核心主要是图中的特征提取、声学模型、语言模型和解码器四个部分。
图1 语音识别系统的基本结构
(1)声音本质为一种波,需先将其转换为计算机可理解与计算的数字信号形式。信号处理和特征提取部分以语音信号为输入,通过消除噪声和信道失真对语音进行增强,将信号从时域转化到频域,并为后面的声学模型提取合适的有代表性的特征向量。
(2)声学模型将声学和发音学的知识进行整合,以特征提取部分生成的特征为输入,并为可变长特征序列生成声学模型分数。
(3)语言模型通过从训练语料学习词之间的相互关系,来估计假设词序列的可能性,亦即语言模型分数。如果了解领域或任务相关的先验知识,语言模型分数通常可以估计得更准确。
(4)解码器对给定的特征向量序列和若干假设词序列计算声学模型分数和语言模型分数,将总体输出分数最高的词序列当做识别结果。
语音识别的核心步骤包括特征提取与解码器两部分,其中解码器部分的核心为语音识别模型,具体包含声学模型与语言模型。
2.2.1 特征提取
特征提取主要包含以下步骤:
(1)信号分帧,对语音信号进行分段,每小段称为一帧,一帧信号长度通常为20-50ms;
(2)获取帧信号频谱,对帧信号做傅里叶变换,得到帧信号的频谱;
(3)帧信号滤波与压缩处理,对帧信号进行三角滤波,并对滤波器组输出做对数变换或者离散余弦变换,将其压缩为一个13维的特征向量。
2.2.2 解码器
语音信息经特征提取后,可将其理解为由原文本经过发音编码后得到的编码序列,而语音识别的过程即为对此序列进行解码,解码器的核心为声学模型与语言模型。
(1)解码器的声学模型
声学模型是语音识别解码器的核心与难点,随着技术的发展,声学模型共经历过三代技术框架,每个阶段都有其代表性的算法模型,代表模型包括DTW模型、GMM-HMM模型与DNN-HMM模型。
(2)解码器的语言模型
解码器的语言模型用于计算P(W)部分,具体来说,它计算的是一个词序列是正确而完整的句子的概率,相比于声学模型,语言模型比较容易训练与计算,且有着大量的可训练素材,语言模型又分为一元模型、二元模型与多元模型等。
语音信息保密监管使用关键词匹配的方式对语音进行内容匹配及后续处理。
针对语音文件中的语音关键词进行匹配,主要有以下两种方法:
(1)语音中直接处理
即直接将待监管语音文件与监管使用的报警关键词语音进行比对。
此方法的优点为:
●不需要对语音文件进行额外处理,方法简单。
此方法的缺点为:
●语音局部匹配即预警,无法利用语音的完整信息对探针匹配进行修正;
●因为人的语气语调及地方方言差异很大,单一关键词发音输入直接匹配很容易产生误报;
●报警后不易进行后续处理,后续对被报警文件的检查确认不直观,时间代价较大;
●存在匹配误差,导致漏报或虚警。
(2)语音转文字后再匹配
即通过语音识别技术,将语音文件转换为文本文件后,再对文本文件进行匹配。
此方法的优点为:
●可以更好利用上下文及全文整体信息,提升关键词预警的准确性;
●可以更直观的进行预警后处理,后续处理效率更高;
●更容易实现信息的边界划分,降低误报概率。
此方法的缺点为:
●存在集外词问题,即由于匹配关键词不存在于语音识别框架的语言模型中,导致此类词的匹配永远不会发生;
●转换误差问题,虽然目前语音识别技术得到了很大的提升,但仍存在转换误识别的问题,导致虚警或漏报。
根据保密监管工作的实际情况(难于构造关键词发音库、需对内容进行整体性判断、预警后需进行相应的后续监管工作)以及两种方法的优缺点对比,本文认为,选择语音转文字后对文字进行监管分析的方法是更为优秀与合理的方法,下文便基于语音转文字的监管方法,讨论此方法的具体实现以及其应用于保密监管工作中的特定性优化与改良设计。
基于前文分析,本小节将语音识别技术与语音信息保密监管的具体工作和实际需求进行结合,设计了一种基于语音识别技术的语音信息保密监管整体算法,并以此算法为核心,完善整个语音信息保密监管技术流程。
通过归纳与总结,本文认为语音信息保密监管技术主要需解决以下四个核心问题:
问题一:大规模连续语音识别,即将待监管的语音文件转换为连续的文本文件,是整个系统实现依赖的基础数据处理方法;
问题二:提升召回率,由于语音监管的特殊性,召回率应作为监管系统的主要指标,其中语音监管的召回率低主要是由于语音转换错误及集外词等原因而导致的报警关键词未能匹配问题;
问题三:提升召回率导致的准确率下降问题,即用于提升召回率的技术处理方法会产生的额外的准确率下降问题;
问题四:监管报警之后的文本后处理工作,对语音文件的内容监管不如对文本内容进行监管直观,同时,由于大规模连续语音识别过程中产生的噪声与误差,即使是语音转换后的文本内容,也同样存在着不直观与可读性下降的问题。
对于问题一,可通过开源框架或基于其进行二次开发实现。
对于问题二与问题三,本文提出了一种基于同音词典与类别置信度的语音关键词识别算法。
对于问题四,可通过对语音转文本内容进行各类分析处理,如LDA主题分析、自动摘要提取等方法。
即将待监管的语音文件转换为文本文件,目前此部分技术领域的技术与开源框架相对比较成熟,可采用开源框架或基于开源框架二次开发对其进行直接实现。
部分可使用的代表语音识别开源框架包括wav2letter++、Kaldi、CMUSphinx等。
语音监管的特殊性决定了召回率是非常重要的参数,在实际监管中,由于潜在的关键词可能被大规模连续语音识别算法识别为其他词(最常见的场景是同音词),导致包含关键词的语音文件无法被正常召回报警,针对此情况,本文提出了一种基于同音词典与类别置信度的语音关键词识别算法,其核心思想为:
(1)通过同音词扩展。将单个关键词扩展为一组同音词依次匹配,以提升召回率,防止同音词转换错误产生的报警关键词无法正确匹配;
(2)发生同音匹配后,通过计算原关键词与目标匹配文本的类别置信度,判断同音匹配的准确性。
4.2.1 正常匹配执行
使用原关键词对语音转换后的目标文本进行匹配,如发生匹配则返回匹配结果,如未匹配,则进行后续的同音词扩展匹配与类别置信度计算。
4.2.2 同音词扩展匹配
基于同音词词典,对指定语音关键词进行同音词扩展,以得到指定语音关键词的同音词组,将同音词组作为多模式串,对目标文本进行多模式匹配。若各模式串均匹配失败,则认为语音数据中没有包含指定的关键词,直接返回结果;若任一模式串匹配成功,则进行具体的匹配置信度计算过程。
对于同音词扩展匹配,如指定语音关键词“助手”的同音词有“住手”、“驻守”等,指定语音关键词“他们”的同音词有“它们”、“她们”等,则“助手”的同音词组为 {“住手”,“驻守”,… },“他们”的同音词组为{“她们”,“它们”,… }。
具体上述所述多模式匹配可采用如AC自动机等算法。
4.2.3 类别置信度计算
其中,V表示文本语料中文本的总数,A表示属于i文本类别且包含指定语音关键词k的文本数量,B表示不属于i文本类别但包含指定语音关键词k的文本数量,C表示属于i文本类别但不包含指定语音关键词k的文本数量,D表示既不属于i文本类别也不包含指定语音关键词k的文本数量,x2(k,i)表示指定语音关键词k对i文本类别的卡方统计值。
对上述相关性向量r进行softmax归一化,以得到指定语音关键词关于预设各个类的归一化相关性向量n,计算所述类别向量c与所述归一化相关性向量n的余弦相似度,作为指定语音关键词与目标文本的类别置信度。
所述softmax归一化具体计算方式如下:
所述类别置信度具体计算方式如下:
设置类别置信度阈值T,若所述类别置信度m大于等于所述阈值T,则认为语音数据中包含指定的语音关键词,返回匹配结果;若所述类别置信度T小于所述阈值m,则认为语音数据中没有包含指定的语音关键词,发生的同音词匹配为误匹配。
通过大规模连续语音识别技术将语音信息转换为文字信息后,除使用文中提出的改良监管匹配算法对转换文本进行关键词匹配监管外,还可使用其他面向文本的分析技术,对转换后文字进行更深入分析,以增强监管内容的可读性,提升监管效率,可使用的方法包括:LDA主题分析技术、自动摘要技术等。
本文主要探讨的是面向语音监管具体业务需求和业务特点下的语音信息监管技术方法,基于具体的语音保密监管业务,提出了一种针对语音监管的基于同音词典与类别置信度的语音关键词识别算法,以满足当前语音保密技术监管的具体业务场景需求,为语音保密监管技术的下一步研究提供相应的理论基础与参考。