蔡海兴,廖生权
(中国电子科技集团公司第二十八研究所,南京210007)
面向战术环境的语音指挥技术研究
蔡海兴,廖生权
(中国电子科技集团公司第二十八研究所,南京210007)
与数据指挥相比,语音指挥在战术环境中优势明显。但因战术条件下地理环境复杂、电磁环境恶劣、通信信道速率低等原因影响了其指挥效能的发挥。通过对语音指挥现状分析,提出面向战术环境特别是窄信道条件下语音指挥的总体设想,并给出提升战术环境下语音指挥能力的关键技术及解决措施。最后通过试验验证了技术可行性。
战术环境,语音指挥,语音识别,语音编码
指挥方式主要包括数据指挥、语音指挥、视频指挥等,语音指挥因其信息承载量大、操作便捷、对双手依赖性小等特点,在指挥领域占据重要地位。特别在分队、单兵等战术单元,指战人员高度复用,语音指挥的优势尤其明显。
分队及以下战术单元因其作战特点,远离核心保障区,通信保障力量薄弱,对外通信以无线窄带信道为主,加上所处地理及电磁环境恶劣,导致其通信信道速率低、误码率高,影响其指挥效率和能力发挥。因此,有必要研究适用于战术环境,特别是窄带信道和恶劣电磁环境的语音获取、编码和传输等技术,以期提升战术单元的指挥能力。
超短波、短波通信因其使用方便、设备简单、机动灵活等特点,是战术网络的重要组成部分,也是战术末端的主要通信手段,本文主要以此为对象展开分析。
1.1 语音通达率方面
语音通信信道分有线信道和无线信道两种。有线信道及部分高速无线信道因带宽高、信道稳定,可承载VoIP、PSTN业务,通话链路以拨号方式建立;低速无线信道,如短波、超短波等,因其带宽窄、易受干扰,服务质量QoS低,无法承载控制信号,语音信息只能以广播方式在同一子网内一跳直达,不能跨区域、跨网络多跳路由。
虽然随着技术的发展,在特定范围实现了无线话音与有线话音的铰链,初步具备全网系话音互通能力,但终究因条件限制,无法大规模推广应用。如战术互联网中,通过超短波电台RAP模式,在电台之间、电台与固定电话之间通过网络实现了点对点拨号通话,但因RAP通话需要基站节点伴随保障等因素,限制了其使用范围。又如,通过协议改进实现了VoIP协议与电台话音的铰链,将电台话音作为“最后一公里”话音覆盖,但因战术电台无法承载拨号信令,该方案目前只能实现从有线到无线的单向通话,且电台之间仍然是广播通话。可见战术末端的语音尚不能通过战术网络实现全网系点对点传输。
1.2 抗干扰能力方面
在战术末端,电磁环境恶劣,地理环境复杂,加上敌方电磁干扰影响,信号信噪比较低。为了提升电台抗干扰能力,采用了纠错编码、交织、直列扩频等技术,但这些技术的使用是以占用一定通信资源为前提,降低了带宽资源,进而影响电台业务承载能力[1]。以短波电台为例,当信道数传速率大于600b/s,信噪比大于3 dB时,电台送受话器才能正常输出声音。
1.3 与数据指挥铰链方面
语音指挥与数据指挥系统之间互相隔离、互相独立。一方面,语音指挥过程中从输入、传输、接收、转发、输出、存储均为语音信息,若要转换为数据指挥系统能识别的信息需人工手动录入,既占用人工,且效率无法保障。以某任务中上级指挥所掌握下级部队位置信息并在态势图显示流程为例,流程如下:①下级部队通过电台语音上报位置信息;②上级指挥所值班员收到清晰的语音信息后手动记录该部队位置数据;③上级指挥所值班员通过手动方式将下级部队位置信息录入数据库并上图显示。另一方面,数据指挥系统具有类似于手机电话薄的通信名录,提供给指挥员的是与编程相关的席位名称等信息,而不是一串不便记忆的号码;但语音指挥无法利用通信名录做到一键拨号,必须采用手动输入号码、频率等方式。
根据语音指挥现状及存在问题,语音指挥能力总体思路是根据语音指挥的特点将语音信息数字化,利用数据编码压缩技术,压缩语音信息空间,降低对通信信道的要求,以适应战术末端通信环境;打通数据指挥与语音指挥接口,实现数据层面的统一;利用数据指挥系统建设成果,通过其底层传输平台,在实现全网全要素之间语音互通。总体示意如图1所示,流程如图2所示。
图1 语音指挥设想示意图(△语音承载的信息)
图2 语音指挥流程图
发送端按通信名录发送拨号信令建立链接,话音通过语音识别技术实现模拟语音信号数字化,利用高效率语音编码技术对语音信息进行编码压缩,并按数据指挥系统传输协议封装语音信息和控制信息后发送。接收端按传输协议解析获取语音信息,通过解码后将信息通过语音合成技术合成为语音信号播放或直接将信息提交给数据指挥系统处理。
通过以上分析,语音识别技术、语音编码技术、语音指挥和数据指挥铰链技术是实现窄带条件语音指挥能力提升的关键技术。
3.1 语音编码技术
3.1.1 背景
直接模拟语音数字化将占据电台通信系统无法支持的空间,因此,必须依靠语音压缩编码技术,将数字化语音压缩到电台可支持的带宽范围进行传输[2]。传统语音编码有波形编码、参数编码和混合编码3种方式。波形编码是直接将时间域语音信息直接转换为数字代码进行处理、传输,重建后能较好地还原语音波形。波形编码以ITU-T G.711规范为代表,其编码速率为64 kb/s。参数编码是在语音信号频率域或其他正交域提取音特征信息,并将其转换为数字代码进行处理、传输,重建后能还原语音特征信息。参数编码采用LPC标准,最低编码速率可以到2.4 kb/s以下,但其还原后语音保真度较低,MOS评分只有2.5,主要用于军用保密通话。混合编码是由波形编码和参数编码相结合的编码方式,在传输参数同时,还传输了部分样点。混合编码主要采用CELP编码标准,编码速率最低可到4.8 kb/s[3-4]。
电台具有模拟话和数字话两种通话方式。模拟话直接将话音调制到载波信号上进行传输,具有处理电路简单、占用信道频带窄、实时性高等特点。但模拟话对环境噪声处理能力有限,极易受干扰。电台数字话采用参数编码方式,通过声码器提取话音的特征信息并将其转换为数字信息进行处理、传输,具有较强的信道适应能力,通过该方式实现了在短波/超短波等低速信道上的数字语音通信,是现役电台语音通信的主要手段,一般有2 400 b/s、1 200 b/s、600 b/s 3种速率可选[3]。
从以上分析可见,电台数字话正常通信的前提是数据通信速率在600 b/s以上。在恶劣电磁环境中,数据通信速率很难稳定在600 b/s以上,语音通信便无法进行。短波电台数传速率在600 b/s以下,还有300 b/s、150 b/s、75 b/s和极低速等几档。根据香浓定理,在信道带宽一定情况下,信噪比与信道速率成反比,随着信道速率降低,对信噪比的要求也随之降低。因此,通过数据传输信道传输语音信息是提升语音通信抗干扰能力的有效途径。
香浓定理为:
与信道速率之间函数关系简化为:
转换为分贝后为:
根据短波电台技术指标,x≈3,因此:
假设短波电台信道带宽固定,根据式(2)计算得短波电台典型数传速率对应信噪比见表1。
由表1可见随着数传速率的降低,对信噪比的要求也随之降低。在极低速模式下,信噪比可以降到-18 dB,是数字话的1/125。可见通过数据信道传输语音信息可大幅提升语音通信的抗干扰能力。
表1 短波电台数传速率与信噪比对应关系
3.1.2 编码方式
话音通信比数据通信实时性要求更高,实际生活中都有体会。例如双方通过短消息通信,对传输延时感觉没那么直观,如果双方是电话通信,传输过程中的延时、卡顿直接影响到通话体验度。
语音通信过程包括说话、语音识别、传输和合成4部分[5],如图3所示。接听者只要开始收到对方语音即认为已经收到,不在意话音持续时间,因此,语音合成时间可以不考虑。语音识别的最小单位是断句,识别装置必须接收完一个断句后才能开始识别,因此,说话速度是影响语音通信质量的一个因素。根据以上分析,影响语音通信质量有说话延时、语音识别延时和传输延时3方面因素。播音员级说话速度为305汉字/min[6],一个断句识别速度约为300 ms,这些指标在目前已是较高水平。在通信设备传输速率短时内无法大幅度提升情况下,对语音信息进行高效率压缩编码,减少传输数据量是提高语音通信质量最有效的途径。下面主要研究基于GBK库的自由语音和基于自定义命令词库的命令词两种编码方式。
图3 语音通信各阶段延时特性
自由语音编码以GBK库为基础,每个汉字用两个字节的代码表示,对字符的组合方式、字符数量均无要求,所能表示的内容较为丰富,目前GBK库共收纳了21 003个汉字。命令词是通过若干字节代码对命令进行编码,2个字节代码可编码65 536条命令,3个字节代码可编码1 677万条命令。在军事指挥领域,指挥用语主要以军语为主,文献[7]共收纳了6 562条军语,因此,2字节代码完全可满足当前军语的编码要求。
图4 命令词编码方式的编码速率
由图4可见编码速度随着军语汉字数的增多而降低,最大为81 b/s,最小为5 b/s分别是数字话的1/7和1/120。无论是自由语音方式还是命令词方式,与电台数字话相比,编码效率明显提升,对通信信道的要求也相应降低。
设语音通信从说话到开始接收话音的时延为:
实际应用中为了与数据指挥系统铰链,语音编码后的信息传输主要依托短报文传输和分发体制,因此,信道上传输的除了语音编码还包括短报文控制信息。短报文传输报文头为41字节,假设信道数传速率为V,则按自由语音编码的传输延时为按命令词编码的延时为绘制当n=1、2、5、8、15、20时数传速率(V)与时延(t)关系如图5所示。
由图5可见,军语汉字数越少,自由语音编码和命令词编码之间时延差距越小。当信道速率高于150 b/s时,两种编码方式时延基本接近;当信道速率低于150 b/s时,命令词编码方式效率更高,且信道速率越低效果越明显。
综合分析表1、图4、图5可得,命令词方式具有编码效率高、对信道要求低,可用于信噪比低于-5 dB以下恶劣电磁环境下。但命令词编码方式信息量较少,所能表达的意思有限,灵活性不足,无法表示时间、地点、位置等变量信息。因此,设计基于带变量槽位的语音模板,充分利用自由语音信息量大、灵活性高,命令词编码效率高等优势,是今后语音编码的方向。
图5 数传速率与时延关系图
3.2 语音识别准确率提高技术
语音识别是模拟话音数字化重要环节,语音识别准确率直接影响到通信成功率,语音识别流程如图6所示。
图6 语音识别流程图
从语音识别流程可以看出,可以从4方面提升语音识别准确率。
3.2.1 语音增强
战场环境中,环境噪声高,噪声组成复杂,信噪比低,影响语音识别准确率。提高语音信号信噪比,还原信号是提升语音识别准确率的关键步骤。双麦克增强技术是解决语音识别中噪声问题的有效方法[8],其原理是,一个信道用于采集背景噪声,另一个信道采集背景噪声与话音信息的混合信号,将两个信道信号融合处理后得到原始话音信号,模型如图7所示。图8为在95 dB至105 dB的车载噪声环境中实际测得降噪前后信噪比,经过双麦克语音增强,信噪比增加了20 dB,可有效还原话音信号,保存了语音信息完整性,为语音识别准确率提升奠定了基础。
图7 双麦克增强技术原理图
图8 降噪前后信号信噪比
3.2.2 声学模型训练
语音识别受环境影响较大,在安静的环境、野外环境、车载环境、机载环境等,其声学模型都不一样,如果用在办公室环境下训练的模型在车载环境应用,识别率会有一定影响。不同的人说话、不同说话风格、不同口音,对识别率也存在较大影响。通过采集大量具有不同话音特征的话音录音,特别是对特定用户有针对性的采集话音录音,用于声学模型训练并扩充声学模型库,可提高识别准确率。
3.2.3 语言模型训练
汉语中存在大量同音词,相同语音针对不同的应用语境,具有不同的语义,例如,“gōngjī”一音,在日常语言环境应识别为“公鸡”,而在战场环境中应识别为“攻击”。因此,需要搜集大量实际应用环境的语言语料,进行一定时间的语言模型训练,从而提高识别准确率。
3.2.4 基于关键词的常用语词库
汇集作战常用命令的军语库内容及范围相对固定,建立基于军语关键词的词库,并为每条军语按其组成汉字及军语含义设定一组可以体现其唯一性的特征关键词,只要识别到该关键词即可准确翻译成完整的军语,可极大提升识别准确率和识别速度。
3.3 语音指挥与数据指挥系统铰链技术
语音指挥系统与数据指挥系统铰链技术指的是打通两套系统接口,利用对方系统已有成果,实现效能增倍,提升指挥能力。两套系统铰链技术主要包括:完善指挥通信名录,扩充语音指挥号码参数,实现席位与语音号码绑定;定制与数据指挥数据格式兼容的语音数据格式,语音数据直接可作为指控软件数据来源,实现两类数据的同传输、同存储、同处理、同显示;增加语音网关,实现基于传统电路交换格式、VOIP协议的语音信息与基于数据传输报文的语音信息之间的交换,从而实现语音信息的一网通。
试验验证环境如图9所示,A、B两组采用相同的设备,每组分别由信息终端(含耳麦)、短波电台组成,电台与信息终端之间通过RS232串口互连。因不同体制网络的控制协议不同,协议开销也不同,反映到数据通信额外开销也不同。因此,本试验选用透明传输电台,降低不同网络控制协议开销差异。两组分别位于10层办公楼的1楼房间和顶楼平台。
图9 试验验证环境
试验过程如下:
①在信息终端上安装某指控软件,并配置通信名录等参数;
②设置电台数据通信速率分别为极低速、75b/s、150 b/s、300 b/s、600 b/s、1 200 b/s、2 400 b/s,确保通信双方电台通信正常;
③因自由语音识别准确率与词库大小密切相关,而短期内生成单机版词库较困难,因此,试验采用命令词编码方式。先期生成包含1 000条常用命令词的自定义词库,命令词长度从4个至15个汉字不等,平均长度为11个汉字。词库包含精确到分的坐标库;
④A、B通过语音操作向对端发起50次语音对话,记录每种速率下100次对话的语音识别一次成功率、平均接收成功率和平均时延见表2;
⑤在300 b/s速率下,A、B分别通过语音向对方报送10个位置信息,记录上图成功率。
表2 试验数据
由表2可见,采用命令词编码格式语音识别成功率接近100%,接收成功率保持在98%以上水平,不同语音通话延时滤除计时误差和软件处理延时基本与图5一致。在接收成功情况下,上图成功率为100%。
以上试验是在基于命令词库的有限范围内进行的,但词库大小仅影响语音识别成功率。随着自由语音词库不断扩展和完善,基于自由语音编码方式,以及两种编码的混合方式也同样具有以上试验效果。
针对当前语音指挥存在的不足,本文提出了通过语音识别准确率提升技术、面向窄信道的语音编码技术、与其他指挥控制系统铰链技术,利用电台数据信道传输语音信息的解决方法,实现了战术条件恶劣电磁环境下语音指挥的全网通,打通了语音指挥和数据指挥之间接口,实现了指挥能力倍增。最后对所提出的技术及解决措施进行了试验验证,达到了预期目的。
[1]王剑锋,周龙.浅谈军用无线通信的特点[J].通信技术,2011,44(7):4-6.
[2]侯灿靖,达新宇.CVSD仿真及其在某地空电台语音终端中的应用[J].火力与指挥控制,2008,33(10):149-151.
[3]尤增录.短波通信网[M].北京:解放军出版社,2010.
[4]张刚,陈衍翊.通信中的话音编码技术[J].计算机与网络,1995(1):43-49.
[5]赵海峰,毛文博.指挥员命令语音识别算法[J].指挥信息系统与技术,2014,5(2):31-35.
[6]李明娟.浅谈新闻播音速度的掌控[J].当代电视,2008(6):63-65.
[7]中国人民解放军军事科学院.中国人民解放军军语[M].北京:军事科学出版社,1997.
[8]潘丽杰.基于双麦克风降噪技术的语音识别系统[J].现代电子技术,2016,39(2):137-139.
Research on Voice Command Technology for Tactical Environment
CAI Hai-xing,LIAO Sheng-quan
(The 28th Research Institute of China Electronics Technology Group Corporation,Nanjing 210007,China)
Although voice command has advantage of data command in tactical environment,it is preventingvoicecommandfromeffectingthatcomplicatedgeographicalenvironment,bad electromagnetic environment and low channel bandwidth etc.A general idea about voice command in tactical environment is raised based on situation analysis.Then,the paper puts the core technology and solution to enhance capability of voice command in actical environment,which are proved feasible by experiment.
tactical environment,voice command,speech recognition,speech coding
E141;TP399
A
1002-0640(2017)04-0122-06
2016-03-18
2016-04-03
国家自然科学基金资助项目(61379118)
蔡海兴(1979-),男,浙江诸暨人,硕士研究生,高级工程师。研究方向:指挥信息系统总体设计。