语音技术在塔台模拟机上的应用

2020-04-22 20:37胡誉
无线互联科技 2020年4期

胡誉

摘   要:基于空管模拟训练机对空管人员训练的重要性和优越性以及塔席特点,利用计算机实现飞行器动态特征的场景再现,设定多场景、多任务的训练科目是目前采用的普遍做法。文章依托塔台模拟机性能特点,采用有限词汇量识别方法,结合空管发音规则、语法结构、发音标准以及中英双语等特点,采用动态时间归正识别技术和语音同步叠加算法实现语音编码、识别与合成,实现了多局部最优化决策。

关键词:塔台模拟机;语音技术;动态时间规整识别;PSOLA算法;内容扰乱系统

科学技术的飞速发展,对空中管制人员数量和综合素质提出了更高的专业性要求,采用先进技术手段对空中交通管制人员进行高水平训练的需求与日俱增,利用塔台模拟训练系统,通过模拟器模拟现实环境可能遇到的大流量、恶劣天气、紧急特情等状态,对空中管制人员进行不受航班时刻限制、不受时间限制的有效强度、全面的业务培训,大大降低了实地训练的风险和成本。依托塔台模拟机性能特点,采用小词汇量合成手段和基音同步叠加算法,实现训练人员及教练员、机长之间的语音通信,既可以满足实训任务要求,又可以实时调整语调、语速,满足语音识别需求。总之,利用模拟的方法进行管制服务,通过真实场景再现,从而提高空管人员训练的质量和安全[1]。

1    语音合成及识别技术

1.1  语音编码技术

语音编码技术是实现语音合成及语音识别的关键技术。20世纪80年代之前的语音编码技术主要采用波形编码和参数编码。波形编码以取样定理为基础,其特点是音质效果较好,但是编码码数较多,占用较大空间;参数编码是依据人类发音机理,同步提取语音特征参数实现编码传输的一种方法,数码率低、音质效果差。随后很多国家采用了混合编码技术,其采用软件算法对语音信号进行解析,多采用多数线性预测和多带激励等算法实现波形的激励和声道传输功能。

混合编码线性预测算法是应用最广泛、最有效的语音分析技术之一。线性预测算法能够快速、精准地提取一组估计语音信号谱幅度,形成语音信号的声道滤波器,实现语音快速编码和语音识别、合成。线性预测算法采用数学模型中的夹逼准则对语音信号当前某个样位进行阶数(项数)线性组合的逼近,阶数系数利用最小误差(实际样位与预测值误差)阶乘准则计算求得,系数随时间(5~20毫秒每帧)变化,根据帧实现参数的刷新。线性预测算法的码激励(Code Excited Linear Prediction,CELP)为多带激励模型,由于纯浊音(周期性)和纯清音(非周期性)构成每帧语音信号,在语音编码模型中对话音进行多段分解,依据清浊音(周期性和非周期性)判决,从而实现激励的语音谱混合。因此线性预测算法对于语音合成的自然度、抗噪声等功能比较优秀。另外,随着科学技术不断发展,现在的语音编码技术具备更加优秀的语音质量,而且抗干扰性更强,数码率更低,时延特性更加优越。

语音识别技术一般采取特征提取、语音识别单元选取、模式匹配准则、模型训练等技术实现。特征参数提取主要采用线性预测(Linear Prediction,LP)分析、Mel参数、小波分析等技术;模式匹配及训练多采用动态时间归整(Dynamic Time Warping,DTW)、隐马尔可夫模型(Hidden Markov Model,HMM)以及人工神经元网络(Artificial Neural Networks,ANNs)等技术实现[2]。

1.2  语音合成技术

语音合成技术主要采用计算机实现语音编码、识别、合成,最终形成清晰、明确、自然、具有张力和表现力的人类语言。20世纪60年代,国外首次研发并应用了英语文本朗读(Text to Speech,TTS)系统,我国也在20世纪80年代完成了汉语语音合成TTS技术,这是特定应用场景下的一种语音输出系统,尤其是塔台空中管制领域,应用录音、重放对有限语言词汇进行特殊拼接,实现航班信息发布、语音报时、航空语音通信等。另外一种为文字-语音转换系统,可以实现文字到语音的转换,结合人类语言特点,模拟人类语音并提取特征参数,然后利用计算机估计出声道截面积函数或者声道谐振特性,再利用Holmes共振峰、线性预测编码(Linear Predictive Coding,LPC)、分层服务提供程序(Layered Service Provider ,LSP)等参数合成器形成规则语音波形。再有是采用拼接语音合成技术,广泛采用语音合成算法把声音基元(音素、二元组 、三音子、音节、词或句子)相互拼接组合,输出连续语流。计算机存储语音基元,合成时从语音数据库中读取基元、拼接、韵律修饰。拼接语音基元具有重音、声调、发音速率等特征,因此,拼接语音合成输出的语音更加清晰自然,音质效果更高,语音更贴合人类自然声音,语音基元存储不受限制,但是拼接语音合成韵律参数如基频、时长、音强等修改规则比较困难。TTS系统通过韵律修饰,利用计算机系统对语调、重音等快速模拟,实现语速、调高需求[3]。

2    塔台模拟机语音合成系统设计实现

2.1  系统设计

结合航空塔台管制语言特点,塔台模拟系统语音识别管制指令、语句和短句等词汇量有限,属于有限词汇量识别范畴;再有现实管制应用场景中,要求语音识别具有速度快、响应及时、通信流畅等特点,因此采用动态时间归正识别技术和语音同步叠加算法实现语音编码、识别与合成。塔台模拟系统语音合成流程如图1所示。塔台模拟训练时,教练员通过其工作站对训练计划、训练场景、训练难度、训练次数和进度、飞行特情等进行设置、保存,并对训练过程进行监控,通过语音通信系统掌握受训人员实时动态。模拟机长工作站主要对培训人员进行机长任务临时授权,通过显示器和通信设备完成机长职责,进一步增加训练的真实度。管制员工作站主要是复现塔台管制员真实工作环境,严格按照管制席位设置,进行设备重现,受训人员通过模拟器训练平台可以观察模拟机场场面图、飞行数据流量图以及机场气象数据实时信息,指挥飞行计划,制定飞机进场单等真实工作状态。具体训练流程是管制员向模拟机长位发出飞机调度指令后,模拟机长席位根据指令与管制员进行语音通话同时在模拟系统命令行中输入飞机动作指令,指令输入并正常执行后,模拟系统中的命令行发声系统自动向管制员席位应答管制语句。

2.2  语音合成实现

根据国际民航组织统一标准的航管语音标准专业用语,空管调度语句具有规范的语法和结构,因此,语音合成前,要建立指令规则库、基音库以及语音规则库。指令规则库实现各种指令信息的分解,并提取特征参数形成指令序列串;语音规则库为空管调度发音规则与结构库。命令行发声系统中的命令序列串生成后,再利用汉明窗函数和插值(二次线性插值)处理实现基元拼接,即根据基音库生成映射的基音元序列后在调取语音规则库发音规则和语音结构最终合成需要的语音波形通过计算机系统进行语音输出[4]。

3    结语

塔台模拟培训系统语言相对规范、统一和有限。因此采用有限词汇量识别方法,结合空管发音规则、语法结构、发音标准以及中英双语等特点,采用动态时间归正识别技术和语音同步叠加算法实现语音编码、识别与合成,实现了多局部最优化决策。语音同步叠加算法能够对音素、二元组 、三音子、音节、词或句子等声音基元进行韵律特征(时长、基频、短时能量等)进行调控,使语音合成自然度和清晰度高,而且语音合成技术具备抗干扰性强、数码率低、时延特性优越等优点。

[参考文献]

[1]任蕊,苗振江.基于PSOLA算法的情感语音合成[J].系统仿真学报,2008(S1):423-426.

[2]楊璐字.中文语音识别技术在塔台模拟机中的研究与应用[J].微计算机信息,2012(10):243-245.

[3]张晓蕊.语音变调算法研究及其在语音合成中的应用[D].济南:山东大学,2011.

[4]李锐.语音技术在塔台模拟机上的应用[D].成都:四川大学,2004.