基于深度学习的目标说话人语音提取

2024-06-01 02:48:13王志雄

电脑知识与技术 2024年10期

王志雄

摘要：人类能够在多人交谈的复杂环境中专注并识别目标说话人的语音，而现有机器技术尚未完全达到这一水平。针对这一实际应用场景，本文提出了一种时域目标说话人语音提取网络架构，该架构无需将混合语音分解为幅度谱和相位谱，而是直接将其转换为嵌入系数，从而规避了复杂的相位估计。该网络由四个关键部分构成，即说话人辅助网络、语音编码器、目标说话人语音提取器以及语音解码器。具体而言，语音编码器负责将混合语音转化为嵌入系数；说话人辅助网络则通过学习以说话人嵌入形式表示目标说话人特征；目标说话人语音提取器以嵌入系数与目标说话人嵌入作为输入，进而估计出一个接收掩模；最后，语音解码器根据处理过的嵌入系数重新构造出目标说话人的语音。实验结果显示，在开放评测环境下，相较于基准模型，所提方法在SDR（Signal-to-Distortion Ratio）和SI-SDR（Source-to-Interference Signal-to-Distortion Ratio）指标上分别取得了相对提升2.62dB和2.52dB的成绩。实验结果有力证明了该方法具有更好的抗干扰性和泛化性能。

关键词：单通道；目标说话人语音提取；时域语音信号；泛化性；语音编码器；语音解码器

中圖分类号：TP311 文献标识码：A

文章编号：1009-3044（2024）10-0037-04