基于深度学习的目标说话人语音提取

2024-06-01 02:48王志雄
电脑知识与技术 2024年10期
关键词:单通道

王志雄

摘要:人类能够在多人交谈的复杂环境中专注并识别目标说话人的语音,而现有机器技术尚未完全达到这一水平。针对这一实际应用场景,本文提出了一种时域目标说话人语音提取网络架构,该架构无需将混合语音分解为幅度谱和相位谱,而是直接将其转换为嵌入系数,从而规避了复杂的相位估计。该网络由四个关键部分构成,即说话人辅助网络、语音编码器、目标说话人语音提取器以及语音解码器。具体而言,语音编码器负责将混合语音转化为嵌入系数;说话人辅助网络则通过学习以说话人嵌入形式表示目标说话人特征;目标说话人语音提取器以嵌入系数与目标说话人嵌入作为输入,进而估计出一个接收掩模;最后,语音解码器根据处理过的嵌入系数重新构造出目标说话人的语音。实验结果显示,在开放评测环境下,相较于基准模型,所提方法在SDR(Signal-to-Distortion Ratio) 和SI-SDR(Source-to-Interference Signal-to-Distortion Ratio) 指标上分别取得了相对提升2.62dB和2.52dB的成绩。实验结果有力证明了该方法具有更好的抗干扰性和泛化性能。

关键词:单通道;目标说话人语音提取;时域语音信号;泛化性;语音编码器;语音解码器

中圖分类号:TP311 文献标识码:A

文章编号:1009-3044(2024)10-0037-04

猜你喜欢
单通道
基于联合聚类分析的单通道腹部心电信号的胎心率提取
基于扩展卡尔曼滤波和奇异值分解算法的单通道胎儿心电提取方法
基于感知掩蔽深度神经网络的单通道语音增强方法
一种基于单通道腹部信号的胎儿心电提取算法
基于扩频码周期性的单通道直扩通信半盲分离抗干扰算法
一种新型单通道光纤滑环动态测试系统
采用6.25mm×6.25mm×1.8mm LGA封装的双通道2.5A、单通道5A超薄微型模块稳压器
Mouser 率先供应Maxim高速20位ADC
基于阶比滤波的单通道缸盖振动信号盲源分离
单通道空肠间置在贲门癌近端胃切除术中的应用