语谱
- 彝语北部方言辅音塞擦音声学特征分析研究
彝语辅音z(a)语谱图Fig.3 Yi Consonants z(a)spectrogram表2 彝语辅音z(a)声学参数表Table 2 Yi Consonants z(a)Acoustic parameter table辅音za发音时双唇微微张开,上下牙齿自然合拢(不完全闭合,有一定缝隙),舌尖靠近牙龈,气流从舌端和牙龈中的窄缝隙泄出,VOT为正值(0.001 7),但时长较短送气较弱.从图3辅音za语图可以看出开始有能量较弱的充值条,后面是高频段有些
西南民族大学学报(自然科学版) 2023年4期2024-01-10
- 基于掩蔽自监督语音特征提取的帕金森病检测方法
理信息的M el语谱图特征,对患者语音进行全局时序化表示;然后,利用掩蔽自监督模型来掩蔽部分Mel语谱图特征并对其进行重构,从而学习到帕金森病患者语音的更高级特征表示,并利用后续的帕金森病检测结果来评估所提的掩蔽自监督模型的性能。其中,为解决帕金森病语音数据稀缺的问题,先在LibriSpeech公开数据集上对掩蔽自监督模型进行预训练,然后基于迁移学习的思想,利用帕金森病语音数据对预训练好的掩蔽自监督模型进行微调和加权求和,以提升该模型特征表示学习的性能。结
电子与信息学报 2023年10期2023-11-18
- 用于语音检索的三联体深度哈希方法
维特征参数不同,语谱图[12]以二维模式携带时域频域信息,是语音特征很好的表现形式。将语音转换成语谱图图像的形式,从语谱图图像的角度研究基于深度学习的语音检索方法,可将图像领域中的三联体深度哈希方法的优势在语音检索领域发挥出来,对于海量语音数据检索具有重要的研究意义和应用价值。综上所述,为提高语音检索效率和精度,确保生成的二值哈希码更加高效紧凑,且具有最大鉴别力,本文引入注意力机制-残差网络(Attentional mechanism-Residual N
计算机应用 2023年9期2023-09-27
- 基于语音特征融合的帕金森疾病诊断
此,笔者提出基于语谱图和声学特征的语音识别模型,旨在从语音中获取更丰富的信息,通过傅里叶变换转换成语谱图,结合手工提取的声学特征,更好地捕捉语音的动态病理特征,利用卷积神经网络和循环神经网络结构,进行PD检测,为了评估所提方法的性能,使用来自PC-GITA数据集的帕金森病语音记录,与UCI数据库中提取好的特征信息数据不同,该数据集提供完整的原始语音信号,结果表明,得到了84.1%的分类准确率。1 语音特征融合算法1.1 模型提出模型总体结构如图1所示。所提
数字制造科学 2023年3期2023-09-20
- 面向战场环境下的语种识别
2]提取线性灰度语谱图特征(LGSS),将语种识别转为图像识别,取得了很大进展。Lopez等[13]将特征提取、特征变换和分类器融于一个神经网络模型,后续在此基础上又研发出不同的神经网络,包括延时神经网络[14]、残差神经网络[15](ResNet)等。Wang等[16]将注意力机制模型结合长短时记忆循环神经网络搭建的端到端系统也取得了不错的效果。Jin等[17]从网络中间层中提取LID-senone特征。同年Cai等[18]提出了一种基于可学习的字典编码
兵工学报 2023年7期2023-08-08
- 连续汉语语音的自动切分研究*
合利用端点检测、语谱图分析、基音周期轨迹检测等技术研究了汉语连续语音的自动切分。研究了一种连续语音多级切分方法,计算流程如图1。图1 连续语音多级切分计算过程2 语音特征参数提取语音信号是一种短时信号,在短时间内可看作平稳信号[6]。语音信号携带有语义和大量的说话人特征。语音特征参数可分为时域特征参数和频域特征参数。2.1 预处理计算语音特征参数之前,要对语音信号进行预处理,一般包括预加重、分帧和加窗[7]。预加重可以增强语音高频部分能量,使语音特征更明显
计算机与数字工程 2023年4期2023-08-02
- 基于中心对称局部二值模式的合成伪装语音检测方法
换得到语音信号的语谱图,再利用中心对称局部二值模式提取语谱图的纹理特征,并用该纹理特征训练随机森林分类器,从而实现真伪语音的判别。该方法综合考虑语谱图中像素点的数值大小和位置关系,包含了更加全面的纹理信息,并将特征维度降低至16维,有利于减少计算量。实验结果表明,在ASVspoof 2019数据集上,与传统的基于局部二值模式的伪装语音检测方法相比,所提方法将合成伪装语音的串联检测代价函数(t-DCF)降低了16.98%,检测速度提高了89.73%。说话人验
电信科学 2023年1期2023-02-09
- 面向战场环境下的语音传输与重构
输,提出一种基于语谱图压缩传输和重构的方法。首先将语音信号压缩为语谱图进行传输;再在接收端对图像进行去噪;最后根据图像重构出语音信号。实验结果表明,本文方法在一定程度上解决了高压缩比和低信噪比下重构语音质量不佳问题,达到了提高重构语音质量的目的。1 构建语音传输和接收模型声音和图像是听觉和视觉上两种模态接收的输入信息,在数字处理领域各自有不同的处理方法[17]。考虑到可以进行视听觉交互融合的方式进行信息交流,本文将语音信号压缩为语谱图信号传输。对语谱图的研
兵工学报 2022年11期2022-12-01
- 一种水电厂水轮机碰撞故障声音识别的研究与应用
声音,并预处理成语谱图样本集,利用样本集对卷积神经网络进行训练,得到能够识别故障碰撞声音的故障识别模型,通过故障识别模型对水轮机的实时转动声音进行实时监测,实现通过故障碰撞声音识别水轮机是否发生故障碰撞。系统设置有人工纠偏单元,通过人工介入提高系统的鲁棒性,能够根据纠偏结果进一步对故障识别模型进行优化,提高识别的准确性。3 基于语谱图的声音数据预处理3.1 语谱图在水轮机故障碰撞故障音频识别过程中,不仅包含需要提取的故障信息,还存在干扰信息及环境噪声。为了
电力设备管理 2022年20期2022-11-28
- 基于CEEMDAN-小波阈值和3D-CNN的变压器铁心松动故障诊断模型*
构。2 Mel-语谱图语谱图是声音信号分析处理的重要特征频率谱图,能够反映信号在不同时间下的频率能量分布。完整地建立声音信号在时域与频域之间的联系,实现声音特征信息的最大化,有助于后期声纹特征的提取与学习。将采集到的变压器各种工况下的声纹信号,用上述CEEMDAN-小波阈值滤波法得到纯净的变压器运行的声音信号。利用滤波后的信号绘制声纹语谱图,语谱图的绘制包括分帧、加窗和离散傅里叶变换过程。由于变压器噪声较人声更加平稳,可以适当增加帧长以保证语音信号特征的完
电机与控制应用 2022年10期2022-11-03
- 抽油机音频故障分析研究与应用
转换为特征图像(语谱图),利用深度学习的卷积神经网络对图像分类识别,从音频信号中提取梅尔频率倒谱系数(MFCC),将音频信号转换为语谱图,通过深度卷积神经网络提取图像特征,应用迁移学习和知识蒸馏等多种学习方法,结合深度残差网络进行抽油机音频故障分类。2 抽油机音频采集技术通过研究音频智能采集器在不同安装位置所获取的音频数据,排除来自其他方向的干扰音频信号,选择监测能表征抽油机工作状态的声音信号。2.1 声源定位系统声源定位系统主要包括: 麦克风阵列、多通道
石油化工自动化 2022年5期2022-10-17
- 基于变压器声纹Mel语谱图-ResNet的铁心松动故障诊断*
对其降维后生成的语谱图,比较这两种模型的识别效果,确定最适合变压器铁心松动故障的声纹识别模型。1 噪声信号预处理1.1 语谱图绘制语谱图能直观地表示语音信号随时间变化的频谱特性,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示[6]。正确建立噪声信号时频域的关系,能从中提取到重要的特征量,有助于后期声纹特征的学习。声纹语谱图的绘制过程包括分帧、加窗和离散傅里叶变换,再计算出每一帧的功率谱,用颜色的深浅表示能量的大小,从而绘制出语谱图[7]。
电机与控制应用 2022年9期2022-09-29
- 基于C语言的语谱图生成
上世纪40年代初语谱图仪问世。语谱图是语音的时域和频域结合的视图,其横坐标是时间,纵坐标是频率,坐标点值为语音采样数据的能量。语音信号的语谱图又称为声纹,在语音信号处理、编码、识别等方面有着重要的应用。考虑到横坐标一个时间点采样数据很难分析出各个频率成分,横坐标一般采用一帧语音采样数据,这样可以通过傅里叶变换得到该帧数据的频谱,即纵坐标。而纵坐标各个频率点的能量不同,如何在一个像素点反映这些不同能量?首先,能量的表示方法有很多种,有的采用幅频的幅度绝对值作
现代计算机 2022年14期2022-09-20
- 基于改进Inception-ResNet_v2的低资源少数民族语音识别
语音信号[5]和语谱图[6]两个角度切入。针对基于语音信号的语音识别研究,李余芳等[7]分别利用特定发音人和非特定发音人所录的语音进行隐马尔可夫模型(Hidden Markov Model,HMM)训练,对普米语孤立词进行识别;赵尔平等[8]利用藏语语音学特征提出改进的藏语孤立词语音识别方法,识别精度可达92.83%;胡文君等[9]利用kaldi 分别训练5种不同的声学模型,发现G-DNN 模型的普米语语音识别率明显高于Monophone、Triphone
软件导刊 2022年8期2022-08-25
- 基于卷积神经网络的鸟声识别实验设计
果绘制STFT 语谱图,同时提取梅尔倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)特征参数,将MFCC特征和STFT语谱图特征放入CNN 进行训练,获取最优的训练参数,利用训练好的CNN完成对鸟声的识别分类,整个实验过程如图1 所示。图1 鸟声识别实验流程图实验时既可使用已训练好的CNN 对MFCC 特征和STFT语谱图特征进行鸟声识别实验,分析比较两者的结果,也可由学生自行编程设计CNN模型进行鸟声识别实验,通
实验室研究与探索 2022年4期2022-08-06
- 基于注意力机制和残差卷积网络的语音增强∗
构,将含噪语音的语谱图作为输入特征,输出为增强后语音的语谱图,最后重构语音信号。2 基本原理2.1 卷积神经网络卷积神经网络一般由卷积层、池化层,上采样层和全连接层组成,通过这些网络层就可以构建一个卷积神经网络。卷积层是通过卷积核和前一网络层输出进行卷积运算来提取特征的,然后偏置项相加,得出当前层的特征。卷积核具有权值共享特性,相对于DNN和RNN可以大大减少参数。卷积层的更新公式如下[17]:式(1)中:xmj代表当前层m的第j个特征图输入;f表示激活函
舰船电子工程 2022年5期2022-06-21
- 汉语方言语音信号的语谱图分析
察不同语音信号的语谱图,可获取语音的一些参数和特征,经分析比对,可识别出不同地方的语言,为语音合成奠定了基础。语音识别技术的发展依赖计算机技术、数字信号处理器(Digital Signal Process,DSP)技术以及人工智能(Artificial Intelligence,AI)技术的进步。要实现人机对话,需要设计制造出一种能将人类语音信号进行自动转换和处理的机器来模拟现实生活中的人,实现人与机器的“无障碍”沟通交流。要设计出能听懂人类语言的机器,关
电声技术 2022年4期2022-06-15
- 基于ResNet模型的儿童口吃类型识别研究
征,将语音转换成语谱图,使用ResNet模型对语谱特征提取并识别.2 儿童口吃语料库构建本文首先对儿童语音进行实地采集,然后采用语音合成技术生成口吃类型语音,再将其随机填充到采集的儿童语音中,模拟真实口吃语音,最后对构建口吃语音及真实口吃语音的语谱图进行相似度分析.2.1 语音采集本文研究所用语料是与书丸子教育有限公司合作,对21名幼儿园儿童进行语音采集所得.每名儿童被要求朗读一段幼儿园教材的文章,语音以 16 kHz 采样率、16 bit 量化的wav格
云南民族大学学报(自然科学版) 2022年2期2022-03-26
- 资源匮乏多语言的语种辨识技术研究
转化为相应的灰度语谱图,其次利用CNN提取语谱图的空间特征,之后运用BiGRU提取语谱图的时间序列信息,最终输出语种的分类结果。本文结构安排如下:第三部分介绍采用的的方法,第四部分介绍实验设置,第五部分描述实验并分析结果,第六部分进行总结。3 本文方法3.1 语谱图生成语谱图是语音信号在图像域的一种表示方法,它能够表示语音信号不同频段的强度,可以通过傅里叶变换从语音信号中产生。语谱图的横坐标表示时间,纵坐标表示频率,同时语谱图中显示了大量与语音特性有关的重
计算机仿真 2022年12期2022-02-09
- DenseNet在声纹识别中的应用研究*
展。近年来,随着语谱图的出现,研究者提出采用语谱图与卷积神经网络相结合的方式进行说话人身份识别[6 - 8],其优势在于语谱图具有很强的综合表征能力,能够充分表示说话人身份的完整信息,且卷积神经网络CNN(Convolutional Neural Network)擅于提取特征的能力,使声纹识别系统的识别性能得到大幅度提升。针对基于语谱图的声纹识别算法的研究目前仍处于初级阶段,文献[6-8]将卷积神经网络视为一种特征提取器,所用卷积层数较少,网络的表达能力有
计算机工程与科学 2022年1期2022-01-24
- 基于时空特征的语音情感识别模型TSTNet
到3个不同尺度的语谱图,分别提取它们的空间特征、时间特征以及前后语义关系,在特征融合模块中将提取得到的3个特征向量融合到一起。1 相关工作1.1 情感描述方式目前主要有2种描述情感的方法:基于离散的方法和基于维度的方法。情感的离散描述方法是将情感离散化,并进一步类别化。陈炜亮等[5]提出一种新的情感识别模型MFCCG-PCA,实现生气、高兴、害怕、悲伤、惊讶和中性6种情感的分类。离散的描述方式简单并且应用广泛,但是情感描述单一。情感的维度描述方法是将情感状
郑州大学学报(工学版) 2021年6期2021-12-14
- 基于二次引导图像滤波的跨模态语音增强方法*
像处理技术来处理语谱图,这种技术已应用于音乐转录、乐器声音分离、降噪等[3-5]. 相反,我们可以从视为语谱图的图像中产生声音信号,这种技术称为图像到声音的映射或模式回放[6-9].Han等[10]将监督学习的方法扩展到去噪中,在没有受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)预训练的情况下对深度神经网络(Deep Neural Networks,DNN)进行训练,DNN被训练直接学习从损坏语音的语谱图到干净语音的语谱
测试技术学报 2021年5期2021-11-02
- 基于计算听觉场分析的单声道的双人语音浊音分离*
文尝试绘制语音的语谱图与基音周期谱图,考虑到帧移越大,绘制效果越好,但计算量也越大,故进行绘制时,对采样率16000Hz的语音,统一以帧长512个采样点,帧移487个采样点的标准进行语谱图与基音周期谱图的绘制,确保一句完整的语音能显示在一幅屏幕范围内的同时,拥有最佳的绘制效果。语谱图的绘制取语音信号进行单帧傅里叶变换后,将所得的振幅谱数据映射到灰度值0~255之间。对第m帧语音信号x(n)进行短时傅里叶变换,得到短时频谱,其中N为帧长,如式(1)所示:单帧
计算机与数字工程 2021年4期2021-10-09
- 基于MD-CGAN的情感语音去噪算法
Iz表示有噪声的语谱图,Ix表示干净语谱图,Ig表示去噪后的语谱图,Iy表示语音情感类别标签。生成器网络G的输入是Iz和标签Iy,输出是Ig,判决器网络D的输入是Ix和Ig,输出为1或0。D需要将Ix判定为真,将Ig判定为假,从而使得G为了通过D的判定,将改变它的参数让Ig更加接近Ix,而D通过反向传播,在判定Ig和Ix方面变得更加优秀。Iy作为整个网络的约束来指导语谱图去噪过程。最后,训练出适合去除语谱图噪声的生成器模型。图1 基于CGAN的语音去噪模型
杭州电子科技大学学报(自然科学版) 2021年5期2021-09-29
- 基于主辅网络特征融合的语音情感识别
得了较好的效果。语谱图是一维语音信号在二维时频域的展开,能够充分反映语音信号在时频域大部分信息。卷积神经网络(convolutional neural networks,CNN)由于其自动学习特征的能力和适用于二维图像数据的特点,目前被广泛用在语谱图中提取特征,进一步提高语音情感识别性能[5-8]。如文献[8]先将语谱图输入全卷积网络(fully convolutional networks,FCN),并在最后一层卷积层使用注意力机制,最后进行情感识别,在
太原理工大学学报 2021年5期2021-09-22
- 简析声纹串并在非接触性网络诈骗案件侦破中的应用
手段 案件串并 语谱图分析1 引言近年来,非接触性网络诈骗案件呈现多发、高发态势,犯罪手段多样,犯罪团伙人员组成复杂,涉案地域广,这些案件特点给案件侦破工作带来前所未有的考验。习近平总书记在对打击治理电信网络诈骗犯罪工作中作出重要指示,强调“坚持以人民为中心,统筹发展和安全,强化系统观念、法治思维,注重源头治理、综合治理,坚持齐抓共管、群防群治,全面落实打防管控各项措施和金融、通信、互联网等行业监管主体责任,加强法律制度建设,加强社会宣传教育防范,推进国际
中国安全防范技术与应用 2021年2期2021-06-11
- 基于自适应滤波法与谱减法的语音增强的研究
音信号的信噪比和语谱图来说明语音增强效果的优劣[15-16].图4和图5分别是原始语音信号和噪声语音信号的语谱图.通过观察可以发现,纯语音信号的语谱图的频率分布是非常规则的,由于没有背景噪声干扰,所以纯语音信号的语谱图只有有声段有频率的分布,在无声段没有频率的分布;含有背景噪声的语音信号的语谱图,在整个时域上都会出现频率分布并且有原始语音信号丢失的现象.因此,根据语谱图中频率在有声段和无声段的分布情况可以判断使用新型谱减算法进行语音增强之后是否能够去除残留
温州大学学报(自然科学版) 2021年1期2021-06-08
- 基于C-LSTM 的鸟鸣声识别方法*
FCT)获得3种语谱数据集,用VGG16 模型对18 种鸟类语谱图进行分类达到了较高的识别准确率。鸟鸣声中不仅包含个性声音的空间特征[8],而且包含了鸣声段之间的时序特征,上述鸟鸣声识别方面的研究均没有充分利用鸟类声纹时序特征。长短时记忆网络LSTM(Long Short-Term Memory)是一种时间递归神经网络,该网络适合于处理具有时间关联度的声纹信号。本文在深度卷积神经网络的基础上加入了长短时记忆网络LSTM(Long Short-Term Me
科技创新与应用 2021年15期2021-06-03
- 基于语谱图的江西境内赣方言自动分区研究
FCC)特征以及语谱图两种不同的语音特征。针对语音特征提取的维度过大问题,在MFCC特征上采取了PCA(principle component analysis)降维处理,在语谱图特征上采用基于卷积神经网络(convolutional neural networks,CNN)系统的自编码降维处理。对降维后的语音特征分别采用k-均值算法聚类、高斯混合聚类和层次聚类对方言自动分区,并采用聚类性能度量指标评价聚类效果。实验结果表明,新型语谱图特征的聚类性能度量内
中文信息学报 2021年4期2021-05-27
- 基于放电声音识别的高压电器绝缘监测研究
本文使用声音信号语谱图和卷积神经网络相结合的方式来提取声音信号的特征参数[6-7]。生成的网络模型具备处理数据能力强、识别率高以及便于优化等优点。对比文献[8]20、文献[9]56,本文方法能够识别的声音信号更加多样化,同时在准确率上也有所提升[10-11]。1 声音信号特征提取信号特征能反映声音的重要本质参数,而信号又处于非稳态且时变的状态,因而声音信号需要进行预处理,便于提取特征。预处理主要是对声音信号进行预加重、分帧以及加窗处理。预加重一般通过数字滤
电气自动化 2021年2期2021-05-13
- 基于CNN的普米语孤立词语谱图分类
于语音信号和基于语谱图的2种语音识别方法.语音识别中,同一个词不同说话者的语速不同,同一个人发同一个音,在不同时刻,所用的时间也不相同[2-3].因此,通过语音信号来统计人类语音的发音特征非常困难.基于语音信号的语音识别中提取的特征参数主要有梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)等,其中MF
西南大学学报(自然科学版) 2021年2期2021-02-01
- 生成对抗网络下小样本语音情感识别方法
时域和频域特征的语谱图信号[11]。首先,对一段长的语音数据执行分帧操作,把语音信号切割成大小相等的片段,其中的每一段为一帧,分别对每一个语音帧进行加窗处理,以减小信号中不连续部分的幅值,通过傅里叶变换计算出每帧语音数据的频率谱,对其平方转化得到对应频谱的能量谱,最后把所得到的结果按照时间维度拼接形成语谱图,如图2所示。图2 语谱图人们的情感变化可以清晰表现在语谱图上。例如,人们伤心时,语速较慢,平均音调较低,语气强度比较低,在语谱图中深颜色部分的面积较小
计算机工程与设计 2020年12期2020-12-28
- 基于CNN-BGRU的音素识别研究
数据集上进行音素语谱图分类任务,基于CNN-BGRU的混合模型在识别效果的准确率明显高于其它4个模型,基于CNN-BGRU的混合模型的正确率可以达98.6%.1 相关工作1.1 VGGNet模型2014年GoogleNet和VGGNet分别获得了ILSVRC图像分类大赛的冠亚军,两个模型都注重从加深网络深度的角度去提升卷积神经网络的性能.GoogleNet对传统卷积层的结构进行了改进,而VGGNet则采用了较小的卷积核,卷积核小能一定程度上减少参数量且方便
云南民族大学学报(自然科学版) 2020年5期2020-12-18
- 融合浅层学习和深度学习模型的语音情感识别
进行结合,提出了语谱图特征提取方法,并应用于语音识别[4]和语音情感识别相关领域[5]。在识别模型研究方面,从浅层学习的支持向量机(SVM)[6]、隐马尔可夫模型(HMM)[7]、高斯混合模型(GMM)[8],到深度学习的卷积神经网络(CNN)[9]、深度置信网络(DBN)[11]和递归神经网络等(RNN)[10]。与传统的机器学习模型相比,深度学习能够提取高层的特征,近年来在计算机视觉领域具有出色的表现,其中卷积神经网络在语音识别、图像识别等领域取得了前
计算机应用与软件 2020年12期2020-12-14
- 汉语连续语音切分技术研究∗
5]。本文通过对语谱图以及基音周期轨迹的分析,研究了一种音节切分的算法,能够有效提高汉语语音切分的准确率。2 端点检测技术语音的端点检测是指从一段原始信号中准确地找出语音信号的起始点和结束点[6]。它的目的是为了使有用的语音信号和无用的无声段与噪声信号相分离,增加后续语音处理的有效性[7]。目前广泛采用的端点检测方法是双门限端点检测技术[8]。本文基于对传统双门限检测法理论的研究,研究了一种多阈值检测方法,有效提高了端点检测的准确率。2.1 双门限端点检测
计算机与数字工程 2020年8期2020-10-14
- 基于ResNet-BLSTM的端到端语音识别
直接将整段语音的语谱图作为输入,相比其他以传统语音特征作为输入的语音识别模型速度更快。其次,从模型结构来看,本文的ResNet与传统端到端系统中的CNN 做法不同,它借鉴了图像识别中做法,通过将语音转化成一张图像作为输入,再将时间和频率作为图像的两个维度,然后通过一些卷积层和池化(pooling)层的组合,这样大大增强了CNN的表达能力。其次在ResNet 后接BLSTM,通过该网络能够学习到语音信号的上下文信息,从而提升端到端模型的识别率。2 DCNN模
计算机工程与应用 2020年18期2020-09-15
- 基于语谱图和神经网络的声纹识别研究
李蜜基于语谱图和神经网络的声纹识别研究李蜜(华中师范大学 物理科学与技术学院,湖北 武汉 430079)随着科技的不断发展,人们对信息安全的要求越来越高,如何更简单、更方便、更加安全地进行身份验证变得异常重要.在卷积神经网络(CNN)的基础上,结合语谱图和直方均衡增强算法对声纹识别特征进行学习和训练.模型使用非固定长度语音段,首先将语音段进行滤波、分帧、加窗和离散余弦变换得到语谱图,再使用直方均衡算法将像素点不均匀分布语谱图转化成像素点能在整个灰度区间均匀
高师理科学刊 2020年4期2020-06-23
- 基于CNN_LSTM的语音情感识别系统设计
。我院设计采用的语谱图作为输入,克服了传统算法在提取情感特征向量时造成的误差,并提出了基于卷积神经网络(CNN)改进的深度学习框架,采用中科院汉语情感数据集CASIA语料库和柏林情感语音库,将语谱图输入到三通道CNN中,每通道设置不同的卷积核,进行多维特征提取,初步训练后,将得到的三组特征组合成新的情感特征向量,通过LSTM再次进行训练,最终得到情感分类。实验结果表明,本文结构在识别多分类情感时,表现良好,在六分类问题上可达到平均92%的识别率。1 基于语
电声技术 2020年3期2020-06-18
- 基于双重数据增强策略的音频分类方法
强后的数据转化为语谱图;三是对得到的语谱图使用随机均值替换方法进行谱图增强,即第二次数据增强。双重数据增强后还需进行卷积神经网络和随机森林分类器[12-13]两个训练过程,以完成整个音频分类流程。1 方法介绍本文方法大体可分为4个步骤,分别为数据预处理、数据增强、获取高层特征和分类器训练,框架结构如图1所示,其核心内容为双重数据增强(Double Data Augmentation,DDA)、神经网络模型(Inception_Resnet_V2)训练、随机
武汉科技大学学报 2020年2期2020-05-12
- 基于语谱图与改进DenseNet的野外车辆识别
宝清,袁晓兵基于语谱图与改进DenseNet的野外车辆识别周鹏1,2,3,李成娟1,3,赵沁1,3,王艳1,唐洪莹1,李宝清1,袁晓兵1(1. 中国科学院上海微系统与信息技术研究所微系统技术重点实验室,上海 201800;2. 上海科技大学信息学院,上海 201210;3. 中国科学院大学,北京 100049针对在野外运动车辆分类过程中,传统梅尔倒谱系数与高斯混合模型分类方法对干扰噪声较为敏感的情况,提出了改进的密集卷积网络结构(DenseNet)方法。首
声学技术 2020年2期2020-05-09
- 基于语谱图和深度置信网络的方言自动辨识与说话人识别
出了一种基于特征语谱图和自适应聚类SOM 的快速说话人识别算法。2 语音信号预处理语音信号中低频部分能量占主体,为了让频谱中高频部分的幅度得到提升,对语音信号做后续处理之前,通常需要用一个一阶高通滤波器对语音信号进行预加重[6][12][13]。本文研究基于孤立词的方言自动辨识和说话人识别,为了将整段语音信号分割成一个个孤立词,需要利用端点检测技术确定每个孤立词语音的起始位置和终止位置[6][7]。双门限判决法是一种常用的语音信号端点检测方法[6][7],
电子技术与软件工程 2020年14期2020-02-03
- 基于Praat的藏语连续语音参数提取仿真和分析
有语音波形绘制、语谱显示、特征参数标注、语音分解和合成等多种功能的语音信号分析研究工具。Praat强大的可视化交互界面,可以直观动态观察语音信号的细节参数。图1是把一个真人录音的语音文件导入到Praat软件后的语音分析界面。2.1 语音时域波形和参数提取在Praat软件环境下,一段语音完成录音后,可以进行语音的各种时域参数提取和分析。图2是一个语音文件的时域语音强度波形图。从强度曲线变化上可以直观的观察这段语音强度的特性,是语音发音过程中节奏变化的体现。在
电子技术与软件工程 2019年20期2019-11-16
- 基于组合DNN的语音分离方法
域波形图和对应的语谱图,图5表示DNN2语音分离系统的纯净语音、混合信号和分离语音的时域波形图和对应的语谱图,图6表示CE_DNN语音分离系统的纯净语音、混合信号和分离语音的时域波形图和对应的语谱图。(a)纯净语音时域波形图(b)混合语音时域波形图(c)分离语音时域波形图(d)纯净语音的语谱图(e)混合语音的语谱图(f)分离语音的语谱图Fig.4 DNN1 speech separation system of pure speech, mixed sig
数码设计 2019年2期2019-09-19
- HR-DCGAN方法的帕金森声纹样本扩充及识别研究
Alexnet对语谱图分类,在数据集[8]上达到86.67%的精确度.将语音信号转换为语谱图,可以利用神经网络识别并提取与研究目标相关的重要声纹特征以自动对图像进行分类.目前,最受欢迎的卷积神经网络(Convolutional Neural Network,CNN)VGGNets中的VGG16模型是用于图像识别和分类的主要工具.VGG16具有拓展性很强、泛化性好等优点,在其他领域的图像数据集上达到很好的效果,作为一种数据驱动模型,依赖大量样本.但现阶段用于
小型微型计算机系统 2019年9期2019-09-09
- 连续汉语语音切分技术研究∗
分析2.2.1 语谱图语谱图[9]反映语音的时频特性,语谱图的横轴表示时间(帧序号),纵轴表示语音信号的频率。语谱图中像素点颜色深表示该点的语音能量较强。语谱图的绘制步骤如下:1)对语音信号进行预处理,再根据式(3)求快速傅里叶变换。2)根据式(4)将Xn(ω)转换为振幅谱,R 表示Xn(ω)的实部,I表示Xn(ω)的虚部。3)将振幅转换为灰度图像数据。振幅越大,像素点的灰度越深;反之越浅。4)绘制语谱图,因为实数的振幅谱为偶函数,关于中心对称,所以绘制语
计算机与数字工程 2019年7期2019-07-31
- 基于AlexNet模型的佤语语谱图识别
主要从语音信号和语谱图两个角度切入.语音信号,主要的研究方法有隐马尔科夫模型、深度置信网络等.蔡琴[12]建立了维吾尔语的连续数字语音声学模型,对维吾尔语连续数字短语识别率达到80%,词识别率达到91.19%.胡文君[13]分别训练了5种不同的声学模型: Monophone、Triphone1、Triphone2、O-SGMM、G-DNN,实验结果表明,随着语料量的增加,系统鲁棒性提高.语谱图,宋洋[14]针对维吾尔语音素的语谱图像提取二值和边缘特征,建立
云南民族大学学报(自然科学版) 2019年4期2019-07-31
- 基于免疫遗传优化支持向量机的普米语孤立词语谱图分类
为研究对象,借助语谱图研究其特征,最终实现普米语孤立词分类.1 语音识别相关研究工作目前,语音识别的方法可以归结基于语音信号和基于语谱图2种.1) 基于语音信号的方法.语音信号是一种非线性随机并存在混沌的机制,就目前而言处理这种机制的模型主要语音信号的线性模型和非线性模型两种.线性模型的理论基础是确定性线性系统理,而非线性模型则视语音信号为一些调幅—调频信号的叠加,其核心是瞬时频率.在此之前本团队基于语音信号的普米语语音识别,已取得了一些成果[2-4].2
云南民族大学学报(自然科学版) 2019年1期2019-01-22
- 声音-图像的跨模态处理方法综述
最重要的中介就是语谱图。语谱图将声音的频谱随时间变化的信息展现在一个二维平面图上,其中横轴是时间,纵轴是频率,某一点处颜色的深浅代表了对应时刻和频率的信号能量大小,也被称为声谱图(spectrogram)。它虽然反映了声音信号的特征,但是却和二维图像具有相同的属性。以它为中介,可以完成图像到声音和声音到图像的双向转换,达到跨模态处理的目的。本文接下来一方面介绍了从语谱图的角度进行声音分类的研究内容及进展情况,包括用于音乐流派分类图像特征类型及其分类的精确度
中国传媒大学学报(自然科学版) 2018年4期2018-08-02
- 基于时频域特征的场景音频研究
得到待分析信号的语谱图, 对于其中涉及到的重要参数进行调整, 使其中的声学特征得到完整保留, 使语谱图的表现效果达到最佳状态, 进而可应用于场景音频的分类处理及模式识别等研究方向[6]。1 语谱图语谱图是一种可视化语言, 能描述声音时间-频率-频谱能量密度的变化, 被广泛应用于音频识别及去噪领域[7,8]。语谱图的显示简洁明了, 灰度语谱图上会用深浅不同的黑灰色条纹呈现出有规律的形状, 即声纹, 它反映音频信号的变化规律。语谱图的横坐标为时间, 纵坐标为频
吉林大学学报(信息科学版) 2018年3期2018-06-13
- 语音情感识别算法中新型参数研究*
,提出一种新型的语谱图显著性特征来改善语音情感识别效果。识别算法利用选择性注意模型获取语音信号语谱图像的显著图,并从中提取显著性特征,结合语音信号传统的时频特征构成语音情感识别特征向量。最后,利用KNN分类方法进行语音情感识别。实验结果表明,加入显著性特征后识别率有明显提升。语音情感识别;显著性特征;KNN分类当今世界科技水平高速发展,人们也对计算机提出了更多要求。在智能人机交互系统构建中,语音情感识别已成为关键技术之一。对语音信号的情感分析,使得人机交互
电子器件 2017年5期2017-11-03
- 语谱图二次傅里叶变换特定人二字汉语词汇识别
100081)语谱图二次傅里叶变换特定人二字汉语词汇识别潘 迪1,梁士利1,魏 莹1,李广岩1,许廷发2,王双维1(1.东北师范大学物理学院,吉林 长春 130024;2.北京理工大学光电成像与信息工程研究所,北京 100081)以语音信号的语谱图作为处理对象,提出了基于语谱图二次傅里叶变换对特定人二字词汇识别的方法.首先对语谱图二次傅里叶变换频域图的图像意义以及相应的语音特性表征进行了详细剖析;然后对语谱图频域图像进行二进宽度行投影,将投影值作为语音识
东北师大学报(自然科学版) 2017年2期2017-06-13
- 基于语谱图提取瓶颈特征的情感识别算法研究
10003)基于语谱图提取瓶颈特征的情感识别算法研究李 姗,徐珑婷(南京邮电大学 通信与信息工程学院,江苏 南京 210003)传统的谱特征(诸如MFCC)来源于对语谱图特征的再加工提取,但存在着因分帧处理引起相邻帧谱特征之间相关性被忽略的问题和所提取的谱特征与目标标签不相关的问题。这导致了从语谱图中提取的特征丢失了很多有用信息。为此,提出了获取深度谱特征(Deep Spectral Feature,DSF)的算法。DSF的特征是把直接从语谱图中提取的谱特
计算机技术与发展 2017年5期2017-06-05
- 基于语谱图和卷积神经网络的语音情感识别
君鹏,杜留锋基于语谱图和卷积神经网络的语音情感识别田熙燕1,徐君鹏1,杜留锋2(1.河南科技学院信息工程学院,河南新乡453002;2.南京邮电大学通信与信息工程学院,江苏南京210003)针对语音情感识别的特征提取和分类模型构建问题,首先提出了一种基于语谱图的特征提取方法,将语谱图进行归一灰度化后,利用Gabor滤波器进行纹理特征提取,并采用主成分分析(principal componentanalysis, PCA)对特征矩阵进行降维;然后分析了卷积神
河南科技学院学报(自然科学版) 2017年2期2017-05-11
- 基于设备本底噪声频谱特征的手机来源识别
机品牌的本底噪声语谱本底噪声的定义表明,本底噪声的特性与手机的电路设计和电子元器件的使用密切相关。由于不同型号的手机在电路设计和电子元器件的使用上存在部分差异。所以,本底噪声可以作为手机的“指纹”进行手机的来源识别。2.2 本底噪声的性质为了研究本底噪声的特性,对现下流行的7个品牌24个型号的25台设备 (其中有两台iPhone 5)进行了研究,具体手机型号见表1。实际本底噪声样本是在无回声的录音棚的静音环境下录制的。为了避免其他电气设备噪声对实验的干扰,
电信科学 2017年1期2017-05-03
- 基于语谱图特征信息分割提取的声景观中鸟类生物多样性分析
48823基于语谱图特征信息分割提取的声景观中鸟类生物多样性分析蒋锦刚1,邵小云1,万海波1,*,齐家国1,2,荆长伟1,程天佑11 浙江大学, 海洋学院, 杭州 310058 2 密歇根州立大学, 全球变化与对地观测研究中心, 东兰辛市 48823声学手段是监测和研究生态系统生物活动规律、评价生态系统健康状况的一种新方法,声景观生态学也是景观生态学的一个新兴研究领域。声景指数是描述复杂的音频数据生态学特征的有效方法,但是,单一的声景指数并不能有效的指示
生态学报 2016年23期2016-04-14
- 语音信号的多小波脊提取算法研究
语音信号时频图的语谱图方法,把小波脊提取方法运用到语音信号的频谱提取中,并对两种方法进行了对比。1 方法原理现代语音信号处理中,我们常用语谱图方法得到语音信号的时频谱,小波在语音信号的处理中运用的比较多,但是在语音信号的时频图取得方面运用比较少。待分析的信号形式如下:以上各个变量的物理意义是:b表示平移因子,如果变换过程中消除了偏移,b和时间t是意义对应的,因此A(b)表示时间点b上的振幅大小,Φ′(b)表示时间点b上的瞬时频率,Φ(b)表示时间点b上的瞬
科技视界 2013年6期2013-11-13
- Java和Matlab混合编程及其应用
COM技术实现语谱图读取情感语音分析中常用的特征值分为两类:一是韵律特征;另一是音质特征。而各分类中又包含着多个特征值的选取,如短时能量、基音、强度、共振峰、语谱图分析等。2.1 语谱图语谱图主要用于反映语音信号动态频率特征,在语音分析中具有极其重要的实用价值。有时也可以把语谱图看作是可视语言。语谱图的水平方向表示时间轴,垂直方向表示频率轴,图上的灰度条纹则可表示各个时间点的语音短时谱。语谱图上因其不同的灰度,形成不同的纹路,称之为“声纹”。声纹因人而异
长春大学学报 2012年10期2012-09-21
- 中国大学生英语/ i/-/ / 感知模式研究
8)。音质体现在语谱特征(spectral properties)的变化上,主要是前两个共振峰(F1、F2)的变化;音长则体现在时长变化上。在大多数英语方言中,/i/与/1/相比,其F1较低,F2较高,且时长也较长(Morrison 2008)。一般情况下,人们在语音感知中对不同声学信息的关注有所区别。例如,在大部分英语方言中,人们主要靠语谱特征对/i/-/1/进行区分,而时长因素则只是发挥次要作用(Hillenbrandetal.2000)。然而,对英语
当代外语研究 2011年2期2011-12-05
- 基于时频分布的汉语语音关键频率分布研究
的特性。2.3 语谱图语谱图是语音信号短时频谱的时间-强度表示[4]。语谱图是语音信号时频分布的一个比较好的应用。其横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小及颜色的浓淡反映相应时刻和相应频率的能量。能量功率谱具体表示为其中,ω[n]是一个长度为2N+1的窗函数,X(n,ω)表示在时域以n点为中心的一帧信号的傅里叶变换在ω处的大小。下面图1给出了语音“开始”的语谱图。图中横轴表示时间,纵轴表示频率,颜色的深浅表示(n,ω)处的能量大小,一般用能量
电子设计工程 2011年10期2011-03-14
- 网络语音聊天与真人语音的比较
进行辨析,从宽带语谱图和共振峰频率两方面,通过各组数据具体分析了其与真人语音的差别。此文只讨论使用Skype和QQ两种软件进行语音聊天的音频。2 网络语音聊天原理实现原理网络语音聊天,又称VoIP (voice over internet protocol),指的是在使用了互联网协议的网络上进行语音传输,其中的IP是代表互联网协议,它是互联网的中枢,互联网协议可以将电子邮件,即时讯息以及网页传输到成千上万的PC或者手机上[1]。其最大的优势是能广泛地采用I
电信科学 2010年2期2010-03-11