郭晓丽 程远
摘 要:最近几年,说话人识别技术正在不断发展。在身份确认关联的领域内,它凸显了重要的作用。保障现场安全,防止身份不明的人员进入。夜间时段无人值守,也要配有自动辨识这样的体系。它能通过判别声音频谱,辨别出说话人。自动管控特有的工厂系统,在真实运用之中应当搭配最优的软硬件,慎重辨别身份。
关键词:说话人识别技术;工厂自动控制系统;具体应用
中图分类号:TN912.34 文獻标识码:A 文章编号:1006-8937(2015)08-0050-02
说话人识别体系采纳实时端点这样的测定算法、基于帧的可行算法。它采纳MFCC特有的参数,当成可辨识的参数。选取矢量量化、模板匹配这样的识别计算。通过测试可知,说话人辨识特有的技术框架,提升了原有的识别水准,保障了自动化架构之下的工厂安全。与此同时,也便于平日操作,提升运行效率。
1 概要的识别流程
说话人识别,是数字处理特有的语音处理。这种识别方式与语音识别很近似,都是根据接纳的某一语音,予以信号辨识;在这以后,提炼出有关的特征,并建构辨识必备模型。说话人识别、近似特性的语音识别,还是带有差异的。具体而言,说话人识别预设的侧重点,并非辨识语义内涵,而是从原有的信号以内提炼出个体特性。
说话人识别细分的层面,包含主体辨认、主体确认。说话人特有的辨认步骤,是把没能标识出来的语句,设定成若干主体范畴之中的某一主体,带有选择的特性;主体确认依托的步骤,是根据拟定好的语句,判别是否相符。这种确认程序,只包含双重可能:肯定及否定。
说话人识别这一体系包含初始的认知时段和后续的识别时段。在认知时段,根据发声语句,建构精准特性的模型、参量特有的参考集。在后续的识别时段,通过语音特有的导出参量,来比对预设的参量集,或者设定好的模板。说话人确认这样的体系,把输入过来的语音参量,比对特有的个体语音。若二者比对得来的差值没能超出预设的阈值,则应能确认,否则予以否认。
2 自动控制运用
体系架构之内的工控机,被设定成工厂布设的上位机。它依托着PCI特有的总线,接纳现场传递过来的电话语音,并输入接纳的这类信号。工控机调配着数据库、电话报警特有的界面、控制特性的界面。它能辨识进到场地之中的操作主体,辨识语音属性,接受远程特性的指令。PLC及场地架构的RS232,能够互通信息。自动控制细分出来的现场控制,接纳了开启指令,可以依循设定好的逻辑,自动管控开关,并管控变频器。
PLC接纳传感数据发给上位机,上位机辨识下位机供应过来的这些数值,然后预设反馈指令。说话人识别特性的板块,包含拟定好的授权验证、拟定命令输入。在这之中,DSP是辨识模块特有的中心部分,能够提炼关涉的特征参数、匹配多重模板,同时辨识有关的判决。DSP凸显的优势,是计算速率很快、内存量被拓展、数值交换特有的速率也快。它能创设复杂架构下的算法,搭配DSP特性的芯片,完成识别运算。
3 识别之中的端点测定
端点测定特有的方式,是识别体系架构中的前端处理。端点检测特有的精准性,密切关涉识别之中的精准性。例如:给出10个特有的英语数字,在识别测定之中,端点误差若超出了50 ms,那么对应着的识别率,就会限缩20%。说话人识别特有的框架,创设了基于帧的、实时端点查验依托的方式,以便测算端点。
首先,根据语音特有的能量状态、过零率变更的总倾向,予以简单测定。这样做,能够辨识语音固有的始末点范畴,提炼频谱特性。
其次,FFT解析得来的频谱结果,包含多频段特有的布设特征。根据这一特性,可以判别元辅音。
再次,明晰了元辅音、对应着的浊音以后,采纳前后拓展这样的搜索路径,辨识端点特有的帧。端点检定预设的这类算法,根据语音固有的根本特性,随时测定端点。它适应变更着的环境,排除了干扰,提升测定之中的精准层级。
4 辨识语音特性
4.1 提炼主体特性
说话人独有的语音特性,关联着更广范畴的心理状态、个体生理发音。为此,个体表征的语音特性,带有动态变更的倾向。这种特性涵盖了某一范畴的语音谱、多声道凸显的特性;与此同时,还包含带有超音段这样的特性、个体声门状态。说话人固有的语音,很难被直接显示。为此,采纳语音提炼这一方式,来辨识语音特征。
搜索得来的信号,包含语音特性、主体个体范畴的若干特性。这些交织特性,表征了复杂形式。特性提取依托的步骤,是采纳明晰的语音特征,以便解析信号。这样做,就舍掉了本源的信息内容,存留了独有的个体特性。从信息论看,语音辨识关涉的参数影响,是信息压缩这一总流程。
4.2 线性预测解析
线性预测特有的解析技术,也即LP这一技术,是参数提炼这一领域以内的广泛技术。布设的应用系统也惯用这一技术提炼出明晰的倒谱参数。传统框架内的预测模型,带有单纯数学特性,没能考量听觉特有的处理途径。Mel特有的感知预测,能够判别倒谱系数,它建构在感知的根基之上。在某一层级内,它仿照了肌体特有的处理途径,是依凭听觉体系,推导得来的声学特性。
听觉机理调研表征着:若设定好的频率近似,音调同时发声,则耳朵只能辨识这样的一个音调。临界带宽预设的边界,是主观特有的突变界限。具体而言,若音调潜藏着频率差,没能超出这样的临界,则耳朵会混同它们,被看成屏蔽效应。采纳Mel特有的刻度,以便度量这一带宽。
4.3 具体运算步骤
识别系统范畴内,MFCC特有的运用正在逐渐推广。具体而言,它先对整合得来的语音信号,予以分帧处理,把每一帧以内的语音,变更成FFT频域。在这以后,它会依循设定好的刻度,采纳三角架构内的滤波器,予以卷积运算。最后,对于滤波器布设的输出构成、设定好的对数能量,采纳离散态势下的余弦变换,以明晰语音特征。
5 辨识匹配模式
说话人识别包含模板匹配、隐含特性的模型、人工建构起来的神经元网络。细化框架内的识别计算,预设了动态特性的时间规整、对应矢量量化。动态特性的规整,也即DTW,是典型范畴的特定人算法。它规避了自然状态之下的语速差别,采纳时间规整,匹配了模板表征的特性序列、语音的这一序列。比对二者的失真,得到辨识根据。
矢量量化特有的辨识方式也被广泛采纳。这种新式技术,规避了语音分段。它被设定成数据压缩依凭的主要途径,缩减了存留着的总数据量。矢量量化关涉的分类特征,也能判别真实的主体,提升判别的准确概率。
6 结 语
工控特性的上位机,包含说话识别特有的细化模块。工控机管控着建构的数据库、提供明晰的界面;根据精准参数,设定电话报警。自动辨识说话人,可识别现场以内的操作主体、电话语音特有的真实性,还能接纳远程管控范畴内的一切指令。布设的工控机衔接着PLC及预设的通信接口。PLC架构以内的现场控制,能够接纳上位机拟定好的开启指令。除此以外,电话语音衔接着的识别模块,还安设了语音卡,便利电话操作。
参考文献:
[1] 覃爱娜,韩华.说话人识别技术及其在工厂自动控制系统中的应用[J].长沙电力学院学报(自然科学版),2013,(2).
[2] 雷鹏.工厂自动控制系统的说话人识别模块实现[J].电声技术,2012,(10).
[3] 杨海燕,杨斌,景新幸.说话人识别技术在智能家居中的应用[J].电声技术,2014,(5).