(Driver Behavior State Recognition based on Silence Removal Speech)
许多研究将驾驶员行为与事故原因联系起来,有些研究重点分析了基于驾驶员行为状态所造成事故的预防措施。根据大量的研究发现,语音已经被发现是识别和分析驾驶员行为状态的合适的输入信号,因为当驾驶员说话时系统可以测量潜在的情绪信息,同时也可以测量这种情绪上的改变所带来的输入信号上的改变。
在提取相关语音特征之前,本文提出了一种使用短期能量(STE)和零交叉率(ZCR)的静音消除方法,以减少语音信号在车辆环境中的计算时间。采用梅尔频率倒谱系数(MFCC)特征提取方法,结合多层感知器与分类器获取驾驶员行为状态识别性能。MFCC在人类听觉频率响应中应用了耳蜗机制,该机制利用一定数量的系数滤波器组和特定的形状滤波器组。这些特征捕捉音频信号的频谱包含了感知最重要的部分,然后将这些信息解释为脑解码的神经冲动。然而,在某些驾驶行为中,数据往往是不准确的、可调整的或有明显缺陷的,并且有可能包含许多噪声和伪影。因此,需要对一个干净的数据进行分析,以确保观察结果来自正确的数据。通常,我们可以用预处理来保证噪音和伪影的最小化甚至实现去除。预处理是对原始数据执行子流程的过程,用于特征提取和分类阶段的准备。
检测静音区域的两种最常用的方法是采用零交叉率(ZCR)和短时能量(STE)方法。ZCR是在给定的时间间隔/帧中对语音信号的幅度通过零值次数的度量,短期能量(STE)可以定义为特定语音段内幅度的平方绝对值之和。这两种方法均能有效的用来消除噪音从而获得有效的声音信号。