基于自动机器学习的电网客户语音情感分类方法

2022-06-07 02:13王庆娟金良峰
浙江电力 2022年5期
关键词:卷积语音神经网络

沈 然,王庆娟,金良峰,丁 麒

(国网浙江省电力有限公司营销服务中心,杭州 311121)

0 引言

在电力运营过程中,电力客户服务平台为企业与海量用户之间的沟通提供一种有效的方式[1]。公司电力客服业务存在坐席人员流动性大、业务水平参差不齐、部分人员对电力客服业务领域知识储备有所不足等问题,可能导致其解答用户诉求精准度低、时效性差,无法及时解决用户问题,增加了用户的投诉。为了解决这些问题,提升电网客服服务质量,电网客服系统需要量化客户诉求中的情感因素,以便快速了解客户的诉求焦点,并根据客户情感反馈来评估具体事项的实施效果,这对电力企业具有十分重要的意义[2]。

语音情感识别是人工智能算法核心应用之一,在语音信号处理和情感分析等方面具有重要的应用价值,也是当下学术界热门的研究方向[3]。将语音情感识别应用到电力运营过程中的客户语音情感识别,可以为电网公司提供有价值的客户情感反馈,为后续决策提供数据支持。相关研究表明,人的情感会影响到发音器官的运动,当人的心情是积极的时候,声音是清脆、高昂的;而当人的心情是消极的时候,声音则是沉闷、无力的。在学术研究中[4],语音情感识别是通过语音信号来分析和推测用户情感的方法,它能够根据采集到的语音信号,判断人在发声过程中的情感。经典的语音情感识别方法一般先从语音信号中提取特征表示,然后训练分类算法完成情感分类。在语音情感识别任务中,语音信号的特征选择具有重要的作用,常用的语音信号特征包括基音、语速、强度(韵律特征)、线性预测倒谱系数、梅尔频率倒谱系数(频谱特征)等[5]。然而,这些特征都是领域专家通过个人经验设计的,这些人工设计的特征在通用的语音任务上取得了较好的效果,但是在特定的语音情感分类任务上面往往表现不佳。因此学术界开始研究使用以神经网络等为代表的端到端的语音情感分类方法,以此从数据中自动学习语音数据的特征表示。

近年来,机器学习和深度学习算法得到了快速发展,并由此产生了包括CNN(卷积神经网络)、LSTM(长短期记忆网络)等在内的一大批优秀的算法,基于深度学习的神经网络在语音情感识别任务中表现出优异的性能[6]。相对于传统的利用手工特征训练分类模型的语音情感识别方法,该方法可以将特征自主学习融合到模型训练过程中,并达到很好的识别效果。然而,传统的基于神经网络等学习方法需要专家根据任务和经验预先设计神经网络模型,这些模型都是由专家通过大量的试错过程手动设计的,这意味着即使是专家也需要大量的资源和时间来创建性能良好的模型,这限制了神经网络在语音情感分类任务上的应用[7]。

为了简化算法流程,将人类从机器学习模型设计的过程解放出来,让模型设计过程更加智能,学术界一直在探索让算法自动寻找最优网络结构的方法[8]。自动机器学习是指将深度神经网络的设计和训练进行自动化端到端流程的过程,并应用适当的数据预处理、特征工程、模型选择和模型评估来解决特定任务。这一概念的思路就是在智能搜索和算法优化的基础上,由算法本身去寻找特定任务的具体数据处理与识别算法和方案,从而代替专家进行网络模型设计和算法求解,并且这种方法设计的神经网络模型能在应用效果上超过大部分专家。自动机器学习技术对于降低构建机器学习系统的人力和时间成本具有十分重要的价值,得到了学术界和工业界的广泛关注[9]。

为了根据电网客户语音情感分类任务需求提供的数据,灵活使用最先进的深度学习模型,自动确定最适合特定应用的模型架构和学习策略,解决算法应用过程中过多依赖人工算法设计的问题,本文利用自动机器学习算法进行语音情感分类自动识别研究。从而简化了算法使用逻辑,提升电网客户服务的智能便捷化和响应水平,降低人工智能的落地难度,提升客户服务的智能便捷化响应水平,为企业级客户服务AI(人工智能)中台奠定基础[10]。

1 神经网络搜索空间构建

人工设计的网络如DenseNet(密集连接卷积网络)、VGG、ResNet(深度残差网络)等结构,是通过卷积、池化、全连接等网络层搭建出来的。自动机器学习算法为了得到最终神经网络框架,也需要预先定义类似的操作集合来构成待求解模型的搜索空间[11]。为了完成对网络结构设计的建模和自动化,通过搜索的方法得到最优网络结构,结合过去研究过程中对经典问题进行模型设计的经验,通常可以减小所设计的搜索空间、简化搜索过程,并且能够提高模型的性能。

为了针对电网客户语音情感分类任务获得更好的性能效果,本文采用基于细胞神经结构和元架构的方式进行模型搜索[12]。与常用的链式搜索不同,该方法首先在小的数据集上搜索出最合适的细胞结构,然后将其迁移到大数据集的细胞上。这就可以避免在大数据集上不断训练搜索而给网络带来巨大的计算量,利用有限的计算资源达到最好的效果,同时尽可能将更多的步骤自动化。同时,为了提高效率,会引入历史上模型的设计经验来指导搜索过程。

1)为了实现神经结构细胞和元架构的搜索,首先需要解决神经结构细胞的搜索空间设计问题。为了快速获得合适的细胞结构,只搜索简单的单层搜索结构。为此,假设每个细胞由一个输入节点和一个输出节点组成,而一个细胞的输出可以通过一个结合操作对所有中间节点的输出进行整合。针对处理语音信号的神经网络的细胞结构,其基本组成单位如表1所示。

表1 CNN搜索空间设计

2)细胞搜索的范围确定后,就可以设计与之对应的元架构空间。为了方便大规模的数据集处理以及不同尺度的特征要求,本文引入了2种细胞单元架构,一种保留输入数据的维度,另一种降低输入数据的维度。元架构构建采用固定元架构的方式。每个细胞结构将重复多次,但是他们的具体权值参数将通过具体数据进行训练得到。

在具体应用中,对于神经网络结构的第l层,记其中的基本操作结构集合为每个基本操作都有唯一的输入和数据节点,定义操作的神经网络图模型的邻接矩阵为Gl=其中,=k表示数据节点i和j之间的操作为k。那么网络的构建可以采用层次化的构建完成,即第l层的结构为第l-1 层的结构组装产生,具体过程通过ASSEM函数实现:

通过该网络结构,数据节点i的特征图xi为它的所有前驱数据节点的特征图xj组合得到,具体过程通过merge函数实现:

2 神经网络结构搜索策略定制

在自动机器学习算法中,神经网络结构搜索策略主要研究使用什么样的算法能够高效准确地从搜索空间中找到最优的模型结构和超参数[13]。制定搜索策略一般化的过程是:根据基本的策略规则创建初始网络;然后对其进行训练,并在验证集合上进行测试;最后根据网络测试结果和性能的反馈来优化这些策略规则。这3个步骤是一个更新迭代的过程,通过不断地优化策略可以实现对网络模型进行迭代更新。最新学术研究发现,强化学习、梯度优化和贝叶斯优化等搜索策略在自动机器学习模型搜索中具有出色表现,3种方法在实验中的表现始终优于随机搜索[14]。

在这3种方法中,梯度优化具有较高的求解效率,但是求解过程中,需要将离散的模型参数进行连续化表示,在此过程中会带来性能损失。贝叶斯优化利用高斯过程来估计模型的参数,建模时需要对参数的先验分布进行假设,但是因为模型参数的复杂性,往往难以对参数分布设计合理的先验。强化学习是更为常用的自动机器学习求解算法,它不依赖于参数的先验分布,得到的模型也能达到较好的性能。因此,本文利用强化学习[15]进行模型求解。由于机器学习的推理模型的映射和连接性通常可以通过变长字符串表示,因此基于NASNet 算法[16],通过一个RNN(循环神经网络)[17]作为控制器来生成这个字符串,进而对应到特定的网络结构。

算法如图1 所示,通过RNN 控制器采样得到某一个特定的神经网络结构,并在该神经网络结构下利用语音情感分类数据训练模型,然后得到相应的验证集上的准确率。使用该准确率来表征本次搜索得到的神经网络结构的好坏,进而将此作为信号来训练RNN 控制器。RNN 控制器每次的输出结果为一个特定的卷积神经网络结构,把RNN控制器中每一步输出的结果看作是强化学习中的行动,对应的状态就是控制器到第t步为止生成的网络结构。该强化学习问题在一个轨迹结束之后会给出一个反馈R,也就是该神经网络结果对应的验证集上的损失。这样就可以使用强化学习方法来更新RNN控制器权重,即通过最大化反馈期望的方式来优化控制器RNN。

图1 基于强化学习的自动机器学习搜索算法

式中:a为RNN 控制器预测得到的超参数;T为其长度;θ为RNN 控制器的参数;(·)为1到T时刻反馈值R的期望;模型的训练过程为最大化J(θ)的过程。

对于强化学习生成的神经网络,利用语音情感分类数据进行训练,并且记录得到的这个神经网络结果在验证集上的误差,以此误差更新RNN控制器的权重。此外,算法还使用了启发式方法辅助网络结构的搜索,即根据空间激活的大小灵活调整卷积核的个数,以使得隐藏状态的维度保持在一个相对稳定的范围。

在算法求解过程中,首先定义强化学习的操作空间为前文中得到的元架构,强化学习的状态空间为根据现有架构的参数序列,记t时刻状态为st。为了得到最优的网络模型并以此训练客户情感分类模型,该问题等价于最大化以下的目标函数:

式中:P(at|a1:(t-1);θ)为当前状态下,选取下一个动作at的概率。

在强化学习中,式(4)存在不同的表达方法。本文中利用Q-learning(Q学习粒子群算法)进行函数的求解,则式(4)等价于:

式中:Q值为通过强化学习得到的模型在情感分类任务上得到较高准确率的概率,通过构建的神经网络预测得到;β和γ分别为不同损失的权重系数;R值为利用得到的模型在情感分类任务中的准确率,通过函数Lval(·)求得;A为动作集合。

式中:Xtrain和Ytrain分别为情感分类任务中的语音数据和相应的标签;w为构建的神经网络模型参数。

整个算法的求解过程如表2所示。

表2 基于强化学习的情感分类模训练过程

3 实验结果与分析

3.1 实验数据

为了验证本文提出的自动机器学习客户语音情感分类算法的有效性,利用浙江省电力公司客户服务中心电话客服平台现有系统,收集客户语音片段共计2 799 段。这些片段人工划分为两类,一类是2 000 段中性情感的语音,另一类是799 段愤怒的语音。这些片段都被裁剪到固定长度,使得每个语音样本均能用一个等长的序列表示,从而得到预处理后的语音序列。对每个语音片段利用开源预训练语音模型VGGish[18],作为主干网络提取每个语音片段的矢量表示。

3.2 实验步骤

整个实验过程在Ubuntu18.04 操作系统下的TensorFlow2.0平台上进行,自动机器学习算法库采用AutoKeras。每次实验过程中,从第1 个类别中随机选取799 个语音片段,与第2 个类别的799个片段合并,作为此情感分类任务的数据集,并按照0.7、0.2、0.1 的比例划分训练集、验证集和测试集。在尝试的所有模型上分别迭代100次,选出最优的模型作为最终结果。

实验过程中,除了模型结构外,对分类模型的其他参数进行了如下尝试:

1)全连接层输出维度的选择:对于不同的全连接层,尝试64、128、256、512、1 024 等不同维度。

2)全连接层的层数:对于模型中全连接层的层数,尝试2、3、4、5、6、7、8 等不同的层数(不包括最后的分类全连接层)。

3)dropout 的使用:主要测试了使用dropout(x,p=0.5)、dropout(x,p=0.2)以及不使用dropout这3种策略。

4)归一化选择:尝试BatchNorm 和Layer-Norm这2种归一化方法[19]。

3.3 实验结果

训练得到的模型的实验结果采用分类准确率进行评价,其计算公式为:

即测试集合上,模型预测正确数量所占总量的比例。

通过自动机器学习算法,得到的最终模型为:

1)BatchNorm层。

2)3×1普通卷积层。

3)细胞结构1:3×1 普通卷积层;3×1 平均池化层;3×1普通卷积层;全连接层。

4)细胞结构2:3×1 普通卷积层;5×1 普通卷积层;全连接层;3×1普通卷积层。

5)输出通道数为1的1×1普通卷积层。

6)输出维度为512 的全连接层加ReLU 激活函数。

7)最后通过一个全连接层以及softmax函数得到模型的分类预测输出。

通过搜索算法得到的模型类似经典分类任务的卷积神经网络。它首先采用BatchNorm 操作对数据进行归一化,利用带池化的操作细胞结构1对数据进行相关性分析和降维,然后利用细胞结构2进行进一步特征提取,再利用输出通道数为1 的1×1卷积降低输入通道,并利用两层全连接层提取特征,最终利用softmax函数完成分类任务。

从所有模型中选出验证集上准确率最高的模型,并最终在测试集上进行测试。训练过程中得到的最好的模型在测试集上的准确率为90.93%。结果相应的混淆矩阵如表3所示,可见实现了一个比较高的识别率。

表3 分类结果混淆矩阵

为了验证自动机器学习在模型搜索上的优越性,将自动搜索得到的模型和其他常用语音分类算法进行了对比,实验结果如表4所示。其中包括了MFCC(梅尔倒谱系数)+SVM(支持向量机)和LPCC(线性预测倒谱系数)+SVM 为经典的手工特征分类方法[5],ResNet_1D为根据经典分类网络模型ResNet18 设计的语音分类网络,其中的二维卷积改成了适合语音信号的一维卷积,LSTM+softmax 是利用循环神经网络进行语音分类的方法。表4实验结果表明,利用自动机器学习算法得到的神经网络,具有更好的情感分类性能。

表4 不同分类算法准确率

此外,不同的搜索策略对最终的神经网络模型具有较大影响。在实验过程中,利用强化学习、梯度优化和贝叶斯优化3种搜索策略进行网络结构搜索。梯度优化和贝叶斯优化得到的网络结构和本文采用的强化学习得到的结构较为类似,但是梯度优化算法得到的结构缺少BatchNorm 层,贝叶斯优化算法得到的结构中部分卷积为3×1深度分离卷积。3个方法得到的模型经训练后在最终的测试集上得到的分类准确率如表5所示。实验结果表明,利用强化学习在该问题上得到的模型具有更高的准确率。

表5 不同搜索策略的模型分类准确率

4 结语

对电网客户语音中隐含的情感信息进行深度挖掘是提高电力企业客户满意度及客服主动服务意识的有效手段。实现量化客户诉求情感分析,有利于快速了解客户的关注焦点,减少投诉的发生。为了实现采用最新的人工智能算法对客户语音进行准确情感识别的目的,本文提出了一种基于自动机器学习的电网客户情感自动分类算法。该算法通过构建神经网络搜索空间和神经网络结构搜索2个模块完成神经网络模型的设计。算法在国网浙江省电力有限公司客户服务中心收集的数据集上进行了验证。验证结果表明,该算法具有较高的识别率。

猜你喜欢
卷积语音神经网络
基于递归模糊神经网络的风电平滑控制策略
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
神经网络抑制无线通信干扰探究
魔力语音
基于MATLAB的语音信号处理
从滤波器理解卷积
基于MQ3与MP3的价廉物美的酒驾语音提醒器
基于神经网络的中小学生情感分析
对方正在输入……