余波 张立为
1.上海市物联网行业协会;2.上海城建职业学院
随着人工智能浪潮的兴起,智能家居逐渐走入千家万户,这其中语音识别发挥了极大作用。在实际应用中,语音识别的结果有着众多不确定性,如外界环境、发音方式、方言习惯、语音质量等都对语音识别的准确率提出了挑战。其中语音识别的结果对语义理解的影响较大,不准确的语音识别结果将影响话语的意图分类。因此,本文需要设计一种基于智能家居语音识别多样化结果的意图分类方法。该方法结合家居命令词的特点、语音识别结果与实际命令词的差异情况,能更准确地实现智能家居话语的意图分类。
在智能家居项目中,系统需要能够识别语音命令词并且控制设备执行相应的动作,如命令词“低档风”,意为设备开启最小风。在实际使用中,命令词语音识别结果与实际命令词具有差异,我们结合命令词的特点、语音识别结果文本与实际命令词的差异情况,可以构建相应的词典,用来辅助意图分类。
基于智能家居项目业务,我们收集了智能家居命令词共232 条,其中包含设备、模式、功能的开关和调整等指令,我们将这些命令词按语音特性拆分为2210 个声母韵母。通过分析命令词语音特性可以看到,命令词中的开口呼韵母占较大比重为22%,其次是齐齿呼韵母、合口呼韵母、舌尖后音、舌尖中音,比重分别为17%、11%、10%、10%,这些类别存在误读和误识别的可能性[1]。由于汉语发音时发音部位和发音方法的不同,发音时气流受阻的位置、发音部位控制气流的方式也会不同,这为语音识别带来了较多难题。
在项目中,我们收集了命令词的语音识别结果文本,整理了正误词对照表并分析了其语音特性,通过筛选语音识别正误差异读音得到4584 个声母韵母。我们将其中出现频数较大的易混淆对进行了统计,结果表明不送气音与送气音混淆对的占比较大,其次是前鼻音与后鼻音、单韵母与复韵母、舌尖前音与舌尖后音。这些易混淆对影响语音识别结果的准确度,需要特别关注。
通过分析命令词与语音识别结果文本的特点可以发现,语音识别的准确率受多种因素影响。如果语音识别的不准确结果经过意图识别模块时被错误分类,将对语义理解整体流程产生灾难性影响。因此,需要根据命令词与语音识别结果文本的特点,结合现代汉语语音规律,构建规则词典并设计一种意图分类方法,提高意图分类准确率[2]。
通过命令词与语音识别结果文本特点分析,我们可以构建规则词典,用以辅助意图分类方法的实现。规则词典包含以下类别:(1)智能家居命令词词典。该词典包含项目所需的232 条命令词。(2)语音识别结果正误对照词典。根据实际项目的测试结果,收集命令词语音识别结果文本,整理后得到正确与错误识别命令词的对照词表。(3)现代汉语易混淆声母韵母词典。根据现代汉语语音的方音辨证方法,结合语音识别结果正误对照词典,构建易混淆的声母或韵母对共84 对。其中包含舌尖音与舌面音、不送气音与送气音、前鼻音与后鼻音等多种易混淆对。以上词典可以辅助意图分类方法的实现。智能家居命令词词典帮助意图识别明确需要界定的分类,将属于智能家居意图类别的话语限定于较小范围内。语音识别结果正误对照词典、现代汉语易混淆声母韵母词典帮助我们扩大搜索范围,让用户误读或语音识别错误的结果能够被意图识别模块捕获并正确分类。
在实际应用中,语音识别的结果受外界环境、发音方式、方言习惯、语音质量等多方面因素影响,其中的不准确结果经过意图识别模块时如果被错误分类,将会对语义理解产生较大影响。因此,根据命令词与语音识别结果文本的特点,结合现代汉语语音规律,构建规则词典并设计一种意图分类方法,可以提高基于语音识别结果文本的意图分类准确率。
本文的意图分类方法根据构建的智能家居命令词词典、语音识别结果正误对照词典、现代汉语易混淆声母韵母词典,生成命令词及其易混淆音节总词典。通过构建2-GRAM 模型,计算总词典中的单词出现概率、双词共现概率,评估词典中句子的出现概率。在此基础上,取词典中句子出现概率的最小值作为基线,进行意图分类。句子进入意图识别模块后,先进行概率计算,凡是高于最小概率的句子进入智能家居分类,凡是低于最小概率的句子排除出该分类。意图分类方法整体设计如图1 所示。
图1 意图分类方法整体设计Fig.1 Overall design of intent classification method
本文所述的意图分类方法涉及以下几个方面:(1)命令词及易混淆音节总词典生成。将智能家居命令词词典中的命令词按语音特性拆分为音节及声母韵母组合,然后根据命令词在易混淆声母韵母词典中的常见混淆情况,结合语音识别结果正误对照词典,找出命令词的易混淆读音。智能家居命令词词典中每条命令词及其易混淆读音组合,构成了命令词及易混淆音节总词典。(2)利用贝叶斯公式计算句子出现概率[3]。根据命令词及易混淆音节总词典,获取命令词及其易混淆读音组合,统计词典中各项的频数。然后根据拉普拉斯平滑公式,构建2-GRAM 模型,计算单词出现率、双词共现率。最后基于模型计算句子的出现概率,计算模型的句子出现概率的最小值。(3)根据句子出现概率进行意图分类。本文的意图分类方法将模型的句子出现概率最小值作为模型句子出现最小概率,以此辅助意图类别的判断。在意图分类过程中,根据2-GRAM 模型,我们为每个进入意图识别分类模块的句子计算出现概率,并将其概率值与最小概率值作比较。凡是高于最小概率的句子进入智能家居分类,凡是低于最小概率的句子排除出该分类。这样就实现了二分法的意图识别分类。
根据项目业务需要,本意图分类方法已使用Python、Java 语言实现。其中主要涉及的功能模块包含词典生成模块、概率模型构建模块、概率计算模块、意图分类模块。通过图1 可以看到本文所述的意图分类方法的实现涉及以下方面:(1)词典生成模块主要根据智能家居命令词词典,对命令词文本进行音节、声母韵母拆分,然后根据语音识别结果正误对照词典、现代汉语易混淆声母韵母词典,为每条命令词找到易混淆声母韵母组合,最终完成命令词及易混淆音节总词典的构建。(2)概率模型构建模块主要基于命令词及易混淆音节总词典,统计单词、双词词频,完成2-GRAM 模型的构建,用以计算单词出现率、双词共现率,预测句子的出现概率[4]。(3)概率计算模块主要基于2-GRAM 模型,计算句子出现概率,并且计算词典中句子出现概率的最小值作为最小概率值,然后以最小概率作为意图分类的判断依据。根据计算结果,我们选定模型的句子出现最小概率值为1.1768093503040191e-24。(4)意图分类模块主要基于用户话语文本输入,进行音节、声母韵母拆分,随后基于2-GRAM 模型计算句子的出现概率,最后依据最小概率进行意图分类判断,判断此话语是否应该进入智能家居意图分类。意图分类方法的实现,最关键的是意图分类模块的实现。
意图分类模块接收用户话语文本作为输入数据,将最终完成类别判断的意图分类结果作为输出,其实现流程包含以下几个方面:(1)处理用户话语文本。意图分类模块在接收到用户话语文本即语音识别结果文本后,按语音特性对文本进行处理,将文本转换为音节及声母韵母组合。(2)计算句子出现概率。在获得声母韵母列表后,通过调用2-GRAM 模型,计算单词出现概率、双词共现概率并做概率统计,然后基于词单位的统计结果,对句子出现概率进行计算。(3)进行意图分类[5]。结合句子出现概率、模型最小概率,将句子出现概率与最小概率进行比较。当句子出现概率高于最小概率时,将句子分入智能家居意图类别;当句子出现概率低于最小概率时,将句子分入非智能家居意图类别。意图分类模块最终给出意图分类结果,支持其他语义处理模块的功能实现。
意图分类在语义处理流程中居于首要地位,意图分类的结果直接影响语义理解功能,因此好的意图分类方法能够帮助提升语义理解准确度。根据项目业务需要,以测试意图分类方法的意图分类效果为目标,我们准备测试集、确定测试指标并进行测试,通过分析测试结果,评估该意图分类方法的应用效果。
我们选择了纯智能家居测试数据集、智能家居与其他意图分类混合数据集、纯非智能家居分类测试数据集等类型的数据集。其中各测试数据集详情包括如下几个方面:(1)纯智能家居测试数据集。选择由项目客户测试产生的命令词测试数据,以及系统原有智能家居分类测试数据共计605 条,作为测试意图分类应分入智能家居分类的测试数据。(2)智能家居与其他意图分类混合数据集。选择项目需求命令词、闲聊数据、原有智能家居分类测试数据进行混合,数据共计4191 条,用于测试意图分类能否准确对家居和非家居的意图进行分类。(3)纯非智能家居分类测试数据集。系统本有智能家居、音乐、闲聊等功能分类,因此将非智能家居分类的测试句用于测试意图分类能否准确排除非智能家居分类的句子。纯非智能家居分类测试数据共计16698 条。
对于意图分类方法的测试,我们将意图准入率、误入率作为测试指标。准入率主要用于衡量本应属于智能家居意图分类的句子,有多少准确进入智能家居分类;误入率主要用于衡量不属于智能家居分类的句子,有多少被错误分入智能家居分类。
我们采用测试集对基于方法实现的意图分类功能进行测试。结果发现,在准入率方面,纯智能家居测试数据集的准入率为0.97%,智能家居与其他意图分类混合数据集的准入率为0.78%;在误入率方面,纯非智能家居分类测试数据集的误入率为0.1%,智能家居与其他意图分类混合数据集的误入率为0.08%。
通过以上数据可以看到,意图分类功能经测试,其效果较好,测试数据集的平均准入率达到0.87%,平均误入率为0.09%,基本符合预期。
本文基于智能家居项目的语音识别应用情况,设计一种意图识别分类方法,该方法主要为适应语音识别的多样化结果。语音识别的实际结果文本与预期有所差异,结合命令词的特点、现代汉语语音特性,我们能够构建规则词典、设计意图分类方法,使其满足智能家居话语的意图分类需要。测试结果表明,这种意图分类方法能够提高意图分类准确率,适应了项目业务的需要。