智能机器人语音交互专利技术分析

2020-08-04 20:28张媛媛宋海荣杨少魁

河南科技 2020年9期

张媛媛宋海荣杨少魁

摘要：语言是人类最自然便捷的沟通手段，是人类之间进行交流的重要表达方式。语音交互技术在智能机器人的应用，主要是通过语音输入设备输入语音，再通过相应的软件、程序等使计算机分辨出人类语音的内容，实现人与计算机之间的交互。基于语音的机器人交互技术，主要包括语音采集、语音识别、语音合成等关键技术环节。因此，本文从语音采集、语音合成、语音识别三个分支通过历年申请量、区域分布、技术活跃度、主要申请人以及技术演进等角度，对智能机器人语音交互的专利进行了梳理，以期对智能机器人语音交互专利进行深入分析，为机器人语音交互技术领域提供技术发展方向和专利布局指导。

关键词：机器人;语音采集;语音合成;语音识别

中图分类号：TP311 文献标识码：A 文章编号：1003-5168（2020）09-0153-08

1 概述

随着人工智能的蓬勃发展，智能机器人在商业、军事、医疗等方法都有广泛的应用。追求智能化的今天，实现人和机器之间“无障碍”的对话与交流，以提高机器的主动性与能动性，也能不断扩大应用的领域[1]。因此，语音交互技术是智能机器人的核心技术，其通过语音输入设备输入语音，再通过相应的软件、程序等使计算机分辨出人类语音的内容，实现人与计算机之间的交互。基于语音的机器人交互技术，主要包括语音采集、语音识别、语音合成等关键技术环节。因此，本文从语音采集、语音合成、语音识别三个分支通过历年申请量、区域分布、技术活跃度、主要申请人以及技术演进等角度，对智能机器人语音交互的专利进行了梳理，以期对智能机器人语音交互专利进行深入分析，为机器人语音交互技术领域提供技术发展方向和专利布局指导。

2 专利技术分支及其发展路线

2.1 基于语音的智能机器人专利技术分支

2.1.1 语音采集。语音采集，基于语音的人机交互中通常采用麦克风进行语音采集。麦克风（又称微音器和话筒，正式的中文名是传声器），是一种将声音转换成电子信号的换能器。麦克风的历史可以追溯到19世纪末，贝尔等科学家致力于寻找更好的拾取声音的办法，以用于改進当时的最新发明——电话。期间他们发明了液体麦克风和碳粒麦克风，这些麦克风效果并不理想，只是勉强能够使用。20世纪，麦克风由最初通过电阻转换声电发展为电感、电容式转换，大量新的麦克风技术逐渐发展起来，这其中包括铝带、动圈等麦克风，以及当前广泛使用的电容麦克风和驻极体麦克风、ECM麦克风、MEMS麦克风[2]。

2.1.2 语音合成。语音合成，即将文本信息转换为语音信号。语音合成的发展经历了机械式语音合成、电子式语音合成和基于计算机的语音合成发展阶段。语音合成方法按照设计的主要思想分为规则驱动方法和数据驱动方法，前者的主要思想是根据人类发音物理过程从而制定一系列规则来模拟这一过程，后者则是在语音库中的数据上利用统计方法如建模来实现合成的方法，因而数据驱动方法更多的依赖语音语料库的质量、规模和最小单元等[3-5]。

2.1.3 语音识别。语音识别是将人类的声音信号转化为文字或者指令的过程。语音识别系统包括前端处理、特征提取、声学模型、语言学模型和解码几个模块。前端处理包括对高频信号进行预加重，将语音信号分帧，对语音信号做初步处理，特征提取将声音信号从时域转换为频域，声学模型以特征向量作为输入，对应到语音到音节的概率，语言学模型根据语言特性，对应到音节到字的概率，解码器结合声学模型和语言学模型及词典信息输出可能性最大的词序列。其中，声学模型和语言模型是语音识别中比较重要的环节[6-10]。

2.2 基于语音的智能机器人专利申请总体情况

2.2.1 数据来源及检索要素。本文采用了中国专利文摘数据库（CNABS）、德温特世界专利索引数据库（DWPI）。其中，CNABS用于中文专利检索，DWPI用于英文库专利的检索，最后数据汇总到DWPI数据库进行统计查看。检索时限截止到2019年7月10日，其中由于专利文献从提出申请到向公众公开有时间的延后，因此，2018年的样本会有不完整的问题，所以对于以下分析图中有关2018年申请量的下降曲线不排除是由于样本数据量的不完整而造成的。2019年数据缺少比较多，其中的数据就没有体现在分析的范围内。

2.2.2 全球专利申请量分析

①全球历年专利申请量

下图示出了语音人机交互技术的全球专利申请趋势状况。自1992年起，全球申请量趋势如下。后面基于历年专利申请量，对语音人机交互技术的发展趋势进行了分阶段的分析。

萌芽阶段（1992—1998年）：语音人机交互技术的专利申请量较少，虽然机器人的概念已经被提出了几十年了，但是限于通过语音与机器人交互的方面研究较少，人机交互相关的语音识别技术还不成熟，音频数据处理所需的CPU还不能满足其大量计算的需求，企业和研究机构对其研发的热度不高，尚处于技术萌芽阶段。

快速增长阶段（1999—2015年）：语音人机交互技术专利申请量开始呈现一定的增长趋势，从1999年到2015年，伴随着计算机硬件技术尤其是Intel和NVDIA两家公司的CPU产品性能的发展，以及机器人相关硬件如传感器、摄像头等的快速发展，使得语音人机交互技术不断成熟，因此年专利申请量迅速增长了好几倍。但由于成本因素以及实际效果难以达到消费者满意的程度，仍旧无法达到大规模商业生产的条件。

急速增长阶段（2015年至今）：2015年以后，随着计算机技术和处理器技术的快速发展，以及市场对于智能机器人语音人机交互技术的需求，各类企业纷纷开始在该领域进行大量专利布局，以期在后续的市场中抢占先机。

②各国家/地区/组织专利申请量

由上图可以看出，语音人机交互技术全球专利申请量前五位国家分别为日本、中国、美国、韩国和欧洲，这五个国家的申请量占全球申请量的82%，其他国家/地区/组织的申请量仅占全球申请量的18%，可见该领域的专利申请较为集中。其中日本、中国、美国、韩国和欧洲都是世界上工业较为发达的几个国家，有着先进的科学技术作为支撑，并且有市场需求的驱动。因此这些国家对机器人的专利申请和布局占据了绝大部分比例。

③技术活跃度分析

上图显示了语音人机交互技术的申请人的数量的变化情况，可以看出，从2000年至2005年，各个申请人刚开始关注语音人机交互技术，每年新增申请人少量增加。从2006年开始，到2014年由于技术不成熟，商业化应用不广泛，虽然关注语音人机交互技术的申请人有所增加，但是并没有引起足够多的企业关注。而从2015年开始，大量申请人踊跃加入语音人机交互技术的研究。

④全球/中国主要申请人分析

从全球专利申请量排名前10位的申请人来看，主要来自日本、韩国和中国。其中日本企业占据7个席位，中国和韩国分别只有2个和1个席位。可见虽然中国语音人机交互专利申请量在全球地区分布时所占比例与日本差不多，但仅有北京光年无线一家企业的专利申请量排在全球第二，可见中国申请人的专利申请较为分散，目前还没有实力较强的申请人出现。从企业类型来看，索尼、本田、夏普、丰田、三星、日本电气、日本电报电话公司和松下都是日本和韩国知名的企业，占据了8个席位。

上图示出了国内主要申请人在语音人机交互领域申请专利的情况。与全球主要申请人相比，国内主要申请人在申请量上具有一定的差距，申请量相对较少。

2.3 基于语音的智能机器人的专利技术演进

2.3.1 麦克风。麦克风的历史可以追溯到19世纪末，贝尔等科学家致力于寻找更好的拾取声音的办法，以用于改进当时的最新发明——电话。期间他们发明了液体麦克风和碳粒麦克风，这些麦克风效果并不理想，只是勉强能够使用。二十世纪，麦克风由最初通过电阻转换声电发展为电感、电容式转换，大量新的麦克风技术逐渐发展起来，这其中包括铝带、动圈等麦克风，以及当前广泛使用的电容麦克风和驻极体麦克风、ECM麦克风、MEMS麦克风。

在机器人语音交互的语音传感器中，2011年CN102137321A提出一种薄膜型传声器阵列，其针对传统的驻极体电容传声器结构复杂、体积无法减小的问题，采用多孔聚合物薄膜的压电驻极体薄膜，减小了零件数目及器件的体积，使得薄膜型传声器阵列的声电转换性能稳定。随后，MEMS传感器因其相比传统的传感器具有体积小、重量轻、成本低、功耗低、可靠性高、适用批量生产、易于集成和实现智能化等特点，在机器人语音交互中得到了广泛应用。KR20130044761A提出的MEMS麦克风将集成电路与具有压电特性的纳米线组合以最大化压电效应。US201815938665A基于现有的MEMS组件质检存在的差异导致各个部件的电容发生变化而提出能够确定MEMS换能器的电容的MEMS换能器系统，其中所确定的电容可用于校准MEMS换能器电路以实现给定输入压力或声波的给定输出信号。

2.3.2 语音合成。语音合成方法按照设计的主要思想分为规则驱动方法和数据驱动方法，前者的主要思想是根据人类发音物理过程从而制定一系列规则来模拟这一过程，如共振峰合成、发音规则合成等，后者则是在语音库中的数据上利用统计方法如建模来实现合成的方法，因而数据驱动方法更多的依赖语音语料库的质量、规模和最小单元等，如波形拼接合成、单元选择合成、波加噪声模型、HMM合成、神经网络模型合成等。

在机器人语音交互的语音合成中，最早由索尼公司JP2002268699A提出采用波形拼接进行语音合成，其通过在文本分析结果中的音素信息获取必要的音素片数据，并且把音素片数据连接起来，同时根据韵律数据和合成控制参数处理数据，以生成具有相应韵律和音调质量的合成音调数据，但存在占用内存大、耗费人力物力等缺点。紧接着松下、日本电气株式会社相继采用单元选择合成方法进行语音合成，其中WO2006123539A1根据所述韵律生成单元所获得的音韵串及韵律和所述说话位置决定单元所决定的说话位置，从标准声音单元记录部或所述特殊声音单元记录部选择声音单元，并生成声音波形，实现在表现情感或表现力的声音中经常可以见到的丰富的声音表现;CN101379549A采用从单位波形数据记忆部中根据发声形式所选择的单位波形数据记忆部，根据发音符号串和韵律信息选择单位波形，从韵律信息和单位波形数据产生合成声音波形。但是单元选择合成方法存在拼接时选择错误单元的情况。而后，CN101751921A选用谐波加噪声模型作为语音分析合成模型，该模型将语音信号看成是各种分量谐波和噪声的加权和，解决了单元选择中的误拼情况。如今，神经网络模型合成方法成为主流，大大提升了语音合成系统对语音的描述能力。KR20180100001A采用深度神经网络模型进行语音合成，其解决了传统方法中上下文建模的低效率、上下文空間和输入空间分开聚类而导致的训练数据分裂、过拟合和音质受损的问题。CN109036371A采用WaveNet神经网络合成器，利用WaveNet生成的语音，在音质上大大超越了之前的参数合成效果，满足了对高采样率的音频时域信号建模的要求。

3 语音识别

3.1 声学模型

在机器人语音交互中，目前最常用也最有效的几种声学识别模型包括动态时间规整模型（DTW）、隐马尔可夫模型（HMM）、神经网络模型等。

3.1.1 动态时间规整（DTW）。时间规整的语音识别方法最早由来自RCA实验室的Martin在上世纪60年代提出并实现了解决语音时长不统一的归一化打分机制。后来，来自前苏联的Vintsyuk提出了采用动态规划实现动态时间规则的方法。在应用DTW算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径。动态时间规整算法是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法，在小词汇量、孤立词语音识别中获得了良好性能，但因其不适合连续语音大词汇量语音识别系统，目前已逐渐被HMM和ANN模型替代。不过仍然可以看见DTW在机器人语音识别中的应用，CN103971682A提出冰雪机器人的语音控制方法，采用数字语音命令DTW识别算法得到识别的语音数字命令;CN108447477A提出一种基于自然语言理解的机器人控制方法，获取语音信号并转化为相应数字信号，而后通过动态时间规整算法将数字信号转换为相应的文本信息。

3.1.2 隐马尔科夫链（HMM）。20世纪70年代，隐马尔可夫法（HMM）被应用于语音识别的研究中，该方法的应用使得语音识别技术取得了重大进展。隐马尔可夫模型是传统语音识别的主流模型，其是由短时间内看做平稳变化的声学信号模型串联构成的马尔可夫链组成的，表示了一个双重随机过程，一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程。索尼WO0172478A1最早将HMM模型应用于机器人语音识别中，HMM很好的模拟了人得语言过程，目前应用十分广泛，出现了很多以改进隐含马尔可夫链为基础的机器人语音识别申请，US2012130716A1使用隐马尔可夫模型（HMM）、最大后验概率（MAP）、最大似然线性回归（MLLR）的声学模型对接收到的语音信号执行机器人语音识别;由于神经网络在语音识别中突出表现，将神经网络与HMM结合使用成为研究热点，如CN106228982A基于HMM-DNN声学模型的Token-passing算法对其进行语音识别。

3.1.3 神经网络模型。人工神经网络（ANN）是20世纪80年代末期提出的一种新的语音识别方法。ANN以数学模型模拟神经元活动，将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域。2011年，微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。此外，由于神经网络在语音识别中突出表现，后来人们又将卷积神经网络（CNN）、循环神经网络（RNN）以及深度神经网络（DNN）应用在了语音识别中。在机器人语音识别中，US2017098444A1采用基于深度神经网络的声学模型进行语音识别;CN105681318A基于DNN-UBM模型（深层神经网络和通用背景模型）建立身体状态对应的声学模板;CN106898350A采用卷积神经网络CNN进行语音识别;CN108281139A基于深度全序列卷积神经网络进行语音识别。在RNN基础之上进一步提出的长短时记忆循环神经网络（LSTM），解决了RNN中由于引进了时间维度信息而可能出现的梯度消失问题。目前最好的语音识别系统采用双向长短时记忆网络（LSTM），这种网络能够对语音的长时相关性进行建模，但是这一系统存在训练复杂度高、解码时延高的问题，在工业界的实时识别系统中很难应用，直到CN108364066A采用LSTM深度神经网络编码器进行语音识别，引入了attention模型和语言模型共同处理LSTM神经网络处理后的固定长度向量，保证了聊天过程中答复信息的准确性，使对话更加真实。

3.2 语言模型

语言模型是对一段文本的概率进行估计即针对文本X，计算P（X）的概率，语言模型在整个语音识别过程中的作用非常重要，其性能的好坏直接影响到了整个语音识别系统的使用范围和识别效率。常用的语言模型包括n-gram模型、神经网络语言模型。

3.2.1 n-gram语言模型。n-gram模型也称为n-1阶马尔科夫模型，它有一个有限历史假设：当前词的出现概率仅仅与前面n-1个词相关，即。n-gram语言模型通常包括参数估计和数据平滑等过程，其中，n-gram语言模型的参数估计一般采用最大似然估计（MLE）方法，n-gram模型的数据平滑可以采用加法平滑、Good-Turing平滑、Katz平滑、插值平滑等。N-Gram因其简单有效被广泛应用，CN105931218A，CN106056207A，CN106782502A，均通过隐马尔科夫模型进行声学模型建模，均采用N-gram统计语言模型，CN108364066A利用N-GRAM、WFST技术生成语言模型，保证了聊天过程中答复信息的准确性，使对话更加真实。

3.2.2 神经网络语言模型。神经网络语言模型的提出解决了N-gram模型当n较大时会发生数据稀疏的问题。与N-gram语言模型相同，神经网络语言模型（NNLM）也是对n元语言模型进行建模，与统计语言模型不同的是，神经网络语言模型不通过计数的方法对n元条件概率进行估计，而是直接通过一个神经网络对其建模求解。随着深度学习的不断发展，神经网络语言模型得到了很多关注。在机器人语音识别中，CN107451126A采用神经网络语言模型应用于聊天机器人中;US20180307779A1使用深度神经网络语言模型来学习如何映射自然语言命令以在适当级别上奖励函数;相比全连接网络，循环神经网络（RNN）同一层各个节点间也是有连接的，当前节点的输出与前面节点的输出有关。因此，循环神经网络语言模型（RNNLM）可以获得很长的历史信息，解决了句子的长距离依赖问题，相比N-gram模型，RNNLM模型的效果有很大的提升，如KR20180054408A使用循环神经网络语言模型RNNLM，生成并输出与自然语言处理生成的自然语言对应的会话语句单位使用学习结果。

4 结论与建议

智能機器人语音交互是智能机器人人机交互中的关键环节，对机器人控制起着关键性的作用。本文从语音采集、语音合成、语音识别三个分支通过历年申请量、区域分布、技术活跃度、主要申请人以及技术演进等角度，对智能机器人语音交互的专利进行了梳理，专利申请主要集中在语音识别这一分支，从申请量以及技术演进来看，日本在智能机器人语音交互方面占据领先地位，国内的新型企业如北京光年、芋头科技以及高校也在乘胜追击，但是智能机器人语音交互仍然面临诸如识别精度和准确性等问题，相关企业、高校可以考虑从这些方面对智能机器人语音交互进行改进。

参考文献：

[1] 温昕等.基于语音识别的机器人研究[J].科技广场，2017：190-192.

[2] 张永强.基于专利文献分析的MEMS麦克风技术发展趋势[J].科技展望，2016：254-258.

[3] 刘豫军等.计算机语音合成技术研究及发展方向[J].网络安全技术与应用，2014：22-24.

[4] 张丹烽等.语音合成技术发展综述与研究现状[J].科技风，2017：72.

[5] 张斌等.语音合成方法和发展综述[J].小型微型计算机系统，2016，37（1）：186-192.

[6] 李雪林.基于人机互动的语音识别技术综述[J].电子世界，2018：105.

[7] 赵英娣.语音识别声学模型发展现状综述[J].科技风，2017：76.

[8] 邢铭生等.语音识别技术综述[J].科协论坛，2010：62-63.

[9] 惠益龙等.语音识别中的统计语言模型研究[J].信息技术，2017：44-46.

[10] 王慧健等.基于神经网络语言模型的时间序列趋势预测[J].计算机工程，2018：1-8.