基于卷积神经网络的服务机器人听觉隐私信息分类算法

2020-06-08 09:56王怀豹杨观赐李杨林家丞

贵州大学学报（自然科学版） 2020年3期

王怀豹　杨观赐　李杨　林家丞

摘要：为获得机器人听觉行为隐私感知方法，解决语音监听设备存在的隐私泄露风险，本文提出了基于卷积神经网络的服务机器人听觉隐私信息分类算法（APICA）。首先，设计了基于卷积神经网络的服务机器人听觉隐私信息分类算法及其卷积神经网络模型;其次，给出了机器人的听觉隐私信息监听系统工作流程;最后，为评估该听觉隐私信息分类算法性能，构建了训练和测试数据集，并在服务机器人平台上部署和实现了该算法。测试结果表明：系统识别隐私信息的平均精确率P、召回率R和F1值分别为96.35%、93.20%和94.53%，具有良好的识别和分类效果。

关键词：隐私感知方法;服务机器人;分类算法;听觉隐私信息

中图分类号：TP181

文献标识码： A

随着人口老龄化趋势加快，越来越多的独居老人需要被照顾，人们对助老机器人的需求也越来越明显[1]。

为辅助老年人日常生活，薛同来等[2]研究了基于激光SLAM的助老机器人，其拥有自主构建室内地图以及自主导航的功能，可以定位目标物体和自主移动，并使用机械臂对物体进行抓取。为解决老年人心理健康问题，刘策等[3]构建了具有语音识别、手势识别、人脸识别和遠程控制功能的多模式友好交互系统，实现了注册与验证、移动控制、新闻点播、日程提醒及语音对话5种功能。与此同时，为给老年人提供科学合理的饮食建议，苏志东等[4-5]提出了基于服务机器人听觉的个体膳食构成自主感知算法，实现了对用户膳食构成的智能感知，为用户医疗诊断、饮食干预和机器人的主动服务等提供决策依据。为了应对老年人记忆力衰退的情况，Ahn Ho等[6]提出了一种基于家庭服务机器人的大脑训练方法，将记忆训练部署到机器人上，以增强机器人功能性。为增强老年人的体质，降低老年人摔倒的风险，Foukarakis等[7]提出了一种利用机器人视觉系统来识别和跟踪用户行为的方法，可以提供相关的练习和反馈来激励用户进行体育锻炼和康复训练。为满足老年人的远程护理需求，Zhou等[8]提出了一种基于服务机器人的远程医疗系统。该系统在家庭成员和医生之间建立连接，利用自动健康数据采集技术和目标检测算法，实现远程护理。然而，智能家居系统和服务机器人广泛使用语音监听设备，这存在用户隐私泄露的风险。

有研究表明，用户会因担忧语音监听设备泄露隐私而影响心理状态甚至引起心理障碍[9]。如何构建对隐私内容有符合人心理需求反应的系统，是值得深入研究的课题。为获得机器人听觉行为隐私感知方法，解决语音监听设备存在的隐私泄露的风险，本文提出了基于卷积神经网络的服务机器人听觉隐私信息分类算法。

1 基于卷积神经网络的服务机器人听觉隐私信息分类算法

卷积神经网络是受生物学启发而提出形成的一种前馈神经网络，利用局部连接和权值共享特性，减少模型参数，并具有平移、尺度和视角不变性[10]。卷积神经网络不仅在图像分类领域贡献巨大，而且在自然语言方面也取得了引人注目的成果[11-13]。针对机器人听觉行为隐私感知，本文提出了算法1所示的基于卷积神经网络的服务机器人听觉隐私信息分类算法（Social Robot Auditory Privacy Information Classification Algorithm based on Convolutional Neural Network， APICA）。图1是卷积神经网络模型。

2 机器平台

图2所示为课题组搭建的服务机器人平台MAT[5，14]，主要包括Intel NUC mini主机、EAI DashgoB1移动底盘、IPad显示屏、科大讯飞六麦环形麦克风阵列板、Microsoft Kinect V2深度摄像头、辅助传感器和数据处理器等。听觉系统采用的六麦环形麦克风阵列板具有声源定位、回声消除、噪声过滤等功能，用于实现对音频信号的采集;视觉采用的Microsoft Kinect V2深度摄像头用于采集RGB彩色图像;机器人上配备的GSM通信模块可以在紧急状况下与监护人进行通话。为减少机器人平台运算负荷，训练数据和数据分析由数据处理工作站完成。服务机器人主机安装了Ubuntu16.04操作系统、Kinect 版本 ROS（Robot Operation System）系统、TensorFlow CPU版本深度学习框架和机器视觉工具包Opencv3.3.0。课题组运用Python语言实现了APICA算法，并将其部署在MAT机器人上。

3 测试与分析

3.1 训练数据集、测试数据集和性能指标

使用MAT服务机器人的六麦环形麦克风阵列收集训练语音数据。与此同时，考虑到法律、文化习俗、认知心理学等与隐私信息形成有关的因素，调研相关文献资料，收集、整理、归纳出家庭生活中涉及语音隐私信息的特殊场景，研究确定不同场景下所涉及的语音隐私内容特征，设计了以下6种场景：（1）对话内容涉及家庭人员出行计划的场景;（2）对话内容涉及家庭人员联系方式的场景;（3）对话内容涉及支付密码的场景;（4）对话内容涉及宗教的场景;（5）对话内容涉及贵重物存放处的聊天场景;（6）对话内容涉及言语批评朋友或者攻击双方父母的场景。

基于上述6种场景构建了包括7种类别的训练数据集：

（1）第1类数据对话内容涉及家庭人员出行计划的场景，其对话内容中包含：①未来出行计划的时间名词;②未来出行计划的地理名词。

（2）第2类数据对话内容涉及家庭人员联系方式的场景，其对话内容中包含：①联系方式的相关表达;②有关联系方式的数字。

（3）第3类数据对话内容涉及支付密码的场景，其对话内容中包含：①支付密码的相关表达;②有关支付密码的数字和字母。

（4）第4类数据对话内容涉及宗教的场景，其对话内容中包含：①某人是某宗教成员;②某人表达愿意加入某宗教;③某人喜欢、尊崇、信仰某宗教。

（5）第5类数据对话内容涉及贵重物存放处的场景，其对话内容中包含：①贵重物品的名称;②对应贵重物品的存放地点。

（6）第6类数据对话内容涉及言语批评朋友或者言语攻击双方父母的场景，其对话内容中包含批评或谩骂朋友或父母的词汇。

（7）第7类数据不属于上述6种场景的对话，属于不包含隐私信息的数据。

测试数据集构建方面，对话内容通过网上收集和课题组成员构思获得。训练数据集和测试数据规模见表1。

采用精确率P、召回率R与综合评价指标F1值度量算法的性能。

3.2 测试结果与分析

在已搭建的服务机器人平台上部署设计的算法，将超参数设置为：迭代次数为3 000，卷积核数目为256，批处理参数为64，初始学习率为0.001，Dropout保留比例为0.5。测试数据识别结果的混淆矩阵如表2所示。精确率P、召回率R和综合评价指标F1值统计结果如表3所示。

观察表2和表3可知：

（1）第1类测试数据共75条，其中正确识别数为68条，错误识别的有7条，系统的精确率和召回率分别为93.15%和90.67%。核查识别错误的数据，发现识别错误的原因为：①对话未出现具体的地理名词，而是通过其中一般名词和方向名词可以推理出地理名词;②对话出现多个地理名词，且对话双方经过反复谈论出行计划但最终又否定出行计划。

（2）第2类、第3类和第5类测试数据分别有72条、76条和48条，系统的精确率和召回率均为100%。

（3）第4类测试数据共58条，其中正确识别数为54条，错误识别为类别7的有4条，系统的精确率和召回率分别为96.43%和93.10%。核查识别错误的数据，发现识别错误的原因为：对话内容中存在否定是某个宗教人员的话语，如“我不是佛教成员，我是基督教成员。”

（4）第6类测试数据共58条，其中正确识别数为42条，错误识别为类别7的有16条，其精确率和召回率分别为95.45%和72.41%。核查识别错误的数据，发现识别错误的原因为：①言语批评的对象为影视剧或历史人物;②一些词语在不同的语句中含义不同，例：“我身体不舒服，有点想吐”与“我每次看到我们领导都想吐”，这两句话中的“吐”字，用在不同的地方具有不同的语义;③语气导致的语义改变而导致识别错误。

（5）第7类测试数据共238条，系统正确识别229条，错误识别为类别1、4、6的数据分别有5条、2条和2条，系统的精确率和召回率分别为89.45%和96.22%。

综上，测试数据集共625条数据，系统正确识别数为589条，总体识别准确率为94.24%，平均精确率为96.35%，平均召回率为93.20%，综合评价指标为94.53%，系统具有很好的識别和分类效果。

4 结语

研究服务机器人听觉隐私信息的感知和保护技术，有助于服务机器人的推广与普及。本文正是针对机器人所监听到的语音数据，提出和实现了基于卷积神经网络的服务机器人听觉隐私信息分类算法，来判定语音数据的隐私类别，为隐私数据的保护奠定基础。下一步将继续补充和完善训练数据集，使监听系统具有更好的鲁棒性;此外，听觉隐私数据的保护机制与方法也是值得深入研究的方向。

参考文献：

[1]ZHAO J M， LI X Y. The status quo of and development strategies for healthcare towns against the background of aging population[J]. Journal of Landscape Research， 2018， 10（4）： 41-44.

[2]薛同来，赵冬晖，韩菲，等. 基于激光SLAM的助老机器人[J]. 工业控制计算机， 2019， 32（6）： 35-36.

[3]刘策，刘小峰. 助老服务机器人多模式友好交互系统设计与实现[J]. 电子测量与仪器学报， 2019， 33（1）： 177-182.

[4]苏志东，杨观赐，李杨，等. 基于服务机器人听觉的个人膳食构成自主感知算法[J]. 贵州大学学报（自然科学版）， 2019， 36（4）： 80-86.

[5]SU Z D， LI Y， YANG G C. Dietary composition perception algorithm using social robot audition for mandarin Chinese[J]. IEEE Access， 2020， 8： 8768-8782.

[6]AHN H S， SANTOS M P G， WADHWA C， et al. Development of brain training games for a healthcare service robot for older people[C]//6th International Conference on Social Robotics （ICSR 2014）. Sydney， NSW， Australia： Springer Verlag， 2014 ：1-10.

[7]FOUKARAKIS M， ADAMI I， IOANNIDI D， et al. A Robot-based application for physical exercise training[C]//Proceedings of the International Conference on Information and Communication Technologies for Ageing Well and e-Health. Rome， Italy： SciTePress， 2016： 45-52.

[8]ZHOU B， WU K， LV P， et al. A new remote health-care system based on moving robot intended for the elderly at home[J]. Journal of Healthcare Engineering， 2018， 2018：4949863.

[9]KALPANA S， JEAN C， KAY C， et al. Aging， privacy， and home-based computing： development of a framework for design[J]. IEEE Pervasive Computing， 2012， 11（4）： 46-54.

[10]籍祥. 卷积神经网络在中文问题分类中的应用[J]. 软件导刊， 2018， 17（9）： 25-27.

[11]赵力，将春辉，邹采荣，等. 语音信号中的情感特征分析和识别的研究[J]. 电子学报， 2004， 32（4）： 606-609.

[12]韩文静，李海峰，阮华斌，等. 语音情感识别研究进展综述[J]. 软件学报， 2014， 25（1）： 37-50.

[13]徐济仁，陈家松，徐屹. 语音信号预处理技术综述[J]. 电子工程师， 2001，27（6）： 26-27.

[14]杨观赐，杨静，苏志东，等. 改进的YOLO特征提取算法及其在服务机器人隐私情境检测中的应用[J]. 自动化学报， 2018， 44（12）： 2238-2249.

（责任编辑：曾晶）

贵州大学学报（自然科学版）2020年3期

贵州大学学报（自然科学版）的其它文章: 具有广义C-凸性的一类分式规划的对偶; 特殊矩阵特征值的Wielandt－Hoffman－残差型扰动界; 抛物随机微分方程的多水平Monte Carlo法; 硅渣与石灰对含硅碱液的协同脱硅作用; 基于海森矩阵增强与局部裂缝拼接相结合的桥梁裂缝提取算法; OpenPose结合BP网络的行为检测方法