基于深度学习特征和在线感知机的物体识别系统

2017-08-16 18:26:12李孟起中国海洋大学经济学院郑煜辰中国海洋大学信息科学与工程学院

数码世界 2017年8期

李孟起中国海洋大学经济学院郑煜辰中国海洋大学信息科学与工程学院

李孟起中国海洋大学经济学院郑煜辰中国海洋大学信息科学与工程学院

计算机视觉是科学领域中一个极富挑战性的研究领域。近年来，随着科学研究的进步和工业水平的提高，计算机视觉被广泛应用于医学、工业、交通、等多个领域。本文实现一个物体自动识别系统，完成对特定类物体的识别。系统采用深度网络模型Decaf进行特征提取，将提取特征送入到融合了在线学习方法的分类器中实现图像中物体的准确识别。对于识别结果，本作品采用DTW语音模型对识别结果进行人工矫正。实验结果表明，系统具备模型简单，识别时间短，精度高，泛化能力强等优点。

2 介绍

计算机视觉与模式识别是近十几年来计算机科学最热门的方向之一。目标识别与分类作为该领域研究中的基础性问题，有着极大的研究价值和应用价值，受到广泛的关注。近年来，随着图像处理技术的专业化和计算机硬件成本的下降和处理速度的提高，计算机视觉技术被广泛的运用到生产实践中，目标识别应用层出不穷，在医学检测，工业生产，智能交通，安全监管等各个领域发挥日渐重要的作用，可以说计算机视觉正改变着我们的生活。

本文采用深度学习中的泛化CNN模型Decaf进行特征提取，对传统感知机模型进行容错改进，实现对特定类别的准确识别。同时，对整体模型进行在线学习改进，使网络结构具有实时调整的特性，实现系统识别能力的“智能化”增强。此外，系统的用户反馈采用语音对话的方式，从而使应用更具交互性与趣味性。实验结果表明，该模型具有测试精度高，测试时间短，泛化能力强的优点。同时模型在训练的过程中随反馈结果调整逐渐优化，达到了“终生学习”的要求。

3 实现方案

3.1 特征提取

Decaf是由UC Berkeley发布的深度学习库，是一种已在ImageNet数据集上训练好的深度网络模型。ImageNet共包含14197122张来自21841个类的自然图像。作为一种清晰高效的深度网络框架，Decaf方法具有运行速度快，架构简单友好的特点。本文采用Decaf模型进行特征提取。将实验图像输入Decaf模型，抽取结构第6层4096维卷积特征作为分类器输入。实验结果表明，4096维Decaf特征能使样本间具备很好的区分性，从而得到极好的识别效果。

3.2 分类器训练

相对于分类器训练，良好的特征表示对识别结果的影响更大。因此，有上面特征提取阶段得到的具备较强区分度Decaf特征做基础，系统选用相对简单的感知机模型作为分类器。通过对单层感知器模型进行容错改进，找到最佳分类界面。同时，为实现模型学习能力的“智能化”，将感知机模型与在线学习相结合，使模型具有应对错误识别情况实时调整参数的能力，从而达到“系统随用户不断反馈越来越智能”的要求。

3.3 语音识别

用户反馈的语音识别是本识别系统的另一个重要模块。用户通过语音对系统识别的结果进行反馈，分类器接受反馈信号，依据信号属性采取相应动作：若用户信号为“Yes”，分类器无动作；若用户信号为“No”，说明模型误分测试样本，分类器按正确结果对网络权值进行调整。应用语音信号进行人机交互，增加了系统的交互性与趣味性。

4 性能测试

4.1 测试方案

为更好的表征系统识别能力，我们选取ImageNet数据集中具备较高相似性的5类数据样本进行系统测试，分别为：算盘，键盘，遥控器，手机，Mp4。其中键盘类1045个样本，其余各类均包含1300个样本，共6245个样本。在样本中选取4800个数据作为训练样本，其余1425个用于测试。在系统识别能力“智能化”增强验证实验中，首先在训练集中选取400张图片作为输入，训练得到初始化分类器。然后采取增量学习的方式，每次另行选取400张图片送入上一步得到的模型进行分类，通过语音反馈不断调整模型参数，直到4800个训练样本用完为止。在语音识别测试中，我们选取组内3人的语音作为测试样本，每人300个语音样本（150个Yes，150个No），共900个样本。除此之外，为保证系统完整性，我们对集成后的模型也进行了多次测试。

4.2 结果分析

系统界面设计与预测结果：

图1 识别设计与界面

以上两图分别对应识别正确和识别错误的情况：识别正确，则识别结束；若系统识别错误，则返回此样本及其真实标签来调整分类器。可以看到，此系统具有较高的识别速度，识别单幅图片时仅需不到一毫秒的时间。

图2 键盘类的识别准确率

图2展示了键盘类识别过程中，模型识别能力随在线学习权值调整不断增强的趋势。直观表示为，随着训练样本的不断增加，测试准确率不断升高。

5 总结

本文以较好的计算机视觉与模式识别理论作为支撑，有效地实现了预期的精确识别和有效反馈调节的功能。作品结构设计合理简单，功能实现快捷有效，交互操作便捷，具备较好的用户体验。同时，系统模型具备较高的实用价值，并能在一定程度上满足市场需求，进一步完善开发后可以迅速推向市场。

[1]常亮,邓小明,周明全,等.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312

[2]杨戈,张威强,黄静.一个感知机神经网络字符识别器的实现[J].电子技术应用,2015,41(3):120-122

[3]尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015(1):48-59

[4]杨淑莹,胡军,曹作良.基于图像纹理分析的目标物体识别方法[J].天津理工学院学报,2001,17(4):31-33

[5]梁冰,陈德运,程慧.自适应视听信息融合用于抗噪语音识别[J].控制理论与应用,2011,28(10):1461-1466