王一海
(南京信息职业技术学院数字商务学院,江苏 南京 210023)
近年来,随着人工智能、大数据等新兴技术的迅速发展,促进了电子商务产业链的发展,零售业的诸多环节发生了显著变化。零售业已经成为人工智能等新兴技术的典型应用场景,以深度学习为基础的人脸识别、语音对话、商品识别等人工智能技术正在探索如何应用于刷脸支付、以图搜图、智能购物等场合[1-3]。
商标作为一个公司、组织、品牌、产品独一无二的符号,商家可以通过搜索、识别相关的商标,来分析其品牌在整个市场中的发展情况以及未来的发展趋势,同时可以帮助广告商来检查广告的有效性,以及是否存在版权侵权方面的问题。然而,由于互联网图片、视频数据的规模急剧增长,图片和视频中的产品商标的有效智能鉴别,已经成为一个不可回避的问题。
商标中包含文本、符号和图形等元素,目前商标检测中存在的主要难点包括:商标在图片中的位置、角度是不确定的,由于自然场景中各种印刷、照明、遮挡、旋转、裁剪、大小等因素,商标存在着很大变化,并且商标的类内差异比较大,类间差异有的会比较小,容易带来误检。文献[4]在商标识别中采用了一种基于Hu 修正矩的特征提取算法,该方法针对商标的多种状态,比如旋转、缩放或平移时,所得到的修正矩值基本保持不变,具有一定的稳定性。针对商标识别过程中资源要求过高的问题,文献[5]研究了一种基于计算迁移的商标识别方法,该方法用于智能终端对商标的识别,将任务节点的执行位置由应用成本图辅导决策,实现了商标识别应用过程的计算迁移,降低了终端能耗。文献[6]针对镭射烟标的识别问题,通过光谱反射率判断主体颜色信息,并计算色差平均值。
本文基于BP 构建全连接前向反馈神经网络的商标鉴别系统,对一定规模的测试集商标进行鉴别测试,构建预测模型,加载进网络进行迭代训练,从而对网络的预测能力进行评估,进行对商标更准确的鉴别。
如图1 所示,DNN 基本结构由三部分组成:输入层、隐含层和输出层。这些层均采用全连接神经网络(FNN)[7],其中各层的每个神经元都与前一层的所有神经元相连。因此,前一层神经元的输出就是下一层神经元的输入,每个连接都有一个加权值w。每次迭代的目标是更新这些权重,以便预测结果更接近模拟数据。同一层的神经元之间没有连接。在神经网络的学习过程中,学习损失是向后传播的,可以用均方误差或线性误差来测量。
图1 神经网络基本架构
本文的研究中,神经网络框架构造为多维输入和一维输出。当我们增加层的数量和大小时,网络的体量就会增加,这意味着神经元可以协作来表达更复杂的功能。然而,较大的网络虽然带来较强的拟合能力,但也带来了负面影响,即过拟合[8]。过拟合是指网络对数据中的噪声有较强的拟合能力,而没有充分考虑数据集之间的本征关系[9]。我们采用的策略是使用正则化技术来控制过度学习同时确保大型网络的拟合能力[10-11]。
根据第1 节提出的基本神经网络架构,我们搭建了一个专用于识别判断商标真伪信息的全连接前向反馈神经网络,输入为根据图片信息提取出的128 pixel×128 pixel 灰度数据值,输出为包含商标真伪信息的单值数据。图2 展示了我们的商标鉴别模型的设计流程图。
图2 商标鉴别系统设计流程图
本文采用的原始数据为20 个品牌的正版商标及其对应的20 个盗版商标,图片数据格式为JPG,分辨率为400 pixel×400 pixel。我们将神经网络的层数设为8,每一层神经元的个数配比分别为2 048,1 024,512,128,64,32,16,8,每层隐藏层的激活函数为tanh 函数,而输出层的激活函数为softmax函数,输出独立编码判断真伪的单值。
图3 商标鉴别网络系统流程图
目前,神经网络最常用的激活函数有Sigmoid、双曲正切(tanh)和整流线性单元(ReLu)[12-13]。如图4所示,我们采用8 层隐含层,每一层神经元的个数配比分别为2 048,1 024,512,128,64,32,16,8 的全连接神经网络,研究在10 000 次的前100 次迭代中,各激活函数对网络学习效率的影响。经过近10 000 次迭代后,各激活函数的训练损失明显降低,而tanh 的损失值最低。这些结果表明,tanh 更适合我们的非线性数据模型,在本文中选择tanh 作为激活函数。
图4 激活函数对网络学习效率影响对比图
训练中使用的优化算法为梯度下降算法[14-15]。梯度下降算法中的学习速率和步长,可以用来控制权值更新的速度。我们使用变学习率的训练方法[16-17]:在每次训练中,学习率从0.001 开始减小,步长为0.000 5。如图5 所示,与传统的训练方法相比,这种训练模式可以帮助网络更快地收敛到目标函数的最小值。
图5 训练方法对比图
在系统测试中我们使用均方误差(mean square erro,MSE)来衡量网络的拟合能力,最终训练结束后训练损失的MSE 值下降到了1×10-8,证明我们的网络能够准确拟合出商标图像数据和商标真伪值之间的关系式。为了验证网络的预测能力,我们准备了一组测试商标数据输入网络,如图6 所示,网络精确地判断出了商标的真伪信息。
图6 网络预测结果测试示意图
新技术在零售终端、物流环节的应用,可以产生有价值的数据。将这些海量的数据进行收集、监测以及分析,可以帮助企业更加有针对性地进行店铺运营和消费者管理。本文系统地构建了基于BP 全连接前向反馈神经网络的商标鉴别系统。从对测试数据集的实证结果看,本系统具有较强的学习拟合能力和自适应能力,具有较高的合理性和适用性。此方法不仅可以拟合真伪商标和其像素数据值之间的关系,而且还能够很好地避免人为鉴别过程中的不确定性,在最大程度上缩小了人为因素及模糊性的影响,提高了鉴别的可靠性,鉴别结果也更迅速准确。
当然,本文所提出的基于BP 全连接前向反馈神经网络的商标鉴别系统在实际中也存在着一些不足,主要表现在BP 神经网络模型要求有较多数量的学习样本,学习样本的数量和质量也在很大程度上影响着神经网络模型的学习效率和最终鉴别结果;其次,指标的合理性还需要进一步证明,本文的实证部分主要针对一组测试集商标,测试集规模较小,而当运用到不同尺寸、不同分辨率的商标鉴别时,鉴别结果的合理性需要做深入探讨。因此,针对上述的问题与不足还应当进一步深入研究。