刘奕彤 王乙霖
(上海立信会计金融学院 上海 201209)
(1)研究背景。中国现今是世界第二大经济体,商品经济与文化产业的发展日新月异。在此背景之下,中国原创商品外观设计的数量种类数目也呈井喷式增长。外观形象设计作为消费者了解产品的最直观的第一渠道,对消费者感知、区分不同商品以及商品在市场的流通都具有非常重要的作用。
近年来,尽管原创的设计理念越来越为人们所推崇,然而据有关调查显示,抄袭商品外观设计的行为仍然屡禁不止。
为解决上述问题,本文将提出一个原创设计抄袭鉴定系统。本系统旨在作为一种抄袭鉴定的辅助技术参与原创设计的保护工作之中。其工作原理是通过对互联网上的各种外观设计进行实时监控,若发现存在抄袭嫌疑的设计则及时反馈给用户,提醒用户进行维权。除此之外,本系统还可以解放人力,辅助有关人员进行原创外观设计的审核工作。
(2)研究现状。此类任务可参考传统的模式识别问题考虑。模式识别的关键问题在于准确提取并描述原创设计的特征。现有的特征提取思路,包括构建颜色直方图来提取颜色特征,从图像的自相关函数提取纹理特征,利用sift算法和hog算法提取图像的轮廓与形状特征。这些基于图像底层特征的描述方法都只适用于简单的分类任务,在面对可能存在语义层面的抄袭行为时,这些方法的局限性就逐渐显露。
卷积神经网络是一种相对新兴的特征提取方法,以其局部权值共享的特殊结构在模式识别方面有着独特的优越性。尽管由它提取出的特征不具有可解释性,但在面对需要进行语义描绘的任务时,它的识别准确率明显比上述算法高。在目前的研究中,虽然有许多研究围绕神经网络的应用展开,然而在解决相似设计是否存在抄袭这种问题上,国内还没有比较成熟的解决方法。针对此,我们提出了一种新的原创设计抄袭判断模式,采用了孪生神经网络的框架,最终做出一个可以模拟人类意识判断不同设计之间是否涉及抄袭的模型。
实现抄袭行为检测和相似原创设计抄袭判断的基础是获取足够多的训练数据集。本项目为了保证获取数据的先进性,对于爬虫技术的需求就是构建多聚焦式爬虫组网的伪通用爬虫,从而覆盖国内相关的原创形象发布平台来搜集相应IP形象数据。
采用Scrapy网络爬虫框架进行数据的采集。它的基本网络运行框架如图所示:
网络运行框架图
采集数据之后,还需研究如何提取并利用数据的特征信息。本系统应用了传统卷积神经网络的变种结构:孪生神经网络,进行图像特征的提取工作。孪生神经网络由两个子网络构成,它们在训练的过程中权值共享,在进行反向传播时同时改变两个子网络的网络参数,提取图像特征。
孪生神经网络结构示意图
在基础网络结构的选择上,本文参考了VggNet的层次结构,将其设置为孪生神经网络的子网络。为了提升网络性能,本团队在更改VggNet网络参数的同时,还在此网络的部分卷积层之间添加了残差块(跳远链接)结构,让卷积核提取的信息可以直接从浅层传输到深层,从而降低了网络的训练难度,特征提取效果变好,效率变高,网络性能最终得到提升。
vgg网络结构
利用孪生神经网络进行原创设计特征提取后,还需完善模型,使之可以自主判断两个设计之间是否存在抄袭嫌疑。为了实现这一点,本系统对提取出的特征编码值利用欧式距离进行相似度的测量,将计算出的距离用sigmoid函数映射到0-1之间,寻找最优的可以判定为抄袭的阈值。
由孪生神经网络提取出的形象特征比使用传统的特征提取方法(如sift、hog)提取的特征更加符合人类的思维模式。但因神经网络运行过程的黑箱化,人类无法得知它的特征提取依据,也无法理解提取特征之后得到的图片编码信息。为使得模型输出的抄袭判定结果更加科学、更加符合人类的思维模式,本研究在训练模型时即采用监督学习的模式,在输入训练图片的同时给予对应的标签信息。为了提高标签信息的权威性,我们尽可能从国家知识产权局的公告信息中获取判决信息,依据官方判决设置标签;此外,针对部门没有判决信息的图片数据,还通过人工推理判断的手段,将图片打上标签,供机器学习。
在实际采集数据进行训练时,我们发现采集到的图片质量参差不齐,因此我们在将图片纳入训练集之前首先进行一步数据清洗工作,将分辨率过低的图片以及完全相同图片的舍弃。之后,对清洗好的数据集统一进行下采样操作,确定图像的兴趣区域,将图片的像素统一为一样的尺寸,并将图片进行灰度化处理使其变为黑白图片,降低了训练的难度。
本项目训练了一个可以智能判断图片对之间是否存在抄袭现象的模型。其中,模型框架采用了孪生神经网络的结构,并且为了提升特征提取效果和优化网络性能,本研究在设计孪生神经网络的子网络结构的时候在VggNet原网络结构的基础上调整了网络参数,并在层级之间增加了跳远链接结构。经过此种调整,网络的性能得到了提升。
在常规的神经网络训练任务中,图片数据集的来源一般是互联网上的开源数据集,标签的设置也是依据原有数据集提供的信息,而不是人工手动判断。为了使得模型训练结果与人类的思维模式更为贴近,本研究在设置标签时根据官方判决文书以及人眼手工判断给图片打上标签,从而使得模型的判断效果更加好。
本文利用原创设计数据进行实验,在考虑模拟人类思维进行智能商标查重问题的基础上,提出了一种新型的抄袭判断模式。通过搭建孪生卷积神经网络,最终训练出一个可以有效提取商标特征信息的网络模型。
实验结果表明,在网络的卷积层之间增加残差结构,不仅能够显著减少模型收敛速度,同时还能在一定程度上提高模型的判断准确率。由此可见,在面对浅层网络不足以拟合整个样本空间时,可以考虑在加深网络层数的同时构建一些残差模块,以提高模型效果。
针对本模型未来的发展方向,目前大致有三条路线:第一是更改网络结构,寻求可以更好拟合整个样本空间的网络。第二条便是扩充数据集,提高数据集质量,优化图片预处理方法。第三条便是在原有基础上,更改网络参数或选取另外的损失函数或距离度量方式。但是这种方法对于模型效果的提高并没有前两种方法显著。总而言之,如果本算法进一步优化,相信在准确率上一定会有提高。