胡刚+荆磊+朱磊
摘 要:随着互联网和移动互联技术的迅速普及和发展,与网络有关的版权和著作权纠纷呈现逐年递增的态势。随着人们版权意识的逐渐提高,对版权归属、侵权后的确认等问题也提出了更高的要求,对于图像的版权保护问题也成为了研究的热点。图像特征提取的卷积神经网络主要用来识别图像的特征,可以抵抗图像的位移、缩放和其他形式扭曲不变形的变换。图像特征提取的卷积神经网络通过训练数据进行学习,避免了显式的特征提取,而是隐式的从训练数据中进行学习。基于机器学习的图像特征提取技术,可以更好地适应当今海量数据爆发性增长的实际环境,可以为实际图像的版权确认提供充分的依据。
关键词:机器学习;图像特征提取技术;图像版权保护;应用
1 背景
互联网技术的快速普及和发展给版权保护的传统手段带来了前所未有的冲击和挑战。版权作品在数字技术和网络技术普及的大环境下,使用户可以在任意媒介上进行复制,并不受任何限制,甚至在版权作品被侵权后都很难查清侵权作品的真正源头。
随着人们版权意识的逐渐提高,对版权归属、侵权后的确认等问题也提出了更高的要求,对于图像的版权保护问题也成为了研究的热点。由于图像相比其他版权作品,具有更容易传播、更难确认版权归属等方面的特点,所以,对图像的版权保护技术研究是本领域的重要研究内容。当图像的版权所有人需要证明图像的版权归属问题时,也就是图像作品的确权问题时,我们可以通过提取图像的特征来明确版权的归属问题,以维护图像版权作品的正当权益。
1.1 图像特征的定义
图像特征是计算机图形学中的概念,它是指通过计算机编程实现特定的算法来获取图像中的某些关键信息,来决定每个图像的点是否属于一个图像特征。图像特征提取的结果是把一张图像分为不同的部分或子集,这些不同的部分或子集可以使孤立的点、一段连续的曲线或者一片连续的区域。到今天为止,图像特征也没有一个通用和准确的定义。图像特征的精确定义通常由应用的场景来决定。图像特征是图像数字化后的一个有趣的部分,它是计算机图像分析算法的起点,图像特征提取的一个最重要的特性就是可重复性,即在相同的应用场景下,图像所提取的特征也应该是相同的。
要提取图像的特征,必须明确以下数字图像的相关定义:
1.1.1 图像的边缘。图像的边缘是图像边缘点的像素集合,图像边缘的形状由不固定的像素组成,可以是任意形状,甚至有的图像边缘是相交叉的。在计算机图形学中一般被定义为图像中拥有最大的梯度的像素点所组成的集合,可以把图像边缘看成是一对图形结构。
1.1.2 图像的角。图像的角是图像中的局部的二维结构,是图像边缘的突然转向,现在也可以看成是图像梯度中的高度曲率。
1.1.3 图像区域。图像的区域是一个图像中的一个区域性的结构。这个结构的组成可以是仅由一个像素点来构成。因此图像区域的检测也可以来检测图像的角。
1.1.4 图像的特征提取。图像的特征被计算机编程实现的检测算法侦测到后,它可以被计算机算法从图像中提取出来,提取结果被称为图像特征描述。
1.2 图像特征的分类
常用的图像特征包括颜色特征、纹理特征和空间关系特征等。
1.2.1 颜色特征。图像的颜色特征是基于图像色彩的一种图像全局特征,描述的是整幅图像或图像中的部分区域所对应的景物的一种表面特征。图像的颜色特征也就是基于图像的像素点的特征。由于颜色色彩对图像或者图像部分区域的方向和大小等变化十分不敏感,因此图像的颜色特征并不能很直观地描述出图像中具体对象的局部特征。在实际应用场景中,基于图像颜色特征进行查询时,查询的结果也不会很精确。颜色直方图是常用的表达图像颜色特征的方法和技术,颜色直方图可以不受图像的旋转和平移等变化的影响,还不会受图像尺度大小变化的影响,但是不能具体描述图像颜色色彩的空间分布信息。
1.2.2 纹理特征。图像的纹理特征也是图像的一种全局特征。图像的纹理特征是图像的表面特性,不能完全反映图像的本质属性。图像的纹理特征不是基于图像像素点的特征,它是在包含多个图像像素点的区域中进行统计计算以后得出的结果。图像的纹理特征在图像匹配过程中,不会由于图像的局部偏差而出现无法匹配成功的情况。图像纹理特征对旋转和噪声具有很强的鲁棒性,但对于图像分辨率的变化可能会出现较大的偏差。图像纹理特征的常用提取方法是灰度共生矩阵的分析方法,它从图像的能量谱函数提取图像的纹理特征,提取出图像的纹理的粗细度及方向性等图像的特征参数。
1.2.3 空间关系特征。图像空间关系是图像中分割出来的多个目标之间的相互空间位置关系,这些关系可以是连接、重叠和包含关系等。图像的空间关系特征可加强对图像内容的描述区分能力。图像的空间关系特征的特性决定了它对图像的旋转、尺度变化等攻击的鲁棒性较差。通过以上分析,为了图像版权的准确识别需要的图像特征提取,需要对图像的多种特征进行综合提取、分析。随着互联网技术的快速发展,这些提取与分析的计算数据量也面临海量的增长,这也为图像的版权保护提出了极大的挑战。为了应对这种挑战,需要采用更先进的基于大数据的机器学习方法来快速准确地提取、分析图像的特征,以明确图像的版权。
1.3 大数据时代
信息技术的快速发展,使各个产业的数据量呈现爆炸式增长,数据以前所未有的速度进行积累。因此,“大数据”的概念也得到了越来越多的关注。随着大数据时代的到来,大数据的相关技术已在很多行业被得到广泛应用——无论是从大规模的数据中心到商业智能、数据挖掘的应用,还是搜索引擎、推荐系统、语音识别等都得到了快速的发展。大数据技术涉及到很多方面的内容,包括了大规模的并行计算、云技术等多个领域。如何利用先进的大数据技术为版权行业的快速有序的发展提供支撑也成为当前的热点课题。目前,以图像、音视频为代表的内容产业得到了迅猛发展,图像的版权问题也日趋得到关注,传统的图像版权保护技术已不能适应当前内容产业的高速发展,无论是图像的版权确权的准确性还是及时性都不能提供足够的保障,必须有能适应当前的大数据时代的新技术进行支撑。
1.4 机器学习
随着大数据时代的来临,大数据领域的各种算法和技术也得到了快速的发展和应用。机器学习作为大数据技术的一个技术领域,将在今后的大数据处理与分析中发挥越来越重要的作用。在基于大数据的具体应用开发中,通过机器学习算法,从海量数据中挖掘出有意义的数据模式,从而达到发现数据价值的目的,实现数据变现。
机器学习的目的是从已有的数据中获得数据模型,并通过获得的模型对未来的数据进行预测,也可通过未来的数据对模型进行微调,从而更加适应应用的场景。
2 基于机器学习的图像特征提取
2.1 卷积神经网络
卷积神经网络是近年来迅猛发展并引起广泛重视的一种基于图像特征的高效识别方法。卷积神经网络避免了对图像的复杂前期预处理过程,可以直接输入原始图像,并且可以避免耗时的误差反向传播,因而在图像的版权保护领域可以得到更广泛的应用。
2.1.1 卷积。卷积是数学分析中的一个重要运算。在图像的版权保护中的特征领域,只需要对图像用一个卷积核进行卷积运算,实际上也是图像的一个滤波过程。
卷积的数学表示为:f(x,y)?莓w(x,y)=∑(s=-a)∧a∑(t=-b)∧b?主w(s,t)f(x-s,y-t)?著
其中I=f(x,y)代表一个图像,f(x,y)是图像I上x行y列上点的灰度值。而w(x,y)是卷积核,而a和b定义了卷积核即w(x,y)的大小。卷积提供了图像的权重模板,而这个模板在图像上滑动,将中心与图像中的每一个像素对齐,然后对这个模板所覆盖的像素进行加权,结果做为卷积核在图像上的响应。卷积是一种数学的线性运算,卷积核的大小定义了图像中任何一个像素点参与运算的域的大小,并且权重越大,其所贡献的能力也就越大。
2.1.2 卷积神经网络的分层。卷积神经网络的基本结构包括两层,包括特征提取层和特征映射层。(1)特征提取层。在卷积神经网络中,每个神经元的输入都与前一层的局部区域相连,通过提取该局部域的特征作为特征提取层。通过这种被提取的特征关系,可以将这种局部与特征间的位置关系确定下来。(2)特征映射层。卷积神经网络中的每个计算层由多个特征映射组成,每个特征映射代表一个平面,每一个平面上所有的神经元的权值都是相同的。卷积神经网络的特征映射具有位移不变性。卷积神经网络中的每一个卷积层都紧跟着一个计算层,计算层用来求局部平均和二次提取结果。卷积神经网络的这种特有的特征提取结构减少了所提取特征的分辨率。
2.2 局部感知
在图像特征提取中,图像被表示为像素的向量。在卷积神经网络中,必须先减少参数从而加快提取和识别的速度。卷积神经网络可以通过两种方式来减少参数数目,局部感知是第一种。人们对世界的认知是从局部到全局的,机器学习的核心是模仿人类观察和思考的过程。因此卷积神经网络也可以通过这个从局部到全局的过程来实现减少参数。图像的空间域的联系呈现出局部区域的像素联系更为紧密,而距离较远的像素之间的相关性则更弱一些。因此卷积神经网络的每个神经元没有必要对全局图像进行感知,只要通过对局部进行感知,然后再将各个局部的感知信息进行综合就可以得到全局的信息。
2.3 参数共享
上文提到,为了加快图像特征的提取和识别速度,卷积神经网络可通过两种方式来减少参数数目,第二级就是参数共享。在局部感知的过程中,可能仍然存在参数过多的情况,这就需要参数共享,也就是权值共享。卷积操作也就是图像特征提取的方式,这种方式是具有位置无关性的,即图像的一部分统计特性与其他部分是一样的。当一个大分辨率的图像通过随机抽取的方式选取了一小块图像作为样本,并从这个样本中提取特征,可以将这个特征作为一个探测器应用到这个大分辨率图像的任意地方中去,并将这个特征与大分辨率图像作卷积,便可以在大分辨率图像的任意一个位置获取特征的激活值。
2.4 池化
当通过卷积运算获得了图像的特征以后,为了实现快速识别图像,还需要对特征进行分类,可以用已经提取的特征去训练已经建立的分类器模型。但是由于多卷积核的存在,特征分类计算的计算量会特别庞大,而且容易出现过拟合现象。上文提到,通过卷积后的特征具有图像的位置无关性,也就是在某一个区域的图像特征可能在另一个区域同样适用。因此,可以通过对不同位置的特征进行聚合统计的方法来描述一个高分辨率的图像。这种聚合的操作就是池化的过程。在卷积神经网络中,由于不需要对图像进行预处理,而在每次对图像进行卷积以后,都可以通过一个下采样的过程,来减少图像的规模。
2.5 卷积神经网络结构
图像特征提取的卷积神经网络是建立在多层神经网络结构上的,每一层的所有节点按照连接线的权重向前计算,作为下一层节点的输出。而每一层的每一条连接线都彼此不同,下一层的每一个节点的值与前一层的所有节点都相关。在图像特征提取的卷积神经网络中采用五层的卷积神经网络结构,分为一个输入层、一个输出层、两个特征提取层和一个包含全连接的隐藏层。输入层:输入层获取特征向量作为输入。一般的图像经过人为的特征挑选,通过特征函数的计算来获取特征向量,作为图像特征提取的卷积神经网络的输入。在输入层的所有节点向前没有任何连接线。第一特征提取层:第一特征提取层由多个卷积模板输入层的输入图像做卷积计算。在这一层中,我们计算偏置权重。第一特征提取层并不是所有的节点都与输入层的所有节点相连接,而是只与邻域的点进行连接。每一个连接对象有两个成员,一个成员是权重的索引,另一个成员是上一层节点的索引。第二特征提取层:第二特征提取层由特征图像组成。每个特征图像的每一个点都由第一特征提取层的每一个卷积模板所对应的特征图像的邻域点在一起加权组成。隐藏层:隐藏层与一般的卷积神经网络相似,在该层进行无监督的特征学习。隐藏层的节点与上一层的所有节点相连接。输入出层:输出层的节点数量与特征的分类数目有关。输出层的每一个输出节点与隐藏层的所有节点相连接。
2.6 训练与识别
卷积神经网络的本质是一种输入到输出的映射,通过卷积神经网络能够学习大量的输入与输出之间的映射关系,而不需要任何的输入与输出之间的数学表达。只需要对已有的建立好的模型进行训练,卷积神经网络就可以获得输入与输出之间的映射能力,进行图像的特征提取。图像特征提取的卷积神经网络的权值更新策略与传统的多层神经网络相一致,训练算法包括四步,四步分为正向传播和逆向传播两个阶段。
正向传播阶段:
(1)从样本集获取样本,并输入到卷积神经网络中;
(2)计算相应的输出。
在正向传播阶段,信息是从输入层经过不同层的变换,最后通过输出层输出,这个阶段是卷积神经网络在完成训练正常运行和执行时的过程。
逆向传播阶段:
(1)计算实际输出与理想值之间的差;
(2)按照极小误差的方法反向调整权重矩阵。
随着大量的训练与学习,图像特征提取的卷积神经网络可以逐渐将获得准确的图像特征。
3 结束语
图像特征提取的卷积神经网络主要用来识别图像的特征,可以抵抗图像的位移、缩放和其他形式扭曲不变形的变换。图像特征提取的卷积神经网络通过训练数据进行学习,避免了显式的特征提取,而是隐式的从训练数据中进行学习。另外,因为同一特征映射面上的神经元权值相同,所以图像特征提取的卷积神经网络可以进行各种学习来不停地完善提取特征的结果,使特征提取的结果更符合版权保护的实际需要。而且卷积神经网络通过权值共享极大的降低了网络的复杂性,权值共享的方式也避免了特征提取和分类过程中需要重建的数据复杂度。
通过卷积神经网络进行图像特征提取有以下的优点:(1)输入的图像可以与卷积神经网络更好的吻合;(2)特征的提取与特征的分类可以同时进行,并可以同时在训练中产生;(3)采用权重共享可以减少卷积神经网络的实际训练参数,使网络结构更简单,适应性更强。
基于机器学习的图像特征提取技术可以更好地适应海量数据爆发性增长的当今实际环境,可以为实际图像版权的版权确认提供充分的依据。将来更可通过对训练模型的微调实现流式数据的支持,实现对流媒体(音视频)的特征提取与分类,为音视频的版权确认提供可选的技术手段。
参考文献
[1]王力,王小华,王莉.神经网络在车牌识别中的应用[J].微型机与应用,2011,03.
[2]黄成.基于决策树分类的数字图像数据挖掘探究[J].现代计算机(专业版),2010,11.
[3]王如杰.基于特征融合的医学图像检索[D].南京理工大学,2013.
[4]王锦超.跨媒体检索技术的研究[D].山东农业大学,2013.
[5]汤嘉立,左健民,黄陈蓉.基于SVM预分类学习的图像超分辨率重建算法[J].计算机应用研究,2012,8.