刘嫚嫚 代琦
摘 要: 为了进一步提高蔬菜识别的精度,提出了基于Gibbs采样和残差卷积神经网络的蔬菜识别算法,本文将其命名为GiRAlexNet算法。根据马尔科夫随机场与吉布斯随机场的等价性构建图像概率模型,用Gibbs采样获取最优样本点集合,随机取点切割图片。通过GoogleNet、ResNet和AlexNet模型实验显示,分类准确率分别提升了9.22%,3.34%和9.19%。大量实验表明,该GiRAlexNet算法对蔬菜识别的准确率达到98.14%。
关键词: 蔬菜识别; MRF; Gibbs采样; Alexnet; 残差结构; 切割图像
中图分类号:TP181 文献标识码:A 文章编号:1006-8228(2023)09-43-05
AlexNet vegetable recognition algorithm based on Gibbs sampling and residual connection
Liu Manman, Dai Qi
(College of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310000, China)
Abstract: In order to further improve the accuracy of vegetable recognition, a vegetable recognition algorithm based on Gibbs sampling and residual convolution neural network, named GiRAlexNet algorithm, is proposed. The image probability model is constructed according to the equivalence of Markov random field and Gibbs random field. The Gibbs sampling is used to obtain the optimal sample points set, and the random points are taken to cut the image. The experiments of GoogleNet, ResNet and AlexNet models show that the classification accuracy is improved by 9.22%, 3.34% and 9.19%, respectively. Extensive experiments show that this GiRAlexNet algorithm can achieve 98.14% accuracy for vegetable recognition.
Key words: vegetable recognition; MRF; Gibbs sampling; Alexnet; residual structure; cutting image
0 引言
蔬菜自动分类技术非常适合用于自动化农业,通过构建一种资源优化利用系统,把生产力最大化。利用图像分类识别技术可以实现蔬菜识别,应用价值比较高。本文提出基于Gibbs采样和残差网络的蔬菜识别算法。通过马尔科夫和吉布斯随机场的等效性[1]处理图像,获得标记结果,再使用Gibbs采样方法得到最优蔬菜目标像素点样本集合,抽取样本集合中的像素点作为中心点切割若干图像,将其作为训练、预测的数据。在图像预测中,通过把原始图像切割成若干图像,分别识别切割后图片的所属类别,通过投票机制预测其所属类别。在网络模型中,本文在AlexNet卷积神经网络的基础上,使用残差连接和全连接层将得到的蔬菜特征作为依据进行识别分类。通过多次实验得出结论,本文GiRAlexNet算法可以对蔬菜进行有效识别,提高了蔬菜识别在应用中的准确率。
1 MRF构建问题模型
1.1 相关的研究
Markov随机场是由S. Geman和D. Geman提出的[2]。MRF可以用来表达目标像素点与其领域内的其他像素点之间的关系[3]。如果把一幅图像当做一个二维网格的点集合,并且这个集合中的每个点都可以从标签空间中随机给定一个值,而如果任意一个点上的标签值只和相邻点上的标签值有关,则该点集上的标签集合就是一个马尔科夫随机场。
1.2 MRF对图像进行问题描述
在MRF处理图像主要问题:一张图像上面的点集合假定是二维网格,[S={(i,j)|1≤i≤H,1≤j≤W}]其中H是圖像的高度,W为图像的宽度。其满足马尔科夫当前像素值只和他的领域的取值有关系,而与非领域像素的取值无关的性质(通常假定为4领域或者8领域)。然后为图像中的每一个像素点分配标签,经过MRF处理图像过后,我们就会得到一个标记的图像。本文把图像的标签分为两类别,每一个像素点的类别由m表示,表示的就是原始图s的位置的像素属于标签0或者1。
1.3 基于Bayesian估计的图像模型
在MRF处理图像的方法中是创建在Bayes定理之上的,假设我们观察到的图像设为Y,需要求“真实”图像X,那么我们的图像问题可以转化为求标记图像X的问题,即求最大后验概率[P(X|Y)]的问题[4]。
[P(X|Y)=Ρ(Y|X)Ρ(X)Ρ(Y)] ⑴
其中,[P(Y|X)]是观察值Y的条件概率分布,表示领域系统中的局部效应的关系。[P(X)]是标签的先验概率,式中[P(X|Y)]是后验概率,[P(Y)]是我们观察到的图像,认定为一个定值。因此如果要求最大后验概率,则定义出先验概率[P(X)]和似然函数[P(Y|X)],就可以把上述的图像标记问题转化为如下的最优化问题[5]:
[x=arg max,ΡX|ΡY|X] ⑵
1.4 MRF和Gibbs随机场的等效性
在MRF中,领域系统和势能团是重要的概念,如图1描述的就是二维网格S上的某一个像素格点的一阶领域系统和势能团。
一般来说,图像中像素点之间的位置关系是通过领域系统来描述。图1中深色目标像素点[Si,j]有4个一阶相邻灰色像素点,则[Sij]的邻域集为[Ni,j]有4个像素点。领域系统描述如下:设N为S上的一组子集[Nij]的集合,则[N={Ni,ji,j∈S,Ni,j⊆S}]被定义,其中N就是S的领域系统。根据Hammersley-Clifford定理,随机场X的概率由一个吉布斯分布对邻近系统[Nij]给出:
[Ρx=exp-Ux|TZ] ⑶
其中,T是温度参数,Z为归一化常数,[U(x)]是标记图像x的能量函数。
假設图像中的每个像素点都是独立的,并且我们认为每一类像素点里面的所有像素点均符合高斯分布,我们可以根据每一类的像素点构建一个属于这一类的高斯密度函数[6]。本文把类别设置为2,建立了两个高斯密度函数,那么每一个像素点属于这两类的概率可以分别代入这两个高斯密度函数中进行计算,高斯密度函数[7]如下:
[Ρy|x=m=12πσ2exp-y-μ22σ2] ⑷
其中,m为像素点[si,j]在图像处理中[x]的标签,当像素[si,j]在图像X中标记为m的时候,[μ]和[σ2]为图像Y中[si,j]对应的均值和方差,y为像素值。
因此,MRF处理图像问题的结果就是给实际图像一个标记,证明它属于哪一类别。
2 采取最优样本点并分割图像
2.1 Gibbs采样获取最优样本解
Gibbs采样是利用条件分布进行一系列运算最终近似得到联合分布的一种采样方法[8]。在图像中,假如这个像素点标记分类为0,计算周围分布标记信息的概率,就可确定这个像素点的分类标记是否正确或须更新。由贝叶斯模块可知,我们已经把问题转化成了求解式⑵的问题,[P(X)]用吉布斯分布表示,通过势函数可以求出,满足式⑷,式⑷中的[P(Y|X)]满足高斯分布。如图2所示,假设一个点的灰度值是100,从高斯分布图中我们可以看出这个像素点的最优可能是在标签1下的分类,以及对应标签1下的概率。这样像素点既有了一类标记下的先验概率和似然概率,相乘即可得到每个点属于某一类标签的概率,我们选择概率最大的点作为我们最终的所属标签。
通过不断的循环,把采集到的像素点的所属类别不断地进行更新,直到达到本文程序循环设置的最大值。本文设置1000为程序结束的条件。一般来说,我们认为这两部分的每一部分都组成了一个能量,换个说法就是能量函数,可以表示如下:
[W=arg minU1y,x+U2x] ⑸
Gibbs采样算法可以把条件概率作为依据从图像Y中选取一个新的样本值,它加入了随机的想法抽取样本,步骤阐述如下:
[算法:Gibbs抽样算法 ⑴ 对图像初始化,求出图像的大小,设置分类数,最大迭代数,随机初始化标签,对于不同的标记,计算出均值和方差,通过训练的样本得到似然函数[P(Y|X)]集合,这样我们就得到相关的参数大小。
⑵ 根据似然概率[P(Y|X)]最大化的准则,选取初始的标记场,对于每个像素点,我们根据条件概率取[arg(max(U(x,y)))],完成了初始化的处理[W0]。
⑶ 设置K为程序结束的条件,对图像中的每个像素点S,随机选取一个像素点s,计算[PXs|Xt=PXs|XtNs],然后从中获得[X*s]样本,接受这个[X*s]代替[Xs],并且获得[Xt+1]对[PXs=(0|1)|XNs]全部计算完毕,并且重复K次,我们得到的第K次的采样的样本接近最真实的联合分布。 ]
经过K次采样得出的最优样本点在蔬菜图片上的Gibbs采样结果图以苦菊为例,如图3所示。从图像显示来看,通过Gibbs算法在图片上选取样本点进行切割图片,样本点基本落在蔬菜的主体区域,和未使用Gibbs采样算法的样本点切割图片结果相比,获取的蔬菜图片特征更多,降低了因切割背景而增加的误差率。
2.2 随机抽样切割
本文通过马尔科夫和吉布斯随机场的等效性来处理图像,获得标记结果,再使用Gibbs采样方法得到最优目标像素点样本集合,抽取样本集合中的像素点作为中心点切割若干图像,将其作为训练、预测的数据。在一张蔬菜图像中,随机取点并按照固定大小进行切割,就得到了不同位置特征的蔬菜图片,切割结果如图4所示。图4(a)是茼蒿切割结果图,图4(b)是胡萝卜切割结果图。在扩大了数据集的同时,蔬菜的局部特征也更为显著,局部特征可以反映蔬菜的某些固定的特征,基于局部特征的变化,图像的特征有足够的显著性,这些特征在训练的时候更高效,强化卷积神经网络的提取特征。预测同样引入随机切割的思想,在切割图片的基础上,充分考虑不同角度特征,基于投票机制设计多类别识别模型,提高蔬菜识别的准确率。
3 基于残差结构的Alexnet卷积神经网络
通过对现有主要的卷积神经网络模型进行查阅对比分析发现,拥有较多层数的卷积神经网络拥有较高的识别能力,但网络层数过深会导致训练和识别耗时较长。通过对AlexNet、GoogleNet、ResNet等几大经典模型综合分析,考虑应用场景的设备实际。本文选择AlexNet网络模型作为本文蔬菜识别算法的基础结构。
本文以Alexnet网络模型为基础,在Alexnet模型上面添加了残差学习的思想,构建了基于残差连接的卷积神经网络,残差模块可以建立直连通道,将输入信息直接传递到输出端,这在一定程度上避免了蔬菜图像信息丢失,提高了图像信息的完整性。同时,在卷积层之后连接BN层,归一化算法使得本文的网络模型的收敛速度加快,最后一层卷积层采用全局池化算法+softmax进行分类,全局池化算法可以降低参数量,同时全局池化部分地保留了输入图像的空间结构信息,这加强了测试集图像和测试集所属类别的关联。网络模型残差流程如图5所示。
4 实验
4.1 数据准备
本文数据包括40种蔬菜种类,每种蔬菜类别包含300多张图像,其中训练数据集占90%,测试数据集占10%。
4.2 切割图片实验分析
为了获得最佳的分割图片个数,本文选取五种相似的蔬菜种类为实验对象。本文采用Gibbs采样把每张图片分别切割成5、10、20、40、80、100张图像,利用AlexNet、GoogleNet和ResNet网络模型进行训练和预测实验。实验结果如图6如示,图(a)是GibbsAlexNet实验结果图、图(b)是GibbsGoogleNet实验结果图、图(c)是ResNetAlexNet实验结果图。
从图6可知,当每张图片被切割为20张图片时,识别准确率较高,同时图片数据量最少,性能最高,因此,本文选取20为最优切割点数来构建训练集。
為了分析切割图像对于蔬菜识别的准确率的影响,我们构建了包含40种蔬菜的训练数据集,选取270张图片作为预测数据。通过实验可知,20为最佳分割训练数,因此,本文利用Gibbs采样把训练集切割个数设置为20。再利用Gibbs采样,把预测集中每张图片分别切割成5、10、20、40、60、80、100张图像,结合AlexNet、GoogleNet和ResNet网络模型进行实验,识别准确率如图7所示。
由图7可知,利用Gibbs采样分割数量会影响图像分类的准确率,基于Gibbs采样切割的分类模型效率比传统的高。可见,本文提出的GiRAlexNet算法应用于蔬菜识别,通过切割图片区域特征识别结果作为最终的正确率,绕过干扰因素,这在一定程度上给了图片识别机会纠正错误,提高了图像识别的容错率。本文算法对AlexNet网络模型提升最大,弥补了由AlexNet层数少而导致准确率偏低的问题。
4.3 与现有方法比较
本文基于文献[9]的标准数据集,与文献[9]、文献[10]、文献[11]以及本文采用GiRAlexNet算法对蔬菜进行分类识别,实验结果如表1所示。
由表1可知,本文提出的GiRAlexNet蔬菜识别算法获得了更高的准确率。本文算法减少了训练对复杂网络模型的依赖,增加了数据处理环节,利用Gibbs采样分割蔬菜图片,放大了局部特征,降低复杂背景的干扰,支持了一定的容错率,可以视为一种轻量级且实验精度较高的模型。本文对AlexNet模型做出改进,通过层和层之间的直连设计残差模块,避免了蔬菜信息丢失或者损耗,也确保了数据的完整性。
5 结论
本文提出了一种基于Gibbs采样和残差Alexnet卷积神经网络的蔬菜识别算法,系统实验表明,基于Gibbs采样切割算法,使GoogleNet、ResNet和AlexNet模型的准确率分别提升了9.22%、3.34%和9.19%。本文改进AlexNet模型准确率比现有AlexNet模型提高了10%,高于GoogleNet和ResNet网络模型,而其训练和识别明显低于GoogleNet和ResNet网络模型。可见,本文提出的GiRAlexNet蔬菜识别算法是一种精度高且层数较低的轻量级模型,可以较好地应用于农产品流通和销售环节的硬件设备上,应用于农产品流通和销售环节,提升流通速度,满足新型营销模式。未来,将继续研究如何把本文的算法移植到硬件设备上,将其真正的应用于农产品流通和销售环节中。
参考文献(References):
[1] 齐千慧.基于马尔科夫随机场的声呐图像分割[D].北京:北京印刷学院,2021(9).
[2] 曾强.具有分割健壮性的乳腺超声图像分类方法研究[D].黑龙江:哈尔滨工业大学,2010(6).
[3] 杨玚,谢华成.基于马尔科夫随机场与模拟退火算法的图像分割[J].软件,2015,36(4):40-43.
[4] 李国友.基于广义模糊集及主动轮廓线模型的图像分割方法研究[D].河北:燕山大学,2007(2).
[5] 陈波,赖剑煌.用于图像分割的活动轮廓模型综述[J].中国图象图形学报,2007(1):11-20.
[6] 陶启放.基于Markov随机场的机器视觉设计及应用[D].四川:电子科技大学,2018(8).
[7] 黄元康,李红松,余鹏飞,等.基于Markov随机场理论的眼底图视盘轮廓的提取研究[J].云南大学学报(自然科学版),2016,38(4):530-535.
[8] S. Geman, and D. Geman, "Stochastic Relaxation, GibbsDistributions, and the Bayesian Restoration of Images", IEEE Trans. on PAMI, Vol.PAMI-6,1984(6):721-741.
[9] Ling,Zhu,Zhenbo.High performance vegetableclassificationfrom images based on AlexNet deep learning model[J]. International Journal of Agricultural,2018,11(4):217-223.
[10] Huo Z L, Wu H T, Hua X, Xu Y Y, Zhang Y X. Applicationof gray level co-occurrence matrix in vegetable species recognition. Journal of China University of Metrology,2015,26(1):105-109.
[11] 刘世健.基于深度学习的果蔬图像分割和特征识别研究[D].甘肃:兰州理工大学,2021(3).