GA-BP神经网络对片烟结构的预测研究

2022-06-16 14:29张崇崇黄亚宇
电子科技 2022年6期
关键词:图像处理烟叶阈值

张崇崇,黄亚宇

(昆明理工大学 机电工程学院,云南 昆明 650500)

烟叶打叶过程是一个复杂、具有随机性、不确定性、高度非线性等特征的时变过程。片烟结构是衡量打叶质量的重要指标。准确预测并控制其关键打叶设备工艺参数是得到理想烟叶片型的重要前提。目前,数字图像处理技术在烟草领域有了很大的发展,但是对于片烟结构的预测问题仍以定性和经验为指导,不仅需要消耗大量人力、财力,且对于片烟结构的预测具有主观性与试凑性。因此,目前急需建立一个精确、可靠的片烟结构预测模型来对烟叶的片型结构进行控制。

针对以上问题,本文以烟叶片型为研究对象,将开发工具MATLAB与神经网络相结合,提出了一种基于MATLAB图像处理的GA-BP神经网络模型。该模型以实际拍摄的多批次烟叶图片作为基础,通过GA-BP神经网络模型对开发工具MATLAB提取的面积、周长、内圆度等外观特征快速构造高精度、高可靠性、高稳定度的非线性系统网络,实现对一级打叶片烟结构的预测与控制。

1 MATLAB图像处理与BP神经网络算法

1.1 MATLAB与图像处理

MATLAB软件中图像处理工具箱由一系列支持图像处理操作的函数组成,可以进行诸如几何操作、滤波和滤波器设计、图像转换、图像分析与图像增强、图像编码、图像复原及形态学处理等图像处理操作[1]。

1.2 BP神经网络

BP(Back Propagation)神经网络是一种多层前馈神经网络,信号前向传递和误差反向传播是该网络的主要特点。在前向传递中,输入信号从输入层经隐含层逐层处理,直至输出层。每一层的神经元状态只影响下一层神经元状态。如果输出层得不到期望输出,则转入反向传播,根据预测误差调整网络权值和阈值,从而使BP神经网络预测输出不断逼近期望输出[2]。BP神经网络的拓扑结构如图1所示。

图1中,X1,X2,…,Xn是该网络的输入值,Y1,Y2,…,Ym是该网络的预测值,ωij和ωjk为神经网络权值。从图中可以看出,BP神经网络可以看作一个非线性函数,网络输入值和预测值分别为该函数的自变量和因变量。当输入节点数为n,输出节点数为m时,BP神经网络就表达了从n个自变量到m个因变量的函数映射关系[3]。

图1 BP神经网络拓扑结构图Figure 1. Topological structure of BP neural network

2 基于MATLAB图像处理的GA-BP网络模型

2.1 图像获取

本文以某复烤厂生产加工车间实际作业过程中的片烟为研究对象,以随机采样为依据,按正常生产参数设定了5411(5个框栏开口梯度、4个打滚转速梯度、1个进料量梯度、1个温湿度梯度)的采样方案,共获取了20个批次的采集样本作为图像数据库。

2.2 图像处理与特征提取

采集装置在采集烟叶数字图像的过程中,光照分布不均匀和摄像头的光学特性不稳定等因素可能会导致获取的烟叶数字图像和原始烟叶存在一定程度的差异,出现颜色退化、图像夹杂噪声点等图像失真的现象。因此,本文利用工具软件MATLAB对烟叶图像进行了加强处理。图像处理法的测试操作流程如图2所示[4]。

图2 图像处理法的测试步骤Figure 2. Test steps of image processing

2.2.1 图像初步处理

图3为初步处理后的片烟样本图像。图3(a)是片烟原始图像。为了减少系统运算量,提高运算速度,便于后续处理,本文通过借助工具箱函数rgb2gray得到原始图片的灰度图像[5],如图3(b)所示。由于获取图片时拍到了片烟样本之外的图像,因此需利用imcrop 函数对原始区域进行剪裁[6],获取片烟样本区域,如图3(c)所示。进行剪切操作时,由于烟叶背景板的位置为人工放置,故本实验采取手动剪切操作。而以往的实验者普遍利用 imcrop 函数的信息返还功能将首次剪切区域的坐标信息返还到函数中,利用循环功能对后续图片进行相同区域的剪切操作,这种方法往往会造成提取数据与实际值之间存在较大误差。因此,本实验方法获取的烟叶样本数据可信度更高,也更加准确。剪切时要在烟叶样本周围留有余量,尤其是片烟与采样板边缘之间的区域。

(a) (b) (c) 图3 片烟原始图像及初步处理图像(a)原始图像 (b)灰度图像 (c)剪裁后的图像Figure 3. The original image and preliminary processed image of tobacco(a)Original image (b)Grayscale image (c)Clipped image

2.2.2 图像增强改进

在本实验中,由于受光线影响,拍照时样本角落的烟叶亮度与背景亮度较为相似。采用imadjust函数进行实验后发现图片识别效果不理想,故本文在研究中未采用传统的imadjust函数图像增强方法。针对这一问题,本文提出先利用imadd函数为图像增加亮度,然后再利用imsubtract函数,去掉样本背景。这样操作可以克服背景对烟片识别的影响,样品主体在图片中得到明显加强,避免了光线不同对识别带来的影响,提高了图像识别效果与精度。

图像增强时会涉及有用信息增强及无用信息过滤,通过滤波功能可滤掉拍摄或光线带来的图像噪声。通常采用非线性滤波方式如自适应维纳滤波(wiener2)和二维中值滤波(medfilt2)等方法实现图像噪声滤波。二维中值滤波适用于具有椒盐噪声的图像,维纳滤波则根据局部方差来调整滤波输出[7]。本文根据片烟结构特点采用二维中值滤波。

2.2.3 图像分割

图像分割是将一幅数字图像分割成不同的区域。较为经典的算法有边缘检测算法、阈值分割法和区域分割技术[8]。其中,阈值分割技术是经典的图像分割方法之一,也是最简单的一种图像分割方法。阈值分割技术适用于目标和背景处于不同灰度级范围的图像。由于本研究中已将背景去掉,即样本背景为纯黑色,像素值为0,所以更适合使用阈值分割技术。具体计算式为

(1)

其中,f(x,y)为点(x,y)的像素值;g(x,y)为分割后的图像;T为全局阈值。

本文中采用的阈值分割技术为最大类间方差法,又称Otsu算法。该算法在基于灰度直方图的基础上采用最小二乘法原理推导得到,具有统计意义上的最佳分割。它的基本原理是通过最佳阈值将图像的灰度值分割成两部分,使两部分之间方差最大,即具有最大分离性。

在经Otsu算法确定阈值后,往往在图像二值化过程中得不到最理想的分割效果。针对这一问题,本实验在对图像二值化时通过不断在已得到的阈值附近取值对阈值进行了微调,最终选定了最理想的阈值。本文阈值的确定和灰度图像的二值化分别通过MATLAB工具箱中的graythresh函数和im2bw函数进行计算,结果如图4(a)所示。

2.2.4 形态学图像处理

形态学是一种适用于模式识别和图像处理领域的新方法,其主要研究对象为图像的形态特征。膨胀运算和腐蚀运算是数学形态学的两个基本变换。膨胀运算是将与目标物体接触的所有背景点合并到该物体中,使边界向外部扩张的过程。通过膨胀操作,可以填充图像中的小孔及在图像边缘处的凹陷问题。腐蚀运算是一种消除边界点,使边界向内部收缩的过程。利用腐蚀,可以消除小且没有意义的物体。结构元素B对图像A的膨胀,记作A⊕B,定义为

(2)

集合A被结构元素B腐蚀,记作AΘB,定义如式(3)所示。

AΘB={x:Bx⊆A}

(3)

本文对烟叶二值化处理后,烟叶边缘轮廓有许多凹陷部分,而且采样板局部边界处存在一些小且没意义的片烟图像。针对这两点问题,本实验首先对图像做了膨胀处理,解决了片烟轮廓边缘凹陷问题,使图像更加逼近实际;其次选用腐蚀操作对图像中出现的小且没有意义的片烟图像进行了清除。本文的膨胀运算与腐蚀运算分别通过MATLAB工具箱中的imdilate函数和imerode函数进行操作。在经过膨胀与腐蚀操作之后,本文针对二值化图像片烟内部出现的小孔对其进行了填充操作,如图4(b)所示。最后本文利用轮廓线上像素点的个数之和与图像中烟叶区域的像素点数之和分别表示烟叶的周长(C)和面积(A)的计算方法[9],通过regionprops函数与bwboundaries函数对样本中每片烟叶的周长和面积进行了特征提取。周长及面积计算式分别如式(4)、式(5)所示。

(4)

式中,烟叶轮廓线二值化图像f(i,j)中背景区域像素为0,即f(i,j)=0;轮廓线为1,即f(i,j)=1;(i,j)表示像素点坐标;M×N表示烟叶图像的长宽。

(5)

式中,烟叶轮廓线二值化图像g(i,j)中背景区域像素为0,即g(i,j)=0;烟叶区域为1,即g(i,j)=1;(i,j)表示像素点坐标;M×N表示烟叶图像的长宽。

烟丝的等级也是对打叶过程进行评价的关键指标。为了得到优质的烟丝,本文选取片烟的圆形度作为衡量标准。圆形度描述为面积乘上4π与周长平方的比值

(6)

式中,A为烟叶面积;P为烟叶周长;当E=1时,图形为圆形,E逐渐减小,图形与圆形差距逐渐增大。

(a) (b)图4 片烟二值化处理与形态学处理后的图像(a)二值化图像 (b)形态学处理后图像Figure 4. Image after binary processing and morphological processing of tobacco(a)Image after binarization (b)Image after morphological processing

2.3 数据准备

2.3.1 数据转换与清理

本文以提取的面积、周长、圆形度特征作为数据库。提取过程中的数据以像素点的形式存在,与实际衡量标准不同,所以需要对数据进行转换。一般而言,数据转换有两种形式:将实际衡量标准转换为像素值或将像素值转换为实际值。由于在数据转换过程中必然会出现各种计算误差,针对这一问题,本文采用将实际的衡量标准转换为像素值的方法,这样可减少受影响的数据,也更有利于确保分析数据的质量和分析结果的正确性。

获取的数据往往会存在一些不符合要求的异常值,所以首先需要对这些数据进行剔除。本文根据片烟分类行业标准基于面积的评判对无用数据进行剔除。依据片烟面积分类标准,本文主要研究大叶、中叶和小叶在一级打叶后的占比,其分类标准如表1所示,故对面积小于6.35 mm×6.35 mm的片烟面积予以剔除。

表1 烟叶片型分类标准表

2.3.2 聚类

聚类是根据相似度将数据区分为不同聚类,使同一聚类内的个体距离较近或变异较小,不同聚类间的个体距离较远或变异较大。其中,相似度可以利用不同的距离或相关来定义[10]。

本文分别对提取的面积、周长和圆形度特征数据进行了聚类。由于片烟面积有具体的行业标准,故面积特征数据按表1的准则分为大、中、小3类。目前还没有明确的关于片烟周长的分类标准,但由于周长是和面积密切相关的一种衡量标准,因此本文提出基于片烟面积的分类标准,通过式(4)与式(5)推理出片烟周长分类标准。最后,本文采用K-means聚类分析算法对片烟的内圆度进行了优、良、差3种分类,聚类结果如图5所示。

图5 K-means算法聚类后的数据分类结果Figure 5. Data classification results after K-means algorithm clustering

2.3.3 交叉验证

根据本文获取的数据特点,文中首先采用了留一交叉验证法对获取的20批数据进行了处理。留一交叉验证,其折数就是样本的个数。设样本个数为m,需要重复m次,最后取平均值。该方法每一回合几乎所有的样本皆用于训练模型,因此最接近原始样本的分布,这样评估所得的结果比较可靠,并且实验过程中没有随机因素影响实验数据。

2.4 GA-BP神经网络模型

由于BP神经网络算法具有简单、易行、计算量小、并行性强等优点,文中用该网络来构建子模型[11]。对输入样本x,出现在神经元j输出处的函数信号计算为

yj(n)=φ(vj(n))

(7)

式中,vj(n)是神经元j的诱导局部域,由式(8)定义

(8)

其中,m是神经元j的所有输入的数量(不包括偏置);ωij(n)是连接神经元i和神经元j的突触权值;yi(n)是指神经元j的输入信号或是出现在神经元i的输出端的函数信号[12]。

研究和应用BP神经网络的关键在于:在解决相关问题时, 如何寻找最优的初始权值和阈值,从而使BP神经网络能够更好地预测函数输出[13]。目前,很多研究中对于初始权值与阈值的选取是凭借经验来进行的。本文选用遗传算法对BP网络进行优化,从而得到最优个体对网络初始权值和阈值赋值,所构建的GA-BP神经网络能以精简的结构获取较好的非线性映射能力。

遗传算法优化BP神经网络分为BP神经网络结构确定、遗传算法优化和BP神经网络预测3个部分[14]。BP神经网络结构确定根据拟合函数输入输出参数个数确定BP神经网络结构,进而确定遗传算法个体的长度[15]。遗传算法优化部分使用遗传算法优化BP神经网络的权值和阈值,其种群中的每个个体都包含了一个网络的所有权值和阈值。个体通过适应度函数计算个体适应度值。遗传算法通过选择、交叉和变异操作找到最优适应度值对应个体[16]。

遗传算法优化BP神经网络的要素包括种群初始化、适应度函数、选择操作、交叉操作和变异操作[17]。

本文采用留一交叉验证法对提取的20批数据进行处理生成初始种群,编码方式选用二进制编码,以轮盘赌方案为选择算法。交叉操作方法采用实数交叉法,交叉概率为 0.4,变异算子的变异概率为0.1,以预测输出和期望输出之间的误差绝对值和全局误差E作为个体适应度值F,进化代数设定为100。优化后得到了BP神经网络初始权值和阈值,再进行网络训练,得到最终的传感器解析冗余网络。在实际生产中,为了生产出质量较高的烟丝,往往趋于得到面积与周长符合大叶标准且圆形度较高的片烟结构。针对上述现象,文中基于GA-BP神经网络对实际生产中的理想片烟结构参数进行了预测与优化。

3 仿真实验与结果分析

本文实验分为两部分:第1部分仅利用BP神经网络算法对片烟结构进行预测;第2部分基于GA-BP神经网络算法对片烟结构预测模型进行优化。

3.1 BP神经网络预测

本文基于某烟叶复烤厂实际生产中的片烟以随机采样为依据进行工业试验, 按正常生产参数设定采样方案,总共获取了20个批次的采集样本作为图像数据库。然后,将得到的数据经留一交叉验证法处理组成一个400组数据的数据库。本文以这400组数据作为依据进行验证并将其分为两组:280组作为训练样本;120组作为测试样本,并选用决定系数R和预测曲线极差评价模型精度。

(9)

其中,Ns为样本的数量;c为一个常数,通常选择个位数[18-19]。本文为了更精确的得到隐含层中的节点数,将Nx与Ny之间的节点数一一验证,最终选定隐含层的节点数为9。经测试,图6(a)为神经网络打叶效果预测模型,图6(c)为BP网络预测误差曲线。图7(a)为基于理想片烟结构建立的打叶效果预测模型,图7(c)为BP网络预测误差曲线。

由图可得,在基于BP神经网络对所有参数与理想特征的预测中,所有特征的测试集精度达到了97.126%,极差为0.059;理想特征的精度达到了98.973%,极差为17.461×10-3。由此得出,BP神经网络预测模型对本模型有较好的适用性,且随着所选特征的精确化模型精度不断提高,极差不断减小。

3.2 GA优化的BP神经网络预测

在实际生产应用中需要采用打叶效果最优的工艺参数组进行生产,以保证工艺的质量最优。因此本文采用遗传算法对打叶效果预测模型的最优工艺参数进行求解。基于所设计的模型进行优化后,图6(b)为GA-BP网络打叶效果预测模型,图6(d)为GA-BP网络预测误差曲线。图7(b)为基于理想片烟结构优化后的打叶效果预测模型,图7(d)为GA-BP网络预测误差曲线。

由图可知,在基于GA-BP神经网络模型对所有特征与理想特征的预测中,所有特征的测试集精度达到了98.753%,极差为0.040 6;理想特征的精度达到了99.836%,极差为4.733×10-3。由此得出,GA-BP神经网络预测模型对本模型同样有良好的适用性,且随着参数的精确化模型精度不断提高,极差不断减小。相较于未优化的模型架构, 基于GA优化的BP神经网络模型得到的打叶片型的预测值能更好地拟合实际值的变化趋势, 具有更高的建模精度。

表2所示为上述神经网络预测模型主要评价参数对比。由表可以看出,测试集的精确度及极差主要由预测特征和预测算法有关,当预测算法相同时,预测特征为理想特征的模型精度均比预测所有特征精度高,且极差更小。当预测特征相同时,GA-BP神经网络预测模型精度更高,极差更小。因此,当预测理想特征与GA-BP神经网络算法相结合时,预测模型将取得最佳效果,精度最高。

表2 神经网络预测模型主要评价参数对比

(a)

(b)

(d)

(a)

4 结束语

本文通过对一级打叶后的片烟结构进行研究,得出如下结论:(1)本文以数字图像处理技术为出发点,借助MATLAB软件的图像处理功能,对一级打叶后烟叶片型的面积、周长、内圆度等特征进行了提取,保证了进行烟叶片型分类的精度和准确性;(2)基于聚类分析算法将烟片圆形度特征分为了优、良、差3类,采用留一交叉验证法对初始数据进行运算,得到了最终的初始种群数据库;(3)本文提出的GA-BP神经网络预测模型确定了更加优异的初始权值和阈值参数。仿真实验结果体现出了该算法在实际应用中的可靠性,其可明显减小神经网络预测误差,提高网络精度。基于本文提出的神经网络模型实现了对片烟结构准确且可靠的预测,可以有效解决打叶过程中片烟结构以定性和经验为指导的难以预测的问题。研究团队也将在今后的研究中致力于实现对整个打叶过程的控制与预测。

猜你喜欢
图像处理烟叶阈值
海战场侦察图像处理技术图谱及应用展望
人工智能辅助冠状动脉CTA图像处理和诊断的研究进展
贵州主产烟区烤烟上部烟叶质量的差异
提高烟叶预检水平的措施探讨
土石坝坝体失稳破坏降水阈值的确定方法
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
不同成熟度烟叶烘烤过程中大分子物质代谢动态研究
关于新形势下烟叶生产可持续发展的思考
基于ARM嵌入式的关于图像处理的交通信号灯识别
机器学习在图像处理中的应用