基于多特征融合的茶叶鲜叶等级识别的方法研究

2021-08-13 01:28:28张金炎曹成茂李文宝王二锐刘光宗
安徽农业大学学报 2021年3期
关键词:鲜叶纹理灰度

张金炎,曹成茂,李文宝,王二锐,孙 燕,刘光宗

基于多特征融合的茶叶鲜叶等级识别的方法研究

张金炎1,2,3,曹成茂1,2,3*,李文宝1,2,3,王二锐1,2,3,孙 燕1,2,3,刘光宗1,2,3

(1. 安徽农业大学工学院, 合肥 230036;2. 安徽省智能农机装备工程实验室,合肥 230036;3. 农业农村部南方农业装备科学观测实验站,合肥 230036)

茶叶鲜叶等级直接影响优质绿茶成品的等级,如果在鲜叶阶段就茶叶的芽叶数量进行等级识别,并将不同等级鲜叶分离出来,制作不同等级的绿茶成品,从一定程度上解决了优质绿茶鲜叶采摘环节的难题。提出基于茶叶形态、纹理和HOG特征的鲜叶分级方法,采集鲜叶样本图片,对样本图片进行预处理操作,再提取鲜叶形态和纹理特征等特征参数,建立机器学习模型支持向量机、随机森林和线性判别法K-最近邻对新鲜茶叶样本进行分类,得到各等级的茶叶识别结果。试验结果表明,单独使用一种特征分类效果不佳,也不符合茶叶本身的复杂性。将多种特征融合有更好的分类效果;3种算法中,随机森林算法有较高的优越性,准确率达97.06%。该研究提取的多特征参数和分类模型,为实际鲜叶的生产加工等级识别提供参考。

特征融合;随机森林;机器学习;鲜叶等级识别;HOG特征

茶叶是世界三大饮料之一,在我国具有重要的文化、健康和经济价值[1]。本研究选用的茶叶样本为绿茶,因其色泽翠绿,香气清鲜持久且富含人体所需氨基酸而深受人们喜欢[2]。目前,绿茶的等级识别和分级加工生产主要针对干茶,鲜见对机采茶鲜叶进行有效研究。本研究提出通过机器视觉对茶叶鲜叶进行精准等级识别,为分选出名优茶提供新的解决思路。

近年来机器视觉和深度学习被广泛地应用于农业生产领域[3-8]。利用机器视觉对农产品进行等级识别也是当前的热门研究内容[9-12]。Khan等[13]提出基于强相关和遗传算法进行特征选择的苹果病害分割与分类优化方法,还提出了机器视觉系统在谷物中的适用性,能够将不同谷物有效的分类开。在茶叶识别领域,Li等[14]提出了基于多传感器数据融合和嗅觉可视化系统的绿茶质量评价系统,选出最优方案PCA-SVM;Cai等[15]利用近红外光谱,建立了用于茶叶分类的自组织神经网络模型,相比于传统的神经网络提高了分类的准确率;Li等[16]建立近红外光谱的快速无损鉴别特级绿茶评价系统。但是基于外设红外光谱、高光谱和传感器等难以对茶叶外形做出准确的评价,且大多数外设成本高昂不利于推广使用。国内研究学者,如董春旺等[17]、Dong等[18-19]和Zhu等[20]提出基于机器视觉和工艺参数对针芽形绿茶外形进行品质评价;宋彦等[21]针对祁门红茶的等级识别,选出形状特征直方图的LS-SVM的最优评估模型;Zhu等[22]通过过程特征和图像信息,建立BP-MLP模型和RBF神经网络模型进行绿茶感官品质评价。

但上述研究工作大多基于单一特征,且大多数研究对象为干茶,忽略了茶叶本身特征的复杂性。本研究提出基于茶叶鲜叶的形态特征描述子与纹理特征描述子相融合并通过建立支持向量机、K-近邻和随机森林3种分类模型与提取的HOG特征相比较,选择最优鲜叶等级识别模型。

1 材料与方法

1.1 试验材料

本试验所需的茶叶鲜叶样本采自于安徽省合肥市林业辐照中心种植的绿茶,选择春季时期的茶叶鲜叶,春茶受虫害侵扰少、芽叶细嫩且颜色翠绿。同时,春天气温普遍较低,发芽数量有限,生长速度较慢,符合采摘标准的产量较少。拍摄图像时,保持光线均匀,采用背景色为蓝色,样本具体包括鲜叶的全芽、一芽一叶和一芽两叶各200片。样本采集流程图如图1所示。

图1 茶叶鲜叶样本流程图

Figure 1 Fresh leaf sample of tea leaves

1.2 试验方法

本研究的试验样本取3种等级的茶叶鲜叶共600多片,在光照均匀且样本相互无遮挡条件下采集图像样本。提取茶叶鲜叶的形态特征、纹理特征和HOG特征,通过建立支持向量机、随机森林和K-最近邻3种分类模型,选择最优鲜叶等级识别模型,实现对茶叶鲜叶等级识别。

1.3 图像预处理和形态特征建立

对采集到的图像样本进行预处理,相机采集保存的图像为BMP格式,将批量读取的样本图像进行OSTU法的二值化处理、图像分割、滤除小粒子、边缘提取和确定区域连通域,实现叶片与背景的分离。具体特征提取流程图如图2所示。

为准确识别鲜叶等级,本研究所需要的复杂形态特征描述子包括对角线长度、紧凑度、圆形度、矩形度、包含茶叶外接圆的直径、周长、长轴、短轴和细长度。采用区域边界周围每个像素对之间的距离来计算周长,区域中的实际像素数为面积,叶片椭圆主轴为长轴,次轴为短轴。圆形度、矩形度、细长度和紧凑度为4个相对形态特征,鲜叶所需要的形态特征定义及计算公式具体如表1所示。

图2 特征提取算法流程图

Figure 2 Pre-processing algorithm flowcharts

表1 形态特征参数

注:公式中的Dia、J、E、R、D、T、C、Lx、Sx、L、S和A分别代表对角线长度、紧凑度、圆形度、矩形度、直径、细长度、周长、长轴长、短轴长、最小外接矩的长、最小外接矩的宽和面积。

1.4 纹理特征建立

灰度共生矩阵(GLCM)统计法是在假定图像中各像素间的空间分布关系,包含了图像的纹理信息,是具有广泛性的纹理分析方法。在茶叶鲜叶图像中,灰度共生矩阵从任意一点(x,y)及偏离它的一点(x+a,y+b)(其中a,b为整数)构成点对。设该点对的灰度值为(f1,f2),假设图像的最大灰度级为L,则f1与f2的组合共有L×L种。对于整幅图像,统计每一种(f1,f2)值出现的次数,然后排列成一个方阵,再用(f1,f2)出现的总次数将它们归一化为出现的概率P(f1,f2),将所有估计的值表示成一个矩阵的形式。对于茶叶鲜叶图像上纹理变化较为缓慢,其灰度共生矩阵对角线上的数值较大。本研究提取了对比度、能量、熵、逆差距和相关性5个纹理特征。

本研究提取茶叶鲜叶灰度共生矩阵的5个特征,即对比度、能量、熵、逆方差和相关性。

(1)对比度,度量矩阵的值的分布和图像中局部变化的多少,反映了图像的清晰度和纹理的沟纹深浅。纹理的沟纹越深,反差越大,效果越清晰。

(2)能量,能量变换反映了图像灰度分布均匀程度和纹理粗细度。灰度共生矩阵的元素值相近,则能量较小,表示纹理细致。

(3)熵,茶叶鲜叶的熵值表明了图像灰度分布的复杂程度,熵值越大,图像越复杂。

(4)逆方差,逆方差反映了图像纹理局部变化的大小,鲜叶图像纹理的不同区域间较均匀,变化缓慢,逆方差会较大。

(5)相关性,度量图像的灰度级在行或列方向上的相似程度,因此值得大小反映了鲜叶局部灰度相关性,值越大,相关性也越大。

其中,G(,)为灰度生矩阵,(,)为灰度对;

选取全芽、一芽一叶和一芽两叶样本各200个,提取鲜叶灰度共生矩阵的5个特征,取均值如表2所示。

1.5 HOG特征建立

图像的HOG(方向梯度直方图)特征用来进行物体的特征描述子,通过计算和统计图像局部区域的梯度方向直方图来构成特征。本研究所用图像分辨率为658×492,将图像尺寸调整为细胞单元的最近整数倍,每16×16个像素划分为一个细胞单元cell,2×2个细胞单元划分为一个方向直方图block,采用重叠的方式求出方向直方图的特征。

表2 灰度共生矩阵的均值特征

(1)批量读取图片,对图像进行预处理并采用伽马校正法对图像颜色空间标准化处理,如式(6)所示。

(2)计算图像每个像素的梯度,捕获轮廓信息,梯度方程如下式所示;

Figure 3 Variance contribution rate statistics for the main component of the sample

(3)将图像化分成cell,将每4个cell组成一个方向直方图,每个block内所有cell的特征描述子累加;

(4)将图像内所有的方向直方图的HOG特征描述子累加,得到目标图像的HOG特征描述子,送入分类器进行分类。

数据降维处理可以有效减少过拟合的发生。由于本研究每个茶叶样本集特征数据集都提取了包括形态、纹理和HOG的多个特征,特征较多,数据的维度较高,会带来数据处理慢,硬件消耗大等问题,同样高维度还会出现“维度灾难”,但又很难直接选择。为避免特征维度较高带来严重的过拟合现象,对3种特征进行PCA。

从图3中可以看出,3种类型的特征参数均有贡献率极小的特征,对后期的识别结果影响不大,可以去除累计贡献率<99%的特征。

2 分类器模型建立

选择600个茶叶鲜叶样本,将提取的特征向量随机划分,80%用于训练,20%用于测试。并采用10折交叉验证选择分类模型的最优参数,防止过拟合现象。本研究设计的3种分类模型,基于核函数的支持向量机(SVM)、K-最邻近算法(KNN)和随机算法(Random Forest)。将前述提取的形态、纹理特征和HOG特征送入分类器分类,统计分类模型的准确率。通过比较3种模型对茶叶分级的效果,选取最优模型。

表3 不同核函数的准确率评价指标

图4 核函数准确率指标

Figure 4 Kernel function accuracy indicator

图5 特征对比

Figure 5 Feature comparison

2.1 SVM算法

SVM作为一种经典的算法,在模式识别和图像处理等诸多领域中应用广泛,在茶叶鲜叶分类问题中有广泛的使用性。支持向量机分类模型属于有监督学习范畴。其原理是寻找一个最优超平面,能够将目标进行有效的分类。SVM分类器的好坏在于核函数和核函数参数的选择。

设数据集为(X,Y),∈ [1,480]、=1,2,3,…,14, X为第个样本,为X的第个样本的第个特征;Y={1,2,3}为标签值,其中1为全芽,2为一芽一叶,3为一芽两叶。超平面方程如式(11)所示。

Figure 6 K-Nearest Neighbor Accuracy Indicator

图7 K-最近邻下的特征对比

Figure 7 Characteristic comparison under K-Nearest Neighbor

为了使超平面能准确的划分样本空间,对超平面方程进行约束,约束条件如式(12)和(13)所示。

其中480组为训练集,120组为测试集。根据不同核函数的SVM,得到如表3所示。分析多特征和不同数据集影响3种不同核函数SVM的性能,建立不同样本下和对多特征的模型验证,得到结果如图4和图5所示。

经过训练集和数据集的验证,3种核函数的平均准确率为91.85%、92.7%和93.58%。考虑鲜叶实际情况的复杂性,选择二次核函数(Cubic SVM)模型。且从图4可知,形态特征对于分类的影响较大,HOG特征最小。

图8 试验曲线

Figure 8 Test curve

图9 特征对比

Figure 9 Feature comparison

2.2 K-最近邻算法

K-最近邻算法是从训练集中找到和新数据最接近的k个样本,根据其主要分类来决定新数据的类别。K-最近邻算法的主要因素为分类决策规则、距离度量方式或相似的衡量和k值的选取。本研究采用加权欧式距离度量法,计算公式如下:

其中w为距离权重。

输入训练集T={(1,1), (2,2),…, (n,n)},其中x=1,2,…,150,y={1,2,3}为标签值,其中1为全芽,2为一芽一叶,3为一芽两叶。输出所属的类别。根据给定的距离度量,在训练集T中找到与距离最近的个样本,涵盖着个点的领域记为N(x);在N(x)中根据分类规则确定的类别y。根据上述规则,对分类模型进行优化,提高模型准确率。如图6和图7所示。

2.3 随机森林算法

建立鲜叶3个等级的数据集包含全芽、一芽一叶和一芽两叶各200个样本。数据集包含鲜叶的形态特征和纹理特征,通过随机森林模型,确定这些特征和鲜叶之间的关系,从而实现鲜叶等级。输出选择单一标签作为输出,根据名优绿茶品质标准,用1和2分别表示符合条件的鲜叶全芽和一芽一叶,3表示一芽两叶。学习样本为,各200个,属性个数为,14个。

随机森林算法的设计规则如下:利用Boostrap有放回采样法,随机产生个训练1,2,3……T;利用每个训练集生成对应的决策树1,2,3……C在每个非叶子节点上选择属性前,从个属性中随机抽取(≤)个属性作为当前节点的分裂属性集,并以这个属性中最好的分裂方式对该节点进行分裂;每棵树都完整成长,而不进行剪枝;对于数据集样本,利用每个决策树进行测试,得到对应的类别1(),2(),3()……C();采用投票的方法,将个决策树中输出最多的类别作为测试机样本所属的类别。将600个样本随机产生训练集和测试集共5份,按4∶1的比例进行训练。随机森林随机每次抽取的训练集和测试集不同,运行模型5次得到准确率评价指标,提高模型的泛化能力,如图8所示。并验证随机森林模型下,各类参数对分类效果的影响,准确率指标图9所示。

表4 3种识别模型的混淆矩阵

表5 3种不同分类算法不同评价指标的得分表

表6 HOG特征分类结果

3 结果与分析

3.1 识别模型比较

本试验针对茶叶鲜叶等级识别,提取了形态和纹理的共14个特征,设计了SVM、K-最近邻和随机森林3种机器学习模型,并与HOG特征模型相比较。不同分类模型的分类真实准确率结果和3种模型的混淆矩阵如表4和表5所示。

表5以4种不同评价得分表为评价指标。可以看出,随机森林的4种评价指标,识别率较高且误识率最低,识别性能最好,分类的综合性能要优于SVM和K-最近邻,最高达到97.06%。在复杂特征的情况下,SVM构造的超平面难以将数据很好地分类开,而K-最近邻在计算复杂特征的距离时,也难以提高准确率。

图 10 不同算法茶叶等级识别结果

Figure 10 Different algorithms tea grade recognition result

随机森林的决策树之间相互独立,样本进入分类模型时,每一颗决策树进行分类,在针对大样本和多特征问题时,有一定优势。同时,由表4分类模型可看出,提取的能量特征、熵特征、相关性及对比度特征提高模型分类的性能,更符合鲜叶本身的复杂性。

3.2 HOG与分类模型

将上述经PCA降维后的HOG特征建立特征数据集,在3种分类模型下建立准确率评价指标。如表6所示。

结果表明,随机森林下的HOG特征识别率最高,但SVM和K-最近邻模型下的鲜叶的HOG特征识别效果较差。降维后的HOG特征仍保留22个主成分特征分量,说明特征数量会影响分类模型的分类效果,同时在多种特征的比较下,随机森林算法的识别准确率都优于SVM和K-最近邻,证明了随机森林的优越性。

为分析3种分类模型的性能和分析提取的特征对鲜叶等级识别影响,对鲜叶做等级识别标定处理,为实际鲜叶加工生产提供参考。随机森林模型能够准确的识别全芽和一芽两叶,图10(b)中存在同片叶遮掩的一芽一叶也被有效的分类。SVM和K-最近邻模型中存在少量未被标记的鲜叶。

4 结论

本研究对茶叶鲜叶的形态特征描述子、纹理特征描述子和HOG特征下,全芽、一芽一叶和一芽两叶的等级进行识别。通过建立SVM、K-最近邻和随机森林3种分类模型,选择最优分类结果。得到研究结论如下:

(1)本研究针对茶叶鲜叶等级识别问题,提取鲜叶的形态特征复杂描述子包括细长度、紧凑度、圆形度、矩形度、对角线长度等9个形态特征和对比度、相关性、能量、熵和逆方差5个纹理特征。经过分类模型分析,这14个特征对鲜叶等级识别是有效的。

(2)相比于经典的SVM和K最近邻分类模型,随机森林算法模型具有较高的优越性,识别率最高为97.06%。随机森林在多特征和识别鲜叶多等级分类问题上能够计算特征权重,具有良好分类效果,在后期移植算法到嵌入式设备中,具有一定应用前景。

[1] 李苏玲. 我国茶叶出口影响因素实证研究 : 基于贝叶斯VAR模型分析[D]. 武汉: 华中师范大学, 2019.

[2] 林昱星, 肖泽丰, 田璧瑞, 等. 安吉白茶愈伤组织增殖培养及茶多酚的积累[J]. 河北大学学报(自然科学版), 2017,37(6): 614-620.

[3] FANG C, HUANG J D, CUAN K X, et al. Comparative study on poultry target tracking algorithms based on a deep regression network[J]. Biosyst Eng, 2020, 190: 176-183.

[4] 陈进, 顾琰, 练毅, 等. 基于机器视觉的水稻杂质及破碎籽粒在线识别方法[J]. 农业工程学报, 2018,34(13): 187-194.

[5] 刘鸿飞, 黄敏敏, 赵旭东, 等. 基于机器视觉的温室番茄裂果检测[J]. 农业工程学报, 2018,34(16): 170-176.

[6] MISRA T, ARORA A, MARWAHA S, et al. SpikeSegNet-a deep learning approach utilizing encoder-decoder network with hourglass for spike segmentation and counting in wheat plant from visual imaging[J]. Plant Methods, 2020, 16: 40.

[7] LIU Z, WANG J, TIAN Y, et al. Deep learning for image-based large-floweredcultivar recognition[J]. Plant Methods, 2019, 15: 146.

[8] KOIRALA A, WALSH K B, WANG Z, et al. Deep learning for real-time fruit detection and orchard fruit load estimation: benchmarking of ‘MangoYOLO’[J]. Precis Agric , 2019, 20(6): 1107-1135.

[9] RAZMJOOY N, MOUSAVI B S, SOLEYMANI F. A real-time mathematical computer method for potato inspection using machine vision[J]. Comput Math Appl , 2012, 63(1): 268-279.

[10] WU A, ZHU J H, YANG Y L, et al. Classification of corn kernels grades using image analysis and support vector machine[J]. Adv Mech Eng , 2018, 10(12): 168781401881764.

[11] SABERIOON M, CÍSAŘ P, LABBÉ L, et al. Comparative performance analysis of support vector machine, random forest, logistic regression and k-nearest neighbours in rainbow trout () classification using image-based features[J]. Sensors (Basel), 2018, 18(4): E1027.

[12] LIU L, LI Z K, LAN Y F, et al. Design of a tomato classifier based on machine vision[J]. PLoS One, 2019, 14(7): e0219803.

[13] KHAN M A, LALI M I U, SHARIF M, et al. An optimized method for segmentation and classification of apple diseases based on strong correlation and genetic algorithm based feature selection[J]. IEEE Access, 2019, 7: 46261-46277.

[14] LI L, XIE S, NING J, et al. Evaluating green tea quality based on multisensor data fusion combining hyperspectral imaging and olfactory visualization systems[J]. J Sci Food Agric, 2019, 99(4): 1787-1794.

[15] CAI J X, WANG Y F, XI X G, et al. Using FTIR spectra and pattern recognition for discrimination of tea varieties[J]. Int J Biol Macromol , 2015, 78: 439-446.

[16] LI C, GUO H, ZONG B, et al. Rapid and non-destructive discrimination of special-grade flat green tea using Near-infrared spectroscopy[J]. Spectrochim Acta A Mol Biomol Spectrosc, 2019, 206: 254-262.

[17] 董春旺, 朱宏凯, 周小芬, 等. 基于机器视觉和工艺参数的针芽形绿茶外形品质评价[J]. 农业机械学报, 2017, 48(9): 38-45.

[18] DONG C, LIANG G, HU B, et al. Prediction of congou black tea fermentation quality indices from color features using non-linear regression methods[J]. Sci Rep, 2018, 8(1): 10535.

[19] DONG C W, ZHU H K, ZHAO J W, et al. Sensory quality evaluation for appearance of needle-shaped green tea based on computer vision and nonlinear tools[J]. J Zhejiang Univ Sci B, 2017, 18(6): 544-548.

[20] ZHU H K, LIU F, YE Y, et al. Application of machine learning algorithms in quality assurance of fermentation process of black tea: based on electrical properties[J]. J Food Eng , 2019, 263: 165-172.

[21] 宋彦,谢汉垒,宁井铭,等. 基于机器视觉形状特征参数的祁门红茶等级识别[J].农业工程学报,2018,34(23): 279-286.

[22] ZHU H K, YE Y, HE H F, et al. Evaluation of green tea sensory quality via process characteristics and image information[J]. Food Bioprod Process , 2017, 102: 116-122.

Study on the method of recognition of fresh leaf grade of tea based on multi-feature fusion

ZHANG Jinyang1,2,3, CAO Chengmao1,2,3, LI Wenbao1,2,3, WANG Errui1,2,3, SUN Yan,LIU Guangzong1,2,3

(1. School of Engineering, Anhui Agricultural University, Hefei 230036;2. Anhui Province Engineering Laboratory of Intelligent Agricultural Machinery Equipment, Hefei 230036;3. Scientific Observing and Experimental Station of Agriculture Equipment for the Southern China Ministry of Agricultural, Hefei 230036)

Tea fresh leaf grade directly affects the grade of high-quality green tea finished products, if the number of buds and leaves of tea in the fresh leaf stage for grade identification, and different grades of fresh leaves separated, the production of different levels of green tea finished products, to a certain extent to solve the high-quality green tea fresh leaf picking link of the problem. In this paper, the fresh leaf grading method based on tea morphological, texture and HOG features is proposed, the fresh leaf sample picture is collected, the sample picture is pre-processed, the features parameters such as fresh leaf morphological and texture feature situ, and the machine learning model supports the vector machine, the random forest and the linear discrimination method K-nearest neighbor to classify the fresh tea sample, and gets the tea recognition results of each grade. The experimental results show that the use of a feature classification alone is not effective and does not conform to the complexity of the tea itself. The fusion of various features has a better classification effect, and among the three algorithms, the random forest algorithm has higher advantages, with an accuracy rate of 97.06%. The multi-featured parameters and classification models extracted in this study provide reference for the identification of the production and processing level of actual fresh leaves.

feature fusion; random forest; machine learning; fresh leaf grade recognition; HOG features

TS272.2;TP181

A

1672-352X (2021)03-0480-08

10.13610/j.cnki.1672-352x.20210706.007

2021-7-7 11:42:52

[URL] https://kns.cnki.net/kcms/detail/34.1162.S.20210706.1641.014.html

2020-05-12

安徽省科技重大专项(18030701195)和安徽农业大学2020年度研究生创新基金项目(2020ysj-74)共同资助。

张金炎,硕士研究生。E-mail:2285990651@qq.com

曹成茂,博士,教授,博士生导师。E-mail:caochengmao@sina.com

猜你喜欢
鲜叶纹理灰度
采用改进导重法的拓扑结构灰度单元过滤技术
基于灰度拉伸的图像水位识别方法研究
高技术通讯(2021年3期)2021-06-09 06:57:48
基于BM3D的复杂纹理区域图像去噪
软件(2020年3期)2020-04-20 01:45:18
使用纹理叠加添加艺术画特效
TEXTURE ON TEXTURE质地上的纹理
Coco薇(2017年8期)2017-08-03 15:23:38
基于最大加权投影求解的彩色图像灰度化对比度保留算法
自动化学报(2017年5期)2017-05-14 06:20:56
基于灰度线性建模的亚像素图像抖动量计算
不同嫩度茶鲜叶原料稀土元素含量的变化
消除凹凸纹理有妙招!
Coco薇(2015年5期)2016-03-29 23:22:15
气温对日照茶鲜叶适制性的研究