◎南 楠
(三门峡职业技术学院信息传媒学院,河南三门峡4 7 20 0 0)
技术与应用
基于图像识别的植物叶片分类研究
◎南 楠
(三门峡职业技术学院信息传媒学院,河南三门峡4 7 20 0 0)
针对植物物种繁多,新物种人工发现归类难问题,提出一种结合植物叶片纹理和边缘轮廓特征元素,对样本加权值建立矩阵并改进目标函数的新方法,将该方法用于检测常见的10种植物的500个样本,实验结果显示平均识别准确率达到91.6%,具有较好的鲁棒性。
图像处理;SVM;分类概率;植物识别
随着计算机图像处理技术的发展,模式识别对植物种类的识别也应运而生,各种叶片特性提取技术和研究成果大量出现。文献[1]采用Otsu算法对随机提取的6种植物叶片利用暗通道属性进行分割,提取颜色和不变矩特征使用SVM方法对样本分类。文献[2]提出一种先采用WLLE算法对预处理后样本图片进行特征提取后,再使用SVM中核函数建立分类的方法。文献[3]提出一种通过建立新叶缘特征描述符,并结合多层分类法建立植物语义字典查询的方法对样本植物进行分类。各种研究方法都有优缺点,本文提出的研究内容主要是基于叶片纹理和叶片边缘形状的分割方法对样本进行分割,采用分形维数数方法进行样本轮廓提取,最后通过改进SVM方法中目标函数对样本进行分类,提高植物叶片识别的精准度。
图像识别技术在30年前已开始研究,国内近十年兴起并逐渐有所成果,广泛的应用于工业、农业生产、植被繁殖、遥感测控、人脸识别、指纹识别等领域。一般的图像处理默指计算中存储的数字图像,可以使用计算机对其进行分析、处理和合成,来满足不同的需求。常用的图像处理技术包括灰度化、阈值分割、滤波降噪、边缘检测、形态学等,在植物学方面经常用于对农作物种植,新物种发现进行归类。[4]
几种图像处理技术作用各有不同,图像灰度化作用是将扫描的植物叶片由RGB模式转换为灰度模式,简化图像处理的过程与计算量;图像滤波技术是将灰度模式图片中的孤立点、噪点尽量减少,避免对分类结果造成影响;阈值分割技术是以最初设定的阈值为基础,将图像分割为目标区域和背景区域两部分,简单易操作;图像边缘检测技术是利用算子提取边缘点集,通过设定的阈值结合边缘点集修补边缘获得连续的边界;形态学是利用二值膨胀腐蚀、开操作、闭操作进行边界提取,孔洞填充,消除细小齿痕,实现图像边界光滑连续效果。[5]
植物叶片是每种植物独有的组成部分,唯一性确定了其是植物种类辨别的重要依据,为植物分类,建立关联和繁殖培育具有重要意义。基于图像识别的植物分类技术实现时,先对植物叶片转换模式,通常都是转换为灰度模式,再进行滤波降噪处理,然后使用图像分割法对其分割,最后边缘检测算法获取植物叶片轮廓,通过分类器进行归类。
2.1 样本采集
植物叶片样本数字图像采集区域为三门峡黄河湿地公园、陕州风景区、植物园内,包括10种植物:冬青、海桐、荷花玉兰、乐昌含笑、山茶、深山含笑、石楠、秃瓣杜英、香樟和杨梅,每种植物叶片采集50个,共计500个样本。选择50%为训练样本,剩余50%为分类测试样本。
2.2 样本预处理及分割
叶片样本采集后使用HP8270扫描仪获取数字图像,生成的原始图像模式是RGB值,其连续的颜色分布和多像素结构不易于计算机识别和处理,因此样本预处理就是将原始图片颜色模式转变为灰度图片,并进行降噪处理。
根据人眼对绿色的敏感程度最高,对蓝色的敏感程度最低,采用符合人体生理学的加权平均值法对图像进行灰度化处理,原理为根据重要性对R、G、B分别赋予不同权值,计算三者加权平均值,公式如下:
使用上述公式变换后植物叶片灰度图如下所示(见图1)。
图像变为灰度图后会出现一些噪点,这些点在后期边缘算法时将会极大影响结果,需要进行降噪处理,因为后期需要对叶片边缘轮廓进行提取,选取中值滤波器做为去噪算法,原理是把一点的像素值用周围多个像素点的中间值代替,消除孤立噪声点,该算法可以很好的保留边缘减少模糊度。算法具体实现时设定一个滑动窗口,按照灰度值由小到大对像素进行排序,求取平均值代替原值,公式如下:
其中,i,j∈N,f(xi,yj)为设定窗口中二维序列数,实验中选择5×5方形窗口,尽可能细致保留叶边缘,经过降噪后图像如下所示(见图2)。
将降噪后图像使用边缘检测算法中Canny算子进行处理,Canny算子实现的基本原理是利用一个非极大值抑制图像梯度幅值,利用双阈值计算检测强边缘与弱边缘,结合两者结果建立整个样本边缘模型,通过算子检测后图像如下所示(见图3)。
图1 加权平均法获取灰度图像
图2 降噪后图像
2.3 样本特征提取
叶片特征提取是指采用计算机对样本分割后的二值图进行形状和轮廓信息提取、分析和处理,明确每个样本的独有属性特征作为分类依据,笔者提取的特征主要是基于叶片纹理和叶片边缘形状二者结合的方法。
纹理包括叶片表面的脉络纹路,根据叶脉走向和对称性等判断植物发育是否正常,是否具有参考性。本文对纹理的提取方法采用分形维数方法提取。
分形维数表现出叶片纹理的复杂程度和纹理与整体叶片间的相似度,一般的定义种类有盒维、相似维、关联维、信息维等。试验中采用盒维,具体做法为首先构建出能覆盖图像表面的最小盒子数Hr,再将整幅图像分割成N×N的小方块,每块的边长都为l。小方块中有些覆盖了样本的轮廓和内部纹理,有些是空的,取得非空盒子数量记为Nr,设定比例因子r缩小盒子尺寸,Nr值自动增大,当r趋近于0时,盒维公式为:
不断求取Nr和r的值,在双对数坐标中对(logr,logNr)进行直线拟合,得到的直线斜率为分形维数。
边缘轮廓的提取是在Canny算子计算后的基础上进行的,采用关联法,检测图4中像素值,从任意一点像素值为1的点开始,扫描周围相邻8个点的像素值,若有大于两个以上点的像素值为1的点,加入到当前集合中,遍历整幅图,最后直到为空结束,生成的即为叶片的轮廓图形[6]。最终基于纹理和边缘轮廓提取的结果如下所示(见图4)。
图3 Canny算子检测后图像
图4 样本提取轮廓图
2.4 SVM算法植物叶片分类
将提取的纹理及轮廓特征向量融合在一起使用SVM分类器分类,但融合后特征向量的维数升级,增加了计算的复杂度和周期性。本文采用一种改进SVM算法中目标函数的方法进行分类,具体的操作步骤如下:
对样本(这时的样本包括500个所有植物的训练样本和测试样本)进行分割、提取操作,提取样本纹理特征和轮廓特征,并将两种特征拼接,对拼接后样本图像分块,采用张善文等[7]提出的分类概率进行计算。
结合拼接特征向量和分类概率定义权值:
其中,Wij为两样本间权值,pi、pj为样本正确分类的概率,ci、cj为样本类别标签,根据所得权值构造矩阵W={Wij}。
构造目标函数:
将样本Xi根据公式(4)从低维映射到高维:
根据构造的权值矩阵W可得出,当xi和xj最邻近时值非0,其余都为0。当Hij>0,使得同类样本xi和xj对应的低维映射yi与yj之间的距离更小;相反,当Hij<0,使得不同类样本xi和xj对应的低维映射xj与yj之间的距离更大。最后再使用SVM进行训练,生成最终分类器。
笔者采用的研究方法主要是将样本的叶缘特征与内部纹理特征相结合,并引入分类概率降低空间维数以减少计算复杂度,提高识别精确度。首先将10类样本集中测试样本转换成灰度图使用,再利用中值滤波、双阈值法对处理后图像分割,估算出每个测试样本的正确分类概率pi,根据公式(4)构造权值矩阵,根据公式(5)建立目标函数,通过公式(6)降维后选择合适SVM分类器进行分类(实验中选择径向基函数分类),得出如下数据(见下表)。
实验结果表
由上表可知,训练样本平均正确识别率为96%,测试样本平均识别正确率为91.6%,其中冬青,秃瓣杜英的识别率较低,两种植物叶缘性状本身近似,测试样本中叶片大小差别不大,造成分类结果误差较大。其余样本测试率基本正常,表明该算法辨识度比较准确。
对植物叶片图像精准识别分类,建立分类数据库,建立植物相关属性联系,对保护当地植物、农作物,预防病虫害都有良好的效果,笔者提出使用SVM算法对植物叶片图像提取并归类,改善原有SVM中的目标函数,使低维向量生成更准确,同时考虑了样本之间的相似度。实验表明该算法具有较高的准确性,对今后的农林业发展也具有重要意义。
[1]桂媛.基于S VM的植物叶片类别识别研究[J].信息技术与信息化,20 1 5(0 9):1 4 8-1 5 0.
[2]丁娇,梁栋,阎庆.基于WLLE和S VM的植物叶片图像识别方法[J].安徽大学学报(自然科学版),2 0 1 3(4):6 2-6 6.
[3]晏艺真,周坚华.基于叶缘特征的植物图像分类检索[J].华东师范大学学报,20 1 5(4):1 5 4-1 6 2.
[4]董红霞.基于图像的植物叶片分类方法研究[D].长沙:湖南大学,20 1 3:5-1 6.
[5]姚飞,叶康,周坚华.植物叶图像特征分析和分类检索[J].浙江农林大学学报,2 0 1 5(3):4 2 6-4 3 3.
[6]郑小东,王晓洁,高洁.面向植物分类的被子植物叶形特征自动提取[J].中国农学通报,2 0 1 1(1 5):1 4 9-1 5 3.
[7]张善文,王献锋,王震,等.基于概率局部判断映射的植物分类方法[J].农业工程学报,2 0 1 5(1 1):2 1 5-21 8.
(责任编辑 卞建宁)
TP391.4
:B
:1671-9123(2016)01-0127-04
2016-01-20
南楠(1981-),女,河南洛阳人,三门峡职业技术学院信息传媒学院讲师。