基于叶形和叶脉特征的植物数字化分类研究

2020-05-20 06:08金梦然袁航黄大庄
林业与生态科学 2020年1期
关键词:叶脉特征参数海棠

金梦然,袁航,黄大庄

(1 河北农业大学 园林与旅游学院,河北 保定 071000;2 河北农业大学 林学院,河北 保定 071000)

传统的植物分类都是通过人工完成的,工作量巨大并且容易受主观因素影响[1]。随着科学技术的发展,细胞分类学、数量分类学、计算机自动识别技术、分子生物学等为植物分类提供了新的研究方法,其中计算机自动识别技术因为具有高效、便捷的特点,在植物分类领域起到越来越大的作用。

目前,以植物的叶片图像作为计算机分析处理的材料对植物进行分类识别的方法已经得到了广泛的应用。陈寅利用从叶片图像中提取的形状特征和不变矩特征以及通过灰度共生矩阵得到的叶片的纹理参数,通过支持矢量机的方法对207种叶片进行分类,平均识别率达到了91.2%[2]。翟传敏等将叶缘和叶脉分数维相结合作为植物分类识别的依据,利用K近邻分类器对植物进行分类,结果分类效果良好[3]。Charles等建立了一个由100种植物的叶片组成的数据库,通过提取训练样本叶片的形状、纹理和边缘特征,采用K临近值分类器进行训练识别,当提取的3个特征同时满足时,识别率达到96%[4]。本研究以植物叶片图像为基础,选取的植物为园林中应用广泛、容易混淆的10种蔷薇科植物,使用的工具是由美国科学院院士F. James Rohlf开发的tpsDig2软件。tpsDig2是一款专门用来从图像中获取X、Y坐标的软件。目前,这款软件已经成功应用于各种昆虫、哺乳动物等的分类鉴定,但是在植物叶片自动分类上还无人尝试[5-7]。因此,本研究不再以特征提取和分类器训练[8]为研究方向,而是在叶片图像的轮廓和主叶脉上利用tpsDig2软件提取标记点,所选标记点的坐标值包含着植物叶片的拓扑结构的信息,这为自动分类判别提供了特征参数。此方法摒弃了通过复杂的数学算法提取特征量的方式,为植物自动分类提供了一个简单有效的方法。

1 材料与方法

1.1 材料

本研究主要在2016年9月于河北省保定市河北农业大学西校区采集叶片,去掉叶柄后用标本夹压制保存。试验涉及到蔷薇科7属10种植物,以叶片的轮廓和叶脉为研究对象,每种植物取30个样本。具体植物名称如下表1所示。

表1 试验所用10种植物名录

1.2 叶片图像获取

因为试验所用叶片的叶脉都较为清晰,所以直接使用具有透扫功能的型号为CanoScan9000F MarkⅡ的扫描仪作为叶片图像的获取工具。为了使图像便于分析处理,在分辨率为600DPI的情况下对叶片标本进行扫描,缩放比例100%,保存为灰度图像。

1.3 标记点的选取

利用tpsDig2软件在叶片图像上提取标记点。由于叶片是竖直放置的,本研究以主叶脉的顶点为起点,从上到下依次为:主叶脉顶点、轮廓上能代表叶尖程度的2个点、叶片最宽部位所连直线之上的第1个主叶脉上的点、轮廓上能代表叶片最宽部位的2个点、能在一定程度上反映一级脉疏密程度的顺序排列的到主叶脉端点的4个点,共计10个点。选取的标记点分布图(以美人梅为例)如图1所示。

图1 美人梅标记点分布图

1.4 数据处理

采用SPSS17.0软件对提取的特征值进行单因素方差分析,筛选具有显著差异的特征值,再利用逐步判别分析法将组质心处(均值处)评估的非标准化的典型判别式函数标准化,得到能够对样本进行判别的标准化典型判别式函数。

2 结果与分析

2.1 方差分析

利用SPSS17.0软件对每个叶片10个标记点的坐标值即20个变量进行方差分析,得到F值和P值,如表2所示。

表2 方差分析结果

续表2

方差分析结果显示,不同植物种类各个特征参数间均具有极显著差异(P<0.01)。因此,20项特征参数均可用于判别分析。

2.2 判别分析

利用逐步判别分析对10种植物的20项特征参数进行分析,结果表明,20项特征参数中的11项可以作为分类指标,分别是Y1、X2、Y2、X3、Y4、X5、X6、Y6、Y7、Y9、Y10。利用得到的11个分类指标建立了9个标准典型判别函数,具体函数系数见表3。

表3 标准化的典型判别式函数系数

由表3可知,函数1和函数2累计贡献率达到48.700%、81.700%,正则相关性分别为0.975和0.963,因此由函数1和函数2可以得到10种植物分类的散点图,如图2所示。可以看出10种植物的组质心之间有明显的距离,说明筛选出的11项特征参数建立的标准典型判别函数可以有效的将10种植物区别开来。

图2 10种植物的散点图

Figure 2 Scatter plots of ten species of plants

通过判别分析得到10种植物300个样本的初始判别和交叉判别结果如表4所示。

表4 10种植物分类结果

注:1.观赏苹果;2.垂丝海棠;3.日本樱花;4.紫叶李;5.美人梅;6.碧桃;7.陕梅杏;8.辽梅杏;9.稠李;10.贴梗海棠。

结果显示,初始判别正确率为98.3%,即有2个观赏苹果样本被误判为贴梗海棠,1个垂丝海棠样本被误判为贴梗海棠,2个稠李样本被误判为紫叶李,其他全部实现了正确分类;而交叉判别正确率为96.7%,即有2个观赏苹果样本被误判为贴梗海棠,4个垂丝海棠样本其中2个被误判为稠李,另外2个被误判为贴梗海棠,1个紫叶李样本被误判为稠李,2个稠李样本被误判为紫叶李,1个贴梗海棠样本被误判为观赏苹果。总体来说,利用选取的11项特征参数达到了很好的分类效果。

3 讨论

tpsDig2软件可以将待测样本的几何形态特征快速、准确、可视化的表现在图像上,相比于花伴侣、形色、微软识花等植物识别类APP,tpsDig2软件没有强大的植物图像数据库作为支撑,但是它可以快速地获取样本生物形态的拓扑结构信息,且不受样本大小和形状因素的影响,为植物数字化分类提供可靠数据。

采用叶片作为本研究的试验材料是因为叶片在植物生长周期中存在的时间较长,采集方便,并且叶片大多是二维结构,较之花、果实、种子等三维结构能够形成便于计算机处理的二维图像。而且叶片图像包括形状、颜色、叶脉等丰富的信息[9]。刘春爽等通过叶脉分叉点和叶脉端点组成的新的叶脉特征,结合矩形度、离心率等形状特征,对白玉兰、连香树、黄连木等10种植物进行分类识别,正确率达到了100%[10]。本研究所选取的10个标记点,4个在叶片轮廓上,6个在主叶脉上,综合了叶片的形状特征和叶脉的纹理特征,对植物叶片分类识别提供了比较全面的特征参数。但是标记点的选取带有一定的人为因素,在今后的研究中可以使用普氏叠加对原始坐标数据进行处理,消除非形状因素的影响[11-12]。

另外,本试验用到的叶片均为人工采集,采集后选用该种植物成熟并且完整的叶片,即同种植物的叶片形状基本相同。因此,对于残缺破损或者形状因为外界因素影响发生变化的叶片,很可能发生误判。试验用到的植物种类均为单叶植物,并且叶脉都很清晰,分类的种类相对较少。这就需要在以后的研究中考虑到试验样本的多样性并加以解决。

初始判别分析的分类结果显示,有2个观赏苹果样本和1个垂丝海棠样本都被误判为贴梗海棠,2个稠李样本被误判为紫叶李,这说明对于形状相近的植物叶片,此方法并不能达到100%的正确判别率。刘媛等利用几何形态测量学方法也没能将近源种槲树和槲栎全部区分[13]。余孝源等利用Hough变换、区域增长和Harris角点检测等算法获得了主叶脉节点分布信息,为外观轮廓相似叶片的分类识别提供了可靠依据,但是采用的是复杂的计算机算法[14]。因此,当植物种类增多或者形状相近时,可以增加标记点的数量,比如增加二级脉的分叉点作为标记点,或者加大样本容量来提高判别结果的准确性。

4 结论

方差分析结果显示,10种植物所选标记点的坐标值参数组间差异显著,都可以作为判别分析的特征参数。通过逐步判别分析从20项特征参数中筛选了11项作为分类指标,建立了9个标准典型判别函数,对10种植物进行分类判别,初始判别和交叉判别的正确率分别为98.3%和96.7%,这表明利用tpsDig2软件在植物叶片的轮廓和主叶脉上选取标记点进行数据分析的方法可以实现对植物叶片的数字化分类。

猜你喜欢
叶脉特征参数海棠
最美叶脉
读《明天要远足》,写“我要去远足”
冕洞特征参数与地磁暴强度及发生时间统计
把“照片”印在叶脉上
叶脉书签
《大嘴狗》
找春天①
基于交通特征参数预测的高速公路新型车检器布设方案研究
基于PSO-VMD的齿轮特征参数提取方法研究
基于视频的车辆特征参数算法研究