王 谢,张建华
(四川省农业科学院土壤肥料研究所,四川成都 610066)
植物叶片形态学特征全自动提取的难点
王 谢,张建华*
(四川省农业科学院土壤肥料研究所,四川成都 610066)
摘 要:叶片形态是植物适应生存环境的重要表征之一,如何准确、高效地获取叶片形态资料是当前植物叶片形态学研究方法和研究技术发展的主要驱动力。由于传统方法大多存在费时费力、测量指标有限等弊端,研究者们希望能够利用计算机技术对叶片形态学特征进行全自动化提取。文章总结了当前叶片形态学特征研究的主要方法和计算机图像分析的原理和使用经验,并分析了现有叶片形态学特征自动化提取技术的主要问题和解决这些问题的难点,结果表明,最小外接矩形算法在叶片形态学特征自动化提取中局限性较大。未来对叶片形态学自动化提取软件的开发须全面考虑所提取叶片特征的整体效应和生物学意义,合理利用植物的真实形态学结构特征进行判别,以控制纯几何学和纯图形学运算结果的失真程度。
关键词:形态学特征;自动化;叶面积;形态学
文献著录格式:王谢,张建华.植物叶片形态学特征全自动提取的难点[J].浙江农业科学,2016,57 (4):579-582.
叶片形态学一直是植物生理及植物生态学研究中的热点[1]。植物可通过调节叶片的形态来增强自身的生存适应能力,对时空的环境变化表现出极强的敏感性和可塑性[1],表明植物叶片的形态特征及其进化史可以反应植物在地球各个气候阶段的进化过程和形态演化趋势。植物叶片和花器官形态上的差异都为研究者们提供了直观有效的证据以直接证明植物对环境的适应性,以及其在分类学中的地位。此外,叶片作为植物进行呼吸作用、光合作用和蒸腾作用的主要器官,其叶面积大小、叶轮廓周长、叶长和叶宽等信息不仅是植物生长状态诊断中重要的参数,还是研究植物栽培技术、生理生化、遗传育种等内容的重要形态指标[2]。因此,如何准确量化叶片的形态学特征是叶形态研究的一个核心内容。
起初,人们采用硫酸纸称重法、网格法、求积仪法、面积系数换算法和打孔称重法来统计叶面积[3],同时按照主脉的位置测定其长和宽。随着计算机技术的不断普遍化和常规化,人们逐渐认识到了这些方法所存在的巨大缺陷,即工作量大、费时费力、测量指标有限,且人为操作时具有较强的主观性,在判断构型不规范的叶片时容易产生争议。为了更快、更准地获取更多叶片形态信息,学者们开始利用各种可能的软件来进行数据分析和提取,主要包括window画图工具[4]、Image J科学用图像处理软件[5]、Photoshop图像处理软件[6-7],ArcGIS[2,8-9]、MapInfo等桌面地理信息系统软件[10]、R2V高级光栅图矢量化软件[11]等,以快速获取叶面、叶长、叶宽等指标。
随着计算机语言的普遍化,上述软件也不能完全满足人们对形态指标数据的需求。学者们开始利用C,C + + ,VB,Java,Matlab等语言自动提取自身需要的形态指标特征,植物叶片形态学指标的建立得到了极大的发展,已经可以自动化获取主要叶片形态的一些基本参数,如叶面积、叶周长、叶长、叶宽、纵横比、矩形度、面积凹凸比、周长凹凸比、球形比、圆形度、偏心率、形态参数[12]、离心率、椭圆长短轴长、分形维度等。虽然计算机可识别和提取的形态指标在一些生理和生态学研究中已经相当丰富,但对于植物分类和形态进化而言,仅仅是迈出了工作的第一步。
为清楚地了解现阶段植物叶片形态学特征全自动化提取中出现的问题和状况,本研究基于以上研究背景,通过大量的数据提取实践,提出了现阶段全自动化提取的主要原理和常见问题,并提供了解决这些问题的一些思路,为植物叶片形态学特征的全自动化提取提供参考。
植物叶片形态学特征全自动化提取的基础是图片分辨率单位与空间坐标单位之间的成功转换。图片的分辨率(dpi)是指每英寸扫描对象所表示的像素点的数目,即1dpi = dots/inch。根据1 inch = 2.54 cm,可推算出单个像素的长度为(2.54/dpi) cm,面积为(2.54/dpi)2cm2[2]。
在此基础上,基于对图片信息的提取,提出栅格图像分类与最小外接矩形算法联用的自动化特征提取的主要思路(图1),该算法是实现自动化特征提取的核心所在。通过对上个栅格图片进行二值化处理形成黑白鲜明的图像数据结构,利用数学形态学算法对小面积区域进行删除、对大面积区域进行膨胀或填充,确定出连续的图形边界,对图形数据进行模拟分析,分析其内在面积、边界长度和最小外接矩形,并将最小外接矩形的长边定义为叶长,短边定义为叶宽。相关研究已经证实了该算法在一些植物叶片形态学特征自动化提取中的有效性,但这并不意味着该算法适合大部分植物。
图1 叶片特征自动化提取的主要原理
由于叶片形态多样、数据库不完善、设计者跨专业学习等多种原因,造成许多测定数据不能反映叶片的真实特征,这些数据有的可以通过二次计算得到真实值,而有的则是完全错误的。通过对各种叶片形态数据的运算和分析,发现在叶片形态特征自动化提取过程中客观存在的几种数据异常的情况,而这些情况在以往的研究中并未提及。
2.1长宽数据倒置
无论是基于地理信息系统的ArcGIS,还是LEAFSHAPES 1.0,其对叶片长宽数据的提取都是基于最小外接矩形的。一般情况下,按照最小面积和最小边长做约束条件提取的数据差异并不显著,因此,所得出的结果将长的边默认为叶长,短的边默认为叶宽。然而,叶长是叶片主脉方向上的最大边长,当真实的叶片长宽比小于1时,这种长宽数据倒置的现象就会出现(图2中A)。由于LEAFSHAPES 1.0软件主要针对单叶进行数据提取,提取的数值和图形可配套显示,这种长宽数据倒置的情况可能被发现;但当真实长宽比很难被肉眼发现时,这种错误的数据很容易被忽略。同样,在ArcGIS处理批量提取数据时,如果有些叶片长宽比大于1,有些叶片长宽比小于1,后续往往会花费一些时间去调整这些数据的前后位置,这样不仅增加了工作量,没有体现自动化的优势,而且增加了数据错误的风险。
2.2叶长数据偏小
基于最小外接矩形算法自动提取菱形、椭圆形或近椭圆形叶片时,得到的叶长常常会出现偏小的情况,主要是因为主脉的实际位置并非接近最小接矩形算法模拟出来的长边,而更接近最小外接矩形的对角线长(图2中B)。同时,由于叶柄和叶尖的存在,真实的叶片长度常介于最小外接矩形的长边和对角线长度之间。
2.3叶宽数据错误
基于最小外接矩形算法自动提取镰形和部分披针形叶片时,由于叶片整体近线性,且具有一定弧度,其所计算出的叶片宽度显著大于叶片的实际宽度(图2中C)。从几何学特征出发,不难发现这种差异与叶柄长短和位置,以及叶片自身的弯曲弧度等存在密切关系,而且这种差异很难用简单的数学公式计算出。如出现这种现象,最小外接矩形算法是不可取的。
图2 叶片特征自动化提取中的常见错误
2.4周长数据偏小
对于地理信息系统法而言,常采用众数滤波等技术手段对监督分类的数据进行纯化,在这个纯化过程中,叶缘的形状变得更加平滑,叶缘信息被模糊了,造成周长计算偏小。LEAFSHAPES 1.0软件为了防止这种情况的出现,未采用滤波技术,直接利用二值图进行计算,可以得到较为准确的周长信息,但该软件只能处理分辨率为50 dpi的叶片扫描图,当分辨率大于50 dpi时,图片上出现的杂色(特别是扫描的边缘的像素差异)会对图像识别造成巨大的影响,计算结果误差较大。LEAFSHAPES 2.0在二值化过程称中加入了滤波处理和开运算处理,随着图片二值化次数的增加,得到的周长数据会越来越小。因此,正确利用数学形态学计算方法对图形进行膨胀、腐蚀、去噪等处理,需要进行更多的论证和系统的规划。
2.5叶色对二值化的影响
虽然大部分叶片都是绿色,但是对于一些草本植物和观叶植物叶片而言,其叶器官上常常伴有其他颜色。色调较深的颜色对图像二值化处理的影响不大,但一些较浅的颜色,特别是白色,会对叶片二值化处理造成极大的影响。由于其色调与背景色几乎一致,二值化过程中常将其背景化,导致处理后的图像面积小于叶片的实际面积,图像周长也小于叶片的实际周长。因此,在研究叶片形态时,需要对浅色部分进行处理,如在扫描前对叶片进行涂黑、在处理前用其他画图软件对扫描图的浅色区域进行深色填充等。
无论是在物种水平,还是在植物个体水平,甚至是个体内部构建水平上,叶片的形态结构都是其最重要的身份特征。每一个物种的每个种群内,每一个位置上的叶片都有其特定的表达方式和存在意义,这也就决定了叶片形态的多样性和复杂性。在物种水平上,从单复叶的整体形态差异到单叶叶形差异,再到叶基部、叶尖、叶缘和叶裂等各个细节的差异,这些差异的具体表现形式都是分类研究者非常关心的问题,而这些差异更是对自动化数据提取的一个极大挑战。由于现阶段数学语言和数学图形学语言与植物学语言之间缺乏一个系统且周密的语言转换桥梁,导致许多研究手段尚属于尝试阶段,并没有真正形成一套只属于植物叶片特征自动化提取体系的思路和系统,因而出现了上述自动化数据提取的失误,甚至是错误。上述的5种数据错误在一定程度上暗示了最小外接矩形算法和数学形态学算法在叶形上的半适用性,若要从根本上解决上述问题,需要正确的对待以下4个方面的问题。
3.1如何对待叶柄
模拟试验表明叶柄大小、斜率等对最小外接矩形算法的影响是客观存在的,甚至可以直接导致自动提取数据出现错误。因此,在现阶段的研究中,学者们常采用直接去除叶柄扫描和扫描后在图像中通过数学形状学处理去掉叶柄的处理方法。前者可较好地得到叶片形态信息,但实际操作中,这种方法主要适合于叶柄形态完全分离的单叶,对复叶研究并无太大意义,对叶柄带翅的叶片更是抹杀了其特定的生物学意义。而后者,不仅存在与前者相同的情况,更重要的是其模糊化处理影响了其他指标提取的准确性和精度。因此,为了保证数据的准确性和对生物学意义的保存,叶柄应该被保留在分析的主要内容之中。
3.2如何对待复叶
复叶和单叶是分类的2个重要方式。看待复叶的方式有2种:一种是将其看作是单叶、深裂直至分离,且二级叶脉基部特化;一种是将其看是单叶空间组合。前一种观点在形态学的研究中必须考虑叶柄的意义,将其整体看作一片单叶来进行模拟和自动化提取,基于这种认识可创造适用性更广的叶片形态特征算法,而且叶裂特征的算法已经被提出,在一些树叶的叶裂分析中也具有较高的分析精度[13-18]。第2种观点虽然放弃了叶柄和小叶叶柄存在的意义,在分类学上可能不及第1种观点,但在突显叶片生理功能上,可能会表现的更直接和有效。现阶段对于复叶的研究主要是基于第2种观点,但作者在对待复叶的问题上更主张第1种观点,虽然基于第1种观点实现的叶片形态特征自动化提取的难度比第2种观点大,但一旦成功,其在植物分类和植物生理学研究中将具有重要意义。
3.3如何对待局部细节
叶尖特征、叶缘特征等更多局部特征并非现阶段叶片形态学自动化提取的主流。在没能准确的自动化提取叶面积、叶长、叶宽、周长等情况下,对于其他相对局部特征的自动化提取问题很容易被忽略。但是叶片是一个整体,无论是叶柄还是叶缘等信息都不应该被模糊掉。一个从总体构思的叶片面积自动化提取算法,绝对强于对各个部件单独研究,这是实现植物形态学分类从定性描述到定量判断的一个重要手段。郑小东等[19]根据植物学中对叶缘的描述,采用改进的SUSAN算法检测植物叶缘锯齿,然后计算叶缘锯齿数量、尖锐度、偏斜度3个特征参数。相较于植物分类学的定性指标,几何学和图形学给出的参数更加客观,这些数据对植物分类的定量化研究具有重要意义。李灿灿等[20]基于K-means聚类的对叶脉信息进行了提取,但这仅限于对叶脉的显示,尚未提出能用于进一步分析的指标体系。
3.4如何对待叶色
对于基于图像分析的研究方法而言,叶色是造成了误差的最主要原因之一,为消除叶色带来的误差,所进行的各种运算处理都会对各指标的自动化提取造成或大或小的影响。而在植物生理和病理研究中[21],叶色是一个非常重要的表观特征,对植物生长的智能监控具有重要意义。在研究叶斑特征时,叶形往往也是研究中必须配套使用的支撑数据,因此,是否应该将叶片表面的色调特征列为叶片形态全自动提取研究的主要内容还需要认真思考。在考虑叶色的情况下,如何依据叶色对形态数据进行矫正或判别等也需要进一步思考。因此,强调指标属性之间的关联性和整体性是叶形态特征全自动提取的核心。只有基于这个原则,才能构建起数学语言和植物学语言的桥梁,才能为研究提供准确的数据基础。
上述5点主要问题都来源于对叶形态指数自动化提取过程中遇到的困难,4个工作的难点也是可能解决上述问题的关键思路,从这些问题的发现到解决思路的提出,已经指明了最小外接矩形算法在叶片形态学特征自动化提取中的局限性和不可推广性。未来叶片形态学自动化提取软件需要创造出一种真正基于植物学原理的非纯几何学和图形学的运算法则,这种法则的建立应全面考虑叶器官的整体效应,对叶柄、叶尖、叶缘、叶脉、叶表面等信息都不可忽略。植物叶片全自动化提取技术的研究还有很长的道路,除了上述各种困难之外,还需要思考“如何更加细致地提取叶片的形态学特征”这一问题。未来对于叶片形态学的研究也绝不会停留在二维空间,如何利用三维激光扫描技术自动化提取叶片三维空间形态特征,如表面粗糙度、起伏度等,都是植物叶片特征全自动化提取需要思考和解决的问题。叶片形态的全自动化提取不仅是为了方便和简化工作量,更是为了使研究技术规范化、科学化和统一化,使研究结果更准确和更具有可对比性和可借鉴性。
参考文献:
[1]李永华,卢琦,吴波,等.干旱区叶片形态特征与植物响应和适应的关系[J].植物生态学报,2012,36 (1):88-98.
[2]乐通潮,张会儒,谭芳林.基于自动分类法的红树植物叶片信息测定[J].林业科学,2014,50 (5):34-40.
[3]庄建守.叶面积测定法[J].新疆农业科学,1979 (3):23-24.
[4]王旺田,马静芳,张金林,等.一种新的葡萄叶面积测定方法[J].果树学报,2007,24 (5):709-713.
[5]刘洪波,张江辉,白云岗,等.香梨叶面积测定方法对比研究[J].新疆农业科学,2013 (3):453-459.
[6]于守超,张秀省,冀芦莎.基于PhotoshopCS5的植物叶面积测定方法[J].湖北农业科学,2012,51 ( 15 ):3340-3342.
[7]铁军,马婧,金山,等.濒危植物南方红豆杉的叶面积测定及其相关分析[J].山西大学学报(自然科学版),2012 (3):581-586.
[8]陈智芳,王景雷,宋妮.GIS空间分析技术在棉花叶面积测定中的应用[J].中国农学通报,2012,28 (9):145-149.
[9]陈积山,朱瑞芬,张月学.基于GIS在苜蓿叶面积测定中的应用[J].草业科学,2012,29 (7):1044-1048.
[10]吴玉德,张鹏.基于Mapinfo的树木叶面积测定方法[J].林业调查规划,2005,30 (6):23-25.
[11]张美海,赵玉如,刘阳,等.基于用R2V软件和摄像手机测定叶面积的方法[J].山东林业科技,2011,41 (6):59-62.
[12]肖雪洋.植物叶片图像识别特征的研究和在线识别系统实现[D].合肥:中国科学技术大学,2011.
[13]冯冬霞,施生锦.叶面积测定方法的研究效果初报[J].中国农学通报,2005,21 (6):150-152.
[14]宰松梅,温季,郭冬冬,等.基于支持向量机模型和图像处理技术的甜椒叶面积测定[J].农业工程学报,2011,27 (3):237-241.
[15]郭孝玉,孙玉军,王轶夫,等.基于改进人工神经网络的植物叶面积测定[J].农业机械学报,2013,44 (2):200-204.
[16]张宁,刘文萍.基于图像分析的植物叶片识别技术综述[J].计算机应用研究,2011,28 (11):4001-4007.
[17]高建昌,郭广君,国艳梅,等.平台扫描仪结合ImageJ软件测定番茄叶面积[J].中国蔬菜,2011 (2):73-77.
[18]郑小东,张晓煜,薄树奎.植物叶裂特征自动提取研究[J].中国农学通报,2012 (27):152-156.
[19]郑小东,王晓洁,高洁.SUSAN算法在植物叶缘特征提取中的应用[J].中国农学通报,2011,27 (27):174-178.
[20]李灿灿,王宝,王静,等.基于K-means聚类的植物叶片图像叶脉提取[J].农业工程学报,2012,28 ( 17 ):157-162.
[21]郑小东,王晓洁,李玲玲.面向植物生长智能监控的叶颜色特征提取[J].中国农学通报,2010,26 (19):401-407.
(责任编辑:侯春晓)
中图分类号:TP20; Q944-3
文献标志码:A
文章编号:0528-9017(2016)04-0579-04
DOI10.16178/j.issn.0528-9017.20160437
收稿日期:2015-11-05
基金项目:现代农业产业技术体系建设专项(CARS-22-ZJ0307)
作者简介:王 谢(1987—),男,四川雅安人,博士,助理研究员,主要从事生物数字化和土壤生态学研究工作,E-mail:wangxiechangde@hotmail.com。
通信作者:张建华,E-mail:zjhu-11@163.com。