郭春锋,姬光荣,郑海永
(中国海洋大学信息科学与工程学院,山东 青岛266100)
显微观察技术对于未知种群的生物识别及常见藻类的现场检测方面仍具有较强的实用性[1],目前仍是海洋赤潮生物定性与定量研究的主要技术手段。Andrei C.Jalba等[2-3]运用分水岭方法,通过连通算子标记,对ADIAC项目[4]硅藻库进行图像分割,得到较好的分割效果;在此基础上,又研究了基于数学形态学的多尺度方法,结合轮廓和纹理特征,进行分类识别,识别率达到90%以上。高亚辉等[5-6]对浮游植物显微图像进行了基于数学形态学和模糊算子的边缘检测研究;骆巧琦等[7]又提出了双轮廓叠加法以提取11种硅藻图像的轮廓,并用BP神经网络的方法对其进行自动识别。Ivica Dimitrovski[8]等采用预测聚类树(PCT)作为分类器对ADIAC的硅藻数据库图像进行了多层次的分类,获得了比较好的效果。但这些研究大多针对多类藻种只用一种目标分割方法和一组特征集进行图像分割和特征提取,由于不同门类的藻种形态差异过大,所以对某些藻种难以进行有效的分割并确切地描述其特征,而且其针对性太强,不易推广。本文通过对赤潮藻类细胞生物形态学细节特征进行分析,发现角毛藻细胞主链上生有形态各异的角毛,跟其它藻种之间的差异较大,因此结合计算机图像识别的特点,以有无角毛、有无横纵沟、有无尖顶刺作为分类依据,设计了三级分类器,并建立树状判别体系,该研究提高了识别藻类细胞的准确率。
通过对有害赤潮藻类细胞生物形态学细节特征和形状特征的分析,建立了赤潮藻显微图像自动分类体系。分别对藻类细胞3种细节特征(有无角毛、横纵沟、尖顶刺)进行有效的自动提取,作为显微图像自动分类的重要判据,进而设计三级两类分类器,建立树状判别体系,将大样本集有效划分为小样本集,并针对不同的小样本集进行相应的自动分类,然后进一步提取全局形状特征,从而得出识别结果。结合计算机图像识别的特点,设计有害赤潮显微图像自动识别流程(见图1)。该流程主要包括以下步骤:
分类器Ⅰ 根据细胞有无角毛,对上传图像进行第一级分类。对于赤潮藻显微图像,首先采用基于灰度方向角模型的细胞目标提取算法;针对角毛藻细胞分叉较多,进行基于形态学细化的骨架提取,
得到藻种细胞骨架的细节特征,将骨架的节点数目和端点数目多少作为是否为角毛藻的判据。对角毛藻类进行分类识别,得到诊断结果;对无角毛类藻使用分类器Ⅱ继续判别。
分类器Ⅱ 针对无角毛类藻,根据有无横纵沟进行第二级分类。对于无角毛类藻种,首先采用基于自动化阈值的最大轮廓细胞目标提取算法;针对显微图像中横纵沟区域与细胞主体景深不同,用基于约束标记分水岭变换进行横纵沟提取,获得藻种细胞的横纵沟细节描述,计算所提取横纵沟与细胞的面积之比和横纵沟区域质心到细胞质心距离与细胞最小外接矩形的长之比,将这2个比值的大小作为藻种有无横纵沟的判据。对无角毛有横纵沟类藻种进行分类识别,得到诊断结果;对无角毛无横纵沟类藻种使用分类器Ⅲ继续判别。分类器Ⅲ 针对无角毛无横纵沟类藻,根据有无尖顶刺进行第三级分类。针对显微图像中尖顶刺较小并与细胞主体边缘凸出相连,采用基于最佳结构元的尖顶刺提取方法,获得藻种细胞的尖顶刺细节描述,根据有无尖顶刺分为两类。然后分别进行分类识别,得到诊断结果。
图1 有害赤潮显微图像识别详细流程图Fig.1 Detailed flow chart of the microscopic images recognition of Harmful Algal Blooms
分类识别方面,主要结合不同赤潮藻的生物形态学特征,在细胞目标提取的基础上进行不变矩和形状因子特征的提取和描述,形成特征样本集;采用支持向量机对特征样本集进行训练,得到识别模型库;将待识别样本特征数据与相应类别识别模型库进行模式识别,得到最终诊断结果。
由于角毛比较细,与背景差别不大,因此选择适用于角毛藻目标提取的方法。首先对藻种细胞图像进行基于灰度方向角模型细胞目标提取[9],然后利用骨架表征形状的能力可以简洁、直观的描述角毛藻的不规则形状,可以较好的保留角毛信息。对角毛藻细胞进行基于形态学细化的骨架提取[10],得到藻种细胞骨架的细节特征。骨架提取方法的具体描述如下:
(1)对目标图像采用基于击中-击不中变换的形态学细化法进行骨架提取;
(2)根据测度是否小于门限进行修剪变换;
(3)提取节点集合junction_point和端点集合end_point,获取节点和端点的数量,利用节点数大于5和端点数大于5作为区分是否为角毛藻的判据。
根据细胞有无角毛,分为角毛藻(类别①)和无角毛类藻。对角毛藻可以进行分类识别,得到诊断结果;对无角毛类藻使用分类器Ⅱ继续判别。
横纵沟是单细胞赤潮藻的重要生物学细节特征,横沟多位于细胞中央位置或中部略偏,将细胞分为上、下两半,纵沟与横沟相交并向上下延伸,有的可达细胞底部。针对无角毛类藻,采用基于自动化阈值的最大轮廓细胞目标提取,然后进行基于约束标记的分水岭变换横纵沟提取,横纵沟提取具体步骤如下:
2.2.1 灰度特征图像构建 使用灰度相容球体的方法,各特征灰度彼此间距大于R,即{d(ym,yn)>R,ym≠yn∈Y},依照主成分原则和灰度相容原则确定特征灰度值集合。对给定相容球体半径R,将相容球体内的灰度归并,反复迭代结束得到原始图像I的灰度特征集合,然后对原图像进行重构,得到灰度特征图像Irep。
2.2.2 形态学梯度图像求取 记形态学梯度g(x,y)为g(x,y)=f(x,y)S(x,y)-f(x,y)ΘS(x,y),其中S(x,y)为图像f(x,y)的结构元素。根据公式,得到图像Irep的形态学梯度图像g(Irep)。
2.2.3 标记提取 用阈值法对梯度图像g(Irep)进行标记提取,将大于阈值t的点标记出来,得到一幅二值
2.2.4 标记约束 利用特征灰度集合虽然消除了大部分的区域极值和噪声,但是仍然存在一些无关的极小值点,导致目标被分割成许多细小区域。在进行分水岭变换之前对这些点进行约束,就可以有效地避免过分割现象。本文定义了以下3个约束控制准则:
(2)质心位置约束:
2.2.5 极小值标定 将执行步骤2.2.4后得到的局部极小值点作为标记点来修改梯度图像,得到g′(Irep)。2.2.6分水岭变换 最后进行快速分水岭变换,得到提取结果,示例为条纹环沟藻横沟提取结果(见图2)。
图2 条纹环沟藻横沟提取结果对比Fig.2 Gyrodinium instriatum sulcus extraction results contrast
根据细胞图像有无横纵沟分为2类。对(类别②)无角毛有横纵沟的图像可以进行分类识别;对于无横纵沟的使用分类器III继续判别。
2.3.1 图像位置归一化 由于藻种图像的主轴与x轴正向会存在一定夹角,通过计算目标区域惯性主轴的方向与x轴正向的夹角,然后经逆向旋转变换摆正[11]。如图3(a)所示,像素(x,y)对直线y=xtanθ的惯性矩为r2,r=xsinθ-ycosθ,若图形上所有点到直线y=xtanθ的惯性矩最小,则图形的惯性主轴为直线y=xtanθ。
图3 位置归一化Fig.3 Location normalization
如图3(b)所示,若直线y=xtanθ′为细胞的惯性主轴。则惯性矩为为像素点个数,由惯性矩最小求得
2.3.2 选取最佳结构元 要使顶刺部位与细胞体完整的分离,结构元素的大小必须等于顶刺着生位置横截面宽度。将目标位置归一化后,在x轴方向上进行等距采样,计算并统计采样点上的像素宽度[12]。设二为二值化后前景像素的灰度值。图像第j列中目标像素数目的度量值。
图4 像素宽度直方图及面积分布示意图Fig.4 The histogram of pixel width and Area distribution diagram
如图4所示,(a)为目标图像;(b)为像素宽度直方图,L(ω)横坐标值为所有的像素宽度,纵坐标值为采样点数目,尖刺部位平均宽度为第一个红圈标明的脉冲处对应的横坐标(ω=10),细胞体平均宽度为第二个红圈标明的脉冲处对应的横坐标(ω=78);(c)为面积分布图,纵坐标表示为S(ω)=L(ω)×ω,目标中具有最大面积的像素宽度即为红圈标明的脉冲处对应的横坐标(ω=78)。
设像素宽度阈值ω′将S(ω)划分为2个部分,若满足
即面积积分比值在[T1,T2]时,可认为顶刺区域存在,T1=0.000 5,T2=0.005为实验中确定的阈值,并将满足条件的阈值集合{ω′1,ω′2,…ω′k}作为结构元素的估计尺寸集合,从中选择满足L(ω*)=max{L(ω′1),L(ω′2),…,L(ω′k)}的ω*作为最佳结构元尺寸。
2.3.3 顶刺提取 尖顶刺着生连接部位宽度与细胞主体部分宽度是有很大差别的,用所选取的最佳结构元大小进行开运算,然后用原图像减去开运算结果,就可获得图像中的凸出部位。
2.3.4 区域标记 以小结构元素做形态开运算,去除孤立点及虚假区域;找到图像中所有连通部分,标记同一连通成分中所有像素点,将面积最大的区域提取出来,即为顶刺区域。
根据有无角毛无尖顶刺分为2类(类别①、类别②)。然后进行分类识别。
根据判别结果(①或②或③或④,最后只能有一种结果)结合不同赤潮藻的生物形态学特征,在细胞目标提取的基础上进行12个不变矩和7个形状因子特征的提取和描述,形成特征样本集。采用一对一方法构建多类别分类模型,选择C-SVC 2类分类器和径向基内积核函数RBF构成单元分类器。根据不同处理方法设置训练样本集,标志出已知样本,将提取样本特征作为训练样本由支持向量机SVM进行学习,构造出识别模型库。将待识别样本特征数据与相应识别模型库进行分类,得到最终识别结果。
采用上述分类器思想对41种赤潮藻种、共3 600幅显微图像(其中训练样本2 600幅,测试样本1 000幅)进行识别测试,根据以上分类方法分为4类,设置4类训练样本分别对支持向量机进行训练,然后对测试样本1 000幅分类进行测试,识别结果(见表1~4)。
表1 第①类藻识别结果Table 1 The recognition results of the first class Algae
表2 第②类藻识别结果Table 2 The recognition results of the second class Algae
表3 第③类藻识别结果Table 3 The recognition results of the third class Algae
表4 第④类藻识别结果Table 4 The recognition results of the fourth class Algae
对以上数据进行统计分析,可以得知平均识别率为83.27%,去掉三级分类器的识别误差(r1,r2,r3),实际识别率平均值为82.05%,达到了较好的识别效果。特别是对于反曲原甲藻、叉状角藻和梭角藻的识别率达到88%以上,因为这些藻种形状特征与其他藻种具有明显差异。通过三级分类器将大样本集合划分为小样本,减少了训练的时间,提高了识别准确率。
通过对有害赤潮藻类细胞细节特征有无角毛、横纵沟、尖顶刺的分析和提取,并利用这些细节特征作为分类的重要判据,建立树状判别机制,设计了三级分类器,分别用于区分藻类细胞有无角毛、横纵沟、尖顶刺;通过分类器分级判别出待识别藻种属于哪类藻,然后再提取全局形状特征进一步细分,从而提高识别准确率。
[1] 陈泽浦,刘堃.浅析赤潮灾害形成原因、危害与减灾工作 [J].中国渔业经济,2010,28(1):60-65.
[2] Andrei C.Jalba,Michael H,et al.Roerdink,Morphological hattransform scale spaces and their use in pattern classification [J].Pattern Recognition,2004,37(5):901-915.
[3] Andrei C,Jalba A C,Wilkinson M H F,et al.Shape representation and recognition through morphological curvature scale spaces[J].Image Processing,2006,15(2):331-341.
[4] Buf H,Bayer M M.Automatic diatom identification[M].Singapore:World Scientific,2002.
[5] 陈成,杨晨晖,聂文,等.基于浮游植物图像的模糊算子边缘检测算法 [J].计算机技术与发展,2009(3):22-24.
[6] 聂文,杨晨晖,陈成.基于数学形态学的海洋浮游植物边缘检测研究 [J].南京师范大学学报:工程技术版,2008(4):167-171.
[7] 骆巧琦,李雪松,梁君荣,等.基于形状特征的硅藻显微图像自动识别 [J].厦门大学学报:自然科学版,2011,50(4):690-696.
[8] Ivica Dimitrovski,Dragi Kocev,Suzana Loskovska,et al.Hierarchical classification of diatom images using ensembles of predictive clustering trees[J].Ecological Informatics,2012,7:19-29.
[9] 姬光荣,郑海永,王国宇,等.一种无角毛类赤潮藻显微图像目标细胞提取方法[P].青岛:中国海洋大学,2010101155923,2010-03-02.
[10] 乔小燕.基于生物形态学的赤潮藻显微图像分割与特征提取研究 [D].青岛:中国海洋大学,2010
[11] Xu L,Jiang T,Xie J,et al.Red tide algae classification using SVM-SNP and semi-supervised FCM[C].[s.l.]:2nd International Conference on Education Technology and Computer(ICETC),2010,5(1):389-392.
[12] Tang X,Lin F,Andrew Remsen.Binary plankton image classification[J].IEEE Journal of Oceanic Engineering,2006,31(3):728-735.