基于高斯混合模型的海冰图像非监督聚类分割研究

2011-01-12 12:03兰志刚靳卫卫朱明亮于新生国建凤周振涛李凯宝
海洋科学 2011年11期
关键词:海冰高斯聚类

兰志刚, 靳卫卫, 朱明亮, 于新生, 国建凤, 周振涛, 李凯宝

(1. 中海油能源发展股份有限公司北京分公司, 北京 100027; 2. 中国海洋大学 海洋地球科学学院, 山东 青岛266100; 3. 中国海洋石油总公司, 北京100010; 4. 中海石油有限公司天津分公司, 天津300452)

基于高斯混合模型的海冰图像非监督聚类分割研究

兰志刚1, 靳卫卫2, 朱明亮2, 于新生2, 国建凤3, 周振涛4, 李凯宝4

(1. 中海油能源发展股份有限公司北京分公司, 北京 100027; 2. 中国海洋大学 海洋地球科学学院, 山东 青岛266100; 3. 中国海洋石油总公司, 北京100010; 4. 中海石油有限公司天津分公司, 天津300452)

为了利用海冰图像识别技术获取海冰冰况信息, 探索了利用高斯混合模型进行海冰图像分割的技术途径, 描述了具体算法, 并利用高斯混合模型的最大期望值(EM)算法以及最小描述长度(MDL)准则对渤海海冰图像进行目标提取。研究结果表明, 该方法可以很好地实现海冰信息的有效提取和海冰图像的有效分割, 从而证明了建立在图像分割技术之上的海冰图像识别技术是处理海冰图像进而获得冰型、冰量等冰况信息的有效技术手段。

海冰; 高斯混和模型; 图像分割; 非监督聚类

由于受西伯利亚冷空气的影响, 我国渤海、特别是辽东湾海区, 每年冬季都会覆盖大量的海冰, 严重时会形成冰灾, 严重威胁海洋工程构筑物的安全,甚至会封锁港口、阻塞航道、致使渤海海上交通运输处于瘫痪状态, 因此掌握准确的海上冰情信息,对于防冰减灾至为重要。利用视频图像获取海上冰情信息已日益成为海冰监测和研究的重要途径, 而建立在图像分割技术之上的海冰图像识别技术则是处理海冰图像进而获得冰型、冰量等冰况信息的有效技术手段。

图像分割是一种依据图像区域特征, 对图像进行分解并提取出感兴趣目标的技术过程。传统的阈值法在图像区域分割中得到了很好的应用, 但尚存在着诸多缺陷, 尤其是对于存在噪声干扰或要进行多区域分割的图像, 阀值法很难得到理想的分割结果。而聚类算法是一类非监督的学习方法, 它能够在缺少先验知识的情况下, 把没有类别标记的样本集按某种准则划分成若干类, 使类内样本的相似性尽可能大, 而类间样本的相似性尽量小, 从而实现数据集的有效聚合, 这与人类视觉系统对图像分割的方法是一致的, 因此近年来聚类算法在图像分割中得到了愈来愈多的应用。

以流冰形态出现的渤海海冰具有类型分布复杂和变化的特点, 并且相同类型的海冰其冰面的平滑性会有所不同, 同时由于常常出现冰水混合以及平台观测区域的背景天空和平台结构设施的干扰, 造成图像分割呈现复杂和多区域的特点。本文描述了利用高斯混合模型(Gaussian mixture model, GMM)进行图像分割的具体算法, 并利用高斯混合模型的最大期望值(expectation-maximization, EM)算法以及最小描述长度(minimum description length, MDL)准则对渤海海冰图像进行目标提取, 实现了海冰图像的聚类分割。

1 基于高斯混合模型的聚类分割方法

图像的分割算法是基于Chaudhuri和Liu提出的彩色图像模型可以分成三种高斯分布[5,2]。在处理海冰图像的过程中, 由于天空、轮船等不相关因素的存在, 需要对这些干扰目标进行滤除, 由分析可知这些目标对象存在着相当强的区域相似性, 而与海冰或海水之间的相似性较弱, 根据这一特点, 本文采用基于高斯混合模型的聚类方法进行目标提取。

1.1 高斯混合模型

基于 GMM 的聚类方法采用的是多个单高斯分布的线性组合, 如公式(1)表示的是由三个高斯密度函数组合表示的高斯混合密度函数。其中a1,a2,a3表示各个高斯密度函数的加权系数, 即高斯分量的比例系数。公式(2)是单个高斯密度函数的表达公式,式中d为特征向量x的维度,μ为均值,δ为特征向量的协方差矩阵。和传统的k-means和k-medoids聚类方法相比, GMM不仅把每个数据点分配到其中某一个聚类中, 并且还给出了这些数据点被分配到每个聚类的概率。表1给出了高斯密度函数的参数值

表1 高斯密度函数系数值Tab. 1 Coefficents of the Gaussian mixture model probability density function

1.2 聚类个数估计

在基于高斯混合模型的聚类方法中, 每个目标对象都是由多个高斯密度函数线性组合表示的, 这里每个高斯密度函数都代表该对象的一个子类, 为了更好地进行聚类, 有必要进行每个对象子类个数的判定。本文采用EM算法[5]和MDL准则[6]相结合的方法进行最适合分类数据集的聚类个数的估计。以上面高斯混合模型产生的数据为基础, 进行聚类个数的估计, 其部分处理过程如图1所示。可以从图1中数据看出, 当Subclass=3时, Rissannen取得最小值, 说明该数据集的最佳聚类个数是 3, 其结果与实际数据产生模型的类别数相同。

1.3 高斯混合模型系数确定

本文采用EM算法进行相关系数的确定。EM算法是一种以迭代的方式来解决一类特殊最大似然(Maximum likelihood) 问题的方法, 这类问题通常是无法直接求得最优解, 但是如果引入隐含变量,在已知隐含变量的值的情况下, 就可以转化为简单的情况, 直接求得最大似然解。

图1 基于MDL准则的聚类个数估计部分过程Fig. 1 Cluster number estimation based on MDL Criterion

式(3)给出了最大似然函数表达式, 可以看出对数计算中包含加法, 不易求得结果。所以引进隐含变量Z, 其定义如下:

为了将n个高斯分布用一个随机变量表示, 可以采用如下表示法, 例如n=3时:

最大似然函数变换为公式(4)。公式(4)中只包含加法运算, 其中的Znk可以由数学期望E(Znk)代替, 于是可以得到EM算法公式, 如公式(5)所示。

2 图像分割结果

应用上述EM算法对 GMM模型产生的数据集进行最大似然系数求解, 其结果如表2所示, 其最大似然估计结果和真实值相当地接近。

图像中不同目标对象对应于不同的高斯混合模型。将图片信息转化为ASCII格式数据信息, 对每个像素点对应数据进行最大后验(Maximum a posteriori,MAP)估计分析, 计算像素归属各个 GMM 的概率,根据其归属概率值进行分割处理, 实现图片目标的有效分割。为方便后续处理, 分割后的像素值(色彩)选择与其聚类序列号相同, 并以色彩形式表现分割图像。按上述方法对两帧海冰图像进行处理后得到的分割图片如图2所示。

表2 EM算法求解的GMM系数结果Tab. 2 Coefficents of GMM with EM algorithm

图2 海冰原始图像及其对应分割图像Fig. 2 The original images of sea ice and their corresponding segmented images

3 结论

本文利用高斯混合模型的EM算法以及MDL准则对渤海海冰图像进行目标提取, 从图像分割结果可以看出, 建立在严密数学理论基础之上的基于高斯混合模型的图像非监督聚类分割技术, 能够在把握图像的全局和局部信息的基础上对目标进行分割,在分割性能提高和抗噪能力上, 具有较强优势, 分割过程不需要人机交互, 能够实现渤海海冰的有效分割, 从而为海冰图像的后续处理奠定基础。

[1]Coleman G B, Andrews H C. Image segmentation by clustering[J]. Proc IEEE, 1979, 5(67): 773-785.

[2]刘健庄. 基于二维直方图的图像模糊聚类分割方法[J]. 电子学报, 1992, 20(9): 40-46.

[3]Trivedi M M, Bezdek J C. Low-level segmentation of aerial image with fuzzy clustering[J]. IEEE SMC, 1986,16(4): 589-598.

[4]Porter R, Canagarajah N. A robust automatic clustering scheme for image segmentation using wavelets[J].IEEE Image Processing, 1996, 5(4): 662-665.

[5]Chaudhuri B B, Sarkar N. Texture segmentation using fractal dimension[J]. IEEE PAMI, 1995, 17(1): 72-77.

[6]Chen S W, Chen C F, Chen M S, et al. Neural-fuzzy classification for segmentation of remotely sensed images[J]. IEEE Signal Processing, 1997, 45(11):2639-2654.

[7]Shih F Y, Moh J, Chang Fuchun. A new art-based neural architecture for pattern classification and image enhancement without prior knowledge[J]. Pattern Recog-nition, 1992, 25(5): 533-542.

[8]Lai Weichi. A VLSI neural processor for image data compression using self-organization networks[J]. IEEE Neural Networks, 1993, 3(3): 506-517.

[9]向日华, 王润生. 一种基于高斯混合模型的距离图像分割算法[J]. 软件学报, 2003, 14(7): 1250-1257.

Sea ice image segmentation with unsupervised clustering based on the Gaussian mixture model

LAN Zhi-gang1, JIN Wei-wei2, ZHU Ming-liang2, YU Xin-sheng2, GUO Jian-feng3,ZHOU Zhen-tao4, LI Kai-bao4
(1. Beijing Branch, CNOOC Energy Technology & Service Limited, Beijing 100027, China; 2. College of Marine Geosciences, Ocean University of China, Qingdao 266100, China; 3. CNOOC Limited, Beijing 100010, China; 4.Tianjin Branch, CNOOC Limited, Tianjin 300452, China)

Jan., 26, 2011

sea ice, Gaussian mixture model, image segmentation, unsupervised clustering

In order to obtain sea ice data fromin situvideo images, sea ice images were processed with image segmentation technology based on the Gaussian mixture model (GMM). Image segmentation of the Bohai sea ice with unsupervised clustering was realized by the expectation-maximization (EM) algorithm of GMM and minimum description length (MDL) criterion on the sea ice images for object extraction. The calculation procedures of sea ice image segmentation was described. The results indicate that GMM is effective in sea ice image segmentation and sea ice data extraction. It is concluded that sea ice image recognition, based on image segmentation, is an effective technology to process sea ice image for extraction of data on sea ice type and abundance.

P71 文献标识码: A 文章编号: 1000-3096(2011)11-0097-04

2011-01-26;

2011-08-05

中国海洋石油总公司科技发展项目(C/KJFJDSY 003-2008)

兰志刚(1963-), 男, 山东青岛人, 高级工程师, 中国科学院海洋研究所在读博士, 从事海洋工程环境监测和海洋工程防腐工作, E-mail: lanzhg@cnooc.com.cn

刘珊珊)

猜你喜欢
海冰高斯聚类
末次盛冰期以来巴伦支海-喀拉海古海洋环境及海冰研究进展
基于K-means聚类的车-地无线通信场强研究
数学王子高斯
天才数学家——高斯
基于高斯混合聚类的阵列干涉SAR三维成像
基于SIFT-SVM的北冰洋海冰识别研究
从自卑到自信 瑞恩·高斯林
一种层次初始的聚类个数自适应的聚类方法研究
应用MODIS数据监测河北省近海海域海冰
自适应确定K-means算法的聚类数:以遥感图像聚类为例