付 强,袁 磊
(北京交通大学 轨道交通运行控制系统国家工程研究中心,北京 100044)
计算机与通信信号
基于聚类分析及SVM的DMI机车信号自动识别
付 强,袁 磊
(北京交通大学 轨道交通运行控制系统国家工程研究中心,北京 100044)
本文针对CTCS-3级列车控制系统车载设备DMI机车信号基本特征及识别的特点,提出一种基于综合聚类分析和SVM算法的DMI机车信号自动识别方法。建立DMI机车信号模型,通过图像二值化等处理技术提取其目标特征,通过聚类分析对机车信号图像进行初步分类,利用SVM分类器对初步分类后的各种不同机车信号进行目标识别,为进一步实现DMI机车信号的自动数据采集提供了方法支持。试验结果表明,该方法具有良好的性能,机车信号图像的平均识别率达到了95%左右。
机车信号;数据挖掘;特征提取;聚类分析;SVM算法
在CTCS-2级或CTCS-3级列车控制系统中,DMI是一种重要的列控车载设备,用于司机与ATP车载设备之间的人机交互。DMI显示屏上显示的机车信号作为CTCS-2级行车的重要依据,提示司机前方闭塞分区空闲数量或进路情况。DMI机车信号显示真实反应地面列车控制中心设备与轨道电路发码情况,为保证行车安全,三者信号必须完全一致。由于DMI设备无记录功能,因此,通过图像识别技术实时识别DMI机车信号,将对信号数据自动分析起到数据采集的作用。
在图像识别技术中,一般通过对目标图像中具有独特性质的区域进行特征提取,对此特征运用神经网络、数据挖掘等方法建立模型后,就可以对此类目标图像进行自动识别。数字图像处理技术运行图像形态学方法对图像进行腐蚀膨胀等变换,提取图像特征,可以用于图像分割等领域的研究。同时,颜色是图像内容的一个基本要素,蕴含着图像的丰富信息,但由于其分析的复杂性,目前运用颜色分析进行图像识别仍处于探索阶段。本文综合利用颜色特征及其他辅助特征分析实现机车信号的自动识别。
高速铁路线路上机车信号有4种基本颜色:红、黄、绿、白,所用机车信号主要有L5、L4、L3、L2、L、LU、U、H、U2、U2S、UU、UUS、HU、HB、 无码。本文采用静态图像识别方法,排除需动态图像识别的U2S、UUS、HB机车信号。因此,需识别的机车信号为L5、L4、L3、L2、L、LU、U、H、U2、UU、HU、无码,静态图像如图1所示。
图1 机车信号目标图像
目前对机车信号的识别关注点主要在于对地面机车信号的识别,以防止司机未看清信号导致调车冒进等行车事故的发生。文献[1]研究了图像识别技术在调车安全中的运用,提出了运用图像分割技术实现监控并识别地面信号以防止调车冒进的方法;文献[2]中对纯彩色信号灯如L、U、UU、LU、UUS等进行了动态识别,并设计了相应的硬件实现模块。但上述文献均没有涉及到L5、L4、U2等带有数字的CTCS-3级DMI机车信号的模式识别问题,本文将利用数据挖掘中的相关技术对上述目标图像进行处理。
待识别的机车信号含有颜色特征和数字特征,据此将目标图像分为两大类:(1)I型:两种颜色混合的机车信号,如LU、HU。(2)II型:单种颜色的机车信号,如L5、L、U、UU等,可进一步划分为L系列、U系列、H码系列、无码系列。
划分的依据是混合颜色的机车信号可以在聚类分析时明显地聚类为两种不同的类型,所以可以做初步识别;剩余的机车类型为单种颜色,聚类分析后虽可以分辨出颜色,但因为可能含有其他数字特征,因此无法精确识别,需要用其他方法来做进一步的分析。
建模时,将目标数据分为训练集和测试集,训练集用来训练模型,测试集用来验证模型的准确性。对训练集中的每一类型样本,根据颜色特征进行聚类分析,计算其均值与方差,然后在训练集上进行SVM多分类器的设计;对于测试集,通过聚类分析找出每个样本可能对应的图像类型(I型或II型),对II型数据根据SVM多分类器进行进一步的分类,得到其精确识别结果。整个分析过程如图2所示。
图2 机车信号识别过程
2.1 图像预处理
图像由于受到环境及采集手段的影响而夹杂一定的噪声,噪声会对识别结果造成影响。因此,在识别图像前,需要对图像进行预处理。常用的去噪方法包括图像平滑、滤波等。根据噪声特性,所选用的去噪方法也有所不同。本文采用比较常用的小波分析去除图像中的高频噪声,提取图像经过二级小波分解后的低频分量,既可以滤掉高频噪声,又减少了待处理的数据量。
如图3所示,提取彩色图像二维离散小波分解后的LL低频分量,其保留了原图像的低频信息,且图像大小缩小为原来的四分之一,减少了数据处理量,可用作进一步的模式识别。
图3 二维离散小波分析变换
2.2 聚类分析
聚类分析是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程,目标就是在相似的基础上收集数据来分类。本文采用k-means方法对图像的颜色特征进行聚类提取。
k-means方法首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
对于本文要识别的机车信号,将其随机划分为训练集和测试集。首先根据颜色特征对训练集进行k-means分析,针对I型和II型分别进行2-means和1-means聚类分析,计算聚类后每一类的均值和方差。在判断测试集图像类别时,可根据以下步骤做初步分类。
(1)对测试集图像均进行2-means分类,分为C1类和C2类。
(2)计算C1类和C2类元素个数比Ratio。
(3)根据Ratio初步确定图像属于I型或II型。
(4)对I型图像根据训练集I型聚类后的均值和方差计算距离,确定属于I型中LU或HU码。
(5)对II型图像根据训练集II型聚类后的均值和方差计算距离,确定属于II型中L码系列、U码系列、无码系列或H码系列,并根据SVM方法进行进一步识别。
对于II型图像样本,其与各II型聚类的距离定义如下:
其中x为测试集中某个图像,C为任一II型聚类,μ为C的均值, ∑为C的协方差。
对于I型图像样本,其与各I型聚类的距离定义如下:
其中x为测试集中某个图像, x1为x中类别1的均值, x2为类别2 的均值;C为任一I型聚类,μ1为C中类别1的均值,∑1为类别1的协方差,μ2为类别2的均值, ∑2为类别2的协方差。
x的判别类型取与之距离值最小的相应聚类类型。
2.3 SVM模式识别
支持向量机是Cor-tes和Vapnik于1995年首先提出的[3],它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到其他机器学习问题中。
SVM可用于分类和回归问题,分类问题是一种有监督的学习过程,通常将样本分为训练集和测试集进行建模与验证。回归问题是一种无监督的学习过程。二分类SVM分类器的基本设计思路是通过寻找最优分类超平面H,将两类数据正确分开,且使分类间隔最大。对于非线性不可分问题,可以通过非线性变换将其转换为线性可分问题。对于多分类问题,可以将其分解为二分类问题进行处理。本文处理的是一个多分类的问题。
对于上一节经过聚类分析分类后II型测试集图像的进一步识别,可以看做一个数字模式识别的问题。运用Hopfield神经网络或SVM均可以实现对含有数字图像的识别[4~5]。本文采用SVM实现含数字机车信号的识别,首先将彩色图像转换为灰度图像,并提取其中的数字特征。以L4机车信号为例,其彩色图像及经过灰度变换后的二值图像如图4所示。
图4 L4码彩色图像及灰度变换后的图像
可以看出,经过二值化处理的L4机车信号图像,其数字部分作为主体特征被提取出来,绿色部分被滤掉(变为黑色)。
通过SVM方法对训练集中提取的数字特征进行建模,生成多分类器,对II型测试集图像进行进一步精确的预测分类。
模型训练完成后,进行预测。根据经验值,对测试集进行2-means聚类分析时,如果分成的两类元素数量大致相等,可认为样本属于I类型,否则属于II类型,需根据SVM分类器模型进一步预测。
综合聚类分析和SVM分类,部分机车信号识别结果如表1所示。
表1 部分机车信号识别结果
可以看出,综合聚类分析和SVM分类器进行DMI机车信号的自动识别,识别准确率达到了较高水平,表明此方法是可行的。
本文提出了一种综合运用数据挖掘中的聚类分析与SVM分类器进行DMI机车信号自动识别的方法,可以识别含有数字的复杂机车信号静态图像。经过实验验证,该方法具有较高的识别精度。本文只针对静态图像的识别,不能处理实时动态图像,可考虑进一步研究动态图像识别,以实时得到DMI机车信号的识别结果。
[1]何 港.图像识别技术在调车安全中的应用[J].铁道机车与动车,2013(7).
[2]赵志帅.基于彩色图像处理的铁路信号灯识别及测距技术研究[D].武汉:武汉理工大学,2010.
[3]Cortes C,Vpnik V. Support vector networks [J].Machine Learning ,1995,20(3) .
[4]高 锦.基于SVM的图像分类[D].西安:西北大学,2010.
[5]史 峰,王小川,郁 磊,李 洋.Matlab神经网络30个案例分析[M].北京:北京航空航天大学出版社,2010.
责任编辑 陈 蓉
DMI cab signal automatic identif i cation based on Cluster Analysis and SVM Algorithm
FU Qiang, YUAN Lei
( National Engineering Research Center of Rail Transportation Operation and Control System, Beijing Jiaotong University, Beijing 100044, China )
In this paper, according to the characteristics of basic feature and identif i cation about onboard equipment DMI cab signals of CTCS-3 level Train Control System, a novel method based on Cluster Analysis and SVM Algorithm was proposed for DMI cab signal automatic identif i cation. The paper established a model of cab signal, extracted the target features by binary image processing techniques, classif i ed cab signal image preliminary cluster analysis made target identif i cation for various cab signals by SVM classif i er, provided a method supporting for further automatic data collection of DMI cab signals. Results showed that the novel method was with good performance. The average image recognition rate was reached about 95%.
cab signal; data mining; feature extraction; Cluster Analysis; SVM Alogrithm
U284.4∶TP39
A
1005-8451(2015)08-0046-04
2014-12-30
付 强,研究实习员;袁 磊,讲师。