龙 芳,杨 扬
(西南交通大学 信息科学与技术学院,成都 611756)
铁路车站信号平面布置图反应了车站内信号设备的属性、位置、逻辑及各种约束关系,是车站计算机联锁系统开发、施工、运营维护的重要依据。不同铁路设计单位的设计人员采用AutoCAD 设计的车站信号平面布置图,数据格式差异大,使得在计算机联锁系统开发和车站信号相关应用中无法直接利用图纸数据,须再次人工编制数据或通过辅助软件得到站场数据,影响信号设计软件面向车站信号平面布置图的通用性。
为解决上述问题,研究人员进行了多种尝试。文献[1—3]提出从站前到站后、由功能模块拼接的一体化系统软件平台,解决内部数据不规范、不统一的问题;文献[4—6]中提出用MFC[4]、LISP[5]、ARX[6]等工具在程序中实现信号图元的规范化设计,丰富了图纸中图元的信息,降低反复读图的次数;文献[7—8]使用规则算法等识别规范中图形符号的共性,达到数据标准化的目的,解决了简易车站的信息识别;文献[9]使用神经网络实现上位机中站场的基本信息读取,但站场平面布置图难以满足图像识别的分辨率要求。
随着信息技术的快速发展,对数据资源分析利用的数据挖掘技术已广泛应用于各个领域[10-12]。本文以AtuoCAD 图纸中的图形数据作为研究对象,利用数据挖掘中的聚类和分类技术代替人工归纳推理规则,实现铁路车站信号平面布置图中图例的目标检测与分类识别,结合专业知识,输出符合需求的、规范化的车站信号平面布置图通用数据,为信号设计软件提供数据输入接口。
车站信号平面布置图由信号机、轨道电路及信号固定设备、站场固定设备等构成。如图1所示,SⅠ、SⅡ为出站信号机,D9、D11 为调车信号机,425、473 为警冲标,478 为超限绝缘,5、7、9、11为道岔。
图1 车站信号平面布置示意
设计人员在AutoCAD 中设计信号图元时有不同的画法。警冲标样式不同,如图2(a)所示,分别由双圆单线、单圆单线、单圆实心填充加双折线构成;红灯的填充方法不同,如图2(b)所示,分别由弧形多段线增加宽度变为填充、圆形实心填充、圆形斜线填充构成;调车信号机的格式不同,如图2(c)所示,分别由直线圆填充零散图形、调车信号机定义块格式组成,其中,定义块是组合图形类型。尽管信号图元在图像上的区别不明显,但其在AutoCAD 中的格式截然不同,影响布置图中信号图例信息的提取。
图2 信号图例同构混乱与格式混乱示例
本文梳理识别过程中车站信号平面布置图数据的信息含义,总结出信息提取流程,如图3所示。
图3 车站信号平面布置图数据信息提取流程
(1)图形数据读取。从AutoCAD 的数据交换DXF 格式[13]的组码中解析出图例数据,判断图例是否为组合数据,若是则读取图例组合块数据,若否则读取圆、圆弧、直线、多段线、填充和文字等基本图形数据。
(2)基本图形预处理。通过递归方式读取组合块格式中的图形数据,省去聚类的步骤。图形数据中多段线分解成直线、填充,圆弧合并成圆,消除格式混乱。去除长度超过阈值以上的圆弧和直线,提取目标图形数据。
(3)图形数据聚类。将交叉、包含、相切、相离的图形关系转换为数据位置距离关系,使用聚类算法对图形数据进行可达性聚类,形成图形组。
(4)图形组分类。以图形组的数量关系、尺寸关系、连接关系为提取特征,在标准库下训练出对图例分类的算法,对待识别的图纸进行应用检验。同构混乱的信号图例,特征不同分类标记相同,达到消除同构混乱的目的。
结合铁路信号专业知识构建科学、客观、与图形意义相结合的模型分类与编码。根据《铁路工程制图图形符号标准:TB/T 10059—2015》[14]总结出信号平面布置所需识别的信号设备及其编码,如表1所示。其中,英文缩写为灯光颜色——绿(L)、红(R)、黄(U)、白(B)、蓝(E)、空灯位(X),分类编码的3 个数字分别表示一级、二级、三级分类。
表1 信号图例分类与编码
聚类是对图纸中信号设备的目标检测,将感兴趣区域缩小为信号设备的大小。聚类算法针对一维文字数据应用较多,而图形数据是二维图形的抽象表达,因此,需针对图形数据特征对聚类算法作出改进。
图形图元数据定义如下,圆(Circle)由圆心(cx,cy)和半径cr组成;直线(Line)由两端点(x1,y1) (x2,y2)组成;填充(Hatch)由边缘(edge1,edge2,···)和填充类型(htype)组成;文字(Text)由坐标(x1,y1)、内容(content)和字号(fontsize)组成。根据图形数据二维空间中的图形含义,使用矩形可变σ邻域[15]可更好地描述其在空间中的位置。由此,改进密度聚类算法DBSCAN,提出基于图形数据的RV-DBSCAN 算法,其定义如下。
(1)σ邻域
σ 邻域是聚类的有效范围区域,以图元Circle,Line,Hatch,Text 的最小外接矩形(xmax,xmin,ymax,ymin)区域作为矩形σ邻域,各图元矩形邻域具体定义如表2所示。
表2 图形图元矩形σ 邻域
(2)直接密度可达
如果图形数据Di与Dj邻域存在交叉,则认为Di与Dj相互密度可达。即满足N(Di)={Dj<σ|¬(xjmax<ximin)∪(xjmin<ximax)∪(yjmax< yimin)∪(yjmin<yimax)}
(3)密度可达
如果图形数据Di与Dj间存在样本图形数据序列(D1,D2,···,Dt) 直接密度可达,称Di由Dj密度可达。
(4)RV-DBSCAN 算法流程
步骤1:输入图元矩形邻域数据Circle,Line,Hatch,Text;
步骤2:依据直接密度可达定义,判断邻域交叉,获取直接密度可达标志矩阵;
步骤3:依据密度可达定义,对可达标志矩阵递归,获取密度可达集合;
步骤4:删除密度可达集合中重复的元素;
步骤5:输出图形数据聚类组序号。
特征属性是决策树分类计算信息增益的对象,是识别图形符号的关键。图例的二维图形的特征映射在一维是基本图形种类和基本图形相对位置。合并统计特征种类与连接关系可提升识别效率,将部分种类关系与连接关系合并得到表3,作为决策树的图形特征。其中,R为信号机大圆半径。
表3 图形拓扑特征属性
C4.5 决策树使用信息增益率进行特征偏向选择,降低决策树分支过拟合的概率。设样本集为S={S1,S2,···,Sn},划分为标签集X={X1,X2,···,Xi},其中,每个样本Sj包含m项的属性向量(A1,A2,···,Am)T,每个属性向量有k个不同的属性取值{V1,V2,···,Vk},其信息熵为{P1,P2,···,Pk}。利用样本集训练决策树的流程如下。
(1)计算属性取值的信息熵Info(S)和属性向量的信息熵InfoA(S)
(2)计算属性向量的信息增益Gain(A)和分割信息熵SplitA(S)
(3)计算属性向量的信息增益率GainRate(A)
选取信息增益率最大的属性作为当前树节点,重复(1)~(3),直到决策树达到最大深度或完全分类时,即停止生长。
好的决策树具有合适的深度及合适的分叉数量,组合决策树[16]利用现有分类自顶向下搭建组合框架,达到决策树的平衡状态。基于2.1 节划分的图例分类,对形状特征进行微调,得到组合决策树,如图4所示。其中,每个树节点采用C4.5 决策树进行分类。
图4 图例分类组合决策树
以组合决策树中树节点2-4 举例,对特征属性进行C4.5 决策树的训练和校验得到稳定的决策树。如图5所示,实线框为特征属性判别,灰色虚线框为分类组别,属性阈值由决策树根据信息增益分组计算可得,左分支条件为真,右分支条件为假。
图5 树节点2-4 分类决策树
在混淆矩阵中,将真实标签组分为真类(true)和假类(false),预测标签组分为正类(positive)和负类(negative)。TP为真正例的数量,即属于某图例的图形数据在真实标签组和预测标签组中;FP为假正例的数量,即属于某图例的图形数据在真实标签组中,而不在预测标签组中;FN是假负例的数量,即属于某图例的图形数据在预测标签组中,而不在真实标签组中;TN是真负例的数量,即属于某图例的图形数据不在预测标签组中,也不在真实标签组中。
聚类算法将准确度和召回率的几何平均值(FMI)作为评价指标,其公式为
分类算法将预测正确的样本数量占总量的准确率(Accuracy)作为评价指标,其公式为
本文依据不同车站规模和业务性质,搜集信号平面布置图和车站信号图例,对4 张普通车站和4 张高速铁路车站信号平面布置图进行测试。测试图纸难度从易到难:股道数量为4~20 条、信号设备数量为100~800 例、图形数据量为600~8 000 项,涵盖不同信号设计单位画法,充分考虑图纸差异问题。
依据信号平面布置信息提取流程,在完成信号平面布置图图形数据读取和预处理的情况下,对图形图元进行邻域构建,并完成聚类。
本文选取DBSCAN、OPTICS、CLIQUE、RVDBSCAN 4 种聚类算法对相同图形数据进行聚类。聚类图形结果如图6所示,DBSCAN 算法由于圆形邻域不能对任意图形数据形状起到良好聚类,固定距离使得疏松密集程度不同的图纸需要不断调整邻域半径,对密度变化的适应性较差;OPTICS 改进了固定聚类邻域,做到了可变距离,但对扁平数据聚类不灵敏;CLIQUE 改进了固定距离和圆形邻域,但结果受网格划分参数影响较大,需根据图纸大小调整网格参数;RV-DBSCAN 的聚类效果最好。
图6 聚类算法图形结果示例
算法聚类数据结果如表4所示,DBSCAN、OPTICS、CLIQUE、RV-DBSCAN 的FMI 评分分别为0.899 6、0.939 5、0.956 8、0.986 0。可知RV-DBSCAN聚类算法效果最佳,其真正例、假正例、假负例的个数情况都优于其他聚类算法。由于聚类为非监督学习算法,真负例的情况往往不在考虑范围内,因此不列出。
表4 聚类算法数据结果
聚类是将图形数据形成图形组,聚类结果是对图形数据分组的正确性判断。分类是对图形组进行设备分类,分类结果是对图形组分类编码的正确性判断。对分类图形组进行分类识别,对比预测结果与标记结果得到正确分类个数和正判率。
如表5所示,组合决策树、单决策树、K-最近邻算法(KNN,K-Nearest Neighbor)、支持向量机(SVM,Support Vector Machine)模型总体正判率分别为95.64%、92.16%、83.88%、86.71%。可见,决策树分类模型整体优于KNN 和SVM 分类模型,且组合决策树模型的分类效果优于单决策树模型。
表5 分类算法结果
组合决策树通过专家知识形成层级的决策树节点,与表1的三级分类编码对应,避免因测试案例不足,倾向非关键特征。而在组合决策树的分级分类结果中,信号固定设备和站场固定设备在二级分类中错误明显,信号机则在三级分类中正判率最低,说明可进一步调整组合决策树的模型达到整体最优。
车站内信号、道岔、进路间的相互制约关系称为联锁,记录该关系的图表称为联锁表。联锁表中包含方向栏、进路栏、道岔栏、轨道区段栏等。可从车站信号平面布置图中提取数据生成联锁表,所需数据的格式如表6所示。
表6 生成联锁表所需数据格式
图形数据逻辑构建与生成联锁表应用流程如下。
(1)预测图形组分类依据图例编码对应给出信号设备的类型;
(2)将信号机、超限绝缘、尽头绝缘等合并为绝缘节类型分割轨道电路;
(3)轨道电路中存在道岔的为有岔区段,反之为无岔区段;
(4)识别的信号图例与生成的轨道电路设备数据导入信号设计软件中,生成联锁表。
本文提出一种基于数据挖掘的方法对车站信号平面布置图进行图纸端到信号设计软件端的信息标准化、规范化提取。
(1)提出可变距离矩形邻域的RV-DBSCAN 密度聚类算法,对图形数据进行聚类,形成图形组,达到目标检测的目的。该聚类算法FMI 评分为0.986 0。
(2)选取图形种类和连接关系作为特征,使用组合决策树对图形组进行分类识别,实现对设备的分类。分类算法准确率达到95.64%。
(3)通过对车站信号平面布置图中图形数据的数据挖掘,实现了车站信号平面布置图信息提取的数据标准化,达到提高各设计环节的设计效率的目的。
值得注意的是,设计带来的格式混乱和同构混乱在标准库中不能穷举,使得识别率存在不可预料的误差,图形聚类在信号设备图例距离小于设定的σ 邻域时也不能有效识别。下一阶段,可进一步提高数据挖掘识别图纸的通用性,如适用不同数据格式软件应用,根据信号设备位置构建区间、城轨和车辆段的轨道电路逻辑,为多类信号软件提供信息读取服务。