许永宏
(中铁第四勘察设计院集团有限公司信息中心,武汉 430063)
勘测设计一体化平台的图签栏识别设计与实现
许永宏
(中铁第四勘察设计院集团有限公司信息中心,武汉 430063)
针对铁路勘测设计一体化平台的电子审签图纸签名与归档信息获取问题,本文提出了一种图签栏信息识别方法。该方法通过分析工程图形文件中图签栏的样式与结构特征,应用特征识别方法识别出图签栏区域,并利用匹配关键字模板,实现不同样式工程图签栏信息的自动提取与识别,方便图纸电子审签与归档信息入库的实现,实际工程应用验证了该方法的有效性。
铁路勘测设计;图签;信息提取
AutoCAD是绘制工程图纸的基础环境,而勘测设计一体化平台系统[1](以下简称一体化平台)远远超过了工程图纸绘制的范围,它不仅包含工程图纸文档,还包括所有其他设计文档,是对整个设计流程管理的统一工作平台。勘测设计一体化平台流程管理有大量的图档需要归档管理,包括图纸分类、信息收集、表格填写等典型问题[2-3],虽然一般流程管理系统平台解决了图纸审查的流程及审查单上的签字,但是要彻底地实行电子审图流程,使平台正确地处理所有AutoCAD多种实体,需要一体化平台自动识别出图纸关键信息[4-5]。
本文提出了一种图签栏信息识别技术,它能够对图纸审签栏准确定位,自动识别电子图纸的图签栏,完成图纸电子审签与归档信息入库。
工程设计图纸的图框右下角或一侧会有一个图签栏,反映明确的工程信息,如项目工程名称、阶段、图纸名称等,而且作为设计产品标识,必然有设计人及各级审查责任人的有效签名栏。图签栏在图纸上通常以二维表的形式存在,形式上以线段和字符串构成。构成图签栏的线段将该区域划分成多个简单矩形,矩形中存在着表示设计信息的关键字,在该矩形左右或上下对应着实际工程信息。典型的图签栏如图1所示。
图1 铁路图签样式
分析工程设计院图签栏的各种形式,可归纳出工程设计图具有如下特点:
(1)整个图签栏是由水平线和垂直线相交围成的一系列矩形组成的框架,矩形大小,排列不同。整个图签栏区域依托在图框上,在图框下部或侧面,与设计内容分离。
(2)矩形单元格一般可分为关键字单元格与值单元格,值单元格与对应的关键字单元格存在左右或上下相邻的相对关系。
(3)作为工程图的签字区,至少包括图纸设计者及复核人员的签字。按照工程习惯,铁路工程图纸,必须包括“设计”栏与“复核”栏,公路工程图纸,则必须包括“设计”栏与“审核”栏。
对于各种的图签栏式样,需要建立不同样式的模板,通过与要识别的工程图纸匹配,才能识别提取的信息。本文模板不限制使用固定的图框块属性记录信息[2],也不采用在CAD中绘制固定图签栏做模板的方式[3],而是采用文本描述图签栏内各单元之间固定关系的简洁方式。由于各类工程图签的变化形式有限,为简化操作与提高效率,没有采用将图签栏内容映射为虚拟表格的方法,而是提出将图签内所有单元排序成一维数组的方法,按照从左至右,从小到大,从下往上的方式排序,然后对每个单元格进行定义,很容易通过XML文本的方式增加模板。例如,图1的排序结果如图2所示。
根据排序好的所有单元格,就可以对工程中所用图签栏进行简洁的文本模板定义,定义中包括总单元格数,图签类型(用于确认关键字集合),每个单元格内容等等。图2所示的图签栏模板定义为:
图签栏区域识别基于工程图图形特征的方法,即根据所总结的工程图图签形式与特点进行提取分析,基于模板匹配进行识别。
图2 图签单元格顺序
(1)原始数据提取
在AutoCAD图形中,构成图签栏的实体实际上有很多种,情况很复杂,有可能是线段和文本,有可能是块实体,有可能是参照,有可能有多义线,有可能文本为块的属性信息,有可能绘制在模型空间,也有可能绘制在图纸空间等等。所以首先要解析并得到CAD图形中所有水平和垂直线,以及文字对象。
(2)线段和文字的数据处理,根据图签栏的特点,图签栏由水平和垂直线围成的许多矩形组成。首先是利用计算几何算法,识别出图中所有矩形,识别出所有水平、垂直线及其组成的矩形,并且去掉不规则的。在处理当中还需要注意,工程设计人员人机交互手工绘制图签栏,有一些图纸经放大后会出现制表线不相交,以至于识别矩形单元格时会出现错误。所以在计算处理之前,要预处理线段,我们取垂直最大线段的千分之一与一个长度单位相比较的最大值作为阀值,在这个阀值距离内均视为相交。
此外,还要处理图纸上用于识别图签栏的最关键特征字,一些关键字中间有空格,可以过滤掉。但一些关键字,在图纸中绘制成多个字,如”设计”绘制成“设”和“计”,都存在于一个单元格内,在这里要将单元格内的文字合并,根据文字角度从左至右,或从下至上合并。
(3)根据特征识别方法找出图签栏的区域。图签识别首先要在图纸中识别出图签栏的区域,虽然存在一定的规范要求,但公路、铁路、市政等不同类型的工程图纸其图签区域与位置样式却不相同,这就要求不论哪种样式的图签都要能迅速识别出图签栏所在区域。
查图签栏区域左上角顶点,可从关键字“设计”所在单元格作为初始查找单元格入手,查找右下角、左下角、右上角为该单元格左上角顶点的单元格,如图3。如能找到,继续将找到的单元格做为关键单元格,循环继续查找其左上角单元格,直到不能找到新的单元格。所找到的单元格左上角即为图签栏区域左上角。
图3 图签栏区域查找的图例
与此类似,查区域右下角顶点,从“设计”开始或附近的关键字“复核”或“审核”开始,循环查找与其邻接的单元格,左上角、右上角、左下角与初始查找单元格右下角顶点相同的单元格,直到不能找到新的单元格,即为图签栏右下角单元格。
(4)基于关键字模板进行匹配,在图签栏区域内的矩形组成的表格与模板对比。按照模板要求的顺序,将图签栏区域内的矩形排序。首先比较总单元格数量,依照不同图签类型从不同关键字表中取关键字,找出图签中所有关键字,然后依顺序与模板比较关键字是否匹配。
(5)信息提取。依据关键字对应的值内容提取信息,其中一些单元格内容包含多个信息,需要进一步拆分,如包含项目名称,项目阶段与图名,可以依据不同图签类型的项目阶段关键字将内容分隔开提取。
整个勘测设计一体化平台的图签栏识别接口设计如图4所示。
勘测设计一体化平台系统的流程管理在需要工程图纸上签名时,则标识该图纸文件需要识别,放入图签识别请求消息队列。由图签栏识别程序扫描到需要识别标记后,打开文件进行识别。将识别的签字位置信息返回给平台,进行下一步签字处理。
图4 一体化系统图签识别接口设计
勘测设计一体化平台的设计工程文档需要归档时,标识该图纸文档需要识别,放入图签识别请求消息队列。由图签栏识别程序识别之后,将图名、图号等图纸信息返回,平台根据返回的信息填入归档条目信息,进行下一步自动归档。
图签栏信息识别是铁四院勘测设计一体化平台软件的一项关键技术,实现了工程图纸图签栏信息的自动识别,在铁路工程设计项目中得到实际应用。该技术使软件利用简洁易用的文本模板,直接在配置文件中根据图签栏目增加模板,使得各类形式的图签信息很方便就能被软件识别,有效地解决了归档信息入库应用问题,促进图纸电子审签的实现。实际工程应用表明,该技术方法是可行、高效的。
[1]汪享庆.铁路勘测设计协同设计探讨.交通与计算机,2008,26(1):77-79.
[2]王欣,魏生民.基于ActiveX技术的图纸标题栏信息自动提取.计算机研究与发展,2000,37(4):507-512.
[3]郑桂荣,史俊友,杨彩.基于AutoCAD的产品信息提取及报表系统设计.机械工程师,2005,(2):26-27.
[4] Mohamad Fl A J,Mohd S M,Rahim,etc.Computer-Aided Design Data Extraction Approach to Identify Product Information.Journal of Computer Science,2009,5(9):624-629.
[5] Li Xiaoxia,Cai Xiantao,He Fazh,Huang,Zhiyong.Retrieval and reconstruction of heterogeneous feature data for collaborative design.2010 14th International Conference on Computer Supported Cooperative Work in Design,2010:553-558.
Design and Implementation of Information Extraction from Signature Table of Drawings for Integration Platform of Railway Survey and Design
Xu Yonghong
(Information Center of the China Railway SiYuan Survey and Design Group Co.,Ltd.,Wuhan430063,China)
To solve the access problems of electronic signature on drawings and archived information of electronic file on the integration platform of railway survey and design,an information extration technique from signature table of drawings was proposed.With the styles and structure characteristics of the signature forms in the engineering drawings analyzed,it found the field in the signature table of drawings by feature recognition.Then informations of different styles engineering drawings were extracted and recognized automatically by template match of key words,which facilitates the electronic signature on drawings and archived information of electronic file.Its practical engineering application virified the effectiveness of this method.
Design of Railway Exploration;Signature Table of Drawings;Information Extraction
TP391.41
A
1674-7461(2011)01-0052-04
许永宏(1970-),男,硕士,高级工程师。研究方向为管理信息系统、计算机辅助设计。E-mail:xyhwh@163.com