摘要:随着工程和设计行业的快速发展,计算机辅助设计(Computer-AidedDesign,CAD)系统在生产设计图纸方面发挥着不可或缺的作用。然而,传统CAD系统在表格数据管理和提取方面存在局限性,尤其是在处理大规模的工程图纸中的表格数据时。为了解决这一问题,提出了一种新的自动化方法来提取CAD图纸中的大型表格数据。通过将原始CAD文件转换为图像格式,并应用先进的图像处理技术和深度学习模型(SAHI算法和Cycle-CenterNet模型),该方法能够有效地提高表格数据的识别准确率和处理效率。实验结果显示,对比直接提取表格数据,使用该方法能显著提高数据提取的精确度、召回率和F1分数,验证了其在自动化提取大型CAD表格数据方面的有效性。未来的工作将集中在优化模型架构和提升其在不同类型图纸中的通用性和效果。
关键词:计算机辅助设计表格检测表格结构识别表格信息提取表格分割图像处理深度学习卷积网络
中图分类号:
DesignofCADTableRecognitionAlgorithmBasedonDeepLearning
FANGJingyu1HANWentao1YINGChengcai2HETianxiang3XURruiji3MAOKeji3*
1.ConstructionBranchofStateGridZhejiangElectricPowerCo.,Ltd,Hangzhou,ZhejiangProvince,310000China;2.ZhejiangHuayunInformationTechnologyCo.,Ltd,Hangzhou,ZhejiangProvince,310000China;3.ZhejiangUniversityofTechnology,Hangzhou,ZhejiangProvince,310000China
Abstract:Withtherapiddevelopmentoftheengineeringanddesignindustries,Computer-AidedDesign(CAD)playanindispensableroleinproducingdesigndrawings.However,traditionalCADsystemshavelimitationsinmanagingandextractingtabulardata,especiallywhendealingwithlarge-scaleengineeringdrawings.Toaddressthisissue,thispaperintroducesanewautomatedmethodforextractinglargetabledatafromCADdrawings.ByconvertingoriginalCADfilesintoimageformatsandapplyingadvancedimageprocessingtechniquesalongwithDeepLearningmodel(SAHIalgorithmandCycle-CenterNetmodel),thismethodcaneffectivelyimprovetheaccuracyandefficiencyoftabledatarecognitionandprocessing.Experimentalresultsshowthat,comparedtodirectextractionoftabledata,usingthismethodsignificantlyenhancestheprecision,recall,andF1scoreofdataextraction.Futureworkwillfocusonoptimizingthemodelarchitectureandenhancingitsapplicabilityandperformanceacrossvarioustypesofdrawings.
KeyWords:CAD;Tabledetection;Tablestructurerecognition;Tableinformationextraction;Tablesegmentation;Imageprocessing;DeepLearning;Convolutionalnetwork
在各种工程和设计行业中,计算机辅助设计(Computer-AidedDesign,CAD)软件被广泛应用于产品设计、建筑规划、工程制图等多个领域。CAD系统能够提供精确的绘制工具,辅助设计师高效地创建复杂的设计图纸。这些图纸内嵌了大量的设计信息,包括几何图形、尺寸标注、附带的表格数据等,特别是表格数据,通常用于详细记录设计参数、物料清单、规格说明等关键信息,表格规模较大。如何从繁杂的CAD图纸中准确和快速地提取出表格数据对于提高设计分析、项目管理及成本估算的效率至关重要。
尽管CAD软件提供了强大的设计和绘图功能,但在表格数据管理和提取方面却相对薄弱。传统的表格数据提取需要人工进行操作,操作者需要在众多图层和复杂的图纸之间进行切换,手动查找和记录表格数据,这个过程不仅费时费力,而且容易出现疏漏和错误。随着项目规模的扩大和工作流程的数字化转型,自动化的数据提取方法变得尤为重要。
在此背景下,探索高效的CAD表格数据自动提取技术不仅可以提升工作效率,还有助于减少人为错误、保证数据的准确性和一致性,这对于确保设计质量、加速项目进度、优化资源分配等方面意义重大。
1相关工作
近年来,随着计算机视觉和机器学习领域的快速发展,表格提取技术取得了显著进展[1],表格提取技术也应用于各个领域如财务报表[2]、科技文献[3]、工业数据[4]等。然而,大多数研究集中于标准大小的文本和表格数据提取,而对于CAD大型工程图纸中的大型表格提取的研究则相对较少。工程图纸中的表格通常包含设计参数、物料清单、规格说明等关键信息,表格规模较大,直接使用深度模型训练对算力的要求很大,而缩放为标准尺寸后分辨率较低,模型准确率较低,难以满足工程使用的需求。
KOCIE等人[5]采用了一种基于图的方法对电子表格进行结构识别,通过将单元格分类并构建标签区域图,将表格结构识别(TowardsStructureRecognition,TSR)问题转化为子图分割任务。SIDDIQUISA等人[6]针对文档图像中表格位置和大小的多样性提出了一种基于可变形卷积网络的表格检测方法,将表格结构识别视为对象检测问题,通过引入偏移向量和可变形的ROI-pooling层来适应不同区域的表格行和列检测。XUEWY等人[7]将表格结构识别问题重新定义为表格图重构问题,通过结合ResNet50+FPN的特征提取和两个并行处理分支——单元格检测和单元格逻辑定位,利用分割方法生成单元格分割图以确定位置,并应用图卷积网络(GraphConvolutionNetwork,GCN)学习表格图表示,将其视为有序节点分类问题,同时,采用focalloss处理不平衡问题,最终实现对每个单元格空间位置及起始行列的准确预测。SHENHW等人[8]提出了一种创新的基于图像到文本的表格结构识别方法,通过级联的两步解码器架构,有效缓解了错误积累问题,其中,第一步解码器以非自回归方式预测HTML表格行标记,第二步以半自回归方式预测单元格标记,该方法不仅更适合图像数据的二维结构,而且在处理大型表格(长序列预测)时表现更优。
这些研究不仅展示了深度学习技术在表格数据提取方面的巨大潜力,而且提供了重要的技术路线图,为进一步开发高效和可靠的CAD表格提取技术提供了参考。但是,相关研究中,关于CAD中大型表格数据的自动提取的研究较少。如何有效提取CAD中的大型表格数据需要进一步的研究。
2研究方法
整个表格提取的过程如图1所示。首先,将CAD图纸中的表格转换为图片形式;然后,进行预处理,提升图片质量。由于表格规模过大,直接提取的准确率较低,因此,采用SAHI(SlicingAidedHyperInference)算法对表格进行分割,把表格分为大小相同的分片,并记录各个分片的坐标,对分片使用Cycle-CenterNet进行数据提取,提取后的数据根据分片的坐标和数据在各分片中的相对坐标将其还原为原始表格。
2.1预处理阶段
在处理CAD表格数据的预处理阶段,首先,将原始CAD文件(如DWG或DXF格式)转换成图像格式,这有助于图像处理算法的应用。为了提高后续步骤的处理质量和效率,采用高斯滤波去除图像中的噪声,并通过阈值处理技术OTSU算法去除非表格部分。整个预处理流程旨在优化图纸质量,为接下来的数据提取和分析提供准备,确保后续步骤的准确性和效率。
2.2表格分割
CAD工程图纸中的表格通常规模较大,无法直接识别,需要进一步进行分割。采用SAHI算法[9]对表格进行分割。SAHI是一种用于对象检测的算法,通过将大图像分割成小块,单独对每个小块进行推理,来解决图像缩放后细节丢失的问题,从而改进物体的检测效果。将表格分割为1024×1024的分片,如图2所示,(a)为原始图片,(b)为处理后的部分分片。记录每个分片在表格中的坐标根据每个分片在表格中的坐标,可以重新组合分片,恢复表格的全貌。
2.3内容提取
对于分割后的表格分片,需要进行文本提取和分析。使用Cycle-CenterNet[10]表格结构识别模型来提取表格数据。该模型是以自底向上的方式:(1)基于单元格中心点回归出到4个顶点的距离,解码出单元格bbox(boundingbox);同时,基于单元格顶点,回归出到共用该顶点的单元格的中心点距离,解码出gbox(groupbox);(2)基于gbox,将离散的bbox拼接起来,得到精准完整的电子表格。
3实验与结果
3.1实验数据
该研究中的数据来源于国家电网浙江省送变电工程有限公司的施工图纸,包括1309张铁塔设计图纸,涵盖了各种常见的铁塔型号和设计风格。具体包括了110~500kV的单双回路及四回路的各类铁塔设计图,涵盖直线塔、耐张转角塔、换位塔、直线转角塔与终端塔共5种类别,具体的塔形包括了上字型、干字型、酒杯型、猫头型、羊角型与鼓型塔,数据分布情况如表1所示。
对施工图表格进行预处理后,我们按照广泛使用的ICDAR2013[11]和ICDAR2019[12]的标准对数据进行标注。
3.2评估指标
模型性能根据准确率(Precision)[13]、召回率(Recall)和F1分数进行评估。
准确率:被提取的数据中正确提取的数据的比率。召回率:所有所需提取的数据里被正确提取的比率。F1分数:对准确率和召回率的综合评估。三项评估指标的计算方式为
其中,TP为正确提取的数据,FP为错误提取的数据,FN为未能提取的数据。
这些评估指标是针对每个表格文件计算的,每个表格中的每个分片被视为子对象,对这些分片计算精确度和召回率,并对给定表格的所有分片取平均值,作为整个表格的评估指标。
3.3实验设置
实验使用SAHI算法分片,然后使用Cycle-CenterNet网络提取表格数据。实验环境如下表2所示。
实验采用的主要配置如下。
实验数据:使用国家电网1309施工图纸中的表格数据进行实验,以8∶1∶1的比例划分为训练集、验证集和测试集。
优化器:使用Adam优化器,初始学习率设为0.001,带有学习率衰减策略。
损失函数:结合了位置损失(边界框的定位)和识别损失(单元格内容的识别)。
训练周期:模型经过100个epochs的训练,使用验证集进行模型性能的定期评估。
3.4实验结果
实验结果揭示了分片处理在提升表格识别性能方面具有显著优势,尤其是在处理大型或复杂表格数据时。具体地,将采用了SAHI分片技术加上Cycle-CenterNet模型的组合与直接使用Cycle-CenterNet模型进行表格识别比较。测试结果如表3所示。
如表3所示,采用SAHI分片的方法使Cycle-CenterNet模型的表现得到了全面提升,分片加模型的组合表现出了97.5%的准确率和96.6%的召回率,F1得分达到了97.0%,反观仅使用Cycle-CenterNet模型的情况,准确率为80.2%,召回率为81.1%,F1得分为80.6%,这组对比数据清晰地展示了分片技术在提高识别准确性、减少遗漏及平衡准确率与召回率之间关系的重要作用。
通过分片处理,每个小片段都得以保持较高的图像质量和详细信息,这为深度学习模型提供了更精确的输入数据,故而能有效地提高模型在识别表格时的准确性和可靠性。此外,分片还限定了每个处理单元的数据范围,降低了模型处理的复杂度,使得模型可以更集中地识别和处理每一部分的具体特征,进而提高整体的识别效果。
3.5总结
综上所述,通过分片的方法提取CAD图纸表格具有优势,适合用于大型表格的识别。然而,分片过程可能会引入新的问题,如表格跨片断裂等问题,未来的工作可以探索更智能的分片策略,如基于内容的自适应分片技术,以减少对表格内容完整性的影响;进一步深化模型架构,如引入更深的残差网络或使用更先进的图像分割技术,也可能提高模型在处理极其复杂图纸的性能;此外,增强数据的多样性和量化,如加入不同行业的施工图纸,可能会提高模型的泛化能力和鲁棒性。通过这些策略,未来研究将能更全面地应对工程图纸中表格信息提取的各种挑战,进一步推动自动化和智能化的工程信息处理技术的发展。
4结语
本文中提出了一种高效的CAD工程图纸大型表格提取方法,该方法使用表格分割技术和深度学习技术,有效提高了从复杂图纸中自动化提取表格数据的准确率和效率。实验结果表明,相较于传统的手动提取方法,使用该方法不仅显著减少了所需的时间和人工成本,而且还提高了数据的准确性与可靠性。由于工程图纸的复杂多样性,该方法还需通过实际案例测试来不断调整和完善技术,确保其在不同类型的工程图纸和行业环境中的通用性和有效性。
参考文献
[1]高良才,李一博,都林,等.表格识别技术研究进展[J].中国图象图形学报,2022,27(6):1898-1917.
[2]罗小清,贾网,李佳静,等.一种面向证券信息披露长文档的表格分类方法[J].中文信息学报,2023,37(5):70-79.
[3]黄佳妮,于丰畅.基于表格检索和机器学习二阶段的文献表格相关文本自动识别[J].数字图书馆论坛,2022(11):34-42.
[4]方浩东,鲍敏.工厂检测检验用手写表格的识别及数字化处理方法[J].软件工程,2023,26(5):20-23,10.
[5]KOCIE,THIELEM,ROMEROO,etal.Agenetic-basedsearchforadaptivetablerecognitioninspreadsheets[C]//2019InternationalConferenceonDocumentAnalysisandRecognition(ICDAR),Sydney,NSW,Australia,2019:1274-1279.
[6]SIDDIQUISA,FATEHIA,RIZVISTR,etal.DeepTabStR:Deeplearningbasedtablestructurerecognition[C]//2019InternationalConferenceonDocumentAnalysisandRecognition(ICDAR),Sydney,NSW,Australia,2019:1403-1409.
[7]XUEWY,YUBS,WANGW,etal.TGRNet:Atablegraphreconstruction&hDURKVz6yT6+BXXOTlJxMhxMngaF7rWaVU3Z95cKCw4=nbsp;networkfortablestructurerecognition[C]//2021IEEE/CVFInternationalConferenceonComputerVision(ICCV),Montreal,QC,Canada,2021:1275-1284.
[8]SHENHW,GAOX,WEIJ,etal.Dividerowsandconquercells:Towardsstructurerecognitionforlargetables[C]//ProceedingsoftheThirty-SecondInternationalJointConferenceonArtificialIntelligence,2023:1369-1377.
[9]AKYONFC,ALTINUCSO,TEMIZELA.Slicingaidedhyperinferenceandfine-tuningforsmallobjectdetection[C]//2022IEEEInternationalConferenceonImageProcessing(ICIP)Bordeaux,France,,2022:966-970.
[10]LONGRJ,WANGW,XUEN,etal.Parsingtablestructuresinthewild[C]//2021IEEE/CVFInternationalConferenceonComputerVision(ICCV),Montreal,QC,Canada,2021:924-932.
[11]KARATZASD,SHAFAITF,UCHIDAS,etal.ICDAR2013robustreadingcompetition[C]//201312thInternationalConferenceonDocumentAnalysisandRecognition,Washington,DC,USA,2013:1484-1493.
[12]GAOLC,HUANGYL,DÉJEANH,etal.ICDAR2019competitionontabledetectionandrecognition(cTDaR)[C]//2019InternationalConferenceonDocumentAnalysisandRecognition(ICDAR),Sydney,NSW,Australia,2019:1510-1515.
[13]SHAHABA,SHAFAITF,KIENINGERT,etal.Anopenapproachtowardsthebenchmarkingoftablestructurerecognitionsystems[C]//Proceedingsofthe9thIAPRInternationalWorkshoponDocumentAnalysisSystems.2010:113-120.