基于深度学习的中文扫描地图注记提取方法

2023-06-22 17:07:51饶珣王加胜
无线互联科技 2023年4期
关键词:矢量化特征提取类别

饶珣 王加胜

摘要:地图注记是地图的核心内容之一,地图注记提取是计算机智能读取扫描地图信息的重要步骤。中文扫描地图注记由于字符多样、线条复杂、方向多变,给中文扫描地图注记矢量化带来了困难,目前少有研究。文章提出了一种基于深度学习的中文扫描地图注记提取方法,分为注记特征提取和空间重建两个部分。结果显示,该方法能够实现地图中文注记的检测、识别和空间重建。

关键词:地图注记:深度学习:矢量化:特征提取

中图分类号:TP399

文献标志码:A

0 引言

地图是地理信息重要可视化表达方法,能够提供地理对象和地点的有关情况的可视化信息[1]。地理信息系统( CJeographic Informacion SysLem.GIS)技术是近些年迅速发展起来的一门空间信息分析技术,在资源与环境应用领域中,发挥着技术先导的作用。地图仍然是目前GIS的重要数据来源,同时又是GIS产品输出的主要形式。

地图符号是地图的重要组成部分,不仅能传达空间信息,还能传达对象的内在意义[2],而地图注记是地图符号主要形式之一。因此,地图注记的特征提取是计算机智能读取地图信息的重要步骤,其主要对象是地图上的注记信息,将地图图像上的注记从计算机无法直接获取的图像形式转化为计算机可读的文本形式[3],并获取其主要特征。本文主要提取注记的3种特征:文本特征、空间特征和类别特征。文本特征即地图注记所包含的文本信息:空间特征即注记在地图上的坐标信息:类别特征即注记在地图上所代表的类别信息。在提取到地图注记的各种特征后,将这些特征融合投影到新的图像上,即地图注记的空间重建。地图注记的特征提取与空间重建的结合能够实现地图注记信息的智能获取。而注记特征提取又是空间重建的重要信息来源,因此如何有效完成地图注记特征提取的任务,对于实现地图信息智能获取具有重要意义。

本文提出了一种基于3个深度学习网络融合的中文扫描地图注记提取方法。

1 研究方法

本文将地图注记矢量化分为注记特征提取和空间重建两个部分,注记特征提取又主要分为注记检测、注记识别和注记分类3个部分,流程如图l所示。注记检测主要用来提取注记的空间特征:注记识别主要用来提取注记的文本特征:注记分类主要是提取注记的类别特征,又分为注记分离和注记分类两个部分。空间重建主要工作是融合提取到的注记特征,并将这些特征投影到新的图像或者坐标系上。

1.1 数据

本文从《2002年云南省地图集》扫描得到5张扫描地图。扫描得到的地图尺寸均为8 160x6 064像素,由于原始地图尺寸过大,不利于模型训练学习,对原始图像随机裁剪为1 024xl 024像素图像,得到最终样本集。

1.2 基于AdvancedEAST的注记检测模型

AdvancedEAST是一种检测简洁、高效、准确,并能实现多角度的文本行检测模型,它是一种基于EAST改进的文本检测算法[4]。在EAST的基础上对EAST的长文本检测缺陷进行了改进,在EAST网络框架的基础上巧妙地设计了基于文本边界框的损失函数,将长文本检测的问题转换为检测文本头部和尾部边界区的问题,使得其在长文本检测得到的结果更为准确。

在模型结构上面,AdvancedEAST与EAST差别不大,都是由特征提取、特征融合、输出3部分组成。特征提取部分,AdvancedEAST采用vgg16'5],而EAST在论文中采用PVANet[4].AdvancedEAST利用在ImageNet数据集上预训练的卷积网络参数初始化,在VGG16的4个阶段输出作为特征融合阶段的输入,其大小分别为输入图像的1/4. 1/8. 1/16和1/32。特征融合部分,AdvancedEAST沿用EAST结构,使用多尺度特征融合的办法解决目标检测中的难题即多尺寸目标检测。将不同感受野的feature map进行融合,可以补充不同尺寸目标信息来实现对不同尺寸物体的检测。输出部分,是AdvancedEAST最大的改动地方,为了解决Easc感受野的问题,AdvancedEasc不再用所有的点预测顶点,而是用头部元素预测左上、左下点,尾部元素预测右上、右下点。也就是说vertex geo的输出只对头部和尾部元素有意义,且根据预测出的头/尾元素进行加权平均得到4个顶点。

本文将进行过预处理的地图图像输入到预先训练好的基于AdvancedEAST的注记检测模型中,得到包含注记框坐标信息的文件,即提取到的注记空间特征。为方便后续模型的训练与输入,根据注记检测模型得到的结果,将每一个注记从原图像中裁剪出来得到独立的注记图像。

1.3 基于CRNN注记识别模型

CRNN是一种卷积循环神经网络结构[6],用于解决基于图像的序列识别问题.CRNN网络实现了不定长验证结合CNN和RNN网络结构,使用双向LSTM循环网络进行时序训练,并在最后引入CTC Loss实现端对端的不定长序列识别。

CRNN网络主要可分为3个部分:其一,CNN(卷积层),使用深度CNN,对输入图像提取特征,得到特征图;其二,RNN(循环层),使用双向RNN(这里用的是BLSTM)对特征序列进行预测,对序列中的每个特征向量进行学习,并输出预测标签(真实值)分布;其三.CTC loss(转录层).使用CTC损失,把从循环层获取的一系列标签分布转换成最终的标签序列。

根据实际需要,本文将得到的标签序列与中文字符建立映射关系,即将标签序列转化为目标中文字符内容。将独立的注记图像输入到预先训练好的基于CRNN注记识别模型,得到每个注记图像的文本内容,即注记文本特征。

1.4 基于UNet++和kmeans的注记分类模型

考虑到不同地图之间的类别数量和划分存在很多差异,选用聚类的方法进行注记分类工作,以此提高整个方法的泛化性。但是聚类的方法能够使用的特征较少(对于图像来说主要使用颜色特征),导致背景会干扰到聚类结果。对此,本文在对注记分类之前,先对注记进行分离,将包含注记的所有像素点分离出来,在进行注记分类时只对这些像素点进行操作,以此尽可能地减少地图背景对于注记分类结果的影響。

1.4.1 基于UNet++的注记分离模型

UNel++继承了UNet的结构,同时又借鉴了Dens的稠密连接方式[7]。UNet++通过各层之间的稠密连接,互相连接起来,就像DenseNel那样,前前后后每一个模块互相作用,每一个模块都能看到彼此,那对彼此互相熟悉,分割效果自然就会变好。在实际分割中,一次次地下采样自然会丢掉一些细节特征,但这种稠密连接的方式,每一层都尽量多地保存这种细节信息和全局信息,一层层之间架起桥梁互相沟通,最后共享给最后一层,实现全局信息和局部信息的保留和重构。

本文将独立的注记图像输入到预先训练好的基于UNec++的注记分离模型中,得到分离后的注记图像。

1.4.2 基于kmeans的注记分类模型

kmeans算法又名k均值算法,kmeans算法中的k表示的是聚类为k个簇.means代表取每一个聚类中数据值的均值作为该簇的中心,或者称为质心,即用每一个类的质心对该簇进行描述。其算法思想大致为:先从样本集中随机选取k个样本作为“簇中心”,并计算所有样本与这k个“簇中心”的距离,对于每一个样本,将其划分到与其距离最近的“簇中心”所在的簇中,对于新的簇计算各个簇的新的“簇中心”。

本文将得到的分离后的注记图像输入到基于kmeans的注记分类模型中,并根据原始地图注记类别设置簇数量,就可以将输入的图像划分到其对应的类别中,即得到注记的类别特征。至此,就能够得到注记的空间特征、文本特征以及类别特征。最后对注记特征提取所提取的特征进行融合,并将其可视化,投影到新的图像上,得到空间重建结果。

2 实验结果与分析

使用所提出的基于深度学习的地图注记矢量化方法,得到的结果如图2、图3所示。由图2可以看出,注记检测模型能够有效地检测出注记所在位置,只出现了少量漏检的情况。整體上本文使用的注记识别模型能够正确识别注记的文本信息,但在地图注记与地图线要素交汇重叠的地方会出现注记识别错误的情况。

由图3可以看出,空间重建结果有效地还原了注记在原始扫描地图上的特征,对于注记的文本特征和空间特征都得到了较为准确的还原,对于注记类别特征虽然没有达到预期效果,但是也基本能够完成任务。

3 结语

本文针对中文扫描地图注记矢量化的问题,提出了一种基于深度学习的地图注记矢量化方法,该方法能够提取到扫描地图上注记的文本特征、空间特征和类别特征,并将这些特征融合,进行可视化的空间重建,最终完成对中文扫描地图注记的矢量化。

参考文献

[1]王光霞,游雄,於建峰,等.地图设计与编绘(第二版)[M].北京:测绘出版社.2014.

[2]翁敏,黄谦,苏世亮,等.基于皮尔斯符号三元观的专题地图符号设计[J].测绘地理信息,2021(1):44-47.

[3] PEZESHK A. TUTWILER R L.Extended charac-.terdefect model for recognition of text from maps[Cl.Austin: 2010 IEEE Southwest Symposium on ImageAnahsis&Inlerpretation( SSIAI) ,2010.

[4]ZHOU X Y, YAO C. WEN H, et al. EAST: AnEfficient and Accurate Scene Text Detector[ Jl. 30thIeee Conference on Computer Vision and PaUernRecognition ( CVPR 2017) , 2017: 2642-51.

[5lSIMONYAN K, ZISSERMAN A. Very deepconvolutional networks for large-scale image recognition[ C] . San Diego: International Conference on LearningRepresentations ( ICLR) .2015.

[6lSHI B, XIAN(; B, CON(; Y. An end - to -endtrainable neural network for image - based sequencerecognition and its application to scene text recognition[J] . IEEE Transactions on PaUern Analysis & MachineIntelligem-.e, 2016 ( 11) : 2298-304.

[7lZHOU Z, SIDDIQUEE M, TAJBAKHSH N, et al.UNet + +: redesigning skip connec-.rions to exploitmuhiscale features in image segmentation [ Jl IEEETransactions on Medical Imaging, 2020( 6) : 1856-67.

(编辑沈强 )

猜你喜欢
矢量化特征提取类别
基于Daubechies(dbN)的飞行器音频特征提取
电子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP脑电特征提取算法
交互式矢量化技术在水文站网分布图编绘中的应用
科技视界(2016年10期)2016-04-26 21:12:24
服务类别
新校长(2016年8期)2016-01-10 06:43:59
基于VP Studio和CASS的栅格地形图矢量化方法
基于MED和循环域解调的多故障特征提取
论类别股东会
商事法论集(2014年1期)2014-06-27 01:20:42
中医类别全科医师培养模式的探讨
遥感图像多尺度分割算法与矢量化算法的集成
计算机工程(2014年6期)2014-02-28 01:27:29
矢量化技术在档案管理中的应用
河南科技(2013年3期)2013-04-10 14:34:43