街景地图中基于文字识别的自动标注研究

2015-04-30 21:08杨学博

中国高新技术企业 2015年13期

摘要：文章所述项目将文字识别技术应用到空间信息领域，充分利用车载移动测量系统采集到的高清街景影像，用算法实现文字区域定位和识别，并通过检索匹配数据库中的地理信息将文字标注到街景地图上，实现街景影像自动标注，同时实现数据库的更新，为用户提供了更丰富及时的信息和舒适的体验，促进了街景地图的发展。

关键词：街景地图；文字定位；文字识别；地理信息数据库；地图自动标注文献标识码：A

中图分类号：P237 文章编号：1009-2374（2015）13-0018-02 DOI：10.13535/j.cnki.11-4406/n.2015.13.009

1 概论

随着计算机技术的飞速发展，信息化程度越来越高。目前，计算机文字识别技术已经非常成熟，极大地提高了我们的工作效率。而街景地图作为移动道路测量系统采集的基础数据之一，除了为用户提供城市、街道或其他环境的360°全景图像，使用户获得如临其境的地图浏览体验，还可以进一步从这些海量数据中提取更多有用信息。街景图像文字识别是当今的一门十分热门的研究课题，但是由于街景图中文字信息背景复杂、位置不确定、字体不统一等缘故，目前还没有一种方法能够将街景图片上的文字较好地识别出来。在街景图像文字识别方面，比较常用的方法是先根据文字的外轮廓面积及形状特点将街景图像上的文字区域找到，然后进行字符串分割，最后对定位好的文字进行识别，这是一种先定位后识别的方法。

2 街景影像采集及预处理

2.1 采集街景影像

采集街景影像来自于车载移动测量系统。系统通过GPS使激光扫描仪、IMU、相机和里程计统一为GPS时间系统，使得系统每时刻的数据协同一致。里程计、GPS和IMU采集的数据用来进行组合导航，获取系统每时刻的姿态和位置数据。激光扫描仪和相机用来获取目标地物的坐标和影像数据，结合姿态数据融合生成带有绝对坐标的彩色点云数据。

2.2 三维透视变形矫正

通过车载移动测量系统得到的每一张原始街景影像存在着三维透视变形，如图1，图片中的文字产生透视形变。

由于我们所用到的街景图片来自于车载移动测量系统，对于同一辆车采集的不同图片来说，其相同部分发生的变形应该是一样的，因此通过相同的旋转、局部伸缩等变换，再把每张影像的三维透视变形矫正后，根据拍照时间间隔自动将每张影像进行裁剪拼接，重叠部分进行拟合，最后得到正投影的一排道路的街景地图，如图2所示：

图1 存在透视变形的街景影像

图2 矫正变形后进行拼接得到的街景影像

通过对原始街景影像的矫正和拼接，为下一过程提供了高清、未变形的街景影像，且拼接后的影像也极大地提高了文字识别的效率，美中不足的是，这种将影像拼接的方法只适用于没有分叉路口的笔直街道，而在十字路口处仍存在变形的文字。

3 文字区域定位

3.1 颜色聚类法进行文字区域初步提取

颜色聚类法是指彩色图像上的各像素根据其颜色相似程度，划分成不同的类别，得到几张不同的颜色相对单一的图片。由于自然场景中的文本通常具有相同的颜色或灰度，同时与背景具有较高的对比度，所以我们采用颜色聚类的方式进行文本定位。利用同区域文字颜色近似，通过色彩空间的分割将图像分成若干个图层，提取连通区域并分析区域内的颜色分布以及区域外接框的几何特征来定位文字。将色彩空间分割到几类颜色，并计算每一类包含的连通分量，也就是实现颜色聚类的过程。如图3所示：

图3 颜色聚类法得到较好的文字区域的图层

3.2 文字分布法进行文字区域定位

对颜色聚类法得到的各张图片进行初步的筛选去除因像素过少而不可能包含文字的图片，这样做的目的是缩小搜索范围，提高识别效率。对于每个图层，需要进行图像预处理，预处理的内容包括彩色图像灰度化、图像去噪和二值化。

预处理完成后，再在图层上搜索连通域，将连通域的外接矩形找出来，对每个外接矩形进行长宽比、面积大小的判断，从中筛选出明显不合要求的矩形（长宽比过大或者过小，面积过大或者过小的矩形）剔除掉，接下来需要根据文字的空间分布的相关性来进行进一步的筛选。考虑到文字在街景图片上一般都是成行或者成列的，而且同一行或一列文字的大小、间距一般是相等的，可以根据这些特点找到成行或者成列的文字候选区。如图4所示：

图4 文字分布法得到文字区域

4 文字识别与自动标注

4.1 结合词库进行文字识别

文字识别技术发展已经较为成熟，可使用现有的文字识别软件进行识别。为了提高识别的效率和准确率，在街景地图中应首先从候选区的第一个矩形开始，依次往后，遍历所有的矩形，在遍历的过程中如果在某个矩形中正确识别出来了文字，那么就需要对这个矩形进行标记，同时在一张图片的其他图层上也做上标记，表示这个区域已经识别出来了，不需要再进行第二次识别。识别下一个文字时可以结合词库里的词语优先考虑能和前面的字组成词的文字，如当识别出“餐”字之后，下一个字在识别时可以优先考虑“厅”、“馆”等字，这样可以提高识别的效率和准确率。

4.2 判断识别效果并进行人工协助软件识别

由于街景图片的复杂性，识别的结果不可能达到百分之百的正确，因此，要想让这门技术能够真正用于实践，必须要能对识别效果进行判断，并进行人工纠错工作。考虑到街景影像数量庞大，对识别效果进行判断的工作如果靠人手工来做将会是一项繁重的任务，因此可以考虑采用人工协助软件即人机交互的方法进行识别，即在街景图片上用鼠标拉出一个矩形框，将文字部分框选出来，然后利用软件中现成的算法，在矩形框内进行文字的定位和识别，这样实际上也就缩小了识别的范围，使识别成功的概率增大。

4.3 文字的自动标注在街景地图上endprint

电子地图中的POI（point of interest，兴趣点）数据库包含了电子地图上重点标出的地名及其他地理信息。我们可以采用一定的语句，根据街景图像自带的GPS信息查询在一定范围以内，与识别出的文字最相近的地物，在地图的适当位置自动生成为POI标注。

5 结语

本文将文字识别技术应用到空间信息领域，充分利用采集到的高清街景图像，利用算法自动实现文字区域定位和识别，并通过检索将数据库中的相应信息标注到街景地图上，实现街景影像自动标注，节省人力，提高效率，为用户提供了更丰富的信息和精彩舒适的体验，促进了街景地图的发展。

本人在广泛查阅国内外相关文献后，制定了合理的实施方案，同时分析评估、选择综合了已有的文字识别方面的成果，提出了“文字分布法”及“结合词库进行识别”，形成了自己的文字识别方案。实验结果表明，本文所提出的方案都可以较准确地将文字定位并识别出来。本人将不断设计新的解决方案与新的算法，以期在此方面获得更大突破。

参考文献

[1] A.Mishra and K.Alahari.Top-Down and Bottom-Up Cues for Scene Text Recognition[J].In Proc.CVPR，2012.

[2] L.Neumann and J.Matas.Real-Time Scene Location and Recognition[J].In Proc.CVPR，2012.

[3] K.Wang，B.Babenko，and S.Belongie.End-to-end scene text recognition[J].In Proc.ICCV，2011.

[4] 柏宏飞.场景图像文字提取方法研究与应用[D].复旦大学，2009.

[5] 程敬敬.基于车载相机采集图像的大规模城市街景重建[M].哈尔滨：哈尔滨工业大学，2012.

[6] 秦旭光，徐爱功.图像几何校正在OCR文字识别中的应用[J].辽宁工程技术大学学报，2006，（12）.

[7] 冯玉才，宋恩民，孙小薇，刘宏.地图自动识别系统中按颜色分层的算法及实现[J].软件学报，1995，（7）.

基金项目：本论文属于大学生创新创业训练计划项目，项目编号：1210486001，指导老师：姚剑。

作者简介：杨学博（1995-），女，山西吕梁人，武汉大学遥感信息工程学院2012级本科生，研究方向：地理信息

系统。

（责任编辑：周琼）endprint