朱道远,郑 胜,,曾祥云,徐高贵(.三峡大学 计算机与信息学院,湖北 宜昌 44300;.三峡大学 理学院,湖北 宜昌 44300)
手绘太阳黑子图手写字符分割方法研究
朱道远1,郑 胜1,2,曾祥云2,徐高贵2
(1.三峡大学 计算机与信息学院,湖北 宜昌 443002;2.三峡大学 理学院,湖北 宜昌 443002)
利用固定区域坐标提取固定区域的单行数据字符块;基于高斯模糊提取随机手写黑子信息字符区;结合Hough变换与投影技术完成随机手写区域中包含多个黑子记录字符块的分割,并将包含单个黑子记录字符块分割为3个仅包含单行数据的字符块;利用颜色填充分割算法分割出单行数据字符块中的单个字符和粘连字符,结合平均字符宽度信息进一步分割粘连字符。实验结果表明,每幅手绘太阳黑子图的固定区域和随机区域的字符分割平均正确率分别达到95.5%和79.6%。
Hough变换;投影算法;颜色填充分割算法;粘连字符;字符宽度
在光球观测照相之前,太阳黑子观测长期以来一直采用投影法手工描迹黑子的大小、形状和位置[1]。对手绘太阳黑子图进行数字化具有极为重要的意义,可降低珍贵数据丢失的风险,快捷简单地查询有关黑子的信息,汇聚各个天文台的观测数据进行有效的整理,为科学家和用户提供数据服务。
国际上较早开展了手绘太阳黑子图的数字化研究工作,西班牙和比利时分别开发出了HSUNSPOTS和DigiSun的手绘太阳黑子图数字化软件。中国自20世纪30年代末开始太阳黑子观测,云南天文台已积累图1所示的手绘太阳黑子图[2]达20 000多张。由图1可见,手写黑子信息可分为固定区域和随机区域两部分,分别如图1中类似矩形框标记部分和类似椭圆框标记部分。提取手写记录信息并保存在计算机中是手绘太阳黑子图数字化的重要内容,因此手写字符的提取和分割是其中一个重要的环节。
目前关于手写字符分割的方法有很多[3-5]。基于投影和轮廓特征的方法对具体的应用对象缺乏针对性,如投影分析法对字符发生严重倾斜或交错的情况无法处理;外轮廓分析法在字符间粘连笔划为直线的情况下,因找不到轮廓线上的凹点而不太适用。基于结构特征的方法由于缺乏识别的指导,往往导致分割质量不高。基于模板识别的方法是以字符识别器提供的置信度作为分割的度量,选取真实反映识别结果的置信度是提高分割正确率的关键。考虑上述字符分割方法的缺点和复杂性,以及随机手写黑子信息区字符中带有圆圈的特殊性,本文研究图1所示的固定区域和随机区域手写字符的提取与分割方法。
图1 云南天文台手绘太阳黑子图的局部图
1.1 基于坐标的固定区域手写字符区提取
将原始图进行大小归一化,每幅图中各固定区域的相对位置相同,计算出图中各固定区域横纵坐标最小和最大两像素点,提取两坐标点确定矩形框中原始图像的像素值,即字符块,如图2(a)所示。
1.2 基于CFS算法与平均字符宽度的固定区域字符分割
利用颜色填充分割[6](Color Filling Segmentation,CFS)算法进行分割,若字符宽度小于最小字符宽度43,则为干扰字符(小数点、度符号、撇符号和等号),删除;若字符宽度大于最大字符宽度61,则为粘连字符,结合平均字符宽度利用投影分割粘连字符,若其中存在干扰字符,删除;其他则为单个字符。部分结果如图2(b)所示。
图2 固定区域部分字符块的提取与分割
2.1 基于高斯模糊的随机区域手写字符区提取
对提取出固定区域字符块后的图利用全局阈值转换为黑白图,利用高斯模糊算法[7],使用大小为901×901、标准偏差为300的高斯模糊算子进行卷积运算,寻找所有的八邻接连通域,删除面积小于一定阈值的连通域,通过标注连接分量标记所有的连通域,利用标号寻找各连通域中横纵坐标最小和最大两像素点,提取稍大于两坐标点确定矩形框范围中原始图像像素点的值,即字符块,部分结果如图3所示。
图3 随机区域部分手写字符块提取
2.2 基于Hough变换与投影的随机区域字符块分割
2.2.1 包含多个黑子记录字符块的分割
部分类似图3(b)所示字符块含有多个黑子记录,需将其分割为类似图3(a)所示仅包含单个黑子记录的字符块,利用Hough变换[8]来检测图中的圆圈,利用圆心坐标来判断黑子的分布结构。若两圆心纵坐标差的绝对值远大于两圆心横坐标差的绝对值,则为上下结构,以第二个圆圈圆心纵坐标减去半径值为投影分割点进行垂直投影分割;反之,则为左右结构,以第二个圆圈圆心横坐标减去半径值为投影分割点进行水平投影分割。
2.2.2 包含单个黑子记录字符块的分割
由于圆圈的高度大于紧随其后的行数据高度,对具有单个黑子记录的字符块进行垂直投影分割前需将圆圈去除;通过Hough变换检测圆圈,利用圆心和半径提取圆圈及圆圈中数据,为第一行数据;通过垂直投影选取合适的局部极小值点作为分割点,对剩余字符块进行分割得到单行数据字符块,分别为第二行数据和第三行数据字符块,部分结果如图4所示。
图4 部分包含单个黑子记录字符块的分割
2.3 基于CFS算法与平均字符宽度的随机区域字符分割
利用CFS算法进行分割,若第二行字符块中字符满足宽度<13或者>31且高度均≤100且字符面积处于574~2 170之间或者第三行字符块中字符满足高度≥42且字符面积处于574~2 170之间,则认为单个字符或者粘连字符,保留并判断字符的宽度,若宽度>62,则为是粘连字符,结合平均字符宽度利用投影对粘连字符分割,若其中存在干扰字符,删除;反之,则为是单个字符,部分结果如图5所示。
图5 部分包含单行数据字符块的分割
选取中国科学院云南天文台2000年2月至4月共43张分辨率达到5 000×6 000的手绘太阳黑子图,人工统计共有13 717个字符,固定区域共有2 279个字符,随机手写区域共有11 438个字符。利用投影和本文方法分别对固定区域和随机区域的手写字符进行分割,以人工对比和确认的方式对字符分割的结果进行统计。
采用投影算法进行字符分割,固定区域字符分割正确的字符共2 156个,分割错误的字符共123个,分割正确率达94.6%;随机区域字符分割正确的字符共8 716个,分割错误的字符共2 722个,正确分割率达76.2%。采用本文方法进行字符分割,固定区域字符分割正确的字符共2 176个,分割错误的字符共103个,分割正确率达95.5%;随机手写区域字符分割正确的字符共9 109个,分割错误的字符共2 329个,正确分割率达79.6%。
本文方法使固定区域字符和随机区域字符分割平均正确率分别提高了0.9%和3.4%,表明采用方法得当,能较好地将包含单行数据的字符块分割为多个完整的单个字符。
[1]刘学富.太阳黑子观测[J].天文爱好者,1999(6):24-26.
[2]云南天文台太阳观测数据服务系统[EB/OL].(2015-05-25).http://www1.ynao.ac.cn/~solar/datadownload.php.
[3]丁杰,杨静宇.一种基于模糊规则的手写体粘连数字串分割[J].中国图象图形学报,2009,14(11):2292-2298.
[4]胡涛,吕红,孙小虎,等.基于水平垂直灰度开运算的车牌字符分割算法[J].电子技术应用,2012,38(10):109-111.
[5]高庆吉,王晓华,赵为平.对粘连和缺损数字串分割的研究[J].模式识别与人工智能,2000,13(1):99-1021.
[6]YAN J,AHMAD A S E.A low-cost attack on a Microsoft CAPTCHA[C].Proceedings of the 15th ACM Conference on Computer and Communications Security,2008:543-554.
[7]丁怡心,廖勇毅.高斯模糊算法优化及实现[J].现代计算机,2010(8):76-78.
[8]姜文,卢朝阳,李静.基于Hough变换的手写体维文字符倾斜校正算法[J].微型机与应用,2013,32(8):29-31.
Research on handwritten character segmentation method of hand-drawn sunspot image
Zhu Daoyuan1,Zheng Sheng1,2,Zeng Xiangyun2,Xu Gaogui2
(1.College of Computer and Information Technology,China Three Gorges University,Yichang 443002,China;2.College of Science,China Three Gorges University,Yichang 443002,China)
Using fixed region coordinates to obtain a single row character data block of fixed region.Based on Gaussian blur to extract handwritten sunspot random region.Using projection and Hough transform to complete segmentation of character block included some sunspot records and divide single sunspot records character block into three character blocks which contains only a single row data.Using color filling segmentation algorithm to split a single character or adhesion character from a single row character data block,and implement further segmentation of adhesion characters based on average character width.Experimental results show that character segmentation correct rate of fixed region and random region reached separately an average of 95.5%and 79.6%.
Hough transform;projection algorithm;color filling segmentation algorithm;adhesion characters;character width
TP319
A
1674-7720(2015)20-0033-03
朱道远,郑胜,曾祥云,等.手绘太阳黑子图手写字符分割方法研究[J].微型机与应用,2015,34(20):33-35.
2015-06-25)book=39,ebook=43