自然场景文本信息提取关键技术探究

2016-08-09 05:29蔡映雪蔡昭权惠州学院
电子制作 2016年14期
关键词:算子灰度边缘

胡 辉 胡 松 陈 伽 蔡映雪 陈 军 蔡昭权 惠州学院



自然场景文本信息提取关键技术探究

胡 辉 胡 松 陈 伽 蔡映雪 陈 军 蔡昭权 惠州学院

(11JXZ012,14JXN065),广东省自然科学基金项目(S2013010013432,S2013010015940),广东省教育厅项目(2013LYM00874),广东省高校优秀青年创新人才培养计划资助项目(2013LYM_0087),惠州市科技计划项目(2013B020015008,2014B020004026,2014B050013016,2014B020004023,2015B010002002)

【文章摘要】

【关键词】

自然场景;文本信息;图像分割;特征提取

引言

视觉是人们感知世界客观事物最为重要的一个手段,图像是人类视觉的输入的基础,也是对自然场景的描述,其可以采集自然环境的各类型信息。图像中的问题是自然场景的描述信息,也是自然场景的重要内容,可以为人们快速定位信息提供强大的线索,比如商店招牌、导航招牌、交通指示牌、大型建筑物广告文字等,这些文字都具有较为明确的含义,也是自然场景信息的重要的表现形式[1]。据统计,文本信息对于人们具有更加明显的吸引能力,因此利用先进的图像处理技术识别文字内容,具有重要的作用和意义。随着大数据、云计算、图形处理技术的快速发展,识别自然场景图像中的文本信息已经成为需对学者研究的热点。目前,资产场景文本信息提取具有以下几个方面的应用。

(1)车牌识别。目前,各个交通卡口都设置了测速仪和摄像机,卡口车流量非常大,为了能够快速定位每一辆车,判断车辆是否违法,提高车牌检索、判别的速度和准确度,以便能够更好的保证车辆遵守交通秩序,进一步提高智能交通应用成效[2]。

(2)提高图片检索效率。目前,google、百度等浏览器已经提供了图片检索功能,用户输入相关的图片之后,系统自动识别图片中的文本信息,并且在网络上检索类似的图片信息,并且输出检索结果到网页上[3]。

(3)为工业生产提供帮助。工业生产过程中,可以利用文本信息识别技术提升图像检测效率,进一步提高工业生产精细化、智能化和共享化[4]。

目前,自然场景文本信息提取已经引入了许多先进的技术,包括支持向量机、 BP神经网络、近邻传播、遗传算法、 K均值等算法,进一步提高了自然场景文本信息提取的精准程度。论文结合笔者多年的研究经验,详细地分析了自然场景文本信息提取的关键技术,这些技术主要包括形态学处理、文本图像分割、文本信息特征提取等,以便为自然场景文本信息处理提供参考,改进文本信息识别准确度和效率。

1.自然场景文本信息提取关键技术

1.1形态学处理

形态学以数学形态学为基本原理,将自然场景图像中的文字形态作为研究和描述的对象,并且能够将相关的文字结构和特征之间的关系,包括各类元素之间的关系和区域之间的关系等[8]。一般情况下,形态学图像处理可以计算文字边缘的邻域信息,并且能够将邻域信息结构化,将每一个邻域结构化元素和相关的区域进行有效计算,并且将运算结果作为一种输出图像,能够进行有效的计算[5]。二值图像是指像素点仅仅取值0或1的两种灰度级的图像,灰度图像经过阈值判决之后,可以将一幅灰度图像转换为二值图像,并且能够将大量的孤立噪声点、区域空洞和连接间断等节能型去除干扰,并且能够获取更好的物体形态[9]。

开运算在实际的应用过程中,结构元素B对集合A的开运算分为两个步骤,分别是先用结构元素对图像的集合A进行有效的腐蚀,接着再使用结构元素B对腐蚀之后的结果进行膨胀运算。

1.2连通分量处理

二值图像经过实施开运算之后,接着需要对图像的连通分量进行有效的分析,可以提取出图像中的结构化物体[6]。连通的定义如下:假设在二值图像中,如果两个像素的灰度值是相等的,并且能够满足一定的规定条件,则表示两个元素是连通的。在连通分量分析过程中,灰度值为1的像素表示需要等待提取的像素,则与该像素相邻的像素还能够满足两种邻接方式,分别是四邻接和八邻接。四邻接表示水平方向的像素和垂直方向的像素都相邻,八邻接表示水平方向、垂直方向和对角方向上的像素均为相邻的像素。

1.3文本图像分割技术

1.3.1灰度阈值分割

1.3.2边缘检测方法

边缘检测的主要目的是为了提取图像中不联系的特征内容,根据闭合的边缘确定相关的区域。边缘检测算法不需要逐个分割图像的像素,更加适用于大图像的分割[8]。常用的边缘检测算子较多,这些算子可以与图像卷积,定位图像边缘的位置和方向。一阶边缘检测算子主要包括Roberts算子和Sobel边缘算子,具体的一阶边缘检测算子方法详细描述如下。Roberts算子可以利用局部差分算子寻找火焰视频图形边缘,采用的理论公式如式2所示。

其中,f(x,y)表示一个具有整数像素坐标的输入图像,平方根运算可以模拟人类视觉系统发现火焰视频图像边缘的整个过程。Roberts算子可以实现较为准确的边缘定位,但是其对于噪声数据非常敏感,因此Roberts算子对于具有较为明显边缘、噪声数据非常少的图形进行定位具有良好的效果。

Sobel边缘检测算子可以采用一个3×3的矩阵进行描述,可以分别从水平、垂直两个方向对图像进行卷积操作,计算出水平、垂直两个方向的亮度差的近似值,比如可以使用矩阵A表示原始的图像内容,Gx表示垂直方向边缘检测的图形,Gy表示水平方向横向边缘检测图像[9]。

二阶边缘检测检测算子最具代表性的是拉普拉斯算子。拉普拉斯算子是一个线性的、移不变算子,其可以对二维函数进行二阶导数运算,假设f (x,y)表示一个在图像中的位置(x,y),则拉普拉斯算子可以描述为公式(3)。

拉普拉斯算子(Laplace)充分的利用二阶导数具有各向同性的性质,并且拉普拉斯算子与坐标轴的方向是相互独立的,坐标轴旋转之后梯度结果保持不变。图像经过二阶微分之后,可以在文字图像边缘处产生一个较为尖锐的零交叉点,根据这个零交叉点判断图像的边缘信息,拉普拉斯算子的模板如图1所示。

图1 Laplace算子的模板

图像的文字边缘检测是为了能够在图像中寻找到具有局部最大梯度值的像素点,因此文字图形边缘检测过程中必须能够有效滤除噪声、尽量精确定位边缘位置[10]。Canny算子是高斯函数的一阶导数,其可以对信噪比和定位乘积进行最优化逼近,具体的Canny算子的检测步骤如下所述。

第一步:使用高斯滤波器对文字图像进行平滑操作,消除噪声数据;

第二步:使用一阶偏导数实施有限差分,计算文字梯度的幅值和方向;

第三步:对文字梯度幅值实施调整,使用非极大值进行抑制操作;

第四步:使用双阈值算法检测和连接图像文字的边缘。

Canny算子文字图像特征检测算法具有以下三个方面的优点:一是具有较低的误码率,可以准确的判断文字特征边缘点;二是具有较高的特征定位精度,能够精确的把文字边缘点定位在灰度编号最大的像素之上;三是能够抑制虚假边缘点。

1.4特征提取技术

1.4.1幅度特征

在图像特征中,图像的文字幅度度量是一种较为关键的特征。文字幅度度量可以有效的测量图像点或及其邻区做出关键的测量[11]。在算法执行过程中,可以从某些线性或非线性的变换过程中构成了新的图像文字幅度的空间,也可以直接从图像的灰度等级求取图像的文字幅度特征,以便能够分离目标物的描述,具有十分重要的作用。

1.4.2线条或角点的特征

对于一幅文字图像来讲,文字线条的轨迹特征可以有效的描述图像中的文字的凸凹状态,数学上被称为图像的线条的法向量。通常情况下,图像的文字幅度是由低到高、再从高到低发生极大的变化的,因此可以使用不同的峰值检测出图像的文字线条,提取图像的线条或角点之后,既可以按照相似的比例压缩图像的大小,减低数据存储的信息量,并且可以对图像进行有效的推理、描述和识别[12]。

1.4.3灰度边缘特征

数字图像文字特征处理过程中,由于图像文字具有不连续性,灰度或纹理通常会发生改变等现象,因此图像文字的特征可以有效的描述图像中包含的各种字体,但是大范围的不连续性容易给图像文字造成边界,因此如果图像文字幅度水平具有不连续性,很容易称为图像的局部边缘,一个比较理想的边缘检测器需要能够检测出图像中目标物体的各类边缘,同时还能够确定斜坡的位置。

2.结束语

随着多媒体技术的快速发展和改进,图像处理已经得到了广泛普及和使用,有效提升了工业生产、安防监控、图像检索效率。自然场景文本信息提取可以与当前实际应用相互结合,比如车牌识别等,采用先进的形态学处理、连通分类处理、灰度阈值分割、文字边缘检测、幅度特征、线条或角点特征、灰度边缘特征等处理模式进一步识别自然场景中的文本信息。

【参考文献】

[1] 彭浩,陈继锋,刘琼,等.一种面向聚焦爬虫的自然场景文本定位技术[J].小型微型计算机系统,2014,24(9):2014-2018.

[2] 刘新瀚,钱侃,王宇飞,等.自然场景下基于连通域检测的文字识别算法研究[J].计算机技术与发展,2015,21(5):41-45.

[3] 黄晓明,高陈强,田阳阳.自然场景文本区域定位[J].重庆邮电大学学报:自然科学版,2015,27(5):700-705.

[4] 杨彬,夏思宇.自然场景多方向文本检测方法[J].华中科技大学学报:自然科学版,2015,22(S1):228-232.

[5] 陈梓洋,王宇飞,钱侃,等.自然场景下基于区域检测的文字识别算法[J].计算机技术与发展,2015,18(7):230-233.

[6] 王瑾.基于局部显著文字型区域的场景文本提取算法[J].太原师范学院学报:自然科学版,2014,16(4):33-39.

随着互联网技术的快速发展和进步,多媒体应用技术得到迅速改进和提升,取得了显著的成效。自然场景文本信息提取是多媒体处理的关键技术,目前已经诞生了形态学、联通分类、文本图像分割、文本特征提取等多种技术,有效提升了自然场景文本信息提取的成效,进一步改进了自然场景文本信息检索的准确度。

【作者简介】

胡辉(1979-),女,江苏盐城,硕士,惠州学院,讲师,研究方向为计算机软件

猜你喜欢
算子灰度边缘
采用改进导重法的拓扑结构灰度单元过滤技术
Bp-MRI灰度直方图在鉴别移行带前列腺癌与良性前列腺增生中的应用价值
Domestication or Foreignization:A Cultural Choice
Arduino小车巡线程序的灰度阈值优化方案
一类算子方程的正算子解问题的研究
QK空间上的叠加算子
一张图看懂边缘计算
基于热区增强的分段线性变换提高室间隔缺损超声图像可懂度研究
在边缘寻找自我
走在边缘