视频图像文字检测的分析与研究

2017-08-11 04:31王康

魅力中国 2016年49期

王康

摘要：随着现代科学技术的快速发展，視频图像技术的应用越来越广泛，与此同时，人们对从视频图像中检测识别文字的要求也越来越高。文字检测是文字信息提取系统的前端，是文字信息提取中最关键的一步。近年来，视频图像文字信息检测领域有了新的重要的发展，本文分析了近年来文字检测技术的主要进展，并对视频图像中的文字检测技术的难点进行总结。

关键词：视频图像文字文字检测边缘检测区域分析基于纹理方法机器学习

图像的内容可以分为感知内容和语义内容。色彩、灰度、形状、纹理及其随时间的变化是感知内容，而物体、事件以及关系是语义内容。语义内容根据文字、人脸、车牌和人的行为等进行分类。在这些分类基准中，文字是本文尤其感兴趣的部分，因为：（1）文字相对其他语义内容更容易被提取；（2）文字在描述图像内容时十分有效；（3）文字能够支持关键字搜索、自动视频日志和图像索引。通过提取视频图像中的文字内容信息，可对视频图像内容进行描述。提取视频图像中的文字，首要的是进行视频图像中的文字检测。因此，本文只关注文字检测的发展进程。

一、视频文字检测的定义

视频本质上是序列图像流，故下文在叙述上对视频和图像、视频中的文字和图像中的文字，不作严格区分。文字信息提取系统是指从视频图像中获取文字信息的系统，主要包括文字检测和识别。文字检测性能的好坏直接决定了文字识别的结果，所以文字检测是文字信息提取系统中最关键的一步。

文字检测是指检测视频图像是否含有文字，若有，则将文字区域定位并分割，它的结果可以直接用于文字识别。有研究中将文字检测、定位、提取严格区分，但大部分研究是不作区分的，因此在本文中默认这些概念可相互交换使用。视频文字主要可分为两种。一种是场景文字，即在视频拍摄时自然包含在场景中的文字，如车牌、商标、路标和运动服编号等；另一种是通过人为加工嵌入视频中的字幕文字，如新闻标题、电视剧/电影字幕和不法分子在某些视频图像中添加的非法宣传、标语等。早期主要研究字幕文字，近年来场景文字的检测也取得了一定的发展。

二、文字检测的性能指标

文字检测中主要的性能指标有查全率、查准率和f指数等。这些指标来源于信息检索中的评价参数，查全率指所有正样本中正确检测出来的正样本所占比例；查准率指所有检测出来的样本（可能包含正、负样本）中被正确检测出来的正样本所占比例。上述正样本表示文字区域，负样本表示虚警区域。f指数是查全率和查准率的加权调和平均。

三、文字检测的方法

文字检测方法分为两类：基于区域和基于纹理的方法。基于区域方法采用自底向上的结构，将图像中的细小区域合并成可能的文字区域。一般采用的特征有连通区域、颜色和边缘。基于纹理方法采用自顶向下的结构，利用文字的纹理特征将文字从背景分离出来。主要方法有小波变换、滤波器、傅里叶变换和基于机器学习的方法。

四、文字检测技术的难点与趋势

至今，还没有找到一种能够完全代表文字的特征，所以大部分文献采用粗细法结构，使用两种或多种特征。一般可将特征分为两种：第一特征和第二特征。第一步粗检测中，根据第一特征去除掉明显的非文字场景；第二步细检测中，提取第二特征，使用机器学习方法或启发式方法进行模式识别。虽然图像文字检测取得了很大发展，但是至今依然没有一种统一的方法能有效处理各种背景下的文字。这是因为，图像背景通常变化多端，各种方法几乎只在某些特定情况下才显得有效。相当一部分视频图像文字检测的方法是启发式的，研究人员一般没有给出数学模型或者物理意义，只提出在某些情况下，该方法比较有效，这不利于进一步研究发展。文字检测方法繁多，尤其是近年来，基于区域、基于纹理的方法的分类方式已经显得乏力，图像文字检测方法的分类越来越模糊，使用综合性方法呈增多趋势。如何更好地归纳和总结这些方法，给研究人员们提出了新的挑战。另外，从本文中可以看到，不同方法的性能指标的结果也大相径庭，更优的性能指标结果并不能说明方法就一定好，因为目前没有一个标准的视频图像数据库用来测试，这在很大程度上影响了不同方法的性能评价。所以，未来视频图像文字检测也对标准数据库的建立提出了强烈需求。

五、基于区域的文字检测方法

基于区域的方法利用颜色同质性、强边缘性将图像像素组成文字，根据颜色、大小和几何规则组成文字行。主要用到的特征有：颜色、边缘、连通分量、角点等。

有研究中采用粗细法结构，第一步用塔式结构处理不同大小的文字，K-均值法计算最大梯度差图，得到文字区域的粗结果。第二步根据几何特点和纹理特征修正结果后，对图像进行离散小波变换DWT变换，使用主成分分析法和SVM方法将文字和非文字区域分类。该方法能够检测不同大小的文字，方法稳定，但是算法复杂度较高。

5.1基于边缘的文字检测

基于边缘的文字检测把文字和背景的强对比性作为最主要的特征。通常利用边缘提取算子对图像进行边缘检测，再用平滑算子或形态学算子将其合并。

（1）基于连通分量

有研究通过从极值区域集合中高效地进行顺序选择先计算极值区域的文字概率分布，获得局部最大概率极值区域；再使用高效的反馈循环穷举搜索算法将极值区域组成字母、单词。该文实现了一种端到端的实时文字检测和识别方法。

（2）角点检测方法

角点检测是一种新型的方法。在文字区域，角点响应强；在非文字区域，响应较弱。基于角点对文字进行检测，生成角点响应图，利用基于块的阈值法得到候选文字区域，进行连通区域分析后用投影法得到文字行。有相关研究中对图像进行角点检测，经形态学膨胀，得到包含角点的区域。提取区域的五个特征：面积、饱和度、基于纹理的文字检测方法

5.2 变换域中的纹理检测方法

离散余弦变换DCT系数与灰度的周期性相对应。有研究中提出了基于DCT系数的文字检测、定位和追踪的方法。将视频中1-帧分为8*8的块，从各块中取纹理特征强的DCT系数，根据它们可以得到水平、竖直和对角线的纹理信息，最终用投影法得到水平和垂直方向的文字框。

视频图像一般存储在变换域中，因此基于变换域的文字检测方法不需要转换输入格式就能对视频图像直接处理，有利于工程实践，但是随着滑动窗口的增大，计算量迅速增大。

六、结束语

随着计算机技术的发展和互联网的兴起，人们对视频数据库检索的需求越来越迫切，以往的视频数据库主要依靠人工添加标签，这种作法不但效率低，而且受人的主观因素很大。建立稳定、快速和低成本的视频文字提取系统势在必行，本文主要关注近五年来的图像文字检测方法的进展，将方法概括为基于区域和基于纹理的方法，以及综合性方法。

参考文献

[1]崔爱斌.浅谈数字视频图像检测技术的应用[J].科技情报开发与经济. 2010（35）.

[2]曹毅，王林泽.图像检测技术在液态试剂浓度检测中的研究与应用[J]. 杭州电子科技大学学报. 2009（02）.

[3]焦圣喜，张利辉，江绛.图像检测技术在工件在线分选中的应用[J].机床与液压. 2010（05）.