基于聚类和多神经网络的中文视频文字识别

2013-03-25 04:59:26黄轩

漳州职业技术学院学报 2013年1期

黄轩

基于聚类和多神经网络的中文视频文字识别

黄轩

（漳州职业技术学院经济管理系, 福建漳州 363000）

通过研究视频汉字识别问题，提出了关于视频中汉字跟踪及分割算法。首先，提取视频样本特征，采用K均值算法进行聚类作为第I次分类，之后，采用多个BP(back propagation)神经网络进一步细分一次分类后的结果作为二次分类。最后，对以上算法进行了实验验证，结果证明这些算法是有效的，多层分类器较单一的BP神经网络分类器识别率更高。

汉字分割；汉字跟踪；k均值聚类；BP神经网络

1 引言

随着计算机硬件速度的不断提升，视频在许多领域得到了广泛的应用，视频提取也变得十分重要的研究课题。近年来，分析视频内容，描述视频结构，建立视频索引，进而理解视频已成为研究的热点。在这些过程中，视频中的文字检测和识别成为了分析视频内容的关键[1-3]。视频文字识别和图像文字识别相比更为复杂。主要的原因是：前者有着更为复杂的背景和噪音，另外还存在文字跟踪的问题[4]。目前关于文字识别的问题，许多学者采用单一的分类器，取得了一定效用[5-7]。本文提出了一种基于聚类和多神经网络的中文视频文字识别方法。论文的组织结构如下：第2节讨论了汉字区域的定位问题；第3节探讨了在视频中追踪汉字区域的问题；第4节将追踪到的区域分割若干个独立的汉字；第5节识别分割后的汉字；第6节进行了仿真实验分析。

2 汉字区域定位

本文采用Open CV中提供的函数从视频中获取单幅图像，之后对得到的单幅图像寻找汉字所在的区域。具体算法如下：

步骤1从视频中获取单幅图像；

步骤2将彩色图像转化为灰度图像；

步骤3采用otsu方法[8]，对灰度图像二值化；

步骤4去除噪音；

步骤5寻找汉字区域。

3 视频中跟踪汉字

本文提出了一种双向的搜索方法来确定视频文字的开始图像和结束图像。搜索过程中，使用边缘图像的密度差值的平方作为尺度，当距离尺度比某个阈值D小时，就认为当前图像的对应区域与文字对象相匹配。下面具体说明往前搜索对应区域的结束帧的过程，往后搜索开始帧方法与向前搜索完全相同，只要把搜索方向改变一下就能得到所要的结果。往前搜索由两个步骤构成：

(1)以当前单幅图像Picture_Start为开始图像，用较大的搜索步长向前找到第一幅单幅出现的与本文字对象不匹配的图像Picture_Nomatch，以此来确定该文字对象沿时间轴变化的上界，同时记录最后一次与本文字对象匹配的图像Picture_Lastmatch。

(2)以图像Picture_Lastmatch作为参照图像并作为左边的端点，以Picture_Nomatch为右边端点，在这两幅图像之间反复进行搜索，直到找到匹配的具有最大图像号的图像Picture_Maxmatch为止，此图像就是该文字对象在时间轴上变化的上确界，即结束图像Picture_End。

下面引入文字对象匹配的距离尺度概念。定义一个尺寸大小为X*Y的观察窗，用此观察窗分别在水平方向上以距离X/2、垂直方向上以Y/2的搜索步长扫描图像。

假定A为X*Y的观察窗，对应的边缘点的集合为E(A,e)，|E(A,e)|为边界点数数目，e为A的边界，那么如果A为文本区域，则A的填充密度就是：

两幅图像检测到的文字区域相似度定义成：

其中Picture1_FillDensity[i]表示第1幅图像的第i个窗口的填充密度，Picture2_FillDensity[i]表示第2幅图像的第i个窗口的填充密度。

4 汉字的分割

假定图像文字区域中含有若干的空白间隙，以w1,w2…wn-1表示这些间隙的宽度，cw1,cw2…cwn-1表示字符的宽度。则间隙的平均宽度可以表示成为:

空白间隙的方差表示成为:

空白间隙序列离差的平方表示成为：

字符宽度序列的离差的平方表示成为：

字符的平均宽度可以表示成为:

填充度可以表示成为:

公式(7)中width的意义是单个字符图像的宽度，height是高度，grayvalue[i][j]表示灰度值FillFactor，可以很好地反应了单个字符图像的填充程度。具体实现算法如下：

步骤1计算文字区域的垂直投影赋值给垂直投影向量V[i]=0,i=0,1,2,…,n-1;

步骤2设定间隙阈值T;

步骤3根据V和T计算间隙序列S[]和字符宽度序列C[];

步骤4统计间隙序列和字符宽度序列的均值和方差;

步骤5统计间隙序列和字符宽度序列的离差平方值;

步骤6计算字符宽度序列离差平方值与字符宽度序列方差之差;

步骤7根据步骤6的结果进行合并和分割;

步骤8填充度计算，进行过滤;

步骤9汉字图片归一化处理。

5 汉字的识别

本文把常用汉字的11种字体作为训练集，并重新编码，并把这些编号转化为二进制编码，作为BP神经网络的教师向量。我们采用[9]提出的环投影结合笔画密度作为图像文字的特征。汉字样本空间很大，传统的单一BP分类器不能够很好的分类。通过采用多级分类的方法，具体是先进行K均值聚类，而后是在此基础上用多个BP神经网络进行二次分类，能得到比较理想的效果。

5.1 K均值聚类

本文先对样本进行聚类分析，欧式距离为距离模式，中心数400，迭代次数为50000次，得到类中最大样本数为280，最小为65，在得到的371个类中，完全涵盖了不同字体的相同字，通过处理就能将字形相似的字都聚集在一块，同时样本集合的样本空间幅度也大大减少了。

5.2 多BP神经网络

通过重新编码常用汉字，对每个一级类里的汉字按照不同的参数再次分组（二级类），在每组中采用传统的单一的BP神经网络（小网）进行训练，将训练好的各种权值和参数保存，所有组训练完毕以后，再把训练样本用各组对应的小网加以控制和识别，识别后的结果连接起来作为新的BP神经网络（大网）的输入向量，经过再次训练得出大网的训练结果，训练完毕保存权值和参数。识别时，先用各个小网加以识别，将识别结果排序，如果首位候选具有明显的优势那么则认为就是该结果，否则进行该一级类对应的大网进行识别得出在一级类中对应的组，再用该组对应的小网进行识别作为最后结果（如图1所示）。在小网训练中，输入特征向量为200维，教师向量由该汉字编码确定，再将其转化为二进制数。

图1 分类器设计图

6 仿真实验及分析

将文中的方法与传统的单一BP神经网络训练和识别加以比较。传统的单一的BP神经网络实验中，采用3层网络拓扑结构：输入层为200个简单神经元，隐含层60个简单的神经元，输出层12个简单神经元；本文方法中聚类后每类中以20个汉字作为一组，进行分组，特征向量都采用文中特征计算方法。

用字库产生模块生成11种字体的I级常用汉字作为训练样本，从各种视频中截取图像文字5000个作为测试样本。训练样本的K均值聚类实验结果如表1。

表1 K均值聚类结果

表2 实验结果对比

从表2可以看出小网具有更快的学习速度，经过小网学习后，可以大大缩减大网的学习时间和加快收敛速度。本文的方法优于传统的单一的BP神经网络方法，主要是由于一方面使用了K均值聚类。将4万多个样本分为400个大类，平均每类为100个左右。在聚类后又分为若干小组，之后再用神经网络学习，这样就大大降低了样本空间。同时还使用了小网的识别结果排序规则，在有些情况下省去了大网的识别，综合以上两方面原因使本文方法训练时收敛速度加快，也提高了识别速度和识别率，实验结果明显优于传统的单一的BP神经网络。

[1] P.H Lindsay and D.A. Norman, Introduction into psychology—human information reception and processing[M].In German Berlin,Germany: Springer-Verlag,1991.

[2] Jean-Marc Odobez and Datong Chen. Robust video text segmentation and recognition with multiple hypotheses[M].2002.

[3] LiTao.The Fundamental Theory of Big-Neuron Proc of ICNNSP95[C].Nanjing,P.R.China,1995.12.

[4] Chong-Wah Ngo,Chi-Kwong Chan. Video text detection and segmentation for optical character recognition[J]. Multimedia Systems, Vol.10,2005.3.

[5] Cheng Lin Liu, In Jung Kim, Jin H Kim.Model-based stroke extraction and matching for handwritten Chinese character recognition[J]. Pattern Recognition, 2001(34).2339-2352.

[6] Jian Wang, Yuan-Hua Zhou. An Unsurprised Approach for Video Text Localization[J].IEICE Transactions on Information and Systems.2006(4):1582-1585.

[7] Kwang In Kim, Keechul Jung, and Jin Hyung Kim. Texture-based approach for text detection in images using support vector machines and continuously adaptive mean shift algorithm[M].

[8] Otsu Nobuguki, A threshold selection method from gray-level histograms[J].IEEE Trans on Systems Man and Cybernetics,1979,SMC-9(1):62-66.

[9] Tang Y Y, Yang L H, Liu J. Ma H. Wavelet Theory and its application to pattern Recognition[M].London: World Scientific Singapore,2000.

Chinese Video Characters Recognition based on Cluster and Multi Neural Network

HUANG Xuan

（Department of Economic Management,Zhangzhou Institute of Technology, Fujian, Zhangzhou 363000, China）

In this paper we study the problem of Chinese character recognition in video. We propose a series of algorithms on Chinese character division, tracking. Based on them we design a multi-level sorter. Firstly we extract the features of some samples and employ K-means clustering algorithm to carry on I level classification. Secondly, we employ the algorithm of multi-back propagation neural network (MBPNN) to classify every category once again and we call it II level classification. Finally, we carry on the experiment and the testing result proves that these algorithms are effectively and recognition rate is higher than conventional back propagation neural network.

Chinese character segmentation; Chinese character tracking; K-means clustering; back propagation neural network

2012－12－22

漳州职业技术学院科技资助项目(ZZY1107)

黄轩(1978－)，男，福建漳州人，高级工程师，博士研究生，研究领域为进化计算、计算机视觉。

TP441.4；TP183

1673-1417（2013）01-0007-05

（责任编辑：季平）

基于聚类和多神经网络的中文视频文字识别

1 引 言

2 汉字区域定位

3 视频中跟踪汉字

4 汉字的分割

5 汉字的识别

5.1 K均值聚类

5.2 多BP神经网络

6 仿真实验及分析

1 引言