热依曼·吐尔逊, 吾守尔·斯拉木
(新疆大学 信息科学与工程学院,新疆 乌鲁木齐 830046)
作为近一千万维吾尔族人口使用的语言及新疆地域内官方语言之一,维吾尔语的手写输入识别具有广泛的市场应用前景,维吾尔语的信息化研究具有非常重要的意义。几十年手写识别研究的积累使得联机汉字手写输入识别系统已满足实用化需求。而维吾尔语手写识别技术近几年来虽然取得了很大的进步,但距离实用化依然存在较大的差距,特别是支持联机整词输入识别的系统和方法。
文献[1]提出一种基于BP神经网络实现联机手写维吾尔文字母识别的系统和方法。该系统首先从所输入的单字母中提取笔迹相关特征,包括笔画数、点数、点位置等为主要特征,主线X轴方向最大穿越次数、主线Y轴方向最大穿越次数、附件X轴方向最大穿越次数、附件Y轴方向最大穿越次数、环数、主线落笔与抬笔两点△x与△y的大小比、主线宽高比、主线落笔位置、主线抬笔位置、主线落笔象限、主线抬笔象限等辅助特征,共计15种特征,接着将其作为特征输入送入系统预置的神经网络计算所述神经网络的相应输出,确定该笔迹输入的字母标注。该系统的识别准确率较高,但仅能支持单一字母的识别,并不能满足维吾尔语输入的实际应用需求。维吾尔语通常以词为基本单位实现连续输入,如果将一个词语中的字符逐个书写并逐个识别很容易影响手写输入的连贯性。
维吾尔语整词识别是维吾尔语手写识别应用实用化亟待解决的问题。维吾尔语是一种拼音式文字,按照从右向左的顺序先后书写。维吾尔语在联机手写输入时,同一字母由于词中的位置不同而写法不同,同时写法也千差万别。此外不同用户书写时往往带有明显的个人习惯,就算是写的相同单词,其字形变化也很大。显然如何设计一个能很好识别各种不同书写风格的维吾尔语词语识别系统具备很大的研究价值。
对此,本文提出了一种基于多系统融合的方法,有效提高了维吾尔词语联机手写识别的准确率。具体的系统首先在大规模训练数据上分别训练得到各词语单元的基于混合高斯模型(Gaussian Mixture Model,简称GMM)的词语静态模型以及基于隐马尔科夫模型(Hidden Markov Model,简称HMM)的词语动态书写笔迹模型。随后对接收到的联机词语笔迹输入,分别计算其相应于各词语单元的GMM模型的似然度及HMM模型的似然度,并对其进行得分融合。最后系统选择具有最大似然度得分的词语单元为识别结果。该方法在大量维吾尔语手写词样本上进行测试,具有较好的识别性能。相对于传统基于BP神经网络的算法和基于HMM的字母建模的方法,在识别正确率和速度上都有非常显著的提高。
在历史上,维吾尔族使用过回鹘文、突厥文、察合台文。现代维吾尔语属于阿尔泰语系突厥语族。维吾尔文与新疆的哈萨克文、柯尔克孜文等都属于以阿拉伯文为基础的拼音文字。维吾尔文是以词为单位来书写的,词由一个或多个字母组成,词和词之间必须留有一定的空隙。维吾尔文字母结构特征较明显,主要有以下几点:
1) 字母不等宽而且某字母的四种形式也不等宽[2]。不但字母宽度不同,而且有时候还增加额外的连字符。同一个词根往往有不同的书写形式,同一个附加成分往往有几种变体。在维吾尔文字中使用何种书写形式根据字母在字中的位置来确定,完全不同于汉字、英文等。32个字母中21 个字母有单立式、后连式、双连式和前连式形体。11个字母有单立式和前连式,其中25个字母有四种书写形体,5个字母有两种书写形体,2个字母有八种书写体,32个字母共有 126 种书写形体。所以会造成字形变化很大。这些都会给联机手写识别带来很大的困难。
上述特征都会给联机手写识别带来很大的困难,需要找到合理有效的方法。
手写识别主要流程如图1所示,对给定的笔迹输入O确定其对应的整词模型或文本结果。手写识别系统就是为了寻找一种函数转换关系:W=f(O) 以获得具有最小错误率的结果输出。手写体识别是模式识别的一个重要分支,其主要的指导思想贝叶斯后验概率如式(1)
其中,W是对于所有的文本,W*是手写体识别中最具可能性的输出,O是观测向量,最具可能的输出W*就是寻找到最接近的观测向量O。p(O|W)是指手写模型得分,p(W)是指语言模型得分。得分最高的也就是最具可能性的输出W*。
对接收到的笔迹输入,系统依次执行: 特征提取和手写模型匹配等操作。其中特征提取主要用于获取笔迹样本点序列的书写特点,进一步地在特征提取前还可通过预处理算法对采集到的笔迹采样点序列进行去噪、归一化、平滑等处理,以提高鲁棒性。手写模型匹配是整个识别的核心部分,主要通过计算提取的特征相应于预设模型的相似度确定可能的输入文字标注。常见的分类器有人工神经网络(ANN)、支持向量机(SVM)、隐马尔科夫模型(HMM)等[4]。
显然模型的精细度及准确程度将直接影响到识别系统的性能。本案提出了一种基于双引擎的识别模型,在大规模训练数据上分别训练得到各词语单元的基于混合高斯模型的词语静态模型以及基于隐马尔科夫模型的词语动态书写笔迹模型。相应的在系统识别时对接收到的联机整词笔迹输入,分别计算其相应于各整词单元的GMM模型的似然度及HMM模型的似然度,并对其进行得分融合,最后选择具有最大似然度得分的整词单元为识别结果。本系统主要流程可以大体分成两个部分,训练部分以及识别部分。
图1 手写识别解决方案
系统分别在海量训练数据上训练得到GMM模型和HMM模型,其实现如下文所述。
GMM模型训练:
步一: 采集海量训练样本。
步二: 样本数据预处理: 对于得到的样本,本案按照以下步骤对其进行了预处理: (1)尺寸大小归一化;(2)倾斜角度旋转规整;(3)样本点平滑;(4)样本点重采样等。
步三: 特征提取: 本案首先根据文献[5]的方法提取了传统经典的8-方向特征(8-Directional Features)[5],随后对其进行降维处理,减少噪音干扰。具体的本案采用LDA算法将原始512高维特征降低到320维(8方向*4*10子块)。
步四: GMM模型训练: 高斯混合模型是语音信号处理中的一种常用的统计模型,即用多个高斯概率密度函数(正态分布曲线)分别模拟样本特征的分布概率。具体的系统对每个整词单元分别利用其对应训练样本的特征集合在MLE准则下训练得到一个GMM模型。
可选的,本案还进一步对基于MLE训练的GMM模型采用区分性训练方法,如MCE算法进行优化,提高模型的区分性。
通过GMM模型训练,系统获得一系列用于模拟维吾尔语整词书写静态(即二维图像方面)的特征。
HMM模型训练:
步一: 采集海量训练样本。
步二: 样本数据预处理: 对于得到的样本,本案按照以下步骤对其进行了预处理: (1)尺寸大小归一化;(2)倾斜角度旋转规整;(3)样本点平滑;(4)样本点重采样等。
步三: 动态特征提取: 系统首先从训练样本笔迹中提取各笔段序列,具体的根据连续笔迹样本的角度变化确定各局部最大拐点进而获得笔段序列;随后系统对各笔段提取分段特征,包括笔段长度,笔段的书写方向等。
1)中水系统缺少进水量控制调节。生活污水产生量大约22 m3/d,但却是间歇性的,一天24 h中00:00~18:00时段期间产生的污水量约0.32 m3/h,小于系统处理能力,而18:00~00:00污水产生比较集中约2.7 m3/h,大于系统处理能力,严重影响回收利用效率。
步四: HMM模型训练:
a) HMM拓扑结构确定:
隐马尔科夫模型就是一种重要的统计模型,其结构主要由不同状态数以及状态之间的连接方式来确定。一般来说,状态数越多模型的描述能力越强。考虑到手写体的随意性和时间耗费,其模型结构需要兼顾体现书写轨迹的变化特点以及数据稀疏问题。对此本文在HMM模型拓扑设计中确定每个维吾尔语的整词HMM模型状态数对应该整词的书写笔迹的笔段总数。所述笔段主要由书写笔迹的方向变化角度确定,在连续笔迹存在较大的角度变化时确定生成新的笔段。
b) HMM模型参数训练:
系统利用每个整词单元对应训练样本的特征集合在MLE准则下训练得到一个HMM模型。
可选的,本案还进一步对基于MLE训练的HMM模型采用区分性训练方法,如MCE算法进行优化,提高模型的区分性。
对于待识别的连续笔迹,系统首先执行笔迹预处理,包括尺寸大小规整、倾斜角度规整、笔迹点平滑、重采样;随后分别提取相应于GMM模型的笔迹静态特征以及相应于HMM模型的笔迹动态特征。接着系统分别计算所述特征相应于系统预置各整词模型,包括GMM模型和HMM模型的似然度。最后系统对所述GMM模型似然度以及HMM模型似然度进行合并,选择具有最大合并似然度的词模型为识别结果,并输出识别的unicode编码。本案对GMM模型得分和HMM模型得分合并采用简单的加权平均算法,分别设置各模型得分的权重为0.5,获得总得分。
本文训练和测试词语库来自于常用的维吾尔语词语库,在对21万多条句子的20多万个词进行词频统计并从中选择出频率最高单词作为研究对象。
在第一期实验中我们采集具有最高词频的4 000个词,随后在第二期实验中我们采集具有次高词频的4 000个词。样本数据由多用户真实书写得到,对每个词分别采集50个训练样本,共计400 000个训练样本。
一期实验中我们由8个用户随机书写100多个样本,其识别正确率达到了97%。
在二期实验时由10个用户来进行书写,书写范围包括采集的8 000个常用词以及200多个常见人名。安排每人书写100个样本,其测试结果正确识别率为99%。
图2 维吾尔语联机手写体词语识别程序界面
基于BP网络的手写识别系统对每一个维吾尔文字母分别建模确定特征模版库。测试时对输入的联机手写维吾尔文字母提取相应的特征码送入用模版库训练过的神经网络,运用神经网络计算出相似度最大的一个为识别对象[1]。本案在同样测试数据上比较了基于BP网络的手写识别系统和本案基于GMM-HMM识别的效果,具体如表1所示:
从表1中可以看到基于GMM-HMM的手写体识别系统识别率明显高于基于BP网络的识别系统,而且基于BP网络的系统仅能识别到字母级别,对于维吾尔语词语识别还是未知。
表1 GMM-HMM和BP网络识别率的对比情况。
本文给出一个维吾尔语联机手写体词语识别系
统,分别使用GMM和HMM两种模型进行建模并对其合并确定最优识别结果。本系统有着良好的识别率及识别速度,证明了维吾尔语手写识别在基于HMM和GMM双引擎识别模型的系统下基本可用。此外该方法也可以直接应用到哈萨克、柯尔克孜等其他少数民族手写体词语识别技术中去。
[1] 任宏宇. 基于BP神经网络的联机手写维吾尔字符识别[D].新疆大学硕士学位论文,2011.
[2] 吾守尔·斯拉木,热依曼·吐尔逊.基于B/S模式的维吾尔文在线处理技术及其实现[J],计算机工程与应用(汉),2006,42(29):205-206.
[3] 哈力木拉提,阿孜古丽.多字体印刷维吾尔文字符识别系统的研究与开发[J]. 计算机学报:2004, 27:1480-1484.
[4] 皮桂林. 基于HMM模型的联机手写维文单词识别方法研究[D].乌鲁木齐:新疆大学硕士学位论文,2012.
[5] Zhen-Long BAI, Qiang HUO. A Study On the Use of 8-Directional Features For Online Handwritten Chinese Character Recognition[J].In ICDAR-2005, 2005:1520-5263/05.