王求真,戴永,樊亮,孙广武
1.湘潭大学信息工程学院,湖南湘潭 411105
2.智能计算与信息处理教育部重点实验室,湖南湘潭 411105
汉字书写质量的模糊分析方法
王求真1,2,戴永1,2,樊亮1,孙广武1
1.湘潭大学信息工程学院,湖南湘潭 411105
2.智能计算与信息处理教育部重点实验室,湖南湘潭 411105
汉字书写质量评价是计算机辅助汉字书写练习系统中的一项重要功能。对手写汉字进行质量评价,不仅能有效提高识别准确性,而且对书写者能够进行书写指导,提高书写质量。近年来,计算机辅助中文学习技术取得很大的进步[1-3],但对手写汉字的书写质量研究方面非常少见。文献[4]根据字体结构的相似度实现了对手写制图字体进行自动评分,但仅限于规定格式的标准书写字体;文献[5]对联机手写汉字布局提出了一种基于模板的评价方法,规则复杂,适应范围较小,不具有通用性。目前汉字习字系统都是基于触摸屏书写方式,但由于触摸屏的光滑性,触摸笔在书写过程中会产生滑动导致书写产生笔画畸变、变形、位置偏移、大小不均等一系列错误,从而影响书写的美观,因此质量评价对于快速客观评价书写质量并有效指导书写有着重要的研究意义。在这方面,文献[6]针对规定格式手写英文字母,通过建立标准模板,利用距离比较法,检测二者之间的相似度,而提出了一种普适质量评价方法,取得了一定的实验效果,然而这一方法针对手写汉字效果并不理想,因为汉字类别众多,结构复杂,手写汉字具有更大的随意性,从而导致其结构产生较大的模糊性。本文针对在仿真文字书写练习本规定格式中练习书写汉字常见的几种汉字书写问题提出相应的模糊[7-11]分析方法,书写笔画以关键点为特征,书写结构以比例、大小及位置等为特征,关键点直接采用高斯法进行模糊化,书写结构特征通过统计实验模糊化,通过模糊贴近度实现汉字书写质量分析,评价结果较为客观理想。
汉字属于方块字,是由不同的笔画和部件按照一定的顺序和相对位置在二维空间上构成的线段图像,由于存在字形结构复杂性的问题,即笔画多、部件繁、结构杂,使得汉字难写、难用。书写风格因人而异,从而造成手写体汉字变形,具体表现为:基本笔画变化,如横不平,竖不直,折笔的拐角变成圆弧等;笔画模糊不规范,该连的不连,不该连的却相连。笔画与笔画之间、部件与部件之间的位置发生改变。笔画的倾斜角、笔画的长短、部件的大小发生变化。这些字形的变化是最难以判断和评价的问题。
图1是部分触摸屏仿真文字书写练习本田字格式上书写练习产生的问题汉字。图1(a)反映了笔画书写多次抖动产生的笔画畸变问题;图1(b)书写汉字明显过小;图1(c)中汉字书写长宽比例不当,汉字显得过廋;图1(d)中汉字位置明显偏左。综合上面书写的各种问题,本文对手写汉字的质量评价主要包括对各笔画(基元)、字形结构的规范性评价,具体内容为书写大小、比例、位置等方面。
图1 触摸屏上手写样本
3.1 笔画书写特征模糊子集
触摸屏笔迹点二维坐标向量用P表示,P=[p1,p2,…,pn]=[(x1,y1),(x2,y2),…,(xn,yn)]。如果以笔迹坐标作为笔画特征,建库量特别大,因此将按下述方法进行特征提取。
3.1.1 笔画特征提取
根据所分析的笔画书写特点可建立四种拐点和四种极点共八种关键点类型。图2(a)~(h)所示黑色点分别为左上拐点ζ1、右上拐点ζ2、左下拐点ζ3、右下拐点ζ4、左极点ζ5、右极点ζ6、上极点ζ7、下极点ζ8。因此可以提取一个汉字中的各种组成笔画关键点,构成的集合表示为K= {ζ1,ζ2,ζ3,ζ4,ζ5,ζ6,ζ7,ζ8},统计各关键点数目用向量N表示,N=[n1,n2,n3,n4,n5,n6,n7,n8]。
图2 关键点分类
3.1.2 笔画特征模糊集
以上述方法提取的特征点建立各种书写笔画特征集合,如横笔画,显然在理想的情况下,其特征集合应该为Nh={0,0,0,0,0,0,0,0},即不含上述任何关键点;撇笔画,其理想特征集合应该为Np={0,0,0,0,0,1,0,0},即该理想笔画只含一个右极点;横折笔画,其理想特征集合应该为Nhz={0,1,0,0,0,0,0,0},即该理想笔画只含一个右上拐点。对书写的各笔画特征进行模糊化,建立笔画特征的模糊集合,式(1)用来建立书写各笔画模糊特征向量。
其中,xK为书写笔画特征向量,aK为理想笔画特征向量,δ为最大允许特征点差异数目,K={ζ1,ζ2,ζ3,ζ4,ζ5,ζ6,ζ7,ζ8}。
3.2 书写大小、比例和位置特征模糊子集
在规定方格里面进行汉字书写,要显得美观,其大小、比例和位置都应在合适范围之内,不宜采取固定值匹配分析方法,采用模糊的方法能得到更为客观准确的分析结果。
3.2.1 特征提取
征:T=(xmax-xmin)/(ymax-ymin);以汉字书写的重心作为位置特征点,构成二维特征向量,其中
图3 规定方格书写汉字坐标定义
3.2.2 特征模糊函数确定
通过206个汉字按标准书写而采集到的大小、比例模糊特征分布情况分别如图4、图5所示。
由图4分布情况,可知大部分汉字大小特征值处于0.2~0.4之间,图4(b)分布情况定义大小特征模糊隶属度函数如下:
图4 标准书写汉字大小特征分布
图5 标准书写汉字比例特征分布
其中,xS为书写大小特征向量,aS为大小特征分布的中心点,aS∈[0.2,0.4]。
由图5分布情况,可知大部分汉字比例特征值处于0.9~1.1之间,由此可由模糊子集的概念定义下面的模糊隶属度:
其中,xT为书写大小特征向量,aT为大小特征分布的中心点,aT∈[0.9,1.1]。
4.1 笔画模糊评价
设一个书写汉字有m条笔画,由标准书写产生各笔画特征模糊集合为:
待评价笔画的模糊特征集合向量:
B、A中单个笔画模糊特征贴近度:
其中i∈{1,2,…,m}。
计算汉字整体笔画模糊特征贴近度:
其中0〈wi〈1为各笔画在整个汉字的重要性而分配的权值。
笔画质量评价集内容设计为VK={很好,较好,一般,较差,很差},即书写效果按5个等级进行评价,“很好”为最高级别,“很差”为最低级别。式(8)计算结果与笔画质量评价等级JK(∈VK)对应关系如表1所示。
表1 汉字书写笔画质量评价等级与模糊贴近度对应表
在触摸屏上进行书写,落笔到抬笔决定了一个笔画,可得到笔画数目为m,笔画类型可从习字样本库中获取,具体评价算法如下:
算法1书写质量笔画评价
输入:经前置处理之后的笔画信息{P(1),P(2),…,P(m)},标准模糊集μA(x)
输出:笔画质量等级JK
步骤:
(1)i←1;
(3)由式(1)计算笔画模糊特征向量集合μB(xi);
(4)由式(7)计算μA(xi)和μB(xi)的贴近度d(i)(A,B);i←i+1,若i〈=m,转(2),否则转(5);
(5)由式(8)计算汉字整体笔画模糊特征贴近度sim(A,B);
(6)根据表2查取笔画质量评价JK并输出。
4.2 结构模糊评价
利用式(2)~(4)分别计算大小、比例、位置的模糊特征隶属度μ(xS)、μ(xT)和μ(xw),作为评价书写汉字结构质量好坏的3个指标,则可以构成模糊集合:
为表达两个书写汉字结构质量状况的相似程度,利用下式来计算两个汉字的结构模糊特征集Ha和Hb的贴近度:
考虑到书写的差异性,取n个书写汉字结构模糊特征{H1,H2,…,Hn-1,Hx},建立模糊相似矩阵,其中H1-Hn-1为n-1个标准书写汉字,Hx为待评价汉字模糊结构特征集。于是可以得到以rij为元素的模糊相似矩阵。
计算Hx与其他标准书写汉字的平均相似度:
利用模糊聚类的方法,对照表2可以得出相应的结构质量评价结果JH(∈VH)。书写结构评价集为VH={好,一般,差}。
表2 汉字书写结构质量评价等级与相似度对应表
在评价书写结构质量之前,需提取n-1个标准书写汉字的模糊结构向量并建立相似矩阵,待评价汉字与它们的平均相似度决定其书写结构标准程度,算法如下:
算法2书写质量结构评价
输入:经前置处理之后的笔画信息{P(1),P(2),…,P(m)},标准书写结构向量组{} H1,H2,…,Hn-1
输出:结构质量等级JH
步骤:
(1)j←1;
(2)用式(2)(3)(4)分别计算大小、比例、位置的模糊特征隶属度μ(xS)、μ(xT)和μ(xw);
(3)由式(9)计算其与标准书写汉字的模糊结构特征相似度rjx;j←j+1,若j〈=n-1则继续(3),否则转(4);
(4)由式(11)计算平均相似度-rx;
(5)根据表2查取结构质量评价JH并输出。
4.3 综合评价
在上述各种评价的基础上进行综合评价,可得到一个全面的评判结果。若笔画和结构相似度任意一项小于0.5则取其中的最小值,否则根据各项的重要性求取综合评价结果。综合评价函数如下:
综合评价等级集VU={好,一般,差},评价结果JU(∈VU)对应关系如表3所示。
表3 汉字书写综合评价等级对应表
实验硬件平台包括7英寸触摸屏、32位ARM920Τ、64 MB内存等;软件平台方面,操作系统采用Wince 5.0,编程软件采用VS2005,编程语言采用C++。以田字格为例,书写区域为80×80点阵。图6是部分汉字书写评价实验效果。
表4 测试汉字书写评价表
图6 汉字书写实验效果图
对图6(a)中字“水”进行笔画质量评价,得到笔画总数m=4,笔画类型:竖勾,横撇,撇,捺;笔画模糊特征向量为:
对照表1得出评价结果为:JK=“一般”。
字“水”进行结构质量评价,经过书写训练,取aS=0.35,aT=1.0,80×80方格区域其重心为(40,40),由式(2)~(4)计算其结构模糊特征向量为:Hx={} 0.664,0.925,0.776,取模糊相似矩阵n=10,建立相似矩阵如下:
因此Hx与其他标准书写汉字的平均相似度:
对照表2得出评价结果为:JH=“好”。
对“水”进行综合评价:
对照表3得出评价结果:JU=“一般”。
按照前面所述方法对书写笔画和结构质量进行评价,图6书写汉字其各项评价结果如表4所示。
通过对200个汉字进行共500次书写的样本进行质量评价,得到评价效果分析表如表5所示。实验结果表明,各项汉字书写质量评价准确率较高,最低为82.03%,最高能达到90.42%,因此能够很好地应用于汉字书写辅导。
表5 评价效果测试表
仿真纸质文字书写练习本规定格式的文字书写练习指导是联机自由手写模式处理的一个新型研究内容,文献[12]报道了这方面取得的重要研究成果。本文就仿真练习本自由手写汉字常见的几个书写问题实现了模糊分析,在文献[12]报道的系统中得到了具体应用,分析效果客观,评价意见表达实时,能够很好地指导习字者进行正确的汉字书写,可有效提升用户汉字书写质量。同时,该方法也能借鉴到其他文种文字的仿真纸质文字书写练习本规定格式书写辅导。
[1]Gu Yi,Wu Yan.Handwritten chinese character synthesis method based on structure knowledge[J].Computer Engineering,2011,37(3):266-268.
[2]Hu Zhihui,Xu Yun,Huang Liusheng.A Chinese handwriting education system with automatic error detection[J].Journal of Software,2009,4(2):101-107.
[3]刘禹,何克抗.计算机辅助汉字书写教学的研究:书写汉字库生成系统的研制[J].中文信息学报,1994,8(4):34-42.
[4]刘玉峰.手写制图字体结构评判自动化研究[J].测绘学院学报,2000,17(1):49-52.
[5]夏伟平,金连文.一种基于模板的联机手写体汉字布局评价方法[C]//2008年全国模式识别学术会议论文集,2008:354-359.
[6]王耀,戴永.规定格式文字书写练习质量普适评价[J].计算机工程与应用,2010,46(29):69-72.
[7]李哲,玉俊奇,杨兆中,等.一种模糊识别手写体汉字技术[J].计算机工程,2003,29(12):96-97.
[8]万莉.手写签名模糊识别方法的研究与实现[D].武汉:武汉理工大学,2006.
[9]Chen S M.Fuzzy forecasting based on fuzzy-trend logical relationship groups[J].IEEE Τransactions on Systems,Man,and Cybernetics,Part B,Cybernetics,2010,40(5):1343-1348.
[10]Khatibi V,Montazer G A.Intuitionistic fuzzy set vs.fuzzy set application in medical pattern recognition[J].Artificial Intelligence in Medicine,2009,47(1):43-52.
[11]Lu J,Yuan X,Yahagi Τ,et al.A method of face recognition based on fuzzy c-Means clustering and associated sub-NNs[J]. IEEE Τransactions on Neural Networks,2007,18(1):150-160.
[12]戴永.可联网交互的多功能规定格式习字系统及方法:中国,ZL 201010149767.2[P].2011-08-25.
WANG Qiuzhen1,2,DAI Yong1,2,FAN Liang1,SUN Guangwu1
1.College of Information Engineering,Xiangtan University,Xiangtan,Hunan 411105,China
2.Key Lab of Intelligent Computing&Information Processing,Ministry of Education,Xiangtan,Hunan 411105,China
Evaluating the quality of handwritten Chinese characters can evaluate the degree of writing appearance objectively, and can point out even correct the non-standard case in Chinese characters written.Τhis paper prescribes several common problems of Chinese characters written in restricted area,and uses fuzzy analysis method to evaluate the writing strokes and structure quality of writing objectively by extracting different writing characteristics.Τhe experiment shows that the method is accurate and efficient for Chinese characters writing counseling.
Chinese character;writing quality;fuzzy;quality evaluation
对书写汉字进行质量评价,可以客观评价书写的美观程度,指出甚至纠正汉字书写中的不规范的情况。针对规定格式的汉字书写常见的几种书写问题,在书写笔画和书写结构方面,通过提取不同的书写特征向量,采用模糊分析的方法,对汉字书写质量进行了客观的评价。实验表明,这种评价方法准确高效,能很好实现汉字书写辅导。
汉字;书写质量;模糊;质量评价
A
ΤP391
10.3778/j.issn.1002-8331.1201-0323
WANG Qiuzhen,DAI Yong,FAN Liang,et al.Fuzzy analysis method for quality of handwritten Chinese characters. Computer Engineering and Applications,2013,49(21):180-185.
湖南省重点学科资助;湖南省高校创新平台开放基金项目(No.09K040);湖南省科技计划项目(No.2011GK3204);湘潭大学自然科学基金项目(No.09XZX23)。
王求真(1976—),男,讲师,CCF会员,主要研究方向:模式识别、人工智能、信息安全;戴永,教授;樊亮,研究生;孙广武,研究生。E-mail:wqz76@163.com
2012-01-17
2012-03-31
1002-8331(2013)21-0180-06
CNKI出版日期:2012-06-04http://www.cnki.net/kcms/detail/11.2127.ΤP.20120604.1433.003.html
◎信号处理◎