樊亮,戴永,覃冰梅
(湘潭大学智能计算与信息处理教育部重点实验室,湖南湘潭411105)
利用触摸屏代替纸张书写文字已是大势所趋。在纸上书写汉字,国人对书写笔力[1-2]的评价有“入木三分,力透纸背”一说,在触摸屏上书写与在纸上书写的笔力效果存在明显异同性。相同之处主要表现在两个方面,一是当笔力均匀时,笔画线条轮廓清晰,笔迹着色匀称;二是笔力轻飘时,着色不均,笔径飘忽,两种材质的书写表象基本相似。不同之处为当笔力加重时,纸张上的笔迹线条会给人行笔厚重的感觉,而触摸屏上的笔迹线条由于笔力加重导致书写过慢,更由于触摸屏书写是硬碰硬,笔力加重会造成笔尖抖动与打滑,导致书写效果面目全非,如黑块、波浪、绳结等书写效果。汉字为笔画密集型文字,负面的笔力效果会使文字图形美感缺失,即会严重影响汉字书写质量。开发以触摸屏为书写材质的文字书写指导系统,书写质量的评价是不可或缺的内容。樊建平[3]提出从书法美学角度来分析自动生成手写体字的结体、架构、布白等;王耀等[4]提出采用几何方法,计算待评价字与模板字之间几何平行度;另外文献[5]也报道了这方面的研究成果。文字书写质量除了与各相关文献报道的原因联系密切外,对于笔画密集型汉字,影响书写质量的原因更多的来自于负面的笔力效果。本文提出了一种汉字书写笔力的模糊分析方法,并通过笔力分析实现对汉字书写质量的评价。该方法以理想笔画形状中包含的特征点信息作为模糊子集,隶属度采用高斯函数计算,模板手写汉字各笔画的关键点信息的隶属度作为模板笔力分析数据,对实写汉字各笔画抽取特征点信息计算隶属度,计算实写隶属度与模板隶属度的贴近度,综合笔力贴近度及其他质量表征参数对当前书写的汉字质量给出评价。以隶属度作为模板数据存储,避免了文献[4]中存储模板文字的笔画实写笔迹数据带来的数据臃肿的弊端。实验表明该分析方法不但提升了评价汉字书写质量的水平,还可对书写者的用笔力度进行具体指导[6-7],并能推广到其他文种。
学习汉字书写的人群主要有两类,一类是中国的低龄人群,如学前班与小学学生;一类是他国或他民族人群,如孔子学院的学生等。对于低龄人群,由于其正处于发育期,心理和身体状况都不够成熟,写字时难免会出现握笔不规范,驭笔能力差,坐姿不正确、行笔时用力不均衡、行笔速度不合理,抖动比较厉害等影响写字效果的状况,他国他民族学习汉字人群和本国低龄人群书写汉字面临的共同难点是汉字字型生疏,书写过程复杂,笔画类型较多等。图1是一位六岁儿童的部分触摸屏汉字书写实例。
图1 触摸屏上手写样本
图1.(a)第二笔和图1.(b)中的最后一笔笔迹中出现了跳跃线段,说明书写的过程中速度过快,触摸笔飘了,出现没有掌控好触摸笔的现象。图1.(a)中的横画和图1.(b)的横折,图1.(d)中的横折,笔迹有明显抖动,说明书写时用笔力度不均衡,使得笔尖出现不可预测的滑动。图1.(c)中第二横和第三划撇,笔迹中出现了黑块,“绳结”现象,采集的信息点在局部聚集,说明书写时笔力过重导致行笔过慢,笔尖在一个较小区段内上下抖动,即在一个小范围反复走笔。图1(a)由于文字笔画少,结构宽松,虽然个别地方出现“轻飘”现象但并没有对整个文字产生大的视觉影响,如果加大笔画密度,则文字的书写质量会因此大打折扣。图1.(b)所示书写文字,无论是整体结构还是笔画的书写表象都是差质的。图1(c)、(d)文字架构较端正,但由于抖动和黑块的出现,而难说该文字书写质量好。
综析上述书写现象,笔力状况分为三类。第一类是笔力过轻,产生的原因按两种情况分类,即书写速度过快和笔尖触力过小;第二类是笔力均匀,即行笔时笔尖在经过之处不因接触滑动而产生多余图素信号;第三类是笔力过重,表现为行笔速度过慢,笔尖抖动,行笔方向紊乱。体现三类状况的书写特点主要表现在关键点的数量与分布上,如笔力过轻过快,因为触摸笔飘忽而不好掌控,在一条笔画中会出现莫名的多余跳跃线段,过重则会无规则地出现数量不等的各类关键点等。笔力分析是评价汉字书写质量的重要内容,但进行完整考量还需综合其他因素,例如,书写的正确性、大小、比例、偏斜等形态评价项目,这类评价实现可参阅相关文献。
笔迹点信息包括实时采集获取的所有笔迹点的有序二维坐标序列向量,笔迹点序列分别在X、Y方向的单调分析结果标注向量,关键点描述向量等。
1)笔迹点二维坐标向量
用P表示实时采集到的笔迹点二维坐标向量,P=[p1,p2,…pn]=[(x1,y1),(x2,y2),…(xn,yn)],X、Y方向的坐标序列向量分别表示为Px=[x1,x2,…xn],Py=[y1,y2,…yn]。
2)X、Y方向单调标注向量
设用数值1,0,-1分别表示单调递增,单调不变,单调递减,即一条笔画某方向的单调标注向量为n-1个由-1,0,1元素组成的向量。令u为笔迹点某方向坐标值,φ为该方向的单调标注值,X方向和Y方向的单调标注向量的计算方法为
其中f(u)=ui-ui-1。
3)关键点向量
根据所分析的触摸屏书写特点建立8种关键点类型:
由笔画关键点构成的集合用κ表示,κ={κlt,κrt,κrd,κld,κl,κr,κt,κd},关键点数目向量用N表示,N=[nlt,nrt,nrd,nld,nl,nr,nt,nd]。
图2 关键点的集合特征
为进行书写笔力分析与书写质量的评价,设置两类模糊[8-10]子集。笔力分析,以笔画中的关键点数目为模糊子集,论域为关键点数,即依次出现κlt,κrt,κrd,κld,κl,κr,κt,κd的个数,如横对应的理想模糊子集集合为{0,0,0,0,0,0,0,0},即横的理想几何形状不会出现任何关键点;横折对应的理想模糊子集集合为{0,1,0,0,0,0,0,0},即横折的理想集合形状只会在折处出现一个右上拐点。书写质量评价设置优秀、良好、中等、合格,差。论域为通过分析整个汉字所得到的模糊隶属度,通过所得到的隶属度的分析,可以得到书写质量评价的等级。
设一个汉字由K条笔画组成,第i(i=1,2,…K)条笔画所对应的N由如下算法获得。
用μη表示K 条汉字笔画关键点模糊模板矩阵,其中η表示文字,如式(2)所示。
μic采用高斯解析式,即
其中(i=1,2,…,K,c∈{lt,rt,rd,ld,l,r,t,d},参数a为理想笔画的特征点个数,nic为所求取的模板笔画特征点个数,取自Ni。K条笔画对应的糊模模板矩阵μη由以下算法获得。
评价依据为实写文字的笔力与模板文字的笔力的贴近度。因为参与评价的不同书写练习者的书写基础不同,所以采用严格度不同的多个评价标准来评价不同的练习者。评价标准分别为学前班,1~6年级七个标准。每个标准贴近等级设为优秀、良好、中等、合格及差五个,各等级的书写表象根据人们的感官效果来确定,感官效果范畴对应的模糊参数范围,即为评价标准参数依据,经试验确定的等级与评价参数对应关系如表1所示。
表1 评价等级与贴近度范围对应表
其中wi(i=1,2,…,K)为基于笔画长度的权值,通常情况下长笔画书写比短笔画书写出现的笔力不均现象要多。设l为笔画长度,li为第i条笔画的长度,则
因笔力过轻导致笔画出现多余“跳跃线段”现象作为比较严重的笔力问题,单独赋予较高权值,例如0.5,剩下的再按长短比例计算。模板为笔画一条一条地写出,系统有序产生μi(i=1,2,…,K)。每产生一条笔画求一次条笔画写完,求wi,进而求将与等级划分参数比较给出笔力评价。具体过程如算法3所示。
实验平台主要硬件模块包括7英寸触摸屏及S3C2440A,32bit ARM920T内核及其控制器,标准配置64MB NAND_FLASH,标准配置64MB SDRAM等。软件开发环境为VS2005,操作系统为wince 5.0,开发语言为C++。以米字格为例,书写区域是N×M=80×80点阵。实验字范围为一年级上下两册生字,共350个,邀请了5位同学,1位小学语文老师,实验书写500字。每写一个字先请老师给出评价分,然后由系统打分和等级评价。图3为部分系统实验结果分析图。图3.(a)为12岁小朋友所写,通过式(5),将评判标准设置为一年级,得到的“大”字笔力结果为“优秀”。图3.(b)为一名东胜小学一年级的学生所写,将评判标准设置为一年级,“大”字的笔力成绩为“良好”,还需继续加油练习。图3.(c)采集于学前班5岁用户,评判标准设置为学前班,“阳”字的笔力成绩为“优秀”,然后将评判标准设置为六年级,分析结果为“差”,如图3.(d)所示。表2为图3.(a)中“大”字的原始坐标信息,表3为“大”字的模糊模板矩阵,左边为模板字的每条笔画中8种关键点出现个数,右边为计算出来的模糊模板矩阵。表4为表2坐标信息经过算法1计算之后所得到的每条笔画中8种关键点出现的次数和经过算法2计算后得到的模糊矩阵。
图3 实验效果图
表2 图3.(a)中“大”字的原始笔迹点数据
表2中每两个数字为一组,分别代表x方向和y方向的坐标值,即笔迹的一个像素坐标点。P1, P2,P3分别代表“大”字的第一、二,三笔原始笔迹点数据。
表3 “大”字模板字笔画中出现的关键点个数和模板模糊矩阵
表4 图3.(a)中“大”字笔画中出现的关键点个数和实写模糊矩阵
从表1可以得知,既使评价标准设置为六年级,0.909也是属于优秀的范畴。“大”字属于一年级用户所练习的内容,12岁用户书写较为简单的一年级内容,成绩得优秀也为意料之中。
表5为图3(a)、(b)中所写字的主观评价分和本系统评价分比较。
表5 主观与本系统评分比较表
表5表明,本系统评分和老师评分结果基本吻合,特别是图3(a)中“生”字和图3(b)中“羊”字,图3(b)中“学”字,老师评分和本系统评分,两个评分结果特别接近。
文献[3]中虽然是从书法美学角度出发,但只考虑了其构字的几何属性,没从点信息的角度出发来评价其笔力美感。文献[4]中的方法需存储大量的模板字点信息,然后计算实写字与模板字的几何平行度,也没涉及到质量分析中重要的笔力分析一环。与文献[4]相比较,除了不用存储大量的模板信息点,从而节省了大量的存储空间之外,也使系统计算量减少,从而使系统更加快速稳定的运行。重要的是,所列文献采用的评判标准都是统一的,而本文根据实际情况,针对不同水平的练习者,来客观判断其在同类人群中的成绩。
在触摸屏上书写汉字,用笔力度直接影响汉字书写质量。主观评价手写汉字的质量问题[11-13],受个人的教育背景,成长环境,生活阅历等等因素影响,会导致评价结果大相径庭,很难达到近乎一致的意见。本文介绍的手写汉字笔画笔力的方法具有较强的客观性,通过该方法,可以将所有练习者的书写结果用一个标准进行统一的客观评价,这样既避免了个人审美偏好的弊端,也达到了公平的效果。实验表明,该方法与传统主流的主观评价结果基本相符。将该方法应用于多功能规定格式习字系统[12]中,起到了激发同学们在触摸屏上练习文字书写兴趣的作用,有助于无纸化文字书写学习方法及技术的推广。需要说明的是,笔力分析只是评价汉字书写质量的一个重要组成部分,要对汉字书写质量全面评价,还有大小、比例、偏转等指标,尽管如此,笔力分析的应占有较高的权值。
[1] 陈龙海.线条之美:中国书法线条语言的审美解读[J].语文教学通讯,2011,618(2):1-4.
[2] 张燕.汉字形体美的探讨和汉字教学[D].武汉:华中科技大学,2004:3-12.
[3] 樊建平.基于汉字结构码量化传统书法规则知识方法的实现[J].中文信息学报,1990,4(4):43-52.
[4] 王耀,戴永.规定格式文字书写练习质量普适评价[J].计算机工程与应用,2010,46(29):69-72.
[5] 金连文,高岩.一种基于置信度的汉字书写质量评价方法[P].中国,CN101630362,2009.
[6] 宋晓雷,王素格,李红霞.面向特定领域的产品评价对象自动识别研究[J].中文信息学报,2010,24(1):89-93.
[7] 郭巧,陆际联.计算机辅助汉语教学系统中语音评价体系初探[J].中文信息学报,1998,13(3):48-53.
[8] Zadeh LA.fuzzy logic=computing with words[J].IEEE Transactions on Fuzzy Systems,1996,4(1):103-111
[9] Zadeh LA.Towards a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic[J].Fuzzy Sets and Systems,1997,19(1):111-127.
[10] Richard Cook.A Specification for CDL(Character Description Language):an extract of[PhD Dissertation][C]//UC Berkeley,Dept.of Linguistics,2003.
[11] 孔维泽,刘奕群,张敏,等.问答社区中回答质量的评价方法研究[J].中文信息学报,2011,25(1):3-8.
[12] 戴永,刘任任,等.可联网交互的多功能规定格式习字系统及方法[P].中国,发明专利:ZL 201010149767.2,2011.8.25
[13] 蔡黎,彭星源,赵军.少数民族汉语考试的作文辅导评分系统研究[J].中文信息学报,2011,25(5):120-126.