戴 琼,周明全,付 倩
(北京师范大学 信息科学与技术学院,北京 100875)
小篆文字的自动识别
戴 琼,周明全,付 倩
(北京师范大学 信息科学与技术学院,北京 100875)
小篆是秦统一后使用的文字,是汉字发展的一个重大里程碑。在书法、碑文、石刻等有大量存在。但是由于与现代汉字差异较大,大多数人无法辨识这些小篆文字。文中提出了一种利用计算机对小篆文字自动辨识的方法。首先构建标准以及小篆字体数据库,然后将用户需要识别的小篆文字图片缩放至标准大小,随后采用迭代最近点算法(ICP算法)与库中的小篆文字进行匹配,最后计算其相似度,而得到的相似度最高文字,也就是识别的输出结果,从而实现小篆字体的自动识别。该方法经过大量实验证明是有效的。
小篆字体;ICP算法;相似度;自动识别
弘一法师曾这样说过,学字“先由篆字学起”。为什么呢?“若不学篆书,不讲究‘说文’,对于字学及文字起源,就不能明白”,“写篆字也可以为写隶书、楷书、行书的基础”,“篆书是各种字的根本”[1]。
篆书起源于西周末年,东周时在秦国一带流行,至秦始皇时达到鼎盛,汉代开始衰退,逐渐向分书过渡。这三个时期的篆书风格有较大差异。为了加以区别,人们把东周时的篆书称为大篆(或称籀书),秦始皇时的称为小篆,汉代的称为汉篆[2]。
小篆是秦统一六国“书同文”后规范化的文字,是先秦篆书的最终规范,是汉字发展的一个重大里程碑。东周时代,诸侯力政,不统于王,各国文字一方面因为实用需要不断简化,另一方面,为了美观,常添加各种装饰性的笔画,结果文字异形,讹体歧出。秦统一六国,秦始皇实行“书同文”政策,由丞相李斯厘定正体字,在原来秦使用的大篆基础上吸收六国文字优点并加以简化规范[3-4]。其规范的根本点是对从甲骨文到金文以及战国时期各种装饰性诫文字所运用的曲线和结构对称性的提炼和净化,也是对整个先秦时代人们审美趋向的总结升华。
小篆在我国历史上使用了千余年,自从汉朝通用隶书之后,小篆的应用就日益减少。在汉末至六朝又出现了楷书,经隋唐宋元明清一直沿用至现代。自从楷书通用以后,经历了一千多年的历史,小篆就日渐从人们日常生活中淡化了,其应用越来越少[2]。
尽管如此,小篆的象征性和装饰性在中国传统艺术中发挥着巨大的作用并影响深远。比如名山大川、风景名胜、遗址古建、寺院道观、文保单位、公私堂所等处的石碑、摩崖、对联、匾额、中堂条幅以及铸件等处,都会刻有篆字。它们醒目、大气、庄重、权威,无数的碑额借助于小篆的象征性树立起权威的象征性。又如篆刻,它是小篆被广泛运用到印信中,并由此发展成的一门相对独立的艺术,由此也产生出一大批书法大家,如邓石如、赵之谦等。再如秦砖汉瓦,是中国传世文物中的一大项目,也是古代美术的一大类,上面也都刻有篆字,文字形式上较规范,内容上实用性较强[5-6]。
由此可以看出,即使在甲骨文三四千年后的现代,篆字(特别是小篆)的辨识依然具有其重要的意义,这关乎文史、美术与中华文明传承。
古代的书法、碑文、石刻等有大量的小篆,但由于与现代汉字差异较大,大多数人无法认识这些小篆文字。因此有必要借助计算机技术帮助自动辨识。而对于自动识别,其结果就是找到在已建立的标准小篆字库中与之相似度最大的字,则在计算相似度之前如何匹配当前这两个待比较的图片是一个关键问题。如果将每一个图片中的字的部分的像素点看作是退化的二维平面上的点云,则可以借助很多的方法来实现匹配。这些匹配方法一般是基于迭代的算法,通过定义一个误差函数来反映点云重叠区域间的吻合程度。目前应用最广泛的方法是由Besl等[7]以及Chen等[8]提出的迭代最近点(Iterative Closest Point,ICP)算法,此类算法通过迭代的计算,使两片点云上对应点对的均方误差最小。
当前,大多数工作是输入现代汉字,可以输出小篆文字。而对小篆文字自动辨识工作较少,西北大学针对瓦当上小篆文字的识别展开研究,提出了一种基于神经网络的方法[9]和基于文字几何结构的方法[10]。文中提出了一种通过照片对小篆文字自动辨识的通用方法,通过建立小篆字库计算字库内的字与输入的字的相似度,实现小篆文字的自动辨识。
在该系统中,对所建立的3 755个一级国标汉字按照其在标准中出现的顺序按阿拉伯数字建立索引,并将其对应的书法汉字图像一并入库进行存储以建立小篆字库。每个小篆字图片为600×600像素的二值图片。图1是一些字库中的小篆字体的例子。
图1 标准小篆字体“北京师范大学”
文中对于小篆字体的自动识别,基于相似度的计算,其中输入的待识别图片与标准小篆字库中的小篆字图片相似度最大的字即为输出结果。第二节已经介绍了建立的小篆标准字库,其中的图片大小为600×600,所以输入的图片经过处理后应该是与标准字部分基本重叠且大小同为600×600的图片。相似度的计算介绍如下:
若Pi,j是标准小篆字库中当前比较图片(i,j)像素位置的颜色值,Qi,j是用户输入待识别图片(i,j)像素位置的颜色值。其中i,j是图片像素位置中的横纵坐标,1≤i≤600,1≤j≤600。而Pi,j定义如下:
Qi,j可以相似地定义。若K=600,则相似度可以由以式(1)计算得到。
(1)
在以上方程中分子部分为同为黑色(即同属于字体)的像素个数,分母为同为黑色或者颜色不同(一个属于字体一个属于背景)的像素个数。可以看出,如果这两个字完全匹配,则相似度为1;如果这两个完全不匹配,则相似度为0。
小篆字体的自动识别,输出的是相似度最大的字作为结果。上节已经介绍了相似度的计算。可以看出,为了保证结果的正确性,待识别的图片与字库中的图片的匹配是十分重要的。由于用户输入的图片大小及其中字的方向大小位置都不是确定的,所以在计算其相似度大小之前,需要对输入图片进行处理,以致其图片大小与标准图片大小相同,且其中字的方向位置大小都与标准字尽可能一致。初始的图片大小以及字的大小处理比较简单,而更复杂的字的方向位置处理采用ICP算法来完成。
4.1 初始匹配
由于用户输入图片的随意性,它的图片大小及其中字的大小方向位置都需要尽可能匹配标准字以达到一致。
对于输入字的大小调整,是根据它与标准字的最小包围圆来调整的。虽然中国汉字是方块字,但是由于输入字的方向不定不能保证它的方向一定是竖直向上的,所以这里用包围圆来调整更为妥当。其中最小包围圆的圆心是根据字体像素的平均位置来决定的,半径则是字体像素部分与圆心的最大距离。最小包围圆调整字体大小的结果见图2和图3。
图2 与标准字“京”初始匹配结果
4.2 ICP算法匹配
经过初始处理以后,输入图片被处理为字体最小包围圆与当前标准字的相同,且图片大小为标准的600×600,如此已经保证了计算相似度的可行性,但是仍不能保证其精确性。因此采用了ICP算法[11]来进一步精确地匹配字体。ICP算法通过寻找初始处理后的输入图片字体像素点集以及标准字体像素点集的对应匹配点之间的关系,计算两个点集的变换参数,以满足给定的收敛精度,最终求得两个点集之间的平移和旋转参数,来完成匹配过程。
ICP算法用来解决多视点云间的对齐问题,前面已经提到ICP算法的理论,现在介绍一下ICP算法的实现过程。ICP算法本质上是基于最小二乘法的最优匹配方法。该算法重复进行选择对应关系点对,计算最优刚体变换这一过程,直到满足正确匹配的收敛精度要求。
ICP算法的目的是要找到待匹配点云数据与参考点云数据之间的旋转参数R和平移参数T,使得两点集数据之间满足某种度量准则下的最优匹配。
假设给定两个点集X1和X2,ICP方法的匹配步骤如下所示:
(1)搜索X2中的每一个点在X1点集中的对应最近点;
(2)求得使上述对应点对平均距离最小的刚体变换,求得平移参数和旋转参数;
(3)对X2使用上一步求得的平移和旋转参数,得到新的变换点集;
(4)如果新的变换点集与参考点集满足f(R,T)式的目标函数要求,即两点集的平均距离小于某一给定阈值,则停止迭代计算,否则新的变换点集作为新的X2继续迭代,直到达到目标函数的要求。
而在(1)中,ICP搜索最近点的主要方法有:点对点最近点搜索算法[7]、点对面最近点搜索算法[13]、点投影最近点搜索算法[14]。这里把初始处理后的输入图片的像素点集以及标准字图片的像素点集作为待匹配的两个点云集,所以采用的是点对点最近点搜索算法。
图4是经过初始处理的输入图片通过ICP算法精确匹配后的结果。
图4 ICP算法精确匹配
文中对于输入的一个小篆字体图片的自动识别是通过输入与小篆字库中标准字逐个比较计算其相似度,最后得到其中相似度最大的字作为自动识别的结果,流程图见图5。
图5 自动识别算法流程图
具体来说,经过以上匹配以后,得到了针对当前标准字的匹配后的输入处理结果。现在将匹配后的输入结果与当前标准字,根据第三节中介绍的相似度计算方法可以计算出针对当前标准字的相似度。对于字库中的所有标准字,总共能得到3 755个相似度结果,其中最大的相似度即为输出结果。比如图4的例子中,最终计算的相似度“京”要比“学”要小,实际上其最终的识别结果也是“学”,如图6所示。
图6 自动识别结果
针对小篆文字辨识困难问题,文中提出了一种利用计算机对小篆文字的自动辨识方法。建立了一个标准小篆字库。针对输入的一个待识别小篆字体图片,首先根据当前标准字经过初始处理得到标准图片大小且字的大小大致相同的初始结果,然后对初始处理后的字与当前标准字通过ICP精确匹配后调整它的位置与方向,最后计算其相似度。当计算出输入字与库中所有字的相似度后,其中相似度最大的字即为其自动识别的结果。
该方法基于一个小篆的一级汉字库(包括3 755个字),因此目前可以辨识一级汉字库范围内的小篆文字,但是以后可以很方便地扩展字库,而且这种自动识别的方法对于其他字体的识别同样有效。未来系统可以移植到移动设备如手机上,通过手机拍照,可以自动辨识小篆文字,也可以用于印的篆刻等。
[1] 罗喜泽.小篆技法教程[M].成都:四川师范大学电子出版社,2010.
[2] 沃兴华.中国书法史[M].上海:上海古籍出版社,2001.
[3] 沃兴华.中国书法篆刻简史[M].上海:上海古籍出版社,2010.
[4] 高玉军,刘慧杰,吕肖庆,等.小篆文本的在线编辑技术[J].计算机科学,2007,34(12):241-243.
[5] 赵昌智.中国篆刻史[M].上海:上海人民出版社,2006.
[6] 林乾良,于良子.篆字辨识[M].杭州:西泠印社出版社,2009.
[7]BeslPJ,MckayND.Amethodforregistrationof3-dshapes[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,1992,14(2):239-256.
[8]ChenY,MedioniG.Objectmodelingbyregistrationofmultiplerangeimages[J].ImageandVisionComputing,1992,10(3):145-155.
[9] 刘 磊.基于内容的秦汉瓦当小篆文字识别方法研究[D].西安:西北大学,2015.
[10] 周子骏.基于神经网络的瓦当中小篆的识别方法[D].西安:西北大学,2014.
[11] 周春艳,李 勇,邹峥嵘.三维点云ICP算法改进研究[J].计算机技术与发展,2011,21(8):75-77.
[12] 金 涛,童水光,颜永年.逆向工程技术[M].北京:机械工业出版社,2003.
[13]BergevinR,SoucyM,GagnonH,etal.Towardsageneralmulti-viewregistrationtechnique[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,1996,18(5):540-547.
[14]RusinkiewiczS,LevoyM.EfficientvariantsoftheICPalgorithm[C]//Procofthirdinternationalconferenceon3-Ddigitalimagingandmodeling.[s.l.]:IEEE,2001:145-152.
Automatic Recognition of Xiaozhuan Fonts
DAI Qiong,ZHOU Ming-quan,FU Qian
(College of Information Science and Technology,Beijing Normal University,Beijing 100875,China)
Xiaozhuan is the language used Qin unified China,and is a major milestone in the development of Chinese characters.In calligraphy,inscriptions,stone carvings,it is abound.However,due to large differences with the modern Chinese characters,most people cannot recognize these Xiaozhuan text.An automatic identification method of Xiaozhuan text by using computer technology is presented.First,the standard and database for Xiaozhuan font is built.Secondly,the Xiaozhuan text image which users want to identify is scaled to the standard size,and then the image is matched with these characters in the standard database of Xiaozhuan font by iterative closest point algorithm (ICP algorithm).Finally,the similarity is computed and the highest similarity ward is selected,that is the output result of recognition.Therefore automatic recognition of Xiaozhuan font is achieved.A lot of experiments have shown this method is effective.
Xiaozhuan fonts;ICP;similarity;automatic recognition
2015-06-20
2015-09-23
时间:2016-02-18
国家自然科学基金资助项目(61170203)
戴 琼(1970-),女,硕士生,研究方向为计算机应用;周明全,教授,研究方向为计算机应用。
http://www.cnki.net/kcms/detail/61.1450.TP.20160218.1638.090.html
TP301
A
1673-629X(2016)03-0001-04
10.3969/j.issn.1673-629X.2016.03.001