基于文字构件的西夏文字体库创建研究

2017-11-20 13:47孟一飞杨文慧谢堂健刘丽萍

电脑知识与技术 2017年26期

孟一飞+杨文慧+谢堂健+刘丽萍

摘要：西夏文是记录古代党项羌语言的文字，共约6000字。在西夏文西夏文数字化发展历程中，如何保存、利用、出版西夏古籍文献，是西夏学者一直以来的研究重点。如何基于Unicode建立一个西夏文True Type字体库并且与其他语言共同录入或输出成为社会各界和出版工作者需要解决的现实问题。在西夏文Unicode编码方案的基础上，结合西夏古籍文字的字形特征，为了保证字形的准确性，充分还原西夏文字的形态，通过基于文字构件的字模设计和True Type字体技术创建了西夏古籍文献字体库，成功地实现了西夏、汉字、英文的同屏显示处理。西夏文字体库的建立对推动西夏文信息处理及西夏古籍文献的数字化有重要意义。

关键词：西夏文；Unicode编码；文字构件；古籍文字字形；True Type字库

中图分类号：TP391.12 文献标识码：A 文章编号：1009-3044（2017）26-0166-03

Abstract：The Tangut script is the record of the ancient party of the Qiang language， a total of about 6，000 Words. In the study of Tangut history and culture in recent hundred years， how to preserve， use and publish the Tangut literature of the XiXia Dynasty has been the goal of several generations of Tangut scholars. How to build a Tangut True Type font library Based on Unicode and input or output it with other languages is a realistic problem that all circles of society and publishing workers need to solve. Based on the coding scheme of Tangut Unicode， this article combines the font features of Tangut characters， In order to ensure the accuracy of the glyphs and to fully restore the form of the Tangut script， through the font design Based on the text component and True Type font technology to create the Tangut font library. It successfully achieved the same screen display of Tangut script， Chinese characters and English. The establishment of Tangut font library is of great significance to promote the information processing of Tangut script and the digitization of Tangut script literature.

Key words： tangut script，；unicode encoding； text component； ancient characters； True Type font library

1 概述

1.1 西夏学与西夏文研究

西夏（1038-1227年）是中国历史上由党项族在中国西部建立的一个政权。在西夏立国前夕，李元昊（西夏开国皇帝）建议创立属于本国的语言，遂仿照汉字创立了西夏文[1]。西夏文字曾在西夏王朝统治的地区盛行，应用范围十分之广泛，如官署文书、法律条例、审案记录、买卖文契、文学著作、历史书籍、字典词书、碑刻、印章、浮牌、钱币、以及译自藏、汉文的佛经等。20世纪在中国历史文献和考古的几次重大发现，使西夏学有了长足的发展。20世纪初期，俄国探险家科兹洛夫前后两次对中国黑水城遗址进行了有组织的发掘工作[2]，发现了大量的西夏文相关的文物和文献资料。其中最為重要的就是被学术界誉为“打开西夏文字之门金钥匙”的一本西夏文和汉语双解词语集《番汉合时掌中珠》，由此催生了一个几乎敦煌学齐名的现代学科—西夏学。国内外多处收藏的西夏文献宝库，这些发现为当今西夏文的研究奠定了坚实可靠的基础，西夏文字已成为西夏文化中最为珍贵的文化遗产，具有很高的研究和传承价值。

1.2 西夏文数字化的发展

西夏文的数字化研究开始于20世纪后半叶，随着信息技术的高速发展和国内外对西夏文研究的不断深入，西夏古籍文献的研究逐渐朝着数字化方向发展[3]。字符制作软件的问世使得西夏文的计算机字符相继生成。随后，各种不同编码形式的西夏文字符集也在各国陆续推出。

在西夏文近百年研究历史中，国内外西夏学研究学者们一直在为西夏文的数字化发展付之努力。在国外最具代表性的西夏文字符集是由日本东京外国语大学亚非语言文化研究院和文字镜研究会开发研制的文字镜西夏文字库和排版系统，但是这套字库从未公开化使用，除了本单位进行使用外，没有授权其他单位使用。同时，由中国台湾中央研究院历史语言学研究所制作的西夏文字符集在21世纪初完成，该研究中心应用该字符集成功设计了西夏文字形属性数据库[4]。

在中国大陆由宁夏大学主持的国家自然科学基金项目，开发并且研制出了《夏汉字处理及电子字典》，这套系统的其中一个课题就是关于西夏文字符集的创立。但由于这套系统的录入方法及其繁琐，难以实现大规模西夏文文献的录入，因此这套系统也没有广泛地被推广使用。但值得一提的是这套系统是当时在国内外首个能够独立完整实现在个人电脑上进行西夏文录入编辑和排版的软件，可以实现不同文字的混排和互译，对西夏文数字化研究具有重要的作用。其中最重要的研究成果是建立了“西夏文字形属性资料库”，并通过数据库的方式对西夏文字频进行了统计学的研究分析，致力于解决编纂西夏文常用字和次用字。endprint

2005年西夏学研究者景永时和贾常业针对现有系统的不足，进行了改进，这就是在学术界非常有名的《基于北大方正典码之上的西夏文录入系统》，该系统通过模仿汉字的楷体字形制作了全新的西夏文字符集。2007年该套字符集被国际标准化组织（ISO）选定为《信息技术通用多八位编码字符集（UCS）》，这套字符集是目前国内外收录西夏文字最准确、数量最大的一套，被国内外众多机构和研究学者所采用。

1.3 西夏文字体库的应用前景

20世纪初，由于帝国主义侵略以及对中国古文物的开采掠夺，使得大批西夏文文献流落国外。在西夏文的数字化发展过程中，如何保存、利用、出版西夏文献，是研究和喜爱西夏学的学者一直努力奋斗的目标[5]。西夏文是历史遗留给我们的文化财富，在现代文明的冲击下，这些古文字逐渐被遗忘或消亡，因此在信息时代创建西夏古籍文字字体库对保护和发扬这些非物质文化遗产具有重要的历史意义，也是促进西夏文数字化发展的基础性工作。现存的西夏古籍文献中，例如碑文、佛经中书写体字形清晰、刚劲有力、美观大方、字距行距安排合理、视觉空间张弛有度，使得文本阅读起来流畅自如，这些古文字形充分展现了西夏文书写艺术的最高水平和当时的文化底蕴，因此开发创建基于文字构件的西夏文字体库能够以文本的形式再现西夏古籍文献中的古文字形，将彻底改变古籍文献“纸书于笔”的传承方式，使得纸质版或者碑文中的古文字形能够以电子文本的方式保存下来[6]，并且充分体现古文字的艺术性和历史韵味。此外，随着西夏文印刷字体广泛应用于文献翻译研究、印刷出版等相关领域，这不仅丰富了西夏文字库的字体形式，赋予西夏文新的发展内容，还扩大了西夏文的使用范围，有利于西夏文的保存、收藏以及传播，加快了西夏文的数字化进程，使西夏学更好地服务于中华传统民族文化和教育事业的发展，让国内外更多的人认识并了解西夏学，充分感受神秘西夏学的魅力。

2 研究现状

2.1 Unicode 9.0与西夏文字编码

2.1.1 西夏文字统一编码之前的西夏字体库

过去曾经存在过不少西夏文字体，比如：景永时字体、韩小忙字体、柳常青字体、日本今昔文字镜字体等。这些字体的共同特点是占用汉字的编码空间，使得这些字体在Word里使用时必须不停的设置字体，否则将会显示为汉字。而且这些字体都互不兼容。如果设置不当则会和汉字混合显示影响阅读理解。另外由于国际标准的不完善以及民间形式多样古文字字库编码方案使用混乱，Windows环境下输入法都在使用独自开发的没有规范化的古文字字库编码，且互不兼容，因此给西夏文与其他语言文化之间的信息交流带来了极大的不便。

2.1.2 Unicode 9.0

在Unicode被广泛使用前，世界上存在着多种编码方式，一种文字也可能有多种编码方案。因此，如果用错误的编码方式解读一个文本文件，就会出现乱码或者显示为问号、空白或方格，给信息的传递带来了极大的不便。随着计算机在全球的发展以及在全球的普及，编码的问题日益重要[7]，人们需要一种更加灵活和统一的编码系统，而Unicode出现解决了ASCII码不能表示的符号问题，它是一种所有符号的编码，每个字符都有唯一标识的二进制编码，任何字符都可以转换成Unicode，以满足跨语言、跨平台进行文本转换、处理的要求[8]{邱发林， 2006 #82}。Unicode编码是目前最完善并且规模最大的字符集，现在可以容纳100多万个符号，每个符号的编码都不一样，比如，U+590F表示汉字“夏”，U+0061表示英语的小写字母a，U+0042表示英语的大写字母B。Unicode已经成为国际软件和多语言环境中主要使用的编码方案，2016年6月最新版本的Unicode是9.0版本。

为了规范西夏文编码方案，世界各国的西夏文研究员积极开展申请西夏文Unicode编码的工作，在2006年美国加利福尼亚大学语言学系Richard博士向国际Unicode组织申请对西夏文分配Unicode编码。在经历了多年的讨论和研究后，Unicode于2016年6月的9.0版本终于收录了西夏文字符。截至目前，Unicode组织为西夏文分配的码位范围从U+17000至U+187EC共5910个字符位，收录了1986年、1997年李范文《夏汉字典》字体（1999年马希荣制作2套字库），韩小忙字体（2004年《西夏文正字研究》所用字体），荒川慎太郎字体（2006年“文字镜研究会”），景永时字体（2008年“西夏文字处理系统”所用字体）等作为西夏文字形数据库[9]。西夏文Unicode編码的建立有效促进西夏文字库的国际标准化，成功解决了西夏文占用汉字码位、汉字和西夏文字同屏显示等问题。本文的西夏古籍文字体库就是基于Unicode编码方案进行创建的。

2.2 目前的西夏文字体库

随着西夏文研究工作的广泛开展和信息化处理技术的快速发展，各种新的文字信息化处理技术应运而生，编码体系也从早期的各国、各民族文字单独编码到当前世界统一编码Unicode码的建立和不断扩充；字体技术从早期的点阵技术发展到最新的TrueType轮廓字体技术，各种新技术的发展为实现西夏文字体库的创建研究提供了可靠的技术支持[10]。目前的西夏文字体库如景永时字体库、日本今昔文字镜字体库等大多是仿制汉字楷体形式的，没有自己独特的笔形特征，因而不能体现西夏古文字所具有的独特美感和艺术性。而本文所要创建的西夏文字体库是基于西夏古籍文献原始图像之上的字库建立的研究，也是传统艺术与现代科技的碰撞结合的产物，最大限度的还原古籍文字的原始韵味，丰富西夏字体库的多样性，突显西夏文字的美感、力道、思想性和艺术性。

3 基于文字构件的字模设计

本文选取了现藏于国家博物馆的“敕燃马牌”中的文字为例，如图 1所示，从文字结构上可以看出，西夏文是从成熟的楷书体汉字的影响下造出来的，吸取了汉字的基本笔画和构字方法，但字形相比汉字较复杂，我国古代的汉文典籍中就有西夏文“字画繁冗，屈曲类符篆”的记载，可见西夏文字的繁杂[11]。本文重点讲述基于文字构件的西夏字体库创建的过程，首先设计字模符号，为了保证字形的准确性和原始性，完全遵循史料中的文字笔形设计文字构件，各个部分利用Adobe illustrator软件（是一种应用于出版、多媒体和在线图像的工业标准矢量插画的软件）矢量化，然后全部添加到Illustrator符号库中，如图 2所示。endprint

文字构件处理完之后，接下来就是将这些符号进行任意重组，就可以得到不同的西夏文字，此时，重组后的西夏文也是矢量字体，将字体保存为.ai格式。下面图 3展示的矢量重组后的西夏古文字：

4 创建True Type西夏文字体库

TrueType是一款包含字形压缩、还原等整套字形处理技术，它与汉字系统普遍采用的Post Script字形技术相比有更好的字形和更快的还原速度。该字体采用直线和二次Bezier曲线来描述字形轮廓，克服了点阵字体、矢量字体和向量轮廓字体显示、处理易失真的缺陷，能够平滑连接每个字体轮廓的曲线和线段，使得任意放缩大小字模都不出现变形结果[12]。将上述过程中处理好的字模，导入到Font Creator软件中，Font Creator是一款可以制作和编辑字体、符号的工具，主要功能包括：查看和编辑TureType 和OpenType字体、创建新的符号或字体、修改单个字形的轮廓、添加或编辑合成符号、调整字符距离、编辑修改字体名称和转换单个字符或整个字体等，是文字更加规范美观。

在FontCreator中将导入的ai格式的字模进行缩放、旋转、动等处理后导出，就可生成一个格式为.ttf的True Type字体文件，这一过程相当于进行人工修饰，使古籍中文字所包含的力道与美感表现出来，这些过程电脑程序则无法自动实现。每一个西夏文字形都由一组Bezier曲线构成，如图 4所示，可以通过添加、删除或调整Bezier曲线上点的位置这些操作对字形进行修整、美化和平滑轮廓。然后可以设置字体参数，如字模的大小、位置、轴线等。最后按西夏字库编码表确定该字形的Unicode字符集中的编码值，西夏文的Unicode编码标准规定西夏文的编码介于U+17000至U+187EC之间。所有字符制作完成并导出字体后就完成西夏文TrueType字體库的创建。

5 西夏文字体库的安装与使用

将导出的字体库双击，可以直接安装到Windows系统的字体库里了。需要注意的是，在使用本字体库之前，需要安装一个西夏文输入法。

按Unicode编码体系进行编码后生成的西夏文TrueType字体库安装到Windows系统中后，就可随意使用这个西夏文字库了。在Word文档中，字体一栏选择新西夏文字体，切换到西夏文输入法，按每个文字对应的编码来输入该西夏文字，在Word界面显示的西夏文如图 5所示：

6 结论

在数字化技术越来越发达的当代社会，传统文化研究学者也越来越不拘泥于在纸制品上研究中国古文字。本文的西夏文字体库是基于西夏古籍文献原始图像进行创建的，充分体现中华传统文化与现代科技的完美融合，该字体库能够真实的再现古籍文献中西夏文字的笔形原貌，较好地保持西夏文原有的韵味与美感，有利于传统文化的传承和发扬。西夏文字体库的建立，为西夏文国家标准字库的建立提供了有益的参考，同时对于西夏古籍文献的保存和收藏以及西夏古籍文献的数字化发展有一定的促进作用，对于其他少数民族语言文字的字体库建立也提供了借鉴和参考。本文研究的目的就是使西夏文可以更加方便快捷使用和研究，并且作为中华文化遗产可以更长久的保存下来。本文所讲述的方法虽然简单，但是工作量巨大。相信随着时间的推移，会有越来越多的更加快捷简便的方法可以将中华古老文化永恒的流传下来，让整个世界都能体会到中华文化的博大精深。

参考文献：

[1] 史金波. 西夏文概述[C]. 中国民族古文字研究， 1980.

[2] 束锡红，府宪展. 英藏黑水城文献和法藏敦煌西夏文文献的版本学价值[J]. 敦煌研究， 2005（5）：48-53+120-121.

[3] 景永时. 西夏文数字化的现状与未来[J]. 西夏学， 2011（1）.

[4] 柳长青. 西夏文计算机数字化现状与展望[J]. 西夏学， 2011（1）：204-209.

[5] 导夫. 基于方正书版（Founder BookMaker9.X/10.X）的西夏文字处理技术研究[J]. 宁夏大学学报：人文社会科学版， 2005（2）：89-94.

[6] 吴勰. 贵州古彝文True Type字体开发与设计[J]. 毕节学院学报， 2012（11）：30-33.

[7] 钟小莉，谢旻旻，李永宁. 文字编码与Unicode编码研究[J]. 经营管理者， 2010（20）：364.

[8] 瓦热斯江·阿布都克力木. 维文Unicode在线处理技术与实现[D]. 新疆大学， 2002.

[9] 柳长青. 西夏文古籍字库建立研究[C]. 黑水城文献与西夏学国际学术论坛， 2010：7.

[10] 张浩华. 纳西象形文字信息化处理方法及输入平台的设计与实现[D]. 昆明理工大学， 2003.

[11] 吕科. 西夏文字库的建立与实现[J]. 宁夏大学学报：自然科学版， 1998（3）：75-77.

[12] 吴海辉，樊庆林，王虎. TrueType字体技术的研究分析与应用[J]. 电脑知识与技术（学术交流）， 2007（3）：783-784+794.endprint