○宝美荣
(内蒙古师范大学图书馆,内蒙古 呼和浩特 010022)
利用现代信息技术进行民族文献的数字化对极其宝贵的民族文献资料保存并有效利用、广泛传播等具有深远的意义。中国蒙古文现代图书近3万种,期刊150多种,古籍1.5万种,收藏蒙古文文献的各级图书馆400多家,所以蒙古文图书文献资源丰富且地域分布广。所以建立统一的蒙古文文献数字化共建、共享平台是非常有必要。随着软件硬件技术的不断发展对文献数字化建设提供了良好的环境和平台。因此蒙古文文献的数字化工作越来越受到人们的重视。
从技术层面分析,目前各高校图书馆使用的蒙古文文献管理系统不尽相同,如汇文、金盘等。而且各个系统之间不兼容,导致对资源的共享带来很大的困难。而文献数字化的最终目的是资源的广泛共享。实现共享要需要统一的文献管理平台。其根本的统一在于蒙古文编码。由于蒙古文编码国际标准制定较晚(2002年)导致多种编码(形码、音码等)并存,编码不统一,对资源共享带来一定的障碍。
从语言本身分析,蒙古文是一种复杂的拼音文字。也是唯一从左到右、从上到下竖排的文字。这个特点对文字处理技术带来了一定的难度。除此之外,蒙古文中存在一音多形、一形多音等现象,因普通用户很难100%正确掌握,文字录入过程中难免会出错,所以会影响检索效率。
从编码角度分析,自从蒙古文编码国际标准制定之后大部分蒙古文信息处理系统都遵循国际标准编码。微软从vista系统开始支持基于OpenType蒙古文字库的传统蒙古文输入法。这对蒙古文文献数字化提供了统一编码的良好平台。
但是,这套OpenType字库中一些规则没有遵循蒙古文语法规则,导致控制符使用繁杂,加大了用户输入蒙古文时的不必要的复杂性。所以文本重点分析了蒙古文OpenType字库中存在的问题并提出了优化方案。
蒙古文编码国际标准由有码位的“名义字符”和无码位的“变形显现字符”两部分构成。所以显示正确的蒙古文文字时必须考虑到名义字符和变形显现字符之间的映射。而这种映射关系应该用语言知识和语法规则体现出来,从而达到正确选形的目的。对于语言知识和语法规则无法区分的情况,通过输入附加控制符来标识。OpenType字库技术恰好可以解决此问题,字库设计者主要利用OpenType布局(Layout)表设置布局规则,体现名义字符和显现字符之间的映射关系。蒙古文OpenType字库主要涉及布局表中的字形替换(GSUB)表。
为了支持蒙古族、藏族、维吾尔族等复杂的少数民族语言文字,微软在Vista及Win7系统中设计实现了一套完全符合Unicode编码标准的蒙古文OpenType字库(蒙古文白体)并附带了蒙古文读音输入法,基本能满足蒙古文输入的需要。输入蒙古文时如果频繁使用控制符会给普通用户带来不必要的困难。如蒙古文控制符种类多、用法繁杂难于记忆;发音不标准的用户会输入显现字符正确而编码错误的信息;在编辑操作及网络传输过程中控制符会发生失去控制能力、控制符丢失等现象而导致显现字符不正确。因此,从名义字符到变形显现字符的转换规则应当尽可能利用蒙古文的拼写规则与语法规则,只有在拼写规则、语法规则无法区分的情况才使用控制符来标识。即应该按照“不用控制符”或“尽量少用控制符”的原则来建立字库布局规则。从而减少控制字符带来的副作用,使蒙古文读音输入更加便捷。
在蒙古文编码国际标准中定义了蒙古文所需的特殊控制字符如表1示:
表1 蒙古文控制字符及其功能
这些控制字符主要用在蒙古文字符前后来一起确定字符的正确变体。微软蒙古文Opentype字库中主要存在的问题是辅音GA与HA的变体选形规则不完备。
该布局规则没有完全遵循元音谐律及辅音谐律语法,导致一些词必须附加控制符才能正确输入(选形),主要体现在表2中的阴性变体的选择上。如图1至图3所示:
表2 辅音GA与HA的变体字符列表
图1 规则不符合辅音和谐律
图2 规则不符合元音谐律
图3 规则没有考虑强制性合体字
以上图中的正确词形只有在附加输入控制符时才能得到。实际上,在蒙古文语法辅音谐律中规定辅音字符“GA”的阴性词中形式只出现在阴性词中。图1中词的第一个字符(阴性元音U)就完全可以决定选择辅音“GA”的阴性词中形式,无需再用控制字符来确定。同样,图2没有遵循元音和谐律,一个词中出现了两个中性元音,那么这个词就属于阴性词,就应该选择表1中辅音GA的阴性词末形式,也无需用控制字符来确定。图3规则除了包含 等阴性元音外,还应该包含 等辅音与阴性元音组合的强制性合体字符,就能完全覆盖所有可能上文,就可不需要附加变体选择符了。
从方便用户和尽量少用控制符的原则出发,对微软蒙古文OpenType字库中的显现规则进行优化,具体实现方案如下:
利用 Microsoft公司提供的字库制作工具 Volt,通过Lookup关系表中的上下文替换,可以指定在哪个(些)字符的前面或后面出现该字符时,映射成该字符的哪个变形显现形式。为方便起见,将在该字符前面出现的字符总体称为前缀,后面出现的字符总体称为后缀。
图4 优化后的字符“GA”的阳性词中形式到阴性词中形式转换规则
图4是优化后的从辅音字符“GA”的阳性词中形式到阴性词中形式的上下文转换规则。主要优化了前缀和后缀,其中前缀calt6扩充了的阴性元音与阴性强制性合体字符词首、词中形式,前缀g-81-1包括了中性元音词中形式,后缀g-81-2包括了阴性和中性元音词中、词末形式,后缀calt39包括了辅音字符词中、词末形式。标准ISO/IEC 10646于2000年2月通过,“从理论上,结束了由于没有统一的编码,无法共享资源的困境”。目前,蒙古文编码国际标准的实现和应用还存在推广缓慢和应用不广等问题。通过面向普通用户优化字库中控制字符的规则,尽可能减少输入中控制字符的类型和数量,简化输入操作方法对推广和普及蒙古文国际编码标准具有现实意义。有了较完善的标准字库对蒙古文文献的数字化共建、共享会提供良好的基础平台。
图5 微软字库中字符“GA”的阳性词中形式到阴性词中形式转换规则
图5中显示的是微软蒙古文OpenType字库中关于字符“GA”的阳性词中形式到阴性词中形式转换规则,与图4中的规则相比过于复杂,没有合理的利用语法规则,而且忽略了强制性合体字是一个“整体”的概念,前缀和后缀中没有包含强制性合体字而导致了图1~3中的错误词形。
在国内外专家学者机构的共同努力下,蒙古文编码国际
[1]苏日娜.蒙古文古籍文献数字化建设探析[J].图书情报工作,2012(2):112-114.
[2]鲍玉来,刘学洪,刘川.蒙古文文献数字化理论与技术研究思路[J].科技成果管理与研究,2009(1):83-85.
[3]确精扎布.蒙古文编码[M].内蒙古大学出版社,2000.
[4]清格尔泰.蒙古语语法[M].内蒙古人民出版社,1991.
[5]乌达巴拉,巩政.蒙古文OpenType字库制作技术[J].内蒙古大学学报(自然科学版),2006,37(5):570 -573.
[6]萨日娜,嘎日迪,赵小兵,林民.蒙古文OpenType字库技术研究[C]//第十一届全国民族语言文字信息学术研讨会论文集.2007:217-223.
[7]姚延栋,吴健,孙玉芳,呼斯勒.传统蒙古文变形显示截至研究与实现[J].中文信息学报,2004(2):66-72.