面向信息处理的彝文搜集与规范整理研究

2017-03-28 17:17
楚雄师范学院学报 2017年5期
关键词:彝文字型古籍

吴 勰

(贵州民族大学西南夜郎文化研究院,贵州 贵阳 550025)

面向信息处理的彝文搜集与规范整理研究

吴 勰

(贵州民族大学西南夜郎文化研究院,贵州 贵阳 550025)

基于彝语文前期研究成果和彝文古籍文献彝文字全面搜集整理,经过充分的科学论证,对彝文字进行甄别、查重、筛选和规范整理,解决彝文信息技术开发的用字问题,是信息时代彝语文的主要研究任务之一。

信息处理;彝文字符;搜集整理;规范化

彝族文字在历代汉文地方志史中,多称为“爨文”“韪书”“罗罗文”等,[1](p153)通常称为“彝文”。现在我国彝文分为传统彝文 (或古彝文)和规范彝文两种。 “贵州是彝文发祥地,也是彝文的主要流传区域”,[2]贵州境内使用的是传统彝文。本文在彝文信息处理的前期研究成果基础之上,深入开展彝文搜集、规范整理研究,进一步完善彝文编码字符集和彝文字型标准,为彝文信息技术开发奠定基础。

一、现状

(一)字量

彝族文字是彝文信息处理研究的基础。据不完全统计,贵州地区有彝文字两万余个。[3]基于彝文信息技术开发需求,从2012年开始贵州进行了彝文整理专项研究工作,这一阶段研究团队主要利用学界彝语文研究成果,开展彝文字整理工作。以贵州 《简明彝汉字典》、彝语文教材为整理样本,同时参照 《滇川黔桂彝文字集·贵州卷》,连续4年开展彝文整理与编码字符集研制工作,到2015年整理出9000余字的彝文字,建立了 《信息交换用彝文编码字符集·大字符集》,这项研究成果解决了贵州彝文基本用字问题,研究团队以该字符集为蓝本开发出彝文计算机笔画输入法软件。前阶段彝文软件在日常办公、彝语文和部分彝文古籍文献整理、翻译等领域得到有效应用,为发展贵州彝文信息处理学科奠定基础。但随着彝文古籍文献数字化工作深入推进,同时依据该软件在不同用户中实践应用反馈情况,归纳彝文整理规范中存在的不足与问题。

首先,彝文字量不能完全满足彝文日常用字需求。彝文软件开发以后,研究团队对该软件进行大量测试,发现字符集中缺少部分常用字。如 “、、、、、、”。以上彝文字是彝文字形系统中必不可少的常用字,缺少这些字就直接导致彝文表达系统不完整,彝文也就得不到有效使用。据此,前期研制的彝文编码字符集还不完善,需要进一步增补彝文字量,完善彝文字形系统,才能满足彝文日常应用。

其次,彝文古籍文献中还有大量彝文字符没有整理。贵州省的彝文古籍文献藏书有近万部。[4](P4)由于贵州彝文古籍文献藏量大,前期彝文整理成果仍不能完全满足贵州彝文古籍文献的数字化翻译整理用字需求。

目前彝文古籍文献用字分为已经整理出版彝文文献和还未整理彝文古籍两个方面。首先笔者选取已经出版的具有代表性彝文古籍文献如 《西南彝志》《彝族源流》《物始纪略》等进行用字测试,用彝文软件对照文献逐字逐句的录入,测试出已出版彝文文献中彝文用字需求情况分为两种:一是文献中仅有部分彝文还没有整理。如 《西南彝志》全26卷中,每卷均有10—20个彝文还没有搜集整理;二是由于彝语各土语区差异化影响,导致各地区彝文古籍文献用字不同。如乌撒地区 《物始纪略》整部文献还有四分之一彝文字没有整理。另外,对于还未整理彝文古籍中每部文献均还有彝文没有整理。

(二)字形

目前笔者对贵州传世彝文古籍文献中用字情况进行整理,主要基于已经出版的传世经典彝文文献 《西南彝志》全26卷中彝文用字情况进行系统梳理,总结彝文字形中存在问题。

第一,不同笔画在同字形中存在大量混用情况。在彝文古籍文献中不同笔画在同字形中存在大量混用情况,这也是造成彝文异体字多的主要因素之一。如 “、(、)①在 《西南彝志》一、二卷中 “、”,字音和义项一样 (ha33),分别有6处用(338、339、345、412、423),有5处用(56、68、129、176、239)。,、(,),、(),、(),、(),、(,)。

第二,笔画增减现象突出。无论是在日常应用还是在彝文古籍文献中,相同彝文字形在同一文本不同地方经常出现笔画增减现象。这除了彝文使用者书写不严谨以外,也是手写字体应用的常见弊端。如 《西南彝志》十七、十八卷中、(kɯ21)两个字形的读音和义项相同,他们之间存在增减笔画差距,其中这两卷文献中有7处用,有9处用②《西南彝志》十七、十八卷中有7处用(30,、32、146、177、178、、184、352),有 9 处用(84、103、140、144、154、157、158、159、237)。,可见文献中彝文笔画增减现象严重性。

第三,相同笔画因不同组合方式而组成不同部首。彝文字受手写字体所限,同字型中相同笔画间因 “相离、相接、相交”不同组合方式,进而构成不同字形。如在 《西南彝志》一、二卷中、(və21)③《西南彝字》一、二卷中5处用(və21,59、117、160、209、238),6 处用(və21,44、204、256、271、349)。两个字形,因书写中、两个部首相交构成,相接构成,分别与组成两个字形。

第四,笔画长短引起字型结构变化。彝文主笔画长短往往直接影响整个字型结构,特别是笔画数少的字形。容易混淆字型结构在 “半包围结构与左右、上下结构”之间。如上下结构字型 “”中的 “”笔画拉长就变成包围结构字型 “”;左右结构字型 “”中的“”笔画拉长变成交叉结构字型 “”。

上述彝文字型使用中存在问题,在彝文字体使用中很多现象是交叉并存,情况较为复杂需要对彝文字形系统中存在问题进行详细梳理,才能做好彝文字形规范工作。

二、彝文字搜集

(一)对彝文常用字进行查漏补缺

对 《信息交换用贵州彝文编码字符集·大字符集》中常用字进行系统梳理,查找出彝文字形系统中没有常用字。如表示数目的1—10基数词中缺少表示基数词2的 “”字。研究团队对贵州前期彝语文成果中常用字进行全面查漏补缺。如1983年彝文统编教科书 《彝文》试用教材1—6册,2012年 《汉彝语文》1—2册,2009年 《彝文字释》,2012年 《彝汉双语语汇 (贵州盘县次方言)》,1991年 《简明彝汉字典 (贵州本)》,以上著作是贵州彝语文的常用教材和工具书,这些书籍均有常用彝语会话和常用彝文单字。对上述书籍中列举彝文单字逐一查出字符集中没有收录字,通过大规模查漏补缺,全面整理彝文常用字,完善彝文常用字系统。

(二)全面搜集整理彝文古籍文献中彝文

从古至今,彝文古籍文献主要是通过彝文字来记载的,同时彝文古籍文献里的彝文字也是彝文古籍文献的主要内容之一。彝文古籍文献是彝文字最直接的传承方式,因此彝文字整理须把彝文古籍文献作为选字蓝本。由于彝文古籍文献的数量太大,无法实现把所有彝文古籍文献都当作选字范畴,只能选择彝文传世经典文献作为选字范本,对整理文本进行定量。贵州彝文传世经典文献中首屈一指的要数 《西南彝志》《彝族源流》等,这是目前贵州彝文古籍文献整理、翻译印刷出版的精品,这些文献在全国产生重大影响,成为学界研究彝族历史和民族传统文化的史料,这些彝文古籍文献也是学习研究的常用范本。因此,现阶段彝文古籍文献中彝文字整理,以 《西南彝志》全26卷和 《彝族源流》全26卷等2部贵州传世经典彝文古籍文献为主要蓝本,尽可能地向其他彝文古籍文献扩展,尤其是尚未翻译整理的彝文古籍。

目前彝文古籍文献中彝文字整理情况如下:一是 《西南彝志》全26卷彝文详尽整理,搜集出400余字彝文;二是贵州六盘水市档案局馆藏彝文古籍 《彝文通书》,该部古籍保存完整共130页,全文有7万余个彝文字,整理出300余字;三是 《彝族源流》全26卷,共整理出500余字;四是其他彝文古籍文献经典著作如 《物始纪略》《宇宙人文论》等,以及贵州工程应用技术学院馆藏部分彝文古籍,工作人员正深入开展整理这些彝文古籍中的彝文单字。

(三)对不同土语区彝文字适量增补

贵州富藏彝族历史文化资料和彝文古籍文献,研究人员无法对海量彝文文献资料进行穷尽式整理。笔者深知研究人员掌握彝文资料有限性,因此采取了与贵州各土语区长期从事彝文古籍文献翻译工作的资深彝文专家合作的方式,请他们搜集整理出各自在彝文古籍文献翻译中遇到的彝文字,这些字在 《简明彝汉字典》《彝文字释》等工具书没有收录,但在这些土语区彝文古籍文献中经常出现。同时对不同地方搜集的彝文字符进行查重、甄别、规范。总的来说,以上举措不仅能弥补研究人员掌握彝文资料的不足,同时能有效加强彝文搜集整理力量,有助于提高彝文搜集整理质量。

三、彝文字形规范

彝文字与汉字一样属于方块字型,在彝文字形规范中借鉴汉字成熟经验和做法,在整理中需遵循以下原则:“笔画、部件的确立要科学,保持同笔画和部件的高度统一,不同的笔画、部件间要保持足够的区别度,注重整字的稳定性和系统性”。[5]本文针对彝文手写使用中存在的问题,从 “笔画部首和整字”两方面开展彝文规范工作,正确处理好 “笔画部首和整字”之间的关系,确保字形的正确性和科学性,这是字形规范的基本要求,同时还要注重整字的稳定性和系统性。

(一)彝文笔画部首规范

首先,笔画部首。笔画是彝文字形的基础要素,也是彝文字形规范的基础,彝文字形规范须从笔画开始。规范彝文笔画就是要明确字形中每个笔画,要保证字形中每个笔画形状的正确性。对于不同笔画在同字形中混用情况,对手写笔画要甄别选择,要把文献中使用率高的笔画作为规范笔画。如 “和”两个笔画在手写字体中容易混用,在 《西南彝志》一、二卷中共有22处使用,即笔画。而在 《彝族源流》只有两处使用,即笔画。因此在这组、混用笔画中应规范为“”笔画。

其次,笔画数。在笔画规范情况下,字形中彝文笔画数目自然也就规范好了。但彝文文献中时常出现手写同一字形在同一文本中不同地方出现个别笔画增减现象。不能把增加或减少笔画的字形误认为另外一个字形,而是要对照文献中文字的读音和义项,选择正确笔画数目的字形为规范彝文字形。如在 《西南彝字》一、二卷中332页用(ʦ‘γ21),而在同卷348页少了横点,因此应把该字形规范为5画。

第三,笔画部首间组合关系。彝文字形中不同笔画间组合关系有 “相离、相接、相交”三种,相同笔画因不同组合关系而构成不同字形。如在包围字型中、相接组成,相交组成,进而组成两个不同字形(nde21,平整)、(nde33,游逛、走窜),可见笔画部首间组合关系的重要性。在彝文文献中 “相交和相接”笔画间最容易混淆,需要严格规范才能确保彝文笔画部首间组合关系正确、合理,这是彝文字形规范的基本要求。

(二)彝文字型

第一,以彝文字型为基础,搭建好字型的基本骨架。如同建造房屋一样,只有搭建好基础框架,才能添砖加瓦。即搭好字型主干,为笔画部首在字型中组配做好框架工作。彝文为“方块”字型,同时兼有少部分圆形字。总的来说,彝文字型有 “独体结构、上下结构、左右结构、包围结构、交叉结构、上左下右结构”等六大结构类型。在彝文字型结构中,很多字型是上述六大结构的综合,如 “”字型是上下结构中含有左右结构,“”字型是左右结构中含有包围结构。要在彝文基本字型结构基础之上,综合掌握字型结构要素,正确处理混合字型结构,搭建好字型的基本骨架,才能规范好彝文字型。

第二,做好彝文字型结构中主附笔画间搭配关系。彝文除基本字型结构外,还有大量主附笔画交叉使用字型。要以主笔画为基础,恰当地处理好附属笔画,同笔画如果在字型结构不同位置出现就成为不同字形。如附笔点画、分别放置在主笔“上下、左右”不同位置就构成不同字形,如(tu33,千)、(to33,雄性)、(ti33,十一)。

第三,要保持笔画间平行性。在彝文字型结构中部分彝文笔画部件间要保持平行性,尤其是 “上下和左右”笔画间平行性特征强。如上下笔画、间保持平行构成,左右笔画、平行构成。

(三)彝文字距、篇章

字形规范除考虑单个字形外,还要兼顾字与字之间的距离,以及字与篇章关系。要在彝文传统视觉审美和阅读习惯基础之上,同时也要考虑印刷字形在计算机中的编辑排版数字化应用,处理好字与字之间的间距。另外,还要考虑不同文字与标点符号组成句子、段落、篇章方面的整体效果。只有把字与字、字与篇章间整体组合关系正确调整好,才能保障彝文使用的稳定性和阅读性。

四、彝文整理

前期彝文字整理主要集中在彝语文研究成果基础之上,基本完成彝文常用字、次常用字以及部分异体字整理工作。现阶段彝文字整理以前期成果 《信息交换用贵州彝文编码字符集·大字符集》为起点,基于传世彝文古籍文献对贵州境内流传使用的彝文字进行全面、系统整理,扩展彝文编码字符集,进一步解决彝文信息处理学科中用字难题。

(一)整理原则与方法

彝文整理总体原则为 “有用性”,要求进入彝文编码字符集中的彝文字要在日常、教学、古籍文献等方面能得到有效应用,而不能选择已经没有使用的文字,更不能滥竽充数,随意整理错误文字。这一原则不仅是彝文字整理的基本要求,也是文字整理工作的出发点。

在大原则总体要求下,彝文规范整理中具体指导原则为 “源自古籍、保持风貌、字形美观、便于书写、符合用字规律”。要求从彝文古籍文献和彝族历史文化资料中搜集彝文字,从源头上保证彝文整理质量。同时要求彝文保持传统书写风格特征,符合彝族审美价值,使规范整理后的彝文符合彝族用字规律。

在整理方法上,研究团队充分利用前期彝文信息技术开发成果,使用彝文输入法软件对整理蓝本中的彝文进行逐字逐句录入,对文本中没有的文字进行详细标注,对该字形进行甄别,然后对照前期建立彝文编码字符集,确定字符集中没有该文字后择定好彝文字,接着标注出文字的读音、义项、笔画等基本属性,再按照彝文的读音和偏旁部首做好彝文字形排序工作,依次进入字符集。

(二)建立 《信息交换用贵州彝文编码字符集·超大字符集》

对于从不同文献和土语区搜集出的彝文单字,结合前期建立的彝文编码字符集,对彝文字进行系统整理。首先要对不同阶段搜集到的彝文字进行剔重整理。对近5年陆续搜集整理的彝文根据前期建立彝文笔画部首系统把每个彝文单字归入相应类别,依照笔画部首类别查找出不同批次搜集到的彝文字重复字符,确保彝文字符的唯一性,这是彝文字符整理的首要工作。其次,在新整理出的彝文字基础之上,对彝文构字笔画部首进行系统梳理,查找和归纳出尚未整理的构字部件,扩展彝文笔画部首系统。第三,对整理彝文字符依照其在各种工具书、历史文化资料和彝文古籍文献中使用的频率,把字符分为常用字、次常用字和异体字等不同级别,进一步扩展彝文编码字符集,建立 《信息交换用贵州彝文编码字符集·超大字符集》,完成彝文编码字符集扩展工作。

(三)标注彝文属性

在彝文字整理基础之上,需要理清文字间的字际关系,标示出彝文的读音、义项、偏旁部首、文字出处等基本属性内容,标注出 《新整理的彝文字符属性》。依据彝文读音和义项对彝文进行归类整理,彝文基础属性为彝文字形整理提供支撑基础,彝文属性标注是彝文整理的基础和依据,也是彝文整理的重要成果。

五、价值及意义

随着信息技术飞速发展,开展彝文信息处理研究工作,改变彝文手写使用现状,使彝文以新兴数字化方式使用和传承,是大数据时代的必然要求。因此,全面深入搜集、规范整理彝文具有重要的社会价值及意义。一是在完善彝文常用字系统的同时深入扩展彝文古籍文献翻译整理用字需求,全面反映彝语文用字的真实情况;二是在扩展 《信息交换用贵州彝文编码字符集.超大集》基础之上,全面扩展彝文计算机字库,满足彝文计算机用字需求;三是彝文规范克服彝文手写字体应用随意性,实现彝文规范化应用。总的来说,彝文字作为彝文信息处理学科的基础性研究工作,现阶段深入开展彝文字搜集、规范整理研究,解决彝文信息处理中的 “字”问题,为彝文信息技术开发奠定坚实基础。

[1]李平凡,马昌达著.贵州彝族传统文化调查研究 [M].贵阳:贵州教育出版社,2012.

[2]吴勰.贵州彝文印刷字形规范浅析[J].毕节学院学报,2013,(11):41—44.

[3]王继超.解码历史:彝文价值及整理[J].当代贵州,2013,(16):28—31.

[4]陈乐基,王继超主编.中国少数民族古籍总目提要·贵州彝族卷 (毕节地区)[M].贵阳:贵州民族出版社,2010.

[5]连登岗.汉字字形系统与印刷字形规范 [A].厉兵.汉字字形研究 [C].北京:商务印书馆,2004:52—55.

The Collection and Standardization of Yi Characters in Information Processing

WU Xie
(Southwest Yelang Culture Research Institute,Guizhou Minzu University,Guiyang,550025,Guizhou Province)

We should collect and arrange on the base of Yi preliminary research results and ancient books.After the sufficient and scientific proof,we will identify,duplicate,screen and standard Yi characters,this will solve the problem of Yi characters about Yi information technology.

Information processing;Yi characters;Collection;Standardization

H217

A

1671-7406(2017)05-0087-05

2016年度国家语委语言文字科研项目优秀成果后期资助计划项目 “基于彝文古籍文献的贵州传统彝文字符整理及其输入法软件开发研究”(项目编号HQ135-7)。

2017-08-01

吴 勰 (1983—),女 (彝族),贵州民族大学西南夜郎文化研究院副研究员,研究方向为彝文信息处理。

(责任编辑 徐彩玲)

猜你喜欢
彝文字型古籍
中医古籍“疒”部俗字考辨举隅
彝文经籍《祭龙经·祭彩虹经》中的敬畏自然观研究
关于版本学的问答——《古籍善本》修订重版说明
关于古籍保护人才培养的若干思考
“工”字型气体静压主轴的动力学特性研究
贵州彝文信息技术研究概述
我是古籍修复师
设施克瑞森无核葡萄“厂”字型架式栽培关键技术
冬小麦“井”字型播种模式的研究探讨
“一字型”折叠翼展开试验与仿真验证分析