刘永革,李 强
(安阳师范学院 甲骨文信息处理教育部重点实验室,河南 安阳 455000)
甲骨文是迄今为止中国发现的年代最早的成熟文字系统,是汉字的源头和中华优秀传统文化的根脉。从发现甲骨文至今120年间,甲骨文的研究从早期的冷门绝学到现在慢慢受到更多人的关注,特别是信息化技术的介入,将加快甲骨文的研究进展。
早期人们研究甲骨文的重要资料多数为纸质的出版物,为信息检索造成了诸多不便。现在随着古籍信息化处理以及信息技术的发展,越来越多的甲骨文研究转移到电脑和网络上进行,那么如何把甲骨文输入到电脑中,就显得特别重要。甲骨文输入法的研究将直接影响到当前数字化网络时代下能否十分便捷地进行处理、出版甲骨文文献,以及使广大甲骨文学者、专家和爱好者方便地传播与交流甲骨文的相关研究成果。所以,甲骨文输入法在甲骨文信息处理领域中起着特别重要的作用。
通过收集整理甲骨文输入法的文献资料,我们发现甲骨文输入的方法主要分两大类。
编码是一串数字或字符,这类输入法是人为地对每个甲骨字分配编码,用户通过输入编码就可以把甲骨字输入到计算机中。这类输入法的关键是如何给每个甲骨字编码,根据编码的关注点,编码类里有形码和音码两种方法。
2.1.1 形码
形码是目前最多的甲骨文输入法,该方法通过分析甲骨字的几何形状与相对结构,借助当前汉字的结构处理方式,结合甲骨字的特征,对甲骨文进行析构并编码,从而达到对应唯一的甲骨字,进而完成输入。只有对所要输入的甲骨字完成精准的析构才能得到正确的结果。这种方法的缺点是需要使用者对甲骨字的字形结构有较为完善的认识。对这种编码使用方式需要熟练应用,因此,学习成本较大,难于推广和应用。
1995年,华中师范大学的研究人员徐松开发了甲骨文象形码输入法[1]。该输入法是属于编码输入法,其应用了26个英文字母和9个阿拉伯数字与甲骨文中500多个字根和码元相对应,建立了一个编码映射表从而实现了可使用键盘输入字符的方式输入甲骨文。该输入法通过应用合理的算法具有输入速度较快,输入查找对应甲骨字十分精准等优良特性。但其缺点也较为明显,使用者必须牢记其编码规则和字根表,这就为输入者造成了极大的使用负担与学习成本,不利于其输入法的推广和应用。
2010年,聂艳召和刘永革研发了甲骨文自由笔画输入法[2],该方法把甲骨文的字形拆分为9种键元(点、横、竖、撇、捺、弯、框、曲、圆),在输入时无需对编码的顺序有任何要求,只要可以正确的拆分待输入甲骨字的笔画,则可以根据笔画对应的编码键元完成此甲骨字的输入,所以这种输入法叫“自由笔画”输入法。但是,该输入法仍有缺陷,需要用户对甲骨文字进行准确的拆分才能完成输入,这仍然需要使用者掌握一定的甲骨文知识或至少需要少量研究甲骨文的相关经验。
2011年,由刘志祥等人所开发的字形编码型甲骨文6位数字码输入法获得了专利。该输入法设计思想为将众多的甲骨字按照3种笔画结构进行拆分:封闭曲线笔画和其延长线结构、交叉笔画结构、离散笔画结构,并编制了一种全新的甲骨文字形编码,用以检索甲骨字并实现输入,该字形编码类似于汉字检索的四角号码。本输入法通过自行设计的六位字形码可以实现精确的输入甲骨文字,同时还可以输入异形体,这较好的满足了使用者输入任意存在甲骨字的需求。同时,本输入法还具有其配套的已出版的学习参考资料,并可以随意下载其所开发的甲骨文六位数字码输入法并使用,这为使用者提供了一定的便利。但是,本输入法的使用规则属于人为设定,使用者必须对使用规则进行学习并熟记掌握,否则在使用时容易出错,以及若没有长时间的甲骨文解构经验,则索引时更容易由于析构出错而无法获取所需结果。这无疑增加了使用者的学习负担。
2012年,安阳师范学院栗青生等研究人员共同研发了基于甲骨文字形动态描述库的甲骨文输入方法[3]。该输入方法给出了一种甲骨文字形动态描述的方法。该方法在现代汉字的编码和书写规范基础上,使用有向笔段和笔元对甲骨文进行描述,用扩展的编码区域和外部描述字形库相结合的方式,成功解决了甲骨文字特别是异形体和未识甲骨文字的输入和输出问题,在甲骨文异形体的输入方面具有重大意义。应用本输入法输入甲骨文或其异形体时,对于已破译的甲骨字来说,每次输入需要根据已经破译的甲骨字的对应简体字找到此甲骨字,然后通过检索数据库将此字的所有异形体进行输出。这使得使用者必须对甲骨字的知识相当熟练,以至于每个甲骨字所对应的现代汉字均十分清楚才可以完成输入,这无疑给用户输入造成了一定困难。而对于未破译的甲骨字则需要通过给定的甲骨文字形描述库进行逐个的检索,进而找到待输入的甲骨字后再进行下一步的输入处理。但由于当前已破译的甲骨字在所有已知的甲骨字中所占的比例并不大,这就使得用户多数时候均需要通过逐个检索的方式输入甲骨字或异形体,这势必造成用户输入甲骨字时需要花费的精力十分巨大,从而丧失其一定的实用性。
2.1.2 音码
音码就是通过类似拼音输入汉字的方法输入甲骨字,但由于甲骨字现阶段很多字不认识,更不知道读音,所以这种输入方法的缺点是只能输入已识甲骨字和部分已释甲骨文字。这种输入方法是建立在拼音输入法的基础上,所以没有专门开发的甲骨文拼音输入法,在“殷契文渊”甲骨文大数据平台(http://jgw.aynu.edu.cn)上提供这种输入方法。
这类方法的优点是不用记忆编码,有映射法、可视化输入法、手写输入法。
2.2.1 映射法
这种方法也叫替换法,就是先把汉字输入电脑,通过改变字体变成甲骨文,其前提条件是这个甲骨文字必须是已识甲骨文字,有明确的甲骨文字—汉字对应关系。其实现技术是把宋体字库修改为甲骨文字库,把字库中汉字的位置放入对应的甲骨文字形。比如在宋体字库的“中”的码位上,替换成甲骨文字的,在使用的时候,输入汉字“中”,通过改变字体,就能变成甲骨文的,从而达到输入甲骨文的目的。
1990年,河南大学的周德民等人研究开发的计算机甲骨文信息处理系统(CJPS)[4],此处理系统的完成标志着突破了计算机输入输出甲骨文的难题,为甲骨文的研究做出了极大的贡献。该系统采用编码映射表的方式对甲骨字进行索引从而完成甲骨文的输入、显示与打印,但此系统受限于当时的计算机技术水平,该系统是运行在DOS操作系统下的甲骨文输入软件,已经无法满足当前现代操作系统的使用。因此本系统的意义在于对甲骨文信息化处理领域起到了开天辟地的作用,CJPS的研发成功使得甲骨文第一次可以被计算机进行操作与处理,为后续的研究起到了奠基作用。
2.2.2 可视化输入法
这种方法采用“所见即所得”的方式,就是通过鼠标点击图片输入甲骨文字。2004年,安阳师范学院刘永革等人共同开发了可视化甲骨文输入法[5](见图1)。该输入法提供给用户一张甲骨文部首表,用户根据待输入甲骨字的结构,选择相应的部首,程序将包含这些部首的结果呈现给用户,用户点击需要的字完成输入。此输入法一举摆脱使用甲骨文传统的编码输入方式,改用可视化方法,通过鼠标点击选择输入甲骨文字的方式。这样很大程度上解决了编码形式的甲骨文输入法所造成的记忆负担与学习成本大的问题。同时,该输入法还具有输入十分直接、形象等优点,基本实现了所见即所得的输入需求,为甲骨文研究和传播做出了重要作用和意义。该输入法当前已由甲骨文信息处理重点实验室的研究人员移植到“殷契文渊”甲骨文大数据平台上,以网页形式存在并可供用户直接使用,感兴趣的读者可通过殷契文渊大数据平台(http://jgw.aynu.edu.cn)使用。
图1 可视化甲骨文输入法
但是,可视化甲骨文输入法也有缺点,仍然需要具有一定的甲骨文专业知识才可以熟练使用,需要掌握甲骨文结构知识从而才可以根据部首查找,并确定自己所输入的甲骨字,这就造成普通大众用户还需要付出一定的学习精力,从而阻碍了甲骨文文化的推广。同时,在实际使用过程中,同一个部首下的甲骨文文字数量较多,这造成了输入时需要从大量的候选结果中找到自己所要输入的甲骨文字,进而降低了使用者的工作效率。
2.2.3 手写输入法
根据上述综合分析的结果可知,以上甲骨文输入法的主要问题在于学习成本较大以及记忆负担较重这两大困难。针对此问题,最直接的办法便是开发一个手写输入法,可以使用户根据字形直接手写输入,而后由程序自动识别并将识别结果以候选甲骨字的方式呈现给用户进行选择,进而完成输入。但此方法的研制和开发具有一定的技术困难,主要难点在于如何能够正确的识别用户手写的甲骨字,并较准确的提供给用户进行选择。除识别准确率高之外,还需要以较快的响应速度来让用户可以流畅、无卡顿的完成甲骨字的输入。
当前研究开发甲骨文手写输入法的机构并不多,已知的是厦门大学开发的一款甲骨文手写输入法,该输入法可通过鼠标在提供的虚拟手写板上通过直接书写甲骨字再选择识别结果完成甲骨字输入。其间程序响应速度十分迅速,基本满足了输入需求。但在实际多次使用中发现本输入法的识别能力较差,多次使用书写后,发现所提供的甲骨字候选结果中并不存在所需的甲骨文字,这就降低了使用者的工作效率与工作进度的问题,同时影响使用效果。
因此,针对上述分析的各个甲骨文输入法的不足之处以及当前存在的手写输入法的识别能力不高等问题,安阳师范学院甲骨文信息处理重点实验室刘永革、李强等人共同研发了新一代的甲骨文手写输入法(见图2)。该输入法在开发过程中,采用当前最新的人工智能深度学习研究成果,以卷积神经网络为基础,研发了甲骨文识别网络为识别模块,在最终的测试中以95.63%的识别率完成测试任务,同时还具有较快的响应速度,以及较小的模型空间规模。而用户在使用过程中,仅需要通过鼠标将所需输入甲骨字的字形书写至输入法提供的虚拟手写板上,而后程序便会迅速的根据当前的书写笔迹完成识别并将候选结果显示到候选区域供用户输入和处理。整个输入过程完全实现了所见即所得的输入思想,同时无需用户具有任何的甲骨文相关知识,只要知道所需输入的甲骨字字形便可通过书写进而实现甲骨字的录入,真正实现了零学习成本与零门槛的甲骨文输入方法。从而方便了甲骨文专家和学者的研究,并十分有利于甲骨文及甲骨文文化的推广和发展。
图2 手写输入法示意图
通过使用该甲骨文手写输入法,用户可以简单、方便的完成甲骨文文本和图片多种不同数据类型的录入,从而可以满足不同的工作需求,以及高效的完成甲骨文输入任务。该输入法有个人计算机的单机版本,可以满足各种甲骨文录入工作。除此之外,该甲骨文手写输入法已经与殷契文渊甲骨文大数据平台(http://jgw.aynu.edu.cn)进行结合,开发了网页版的甲骨文手写输入法,以满足用户需求。手写输入法也有缺点,如输入效率不高。
本文综合分析了当前各种甲骨文输入法,并对其优缺点进行了深入的分析和讨论。每种输入法适合不同的用户需求和使用场景,希望甲骨文学界的专家、学者以及广大甲骨文爱好者根据自己的情况选择使用。