黄琼霖
摘 要:在对古籍的电子化过程中,在与使用汉字的国家和地区的交流过程中,繁简字转换问题不仅是体现在个人知识领域方面,更是体现在计算机信息文本所必须面对的问题。尽管目前已经产生了很多繁简转换的电子工具和软件系统,但繁简转换的错误率依旧很高。
关键词:繁体字;简体字;计算机;转换
从20世纪80年代开始,关于简化汉字的争论就一直没有停止过。近20多年来,在进一步改革开放的新形势下,争论依旧十分激烈。繁简汉字文本的转换问题在使用汉语汉字的社会中是一个不能回避的、亟须解决的问题。
汉字的简体和繁体两种体式将(会比较)长期存在。因而简繁转换和繁简装换就需要经常进行。转换包括手写转换和机器转换。多少年来,汉字主要靠手写,但随着信息时代的到来,汉字手写的使用范围将逐渐缩小。用键盘输入汉字将会是今后书写的主要形式,那么汉字繁简的转换过程也将会在计算机中得到实现。目前,输入法中简繁体字的快速切换功能、微软的Word2003中中文繁简转换功能、网络上“在线汉字简体繁体转换”等,都企图能够较为简单快速地实现汉字繁简的转换。
一、繁简字转换存在的问题
实践证明,假如直接采用搜狗拼音输入法的简繁体字快速切换,同样,当一片准确无误的简体字,一经电脑程序转化为繁体字的时候,就会发现出现大量错别字。以Word2003中文繁简转换功能为例,“米糰”(错)成了“米團”,“詩云”(错)成了“詩雲”……假若采用“在线汉字简体繁体转换”,出现的错误则更加明显。“升斗”成了“升鬥”,“几案”成了“幾案”……举一个小例子,一篇大约500字的简体字文章,用电脑程序将其转化为一篇繁体字文章,仅需0.1秒的时间,但是,要对转换后的繁体字文章进行校正,却可能需要1个小时的时间。由此而知,繁简字在计算机中的转换问题仍然需要极大的关注。
繁简字转换问题困难的产生主要是因为简化字与繁体字并不都是一个与一个的整齐对应,有些简化字与繁体字之间存在着复杂的对应关系。正如董琨先生说过:“有的人不明白有的字繁简转化并非单一对应关系,于是随意代替。”事实告诉我们,一简对多繁在转换问题中所产生的问题最为严重。这种简化字在转换为繁体字的时候要进行选择区分,从而确定转换为哪个繁体字。
除了一简对多繁现象之外,在一简对一繁的简化字中,可以分成两类,一类是专用简化字,一类是借用简化字。专用简化字指的是“新造简化字型”,是为了简化汉字,而选取百姓的手头字,或者是特意造出来的字。如果离开了相对应的繁体字,该简化字也就失去了意义。例如“爱”是“愛”的專用简化字,只作为“愛”的代表符号。离开了“愛”字,“爱”就失去了存在的意义。这类简化字与它相对应的繁体字音义相同,不同的只是形体的简化,笔画的多寡。而另一类借用简化字指的是在汉字简化之前已经存在的字,在汉字简化的过程中被借用来作为简化字。
在繁简字的转换过程中,一简对多繁现象和一简对一繁中的借用简化字比较容易出现问题。
二、繁简字转换问题的解决
当我们通过键盘将汉字输入计算机的时候,绝大多数都是采用输入法,运用比较广泛的类别是五笔输入法和拼音输入法。其中大多输入法都提供了简繁体字的快速切换功能。如何在使用的过程中既快速又准确地输入繁体字呢?
当我们将一篇简体字文章采用Word2003中文繁简转换功能,或者网上“在线汉字简体繁体转换”,如何才能得到高精准的转换结果呢?
固定算法决定了程序的编制,而程序的编制则决定了电脑运作。要实现繁简字之间准确无误的转换就只能从计算机的根源出发,寻找解决方法。为进一步提高汉字输入速度,我们经常采用词汇输入的途径,也就是直接输入词的代码。
那么,这就需要后台词库,词库是输入法的灵魂,转化问题的出现恰好说明了繁简对应词库中存在较多的繁体字登陆错误。假若我们将计算机繁体字的词库进行修正,使之大容量化,广泛收录正确的繁体字体的常用词汇、短语、地名、人名等,那么,就可能会提高繁体字输入的准确率。以搜狗拼音输入法为例,当输入“xiàbǎi”的时候,屏幕上呈现的字体是错误的“下擺”。但假若通过扩大词库,“下襬”被收录在内的话,错误的转换问题相信会得到解决,屏幕上呈现的是正确字体“下襬”。