王保硕
(杜克大学 电子与计算机工程系,美国北卡罗来纳州 达勒姆,NC27708-0271)
汉字的科学化
王保硕
(杜克大学 电子与计算机工程系,美国北卡罗来纳州 达勒姆,NC27708-0271)
汉字具有悠久的历史,在漫长的发展过程中,汉字与中国历史文化产生了难以分割的关系,承载着丰富的民族文化信息。在全球化、信息化的时代语境下,汉字形体结构复杂、同音字多、汉字数量比较多等特点使得汉字教学成为汉语国际教育的瓶颈;同时汉字在信息处理方面存在诸多不便。当下汉字的科学化研究能对推动国家与民族的振兴和中国传统文化的现代化产生重要影响,应得到更多的关注与支持。
汉字;科学化;中文信息处理;生物信息学
非常感谢华中师范大学让我有这样一个宝贵的机会来跟大家一起来讨论有关我们汉字科学化的一些问题。毫无疑问,作为中华文明主要载体的汉字在整个国家中的地位非常重要。今天我来演讲的身份并不是专家,而只是一个非常热爱中华文明与中华汉字并热忱希望能实现“汉字理想”的人。换一句话说,我是想把一个海外炎黄子孙的理想拿出来跟同学们讨论。汉字的命运与中华文明发展的前途由你们决定,我非常高兴与你们交流也是因为你们将来可以把汉字与中华文明发扬光大。这是一个非常深广的题目,在这里由于时间的关系我可能没有办法做很详细的解释,有些问题讲得不够充分也希望大家谅解。
我们首先要讨论的就是语言的变化性,也就是说语言是随时代的发展变化而不断发展和改变的。即使在外国也是一样,比如莎士比亚在几百年前的语言让我们今天去看、去理解,是非常困难的,也只有专家才能弄懂。我们接触的语言从一年、两年来看,没有什么太大变化,但是几百年后会变化很大。纵观我们的历史,我想谈的第一个话题就是反省,我们需要反省之前中国文字的改革对我们的社会做出了什么样的改变以及贡献。第一个例子就是“五四”运动。“五四”运动发生在一个动荡的时代,那时中国的国际地位很低。第一次世界大战结束后,中国的仁人志士意识到我们的民族和国家必须要改革,即我们需要用“科学”和“民主”来重构中华文明,其中就包括文字的改革。在这我要提到的一个人是胡适,他是美国哥伦比亚大学的博士,他受到了西方文化的熏陶,然后回来审视国内的情况。我现在就希望自己能模仿胡适去做这样的工作。当时他领导的“白话文运动”是非常重要的,因为文字要适用于生活,文言文太繁太难,一般老百姓受益甚少。当时,书面文字(文言文)无法记录日常生活用语,书面文字是那些受过特殊训练的人(也就是人们所说的读书人)才能读懂,所以白话文代替文言文的改革对当时及后来中国的发展贡献很大。在中国那样内外交困的时期所提倡的“白话文运动”,虽然当时并没有很多普通的中国人参加,但效果很好。第二个例子就是简体字。我个人觉得简体字优点很多,因为汉字太复杂了,其中许多为象形文字。最初汉字的形体来源于相应事物的形象,随着时间的推移,汉字慢慢就失去了与原有形象之间的联系,变得复杂抽象。英文只有26个字母,是一种密码文字,用一个密码符号来代表一个意思。正因为象形文字有繁琐难辨的缺点,所以有必要进行简化。我的基本建议就是要有1000个顶尖的专家来支持中华汉字的科学化,尽量争取国家的支持,个人有钱的话应组成一个统一的机构去支持。我深深体会到,任何讲中国话的地方对中文研究的投资过少。为什么一个这么重要的方面却被忽略了?因为一般人往往不能了解文字的重要性,普通老百姓会认为我汉语说得很好,汉字也用得不错,日常的沟通和社交都没有问题,为什么要改进中文?但是他们没有想到,通过改进,中文能变得越来越好。
语言是人类最主要的交流工具,汉语同样也是全球华人最主要的交流工具。一直以来,对于汉语方言的去留,存在两种不同的观点:一种认为方言体现了文化的多样性,人人有讲方言的自由;另一种认为,讲方言也许对经济发展不利。对此我的感受是,如果我去新加坡,我就很高兴,因为新加坡讲普通话不存在沟通上的障碍。但如果我去香港,尤其是几十年前我去香港的时候,那就非常不方便,因为许多香港的中国人讲的全部是广东话,我根本听不懂,不利于沟通和交流。我非常关注中央电视台国际频道的一档节目“客家足迹行”,它是一档全面介绍客家人迁徙历史与生活现状的大型纪实性节目。福建是客家人的主要居住地之一,我也是福建人。福建方言非常多,福建境内不同方言区的居民之间的交流都存在障碍。我深深体会到方言给交流带来的不便。例如,第二次世界大战结束,内战烽烟再起,那时候我算是逃难,从仙游到福州,我印象很深刻。从仙游到福州,听到的方言差不多有十几种,走过一段路又变了一点,完全不一样。我当时觉得这种状态不是太好,因为统一就是力量,方言在语音上的较大差异导致同属于炎黄子孙的人们彼此间难以交流。对客家人而言,客家方言就是他们团结的一个重要载体,现在全球都有客家人,他们要保存他们自己的文化,方言是其中重要的部分,这本无可厚非。但是另一方面,如果我们都不愿意放弃自己的方言,那结果就是炎黄子孙之间不能很好地交流与沟通。当然,目前中国境内的普通话推广工作开展得很好,在许多公共领域普通话替代了方言,被高频地使用。这样更有利于中华民族的团结和共造中华文明之辉煌。但从文明的发展来看,一种语言或方言没有被保存下来,不能不说是一个遗憾,但事情总是利弊共生。
研究汉字一定要追溯它的起源,了解其演变过程。我们认为汉字的演变并不是非常理想的,尤其是以今天科学的观点来看,应该考虑是否能够重新再安排或者改变。汉字有许多个偏旁部首,汉字偏旁部首的数量在几百年间的变化并不大。之前的偏旁部首对今天来讲就不是完全合适的,也就是说文字也应与时俱进,但是问题就在这里。我们好像没有一个专门的科学机构组织研究人员从事汉字的研究与改进。汉字是象形文字,世界上本来有很多象形文字,但大多都消失了。目前,我们的汉字是世界上保存象形性最完好的一种文字,是我们华夏民族智慧的结晶。英文是一种代码或编码语言,从科学角度看,代码或编码是比较有效率的,但是象形文字也有其自身价值。我们知道古埃及文也是象形文字,但它最后没有办法生存,所以埃及人放弃象形文字而改用阿拉伯文,阿拉伯文跟英文、中文都不一样。中华文化对东南亚国家特别是日本与韩国的影响很深。日本、韩国等国曾经借用汉字来记录其语言,19世纪这些国家先后出现要废止汉字使用的文字改革思潮,后来日本和韩国用表音体系文字逐渐替代了表意体系的文字,实现了文字改革的目标,文字的使用效率得到较大提高。
另外,汉字中同音但是不同义的字太多了。跟我一起进行汉字科学化研究的是河北师范大学的孙兆豪教授,目前他在澳洲教书,在这个问题上他跟我有很多相同的看法。同音不同义的好处之一就是幽默,同音词除了在不同语境中产生很多笑话外,没有更多的好处。例如“yú”这个音节可以对应很多个不同的汉字,在不用语境中使用时,要用到不同的汉字,这样无形中就增加了人的记忆负担。
语言跟基因有非常密切的关系。现在科学非常先进,生物信息学非常热门,表面上看起来生物信息跟中文没什么关系,但中文的研究到最后就要涉及到生物信息学。假如有个基因,如“FOHP2”有问题,那将来就会影响小孩的语言能力。在脑神经里面,人的记忆分为两种,一种是长期记忆,一种是短期记忆。比如说,“我今天非常高兴”这个信息,字在一个地方,把字拼在一起,记忆在脑子里面又是在另一个地方。换句话说,这些字的信息都要从不同的地方来,并组织在一起,然后才能够被完全理解。那么,为什么可以教胎儿学语言?因为胎儿在妈妈肚子里面天天听妈妈的声音就已经开始在学语言了,听着妈妈的话,自然而然,胎儿脑子里不同部分的神经就会开始构造文法,所以这是天生就有的语言能力。大家都知道,越年轻学语言越容易。为什么?因为人脑是中性的,像一张白纸,越早学就越容易学会,就像著名的心理学家巴普洛夫所做的“狗铃实验”。其实,婴儿学习语言,在很小的时候就开始了,随着年龄的增长,脑部构造逐渐定型,学习语言就自然非常困难了,可见研究语言必须要研究生物信息学。
语言和文字都应该随着社会和时代的发展而改变。语言本质上是一套符号系统,研究语言的符号性非常重要。我的主要研究领域是人工智能和机器人学。我们花了半个多世纪的时间来研究人工智能,在这个领域最关键的环节就是自然语音的问题。我们并不要求机器人有感情,懂得喜怒哀乐,这肯定不太容易。但是如果希望机器人在某种程度上与人更加接近,其中最重要的问题是自然语言的问题。
自然语言的组成部分特别复杂,其一是句法,其二是语义。比如,一个汉字可以有几个不同的意义,假如有7个字,每个字有5个意义的话,那不同的字数、意义再加上不同的排列,所形成的意思就太多了,电脑没有办法那么聪明,去理解这许多不同的意义。因为电脑实际上是一个非常愚蠢的机器,很笨,但它的力量在哪里?它的速度非常快,而且电脑善于交互。语言本身就是非常有力的,所以外国人叫它双刃剑,一方面是优点,另一方面是缺点。因为人的智慧中的一个重要的方面就是集中注意力。比如,外界的信息非常多,但是如果要注意树上一只鸟,那就需要集中注意力,这是人脑的第一个优势。人脑的第二个优势就是组合,能将小的语言单位进行不同的排列组合形成大的语言单位,来表达丰富的含义。所以,自然语言本身是很有力量的。自然语言的优点在人工智能领域中就变成了缺点,要想实现自然语言的识别,需要对语言结构本身进行很多深入的研究。
最后,我想谈谈语言的推广问题。如果想要有更多的外国人能够学会并使用汉字,最好的办法就是改进汉字,使汉字学起来非常容易。对外国人来讲,现在学汉字并不是一件很容易的事情。因此成立一个专门的组织,研究怎样让学习汉字变得容易,这件事情非常重要。
我们的这个学术期刊:《新数学与自然计算》(New Mathematics and Natural Computation)就是我们的努力,希望它能在汉字科学化方面成为我们的桥梁,希望同学们能够支持,也希望更多的其他学校的有志于汉字科学化研究的同学能够支持我们。我们的网站需要同学们来帮忙做中文方面的翻译,因为现在的网站在杜克大学,全部是纯英文的,志愿者们也没有拿任何报酬,只是认为中文很重要,愿意做种种牺牲。如果能够翻译成中文,就会有更多的人知道中文科学化的重要性与紧迫性。这个期刊的发行是由新加坡的一家出版社来承担的,本来我以前的合作伙伴大都是荷兰、美国的出版社,这个工作我之所以特别找了新加坡的出版社,就是因为新加坡对中文及中华文化的研究十分支持。我们的期刊已经出版8年了,非常不容易,因为出版社一直在亏本支持,所以我们希望尽量能够发展下去。
我和孙兆豪教授已经合作写了一本书,目前还没有确定下来由哪一个出版社出版我们的专著。专著研究的主要方向是中国文字的科学化、中国语言的科学化和中国文化的科学化。就是我今天所讲的,生物信息学、符号学都与中文科学化有关。主要目的就是要使外国人学中文变得容易,从而使中华文明发扬光大。我和孙教授的专著目前已写了差不多200页,还在修改加工。希望同学们能够给我们的网站多提意见及建议,也可以对相关的问题进行讨论,我们也会把所有具有建设性的观点收集在一起进行进一步的研究。汉字的科学化不仅仅是语言的问题,其对互联网、中国文化以及中国的国际地位和影响力,都有非常重要的意义。
(本文根据本人2013年11月5日在华中师范大学的演讲整理而成。衷心感谢孙兆豪教授的建议及其夫人霍艳霞博士在文字上的修改,感谢姚双云教授和周璐女士的鼎力协助。没有他们的无私帮助,我的演讲整理成文章的工作将无法实现)
(责任编辑:刘英玲)
H125
A
1674-9014(2015)01-0080-03
2014-07-28
王保硕,男,福建仙游人,美国杜克大学电子与计算机工程系教授,研究方向为计算语言学。