李薇 陈秋丽 孙爱娜
(1.广州新华学院(东莞校区),广东 东莞 523133;2.广州南方学院,广东 广州 510970)
在现代社会,英语已成为连接全球计算机网络的工作语言。事实上,英语确实已在全球视听市场、互联网技术、文字处理软件(word processor)以及外语教学领域中占据着绝对优势。
众所周知,中文汉字阅读值极高的优点早已为世界所公认,据来自高速公路管理部门的一项交通信息资料显示,司机在以时速80千米行驶的公交车上,可以瞬间看清路边标志牌上的汉字,而汉字下方的阿拉伯数字则一晃而过难以辨识,这项调查揭示,人眼对汉字的辨识时间远远少于分辨阿拉伯数字所需的时间。由此可见,汉字易于辨识的优势显然更加符合人工智能创新发展的实际需要。
作为意音字(meaning-phonetic logogram)的汉语,其声母韵母拼合音节就有415个,再加上四声调,普通话就多达1294个可辨别字义的音节。由于汉语存在四种音调以及种类繁多的各地方言(wild dialects),若发音不准,就会给人工智能的语音识别带来极大的困难。
英文采用从古罗马发展而来的拉丁字母,共由26个字母组成,发音以字母为基础。英文没有中文那种繁复的声调,所以,语音输入时只要保持中等语速,人工智能就很容易准确识别每一个字母。由于英语同音词较少,英文在语音识别的效率上就较大地领先于汉语。
长期以来,英美等国家的西方人士对于汉语的声调十分生疏,而汉语所谓的声调就是音高。英语里也有音高,例如,当你说“OK?”的时候,用的是一个上升的音高,而说“OK!”时,则用了下降的音高,在英语里,这两种不同的音高只是传达了不同的语气,而词本身的意义并无改变。
中文字与词的信息量记录远比英文信息量大,所以,当人们翻阅联合国工作文件时,就会发现同样内容的中文文本比英语文本要薄许多,这是因为汉字是一个字一个音节的缘故。虽然英文字中,由两个字母组成的词语与一个汉字所占的位置相同,但实际上,英语词的大量音节通常都是由多个字母所组成的。例如,由3个或4个英文字母组成的词box、jump,由5个或 6 个字母组成的词 great、yellow等。由此可见,英文字母所占的空间位置显然大大地超过汉字。
以汉字为基础单位的中文,横竖都可以排列,但作为线性文字的英文却只能横排,因此,汉字的独立表意能力当然就比英文强。例如,“他读课文”,当你看见“读”字,就可大致推断出后一个词意,而英文:“She went to have a rest.”当你看到“have”时,却仍然无法预测后面词语的意思。直到出现“rest”,你才明白“have a rest”是“休息”的意思。由此可见,英语表意更多是依赖于短语或整句的上下文内容,阅读者若不看完全部文字内容,就难以明白它的准确意思。由于人工智能的跳跃识别能力还比较弱,因此,英语文字的表意方式就略逊于中文。
中英文里的一字/词多义(polysemy pun)情况普遍存在,例如,中文“好”,可表示:赞成、优良、正常及圆满等多重意思。例如,英文“open”,就包含:开业、开放、打开、展开等不同含意。
由于世间万物纷繁,人类情感富于变化(enriching emotion),所以,同一个中文/英文的词语,往往隐含着不同的意思,这无疑会影响人们思维上的正确理解。同时,一字/词多义的现象也常常会给人工智能的识别造成较大的麻烦。目前,由于人工智能系统识别多义字/词的能力较弱,其在处理上述这类词语时常会出现差错。
中文里有大量同音异义词(homonyms pun),这类词语若从字形上看大多互不相同,所以非常容易区别。但如果单独读某一字/词,那么,中文的同音异义词就常会造成理解错误。例如,机制(jī zhì)、机智(jī zhì),自决(zì jué)、自觉(zì jué)等。
而以音为主的英语,由于其字母拼写的不同,其词语自然就具有不同的音。所以,尽管英语也有因同音异义而造成理解误差的情况,但这种现象比汉语字/词少了许多。例如,right(正确的)、write(写字),Meat(肉类)、meet(遇见)等。
根据汉字的优势与特点,语言学家们设计出多种有理检索方法,例如“部首检索法”,它是根据汉字字形结构,把有相同部分的字排列在一起,这些相同的部分即为部首。另外,汉字中也有无理检索的现象(irrational retrieval),虽然人们在电脑上可以设汉字文件名,但由于电脑机器内主要是以英文字母与阿拉伯数字为主,相比之下,使用汉字的确不如使用英文方便。
英文中的无理检索非常普遍,常用的使用情况包含“密码设置与检索(password setting and retrieval)”,这种检索方法主要运用于英美等国的情报单位及军事绝密部门。
在字库格式方面,美国Apple公司与Microsoft公司联手推出的新型数字化字形描述技术(TT技术),以及Adobe公司特别为描述图像与文字而专门设计的Post Script语言(PS语言),现已成为流行的页面描述语言形式。
英文利用字母线性罗列打字(linear listing of letters),其所占的“字库”空间极小,这是英文字库的一大优势,而一个汉字往往得占两个字母的空间,加之汉字与字母不能对应,因此就得另外建立汉字库。而国际汉字库的建立以及输入法的改进,极大地方便了亿万电脑使用者,它使得电脑更快地向千家万户迅速普及。
近年来,索尼公司继XEL-1产品之后,推出基于OLED技术而开发的新产品,由于其对比度超高、色彩饱和度丰富、重量轻且厚度极薄,视角广且反应速度更快,因而引领了新一代平面显示器潮流,而3D显示器,更是显示技术发展的终极梦想。
电脑显示分为低、中、高三种分辨率,虽然汉字无法在低分辨率显示器上显示,但由于微电脑多采用高分辨率显示器(clear resolution display),目前汉字显示效果还不错,但英语字母与文字在低、中、高三级分辨率上都比较清晰,所以英文在电脑显示分辨率上的优势是显而易见的。
以拼音为主的智能化ABC键盘输入法,输入极为方便且界面友好,字与词的输入按“全拼”“简拼”与“混拼”形式输入即可,并不需切换输入方式。此外,智能ABC还可提供动态词汇库系统,而现有的基本词库具有用户自定义词汇以及设置词频调整等操作,其所具有的智能作用,可不断满足不同用户的需求。
例如,当中国用户需用汉语拼音字母打字时,利用英文键盘是完全可行的,而电脑上的“全拼”“双拼”打字状况也大都如此。但汉语拼音字母的出现频率高低与英文的情况不太一样。例如,“Z”键,在英语中的使用频率较低,所以安排在第三键左下。
目前,汉字输入技术日趋向系统化、智能化、机助化以及标准化方向发展。对英美等英语用户国家而言,电脑输入是非常容易的事,它只是比英文打字机增多了一些符号键与功能键,一般就是按字母顺序罗列输入即可。鉴于汉字的特殊性,专家创造出远比英文字母输入法更加丰富多彩的方式,常见方式包括:字根法、笔形笔顺法、全拼法及读音法等。
汉字的特殊字形可用来简化词语的编码,从而使中文词语输入速度超过英文,而英文的词语输入却无其他可以简化的输入法,它必须按照词语的字母顺序逐一输入,因此,英语词语在输入速度上则略逊于中文。
目前,随着英语国家强势文化影响力的日益扩大,特别是美国在电脑、互联网信息与人工智能技术方面的领先态势,使得英语的优势地位在一段时间内仍会持续存在。
中文汉字是义音兼表(meaning and sound)的语素音节文字,这一特征使得每一个汉字都仿佛是一个集成信息块,能兼具形、意、义三个语言要素,加之汉字信息量大,用汉字作书面语就比用其他语言简单许多。
简而言之,中文与英文这两大世界性主流语言,尽管在语言、文字、语义等多方面存在较大差异与区别,但它们却都在蓬勃发展的人工智能“自然语言处理”NLP系统工程中,继续发挥着各自不可替代的独特作用。