AI自然语言处理系统内的中英文角色新解

2021-11-21 21:25李薇陈秋丽孙爱娜
现代英语 2021年3期
关键词:中英文检索字母

李薇 陈秋丽 孙爱娜

(1.广州新华学院(东莞校区),广东 东莞 523133;2.广州南方学院,广东 广州 510970)

一、中英文在人工智能发展中的角色

在现代社会,英语已成为连接全球计算机网络的工作语言。事实上,英语确实已在全球视听市场、互联网技术、文字处理软件(word processor)以及外语教学领域中占据着绝对优势。

众所周知,中文汉字阅读值极高的优点早已为世界所公认,据来自高速公路管理部门的一项交通信息资料显示,司机在以时速80千米行驶的公交车上,可以瞬间看清路边标志牌上的汉字,而汉字下方的阿拉伯数字则一晃而过难以辨识,这项调查揭示,人眼对汉字的辨识时间远远少于分辨阿拉伯数字所需的时间。由此可见,汉字易于辨识的优势显然更加符合人工智能创新发展的实际需要。

二、中英文特点对比分析

(一)中英文字的语音识别比较

作为意音字(meaning-phonetic logogram)的汉语,其声母韵母拼合音节就有415个,再加上四声调,普通话就多达1294个可辨别字义的音节。由于汉语存在四种音调以及种类繁多的各地方言(wild dialects),若发音不准,就会给人工智能的语音识别带来极大的困难。

英文采用从古罗马发展而来的拉丁字母,共由26个字母组成,发音以字母为基础。英文没有中文那种繁复的声调,所以,语音输入时只要保持中等语速,人工智能就很容易准确识别每一个字母。由于英语同音词较少,英文在语音识别的效率上就较大地领先于汉语。

长期以来,英美等国家的西方人士对于汉语的声调十分生疏,而汉语所谓的声调就是音高。英语里也有音高,例如,当你说“OK?”的时候,用的是一个上升的音高,而说“OK!”时,则用了下降的音高,在英语里,这两种不同的音高只是传达了不同的语气,而词本身的意义并无改变。

(二)中英文在文字识别系统方面的比较

中文字与词的信息量记录远比英文信息量大,所以,当人们翻阅联合国工作文件时,就会发现同样内容的中文文本比英语文本要薄许多,这是因为汉字是一个字一个音节的缘故。虽然英文字中,由两个字母组成的词语与一个汉字所占的位置相同,但实际上,英语词的大量音节通常都是由多个字母所组成的。例如,由3个或4个英文字母组成的词box、jump,由5个或 6 个字母组成的词 great、yellow等。由此可见,英文字母所占的空间位置显然大大地超过汉字。

以汉字为基础单位的中文,横竖都可以排列,但作为线性文字的英文却只能横排,因此,汉字的独立表意能力当然就比英文强。例如,“他读课文”,当你看见“读”字,就可大致推断出后一个词意,而英文:“She went to have a rest.”当你看到“have”时,却仍然无法预测后面词语的意思。直到出现“rest”,你才明白“have a rest”是“休息”的意思。由此可见,英语表意更多是依赖于短语或整句的上下文内容,阅读者若不看完全部文字内容,就难以明白它的准确意思。由于人工智能的跳跃识别能力还比较弱,因此,英语文字的表意方式就略逊于中文。

(三)中英文在多义字/词方面的比较

中英文里的一字/词多义(polysemy pun)情况普遍存在,例如,中文“好”,可表示:赞成、优良、正常及圆满等多重意思。例如,英文“open”,就包含:开业、开放、打开、展开等不同含意。

由于世间万物纷繁,人类情感富于变化(enriching emotion),所以,同一个中文/英文的词语,往往隐含着不同的意思,这无疑会影响人们思维上的正确理解。同时,一字/词多义的现象也常常会给人工智能的识别造成较大的麻烦。目前,由于人工智能系统识别多义字/词的能力较弱,其在处理上述这类词语时常会出现差错。

(四)中英文字/词的同音异义现象比较

中文里有大量同音异义词(homonyms pun),这类词语若从字形上看大多互不相同,所以非常容易区别。但如果单独读某一字/词,那么,中文的同音异义词就常会造成理解错误。例如,机制(jī zhì)、机智(jī zhì),自决(zì jué)、自觉(zì jué)等。

而以音为主的英语,由于其字母拼写的不同,其词语自然就具有不同的音。所以,尽管英语也有因同音异义而造成理解误差的情况,但这种现象比汉语字/词少了许多。例如,right(正确的)、write(写字),Meat(肉类)、meet(遇见)等。

三、汉英文字检索、字库与文字显示

(一)文字检索

根据汉字的优势与特点,语言学家们设计出多种有理检索方法,例如“部首检索法”,它是根据汉字字形结构,把有相同部分的字排列在一起,这些相同的部分即为部首。另外,汉字中也有无理检索的现象(irrational retrieval),虽然人们在电脑上可以设汉字文件名,但由于电脑机器内主要是以英文字母与阿拉伯数字为主,相比之下,使用汉字的确不如使用英文方便。

英文中的无理检索非常普遍,常用的使用情况包含“密码设置与检索(password setting and retrieval)”,这种检索方法主要运用于英美等国的情报单位及军事绝密部门。

(二)字库

在字库格式方面,美国Apple公司与Microsoft公司联手推出的新型数字化字形描述技术(TT技术),以及Adobe公司特别为描述图像与文字而专门设计的Post Script语言(PS语言),现已成为流行的页面描述语言形式。

英文利用字母线性罗列打字(linear listing of letters),其所占的“字库”空间极小,这是英文字库的一大优势,而一个汉字往往得占两个字母的空间,加之汉字与字母不能对应,因此就得另外建立汉字库。而国际汉字库的建立以及输入法的改进,极大地方便了亿万电脑使用者,它使得电脑更快地向千家万户迅速普及。

(三)在电脑的显示方面

近年来,索尼公司继XEL-1产品之后,推出基于OLED技术而开发的新产品,由于其对比度超高、色彩饱和度丰富、重量轻且厚度极薄,视角广且反应速度更快,因而引领了新一代平面显示器潮流,而3D显示器,更是显示技术发展的终极梦想。

电脑显示分为低、中、高三种分辨率,虽然汉字无法在低分辨率显示器上显示,但由于微电脑多采用高分辨率显示器(clear resolution display),目前汉字显示效果还不错,但英语字母与文字在低、中、高三级分辨率上都比较清晰,所以英文在电脑显示分辨率上的优势是显而易见的。

(四)在键盘与打字方面

以拼音为主的智能化ABC键盘输入法,输入极为方便且界面友好,字与词的输入按“全拼”“简拼”与“混拼”形式输入即可,并不需切换输入方式。此外,智能ABC还可提供动态词汇库系统,而现有的基本词库具有用户自定义词汇以及设置词频调整等操作,其所具有的智能作用,可不断满足不同用户的需求。

例如,当中国用户需用汉语拼音字母打字时,利用英文键盘是完全可行的,而电脑上的“全拼”“双拼”打字状况也大都如此。但汉语拼音字母的出现频率高低与英文的情况不太一样。例如,“Z”键,在英语中的使用频率较低,所以安排在第三键左下。

(五)在输入法方面

目前,汉字输入技术日趋向系统化、智能化、机助化以及标准化方向发展。对英美等英语用户国家而言,电脑输入是非常容易的事,它只是比英文打字机增多了一些符号键与功能键,一般就是按字母顺序罗列输入即可。鉴于汉字的特殊性,专家创造出远比英文字母输入法更加丰富多彩的方式,常见方式包括:字根法、笔形笔顺法、全拼法及读音法等。

汉字的特殊字形可用来简化词语的编码,从而使中文词语输入速度超过英文,而英文的词语输入却无其他可以简化的输入法,它必须按照词语的字母顺序逐一输入,因此,英语词语在输入速度上则略逊于中文。

四、结语

目前,随着英语国家强势文化影响力的日益扩大,特别是美国在电脑、互联网信息与人工智能技术方面的领先态势,使得英语的优势地位在一段时间内仍会持续存在。

中文汉字是义音兼表(meaning and sound)的语素音节文字,这一特征使得每一个汉字都仿佛是一个集成信息块,能兼具形、意、义三个语言要素,加之汉字信息量大,用汉字作书面语就比用其他语言简单许多。

简而言之,中文与英文这两大世界性主流语言,尽管在语言、文字、语义等多方面存在较大差异与区别,但它们却都在蓬勃发展的人工智能“自然语言处理”NLP系统工程中,继续发挥着各自不可替代的独特作用。

猜你喜欢
中英文检索字母
《中国生态农业学报(中英文)》征稿简则
Wheat Lodging Ratio Detection Based on UAS Imagery Coupled with Different Machine Learning and Deep Learning Algorithms
CNKI检索模式结合关键词选取在检索中的应用探讨
通过实际案例谈如何利用外文库检索提高检索效率
利用符号快速分解数据
瑞典专利数据库的检索技巧
英国知识产权局商标数据库信息检索
猜谜连字母等
字母派对
欧阳昱诗六首