文字系统的构成及同一性研究
扬之水
(中研院 历史语言研究所,台湾 台北 11529)
摘要:文字系统包含文字体系和其所表达的语言对象。文字体系则包含文字单位与文字规则。文字单位是文字系统的组成成分,而文字系统的运作规则包含构字、表达规则和组合规则。构字规则作用于文字单位内部,表达规则作用于文字单位与语言单位的联系,组合规则作用于文字单位的组合层面。判定是否属于同一种文字系统,要关注两个方面:是否表达同一种语言;文字体系是否一致。以下情况应视作不同文字系统:用不同文字体系书写同一种语言;同一种文字体系用来书写不同语言;文字系统的性质发生变化。
关键词:文字系统;文字体系;文字单位;文字规则;同一性
收稿日期:2014-12-23
作者简介:扬之水(1977-),男,四川达州人,台湾中央院历史语言研究所访问学人,文学博士,研究方向为文字学。
中图分类号:D509文献标识码:A
系统是由相互联系、相互作用的要素组成的具有一定结构和功能的有机整体,一种文字亦是一个系统。
一、文字系统的定义
文字系统(script)是指与具体语言相联系的具体书写符号系统。文字系统往往与具体的语言相联系,指具体的文字,如汉字(Chinese Script)、东巴文(Dongba Script)、哥巴文(Geba Script)。
过去也有称为“文字体系”者,如左少兴翻译伊斯特林《文字的产生与发展》:“‘文字体系’在最一般的形式上可以定义为:某个民族在历史上形成并加以整理的文字。每种文字体系都以它的用途(表达某种语言)、类型(例如是音节型还是字母—音素型)及其构成、意义、形式和书写符号使用的基本原则为特点”[1](P24),但我们认为文字体系最好用来指称文字系统中成体系的字符集和文字规则,如王凤阳在《汉字学》中指出:“文字作为一种符号是成体系的。这意思是说,文字不是一种散漫的集合体,不是一群字形或一堆符号的杂乱无章的、偶然的堆砌;恰恰相反,文字是一个系统,它是根据特定的原则组织起来的、构成的各部分之间相互联系、彼此制约的一个整体。文字的记录原则是多种多样的。一种文字可以直接表达事物,间接提示语言,也可以用符号记录语言;可以记录词的内函,也可以记录词的声音。由同一表达或记录原则构成的字及其相关方面的综合,叫做文字的体系。文字是成体系的存在的。”[2](P37)文字体系再加上其所对应的具体语言,则为文字系统。
文字系统与以下术语指称均有不同。
从语言使用的文字角度出发,可以称该语言的书写符号系统为某某书写系统,但可能一种语言使用了多种文字系统作为其书写符号,如纳西语书写系统(Naxi Writing),实际包含着东巴文文字系统(Dongba Script)和哥巴文文字系统(Geba Script)。如果一种语言仅有一种书写系统,则该种书写系统与文字系统相对应,如汉语书写系统(Chinese writing)则对应汉字系统(Chinese script)。
从文字体系角度出发,同样的字符集(graph inventory)和文字规则(writing rule)可以视为同一文字体系,如拉丁字母、阿拉伯字母,它们被用以记录多种语言,而这些具有共同字符集(可能其中字符的音值或者表达规则发生变化)的文字集合则被称为某某系文字,如拉丁字母系文字、阿拉伯字母系文字,而使用这些文字的地区则形成所谓的文字圈。
从文字类型角度出发,同一文字类型概括的是运用同一文字规则(表达规则)的文字,如原始文字、意音文字、拼音文字。
讨论文字的形成、类型、演进均应该具有文字系统的观念,先民使用的零星图画和记号如不具有系统的性质,不宜作为文字看待。同一种书写系统即使拥有不同的字符,如日语书写系统,但也应该将其作为一个文字系统考察其类型,而不能说日文具有汉字和假名两种文字(实际上是日文字符集由汉字字符和假名组成)。研究文字的演进除了过去关注的个体字符的变化外,还应该关注文字系统的变化。
二、文字系统的构成
文字系统至少包含两部分:一是系统内部的组成成分和规则,即文字体系;二是文字系统所表达的语言对象。这里重点说文字系统内部的组成成分和文字规则:文字系统的组成成分即一个个的文字单位;文字规则包含构字、表达规则和组合规则。
(一)文字单位
文字单位(script unit)是构成文字系统的独立个体,文字的基本单位是能够表达语言单位的字,字的记录符号是字符。
1.字与字符
字(grapheme)是文字系统中能够运用的最小单位,即一个个能独立表达语言要素的符号。王伯熙《文字的分类和汉字的性质》:“文字的基本单位指的是文字体系中能和语言成分相对应的最小的单位。”[3]字符(graph)是记录字的符号,也是文字系统中的书写个体。字是从表达功能角度划分出来的,字符是从符形的角度划分出来的。
字符的所指是字,字符的能指是字形。同一个字可能由不同的字符记录,如表示眼泪的“泪”字,既可以由“泪”字符表达,也可以由“淚”字符表达,前者采用会意方法造成,后者采用形声方法造成。而同一个字符,可能表示不同的字,如“花”字符,既表示“花朵”的“花”,也表示“花钱”的“花”,这是同一个字符表示不同字的同形字。英文字母表中虽然有52个大小写字符,但是仍然说英文字母有26个。有些表音文字存在复合字母(如ch、sh、sch),这些复合字母是一个字,但是是多个字符。
2.字符集与文字单位总量
(1)字符集
文字系统中字符的总和称为字符集(graph inventory)。如汉文字符集、拼音文字字母表。要说明的是,字符集中还有一些借用自其他文字系统的符号,如第一个进入汉文系统的非汉字符“卍”,唐慧苑《华严音义》:“卍本非字,大周长寿二年,上权制此文,著于天枢,音之为万,谓吉祥万德之所集也。”由武则天钦定读为“万”。1903年版《新尔雅》收入“X光线”词条,20世纪20年代出现字母词语“阿Q”,这个词现在已经收入《现代汉语词典》。50年代公布《汉语拼音方案》并组织广泛学习,到20世纪70—80年代,随着与国外的接触和联系增多,互联网的发达,直接借形的字母词语开始大量涌现,拉丁字母已经成为汉文字符集中不可或缺的成分。
(2)文字单位总量
文字单位总量分成字量(amount of grapheme)和字符量(amount of graph),*字符量不等于字量,因为“语言里的一个字,在文字里可以有几个字形;更多的情况是,文字里的一个字,在语言里该算做两个字。”(吕叔湘《语文常谈》,三联书店,1998年,第38页),存在异体字符和同形字符的情况。过去计算汉字数量时,通常是按照字符来计算的,即将一个代表相同语音语义的字的简体、繁体、异体、新字形、旧字形等等分别进行计算。这种计算方式实际是在计算字符数量。存在异体字符和同形字符的文字系统,字量要在字符量的基础上认真考辨。而大多数字符量少的表音文字,字量与字符量一致。
字符集中字符的总量称为字符量。字符集有必要按时代和常用范围分层次。不同时代有不同的字符集,一个时代通行使用的字集包括了常用、通用、罕用的字符。从最宏观的层面讲,一个文字系统中的所有字符包括历史上存在过,但现在已经不用的死字符。
原始文字因为发展程度差异而字符数量差异也很大,尔苏沙巴文的字符数量较少,而东巴文的数量较多。经喻遂生先生研究,《纳西象形文字谱》有基本字(包括字组,下同)1340个,异体字686个,派生字262个,三项合计2288个。基本字中,有字组106个,假借字、借形字17个,藏文字、哥巴字5个,重出字7个,1340减去上述各项,基本字中有单字1205个。686个异体字应计入总字数的有43个。262个派生字中,有字组130个,异体21个,应计入总字数的111个。则总字数为:1205+43+111=1359字。因此,说东巴字总字数为1400字左右是比较合适的。以上的统计数字只能说是一个比估计数或将几类字简单相加的得数相对准确一些的数字。这些数据仅据《纳西象形文字谱》一书,而实际上方、李、洛克三部字典互有出入,经典中也还有些字未被字典收录。[5]
成熟的意音文字体系的符号数量极大,因为语言中词的数量十分庞大。《规范汉字表》收汉字8300个,根据现代的通行程度分为三级,一级字表收3500字,二级字表收3000字,三级字表收1800字。壮族的古壮字民间普遍使用的有4800多个字,此外,还有音同义同而写法不同的异体字8000多个。古埃及象形文字符号的数量在不同时期有所变化,在古王国时期(公元前3000年始)约有1000个符号,到古典埃及语时期(公元前2000年始)减少至750个,在希腊——罗马时期(公元前3世纪到公元2世纪)又增至几千个。[6]
音节文字系统中的字符数量,取决于所记录语言中音节的数量。长久保持用音节文字记录的语言,一般来说都是音节结构简单,音节数量不多的语言,如日本的假名。音素文字大多数字母表只有20至30个符号,然而语言系统的复杂性导致了不同规模的字母表。最小的字母表是罗托卡语字母表,在所罗门群岛使用,最大的字母表是高棉语字母表,有74个字母。一般的拉丁字母文字系统,采用26个拉丁字母,有少许变化,如法文用26个拉丁字母,其中w只用于外来词。有三个上加符号(扬音符、抑音符、长音符)和一下加符号。西班牙文用30个字母,包括一个加符字母和3个双字母。葡萄牙文有26个字母,其中k、w、y这三个字母只在特殊场合被使用,如外来词或缩略词中(故以前称为23个字母)。
3.字序
字具有字符的形体特征,所指具有音或音义特征,故可以按这几方面特征归类排序。纳西东巴文及水文等文字,字符之间并无必然的顺序,编排字典时往往采用义类的方式编排。汉字早期排序的原则也是“分别部居,不相杂厕”,将汉字分成若干部类排列,各部类之间界限分明。《急就篇》“罗列诸物名姓字,分别部居不杂厕”,按照姓名、物名、五官分成三部分。因为字义很难确立分类的标准,所以后来使用义序的较少,代之而起的是形序,《说文解字》建立540部首,类聚相同偏旁的汉字建立部类,再将每个汉字归于相应部类中。但部首排序仍然与字义密不可分,因为根据字形偏旁所表示的意义类聚汉字设立的部首。最后出现的是音序法。表音文字字母排列法主要有两种:一种是发音部位排列法,另一种是传统的混合排列法。印度梵文字母按照发音部位排列,从北方塞姆字母演变而成的各种字母,包括拉丁字母,大都是根据传统混合排列的。
(二)文字规则
文字系统除了文字单位外,还有文字规则(writing rule),文字规则是文字系统中文字单位的构成和运作规则。王宁先生在《汉字构形学讲座》中指出:“文字不是孤立的字符,它的总体是成系统的,是按一定的区别原则和组构手段结合而成的体系。”[7](P2)文字规则包括文字的构字规则、表达规则和组合规则。构字规则作用于文字单位内部,表达规则作用于文字单位与语言单位的联系,组合规则作用于文字单位的组合层面。
字符构字规则是字符形成的方法和原则,文字系统中的字符在不断新生、消亡,形成字符的规则可以源源不断的产生出新的字符作为文字系统的补充。字符数量少的文字,用简单的符号就能有较好的形体区别度,故字符的构成规则简单。而字符数量多的文字,往往特别重视字符的层级构成,这也一定程度弥补了字符数量大的不足。
文字的表达规则考虑的是文字单位的能指与所指,主要是通过相互区别的符号用什么方式表示包含在整体流动的语言之中的语言单位。王凤阳说:“构成文字体系的主要部分是该文字的记录原则,及由它所决定、派生的写词法(或表达法)、造字法、构形法……文字体系的基础是记录原则,其核心部分是体现记录原则的作为该体系的基础的写词法(或表达法)。”[8](P259)
文字的组合规则受语言句法的影响,语言的重要特点就是要把言语表达在时间上有序地排列起来。语言上的句法反映在文字书写中,就是要把文字符号进行空间上的有序排列。但这中间存在不一致和转换的问题:字符组合顺序是否与语言顺序完全一致,另外字符进入组合后是否发生形体变化。
三、文字系统的同一性
文字系统的同一性即判定是否属于同一种文字系统,要关注两个方面:一是是否表达同一种语言。二是文字符号是否一致,包含两个方面,即符号的形式和所指都要一致。
(一)属于同一文字系统
伊斯特林说:“文字体系的特征如果稳定性低,变化时该文字体系不变成另一体系,那么这样的特征不属于基本特征。如下特征便属于此列:历史上经常变化的书写笔画和式样(例如俄罗斯文字的正字体、半正字体、草字体、民用字体);局部的正字法规则;标点符号规则。甚至在这些特征发生重大变化(例如俄文的正字体笔法转为半正字体,或者正字法规则和标点符号规则有了很大变化)时,文字体系也不变成为与原来不同的另一种体系,除了很少的情况外,即笔体和式样的改变导致大部分字形的改变或者正字法规则的改变引起书写符号的结构、意义和用法上的根本改变。”[9](P44)
如汉字系统的甲骨文与小篆,小篆与楷书,虽然采用的字符体式有区别,但其表达规则和文字性质没有太大变化,应该看成同一文字系统,故汉字被认为是世界上唯一的来源古老且持续使用的文字。“十一世纪的俄罗斯文字和现代俄罗斯文字应看作同一个文字体系(基里尔字母体系)的历史变异。这是因为现代俄罗斯文字和十一世纪的文字一样,用来表达同一民族的语言并且属于同一文字类型(元音—音素型);此外,尽管它经历过几次字母表—正字法的改革,但现代俄罗斯文字在符号的音素数量、音值和典型字形上非常接近于十一世纪的文字。”[9](P45)
(二)不属于同一文字系统
1.不同文字体系书写同一种语言属于不同文字系统
印度和巴基斯坦实际上使用同一种语言,但印度使用天城体字母(Devanagari)书写,巴基斯坦使用阿拉伯字母(Arabic alphabet)书写,前者被称作印地文(Hindi script),后者被称作乌尔都文(Urdu script)。塞尔维亚和克罗地亚也使用同一种语言,但塞尔维亚使用基里尔字母(Cyrillic alphabet)书写,克罗地亚用拉丁字母书写,前者被称作塞尔维亚文(Serbian script),后者被称作克罗地亚文(Croatian script)。
同一民族先后使用不同的文字体系,自然被看成不同的文字系统,如蒙古族最开始采用回纥字母式蒙古文,蒙古人民共和国20世纪40年代用基里尔字母拼写。东干族是回族的后裔,19世纪60年代陕甘回民大起义失败后,残部经新疆退入中亚今吉尔吉斯斯坦、哈萨克斯坦、乌兹别克斯坦等地,其后裔形成东干族,所使用汉语陕甘方言被称为东干语,上世纪20年代创制阿拉伯字母式东干文,50年代改为基里尔字母,称为东干文(Dungan script)。东干人所操汉语前后使用的汉字和东干文是不同的文字系统。
2.同一种文字体系(或字符集)转用来书写不同语言属于不同文字系统
一种文字体系,转用来书写另外的语言,如拉丁字母借用来书写其他的语言。如台湾南部平埔族过去没有文字记录,17世纪荷兰传教士到台湾后用拉丁字母拼写西拉雅(Siraya)语和法佛朗(Favorlang)语,这两种拼写系统都借鉴荷兰文式的拉丁字母,但表达的是西拉雅语和法佛朗语。[10](P1)
文字体系中的字符集中的符号,可能会随着时间的增加而发生改变,这些符号表达的音值发生变化,这时候文字体系就呈现出明显的的差异。伊斯特林说:“德文和法文(正如俄文和乌克兰文一样)应该认为是不同的文字体系,因为其字母表的全部书写符号虽然几乎相同,但它们却用来表达不同的语言,因而在字母的音值和正字法规则方面有着本质的区别。”[9](P44-45)天主教的扩展使拉丁字母得到传播,拉丁字母被用来书写多种语言,其中有些字母表变化较小,有些变化较大,但都应该被视作不同的文字系统。
有时候不仅字符表达的音值发生变化,有时候连字符的表达规则也发生变化,如美索不达米亚的文字是人类最早的文字体系,它不仅可以书写苏美尔语和阿卡德语,而且能够书写其他语言,如埃兰(Elam)王朝所用的埃兰语就是以楔形文字书写的,居住在安纳托利亚的赫梯人(Hittites),在公元前1400年到公元前1200年间曾拥有一个富裕而强大的文明,尽管他们的语言属于印欧语系,迥异于美索不达米亚的语言,他们也采用了简化的楔形文字。波斯帝国也用源于楔形文字书写古波斯语。这些用来书写不同语言的楔形文字,不应该被看作同一文字系统。
所以,一些从字母表上看来字符相似的字符集,有的音值发生了变化,有的字符的表达规则也发生了变化,即使什么都没改变,但只要表达了另外的语言,就应该被看成不同的文字系统。
3.文字系统的性质发生变化
同一民族内部的文字系统,在发展过程中发生了性质的改变,文字类型发生了变化,即文字的表达规则成系统的发生了变化,则可以认为是产生了新的文字系统。如纳西族在东巴文基础上产生出哥巴文。东巴文在发展过程中,已经出现了一字一词的完备式记录,甚至还进一步往前发展,出现一字一音节的记录方式。同时还大量出现完全标音的形声字、假借字、标记多音节词的标音字。但东巴文在发展中存在一个矛盾,即表音化的发展与东巴文象形表意性质间的矛盾,并且文字越发展,这个矛盾就越突出。随着东巴文假借使用的不断扩大,东巴们已经习惯了同音字的运用。而一些东巴字则被经常用来表达一些音节,再加上东巴有意识的对表音的东巴字进行改造,如采用简化形体、改换方位、加上缀饰等手段。原来的东巴字就逐渐变成了标音符号,甚至有些已经变得看不出与来原来东巴字的联系了。[11]这实际上是字符集中字符个体逐渐发生量变,当量变积累到一定程度的时候,文字规则亦可能发生改变。
过去流行于川滇黔桂的传统彝文(Old Yi script)是一种意音文字,四川省选定819个音节符号形成音节型的四川规范彝文(Sichuan normative Yi script),这是对文字系统的人为改变。四川规范彝文与传统彝文也不是同一种文字系统。
四、结论与思考
(一)文字系统与相关概念
文字系统是指与具体语言相联系的具体书写符号系统。与以下概念所指均不相同:从语言角度出发的某某语书写系统、从文字体系角度出发的某某系文字、从文字类型角度出发的某类文字。
(二)文字系统的构成
任何一个文字系统均包含系统内部的组成成分、规则和文字系统所表达的语言对象。文字系统的组成成分即一个个的文字单位,而文字系统的运作规则包含构字、表达规则和组合规则。构字规则作用于文字单位内部,表达规则作用于文字单位与语言单位的联系,组合规则作用于文字单位的组合层面。
(三)文字系统的同一性判断
判定是否属于同一种文字系统,要关注两个方面:是否表达同一种语言;文字符号是否一致。伊斯特林说:“每种文字体系的基本特征应该是:(一)文字类型—基本上是表词型还是词素型、音节型、辅音—音素型、元音—音素型,或者是这些类型之间的中间型、过渡型;(二)所用书写符号(表词字符号、音节符号或者字母-音夕符号)的结构,这些符号既从意义(它们对该语言的某些要素的关系)方面来看,又从它们的标准书写形式(字形)方面来看;(三)正字法原则。”[9](P40)以下情况应视作不同文字系统:用不同字符书写同一种语言;同一种字符集用来书写不同语言;文字系统的性质发生变化。
(四)字量与文字类型的关系
意音文字体系的符号数量极大,因为字符反映词或语素的意义区别,而语言中词或语素的数量又十分庞大,所以字的数量也就很多。汉字系统常用字在3500左右,通用字7000左右。
音节文字记录语言的音节,一般来说是音节结构简单,音节数量不多的语言,如日语。如果一种语言的音节结构比较复杂,就需要进一步向记录音位的字母文字发展,因为一种语言使用的音位是有限的,一般只有几十个,因而表示音位的文字只需要几十个字母就可以拼写语言中的全部音节,进而书写全部的词和句子。
在判定未知文字的类型时,经常运用这一规则:文字符号的数目通常表明有待解读的是何种文字——音素文字、音节文字或者表意词符和音节符号的混合文字。少于三十个符号的文字,大都是音素文字;解读这种文字的可能性比解读较复杂文字的可能性要大些。至于含有五十、一百或数百个符号的文字,当然应当假定是一种多少比较复杂的音节文字,也可能是音节符号和词符夹在一起的混合文字,解读这类文字的困难较大。[12](P174)
(五)字符的结构规则与字量存在相互制约关系
高本汉在《汉语的本质和历史》中指出:“在延续了三千多年的中国文学作品中经常通用的汉字只有六七千个;其次,学会大约四千个汉字就足够用了;再次,要阅读现代的书报杂志,人们只需致力于掌握两三千字就行了。西方人也许要问:‘那么,这不就够糟糕了吗?’欧洲孩子学字母表,只要学二十来个符号,而中国孩子却不得不学会辨认、分析和书写至少两千个不同的字词符号,倒霉的孩子!然而经验表明,困难并没有严重到那个程度。正由于在迷茫中有某种理据,所以学起来相当容易。一旦你学会了几百个简单的书写符号,即基本材料,那就只是个拼字的问题了。‘手’和‘口’两个成素结合起来就造成了‘扣’字,等等,孩子很容易记住,即使是西方的成年人,根据这些简单合理的方法也能在一年之内学会两千个左右的汉字。”[13](P22)正是因为汉字具有从笔画、到构件到整字的层级构字体系,通过极少量的笔画可以组合成构件,通过数量并不庞大的构件组合成字符。这个体系弥补了字符量巨大的不足。相反,字符量小的字母文字,往往并不注重字母的切分与构成研究。
参考文献:
[1] (俄)B.A.伊斯特林著,左少兴译.文字的产生和发展[M].北京:北京大学出版社,2002.
[2] 王凤阳.汉字学[M].长春:吉林文史出版社,1989.
[3] 王伯熙.文字的分类和汉字的性质[J].中国语文,1984,(2).
[4] 周晓文.汉字构形属性历时演变的量化研究[M].北京:中国广播电视出版社,2008.
[5] 喻遂生.纳西东巴字字和字组的划分及字数的统计[A].纳西东巴文研究丛稿[C].成都:巴蜀书社,2003.
[6] 颜海英.古代埃及的语言文字[A].东方语言文字与文化[C].北京:北京大学出版社,2002.24-25.
[7] 王宁.汉字构形学讲座[M].上海教育出版社,2002.
[8] 王凤阳.汉字学[M].长春:吉林文史出版社,1989.
[9] (俄)B.A.伊斯特林著,左少兴译.文字的产生和发展[M].北京:北京大学出版社,2002.
[10] 李壬癸.新港文书研究[M].台北:中研院语言学研究所,2010.
[11] 邓章应.西南少数民族原始文字的产生与发展[M].北京:人民出版社,2012.
[12] (德)Johannes Friedrich著,高慧敏译.古语文的释读[M].北京:文字改革出版社,1966.
[13] 高本汉.汉语的本质和历史[M].北京:商务印书馆,2011.
Research on the Composition and Identity of Script
Yang Zhishui
(Institute of History & Philology in Academia Sinica, Taipei 11529, China)
Abstract:One script consists of graph inventory, rules and language object that script wants to express. The writing rules include rules of graph composition, rules of expression and rules of component. The rules of graph composition can make effect on the inner structure of script unit. The rules of grapheme expression can make effect on association between script unit and language unit. The rules of graph component can make effect on the component of script units. We determine whether they belong to the same script there are two aspects that require attention: whether they can express the same language, or whether the symbols are in accordance. The following conditions can be viewed as the different script: recording one language in different symbols; recording different language in one symbol; the property of script has changed.
Key words: script; script unit; writing rule; identity
责任编辑:周延云