才藏太,索南才让,才让加
(1. 青海师范大学 计算机学院,青海 西宁 810016; 2. 藏文信息处理教育部重点实验室,青海 西宁 810008; 3. 青海省藏文信息处理与机器翻译重点实验室,青海 西宁 810008; 4. 西北民族大学 社会科学研究院,甘肃 兰州 730030)
自图弥桑布扎创造藏文字以来,已有1400年的历史。这期间,以他的《三十颂》和《音势论》原著为蓝本加以注释和扩充,形成了以虚词和动词为核心的具有显性结构特征的传统藏文语法体系。综观藏文语法研究,历代有关藏文语法书籍和研究成果汗牛充栋,数不胜数。藏文传统语法研究对藏文字的构成、词的时态变化、虚词的关联方法、藏文句子的结构等方面做出了细致的描述,但是对藏语短语层面没有进行深入的研究。随着自然语言信息处理的不断发展和完善,逐渐从原来的以词为单位的语法分析方法转换成以短语为处理单位的语法分析的思想[1]。尤其在句法分析、机器翻译、文本检索等领域短语的应用较为成熟。
鉴于以上原因,我课题组对藏语短语的结构、藏语短语与藏语句子的界定、藏语短语的分类、藏语短语在词典库中的标记方法等层面做了深入的研究。为基于藏语短语的藏文句法分析、统计机器翻译、藏文文本检索等领域的研究打下了坚实的基础。
为了更深入地区分藏语短语和藏语句子,首先要了解藏语短语和藏语句子的定义。
从功能层面来讲,藏语短语和藏语句子的主要区别表现在能否表示相对完整的意思,如能则为句子,否则为短语。
从结构层面来讲,藏语短语和藏语句子的主要区别表现在以下四个方面。
对于英语短语的划分(bracket)和标注,比较大的研究项目有英国Lancaster大学UCREL的Lancaster Treebank[8]和美国的Pennsayvania大学的Penn Treebank[9]。前者的标记集较大,通过组织成不同的层次描述了详细的短语句法信息。而后者的标记集则较为简练,只有14个句法标记,但它的特点是增加了四个表明不同空元素(Null Elements)的标记。在国内,汉语短语的划分和标注,主要有北京大学计算语言学研究所完成的“汉语短语标注标记集的确定”[10]。此文提出了一个用于汉语短语划分和标注的句法标记集,为汉语短语标注的自动处理和人工校对提供了一个统一的规范。
在藏语短语的研究过程中,主要借鉴了文献[10]的内容,因为汉语和藏语毕竟同属一个语系,在研究思路以及语言的功能、结构等方面有共同特点。文献[10]中,汉语短语划分为:
① 名词性短语,如: 漂亮的帽子;
② 名词性准短语,如: 工人们;
③ 动词性短语,如: 看电影;
④ 动词性准短语,如: 看一看;
⑤ 形容词性短语,如: 特别安静;
⑥ 形容性准短语,如: 红了;
⑦ 副词性短语,如: 虚心地;
⑧ 介词性短语,如: 在北京;
⑨ 区别词性短语,如: 这件;
⑩ 时间词性短语,如: 战争初期;
见到上述汉语短语的分类之后,发现汉语短语的类别及其标记集不能直接借用到藏语处理的研究中,汉语和藏语虽属同一个语系,但毕竟是两门完全不同的语言。从这两门语言的语法结构的特点分析,主要区别有以下三条:
面向语言信息处理的藏语短语的分类体系主要依据藏语传统语法分类体系,根据藏语信息处理的特点和要求,并参考了汉语短语分类研究成果,按照语法功能和便于计算机自动分析和处理的原则划分短语。大类之间不允许出现交叉,包括标注形式层和语义层;小类间允许出现标注形式层交叉,但不允许出现语义层交叉。
该分类体系将藏语短语划分为八个大类,分别是名词短语、动词短语、形容词短语、数量词短语、判断短语、固定短语、时间短语和代词短语。其中:
(1) 名词短语包括名补结构的名词短语、后缀结构的名词短语、偏正结构的名词短语、并列结构的名词短语、方位和处所结构的名词短语、复指名词短语等六个子类。
(2) 动词短语包括宾动结构的动词短语、并列结构的动词短语、递补结构的动词短语、动补结构的动词短语、受施结构的动词短语、偏正结构的动词短语、方位和处所结构的动词短语、主谓结构的动词短语等八个小类。
(3) 形容词短语包括并列结构的形容词短语和偏正结构的形容词短语等两个子类。
(4) 数量词短语、判断短语、固定短语、时间短语和代词短语没有划分子类。
标记代码的制定原则是依据国际通常做法,标记代码主要采用英文术语的字母。例如,“名词短语”采用NP、“数词短语”采用MP作为标记代码。 藏语独有的或使用英文术语字母标记不便的,依据国内通常做法,标记代码采用汉语拼音字母,如“判断短语”采用汉语拼音的首字母作为标记代码PP。藏语短语的标记代码、子类信息、短语结构及藏文实例等详细内容如表1所示(见下页)。
表中最左边一列表示藏语短语中八个大类的标记代码,用NP、VP、AP、MP、PP、GP、TP和RP分别代表藏语短语中的名词短语、动词短语、形容词短语、数量词短语、判断短语、固定短语、时间短语和代词短语。第二列是藏语短语的名称。第三列表示藏语短语的名词短语、动词短语和形容词短语中分类出来的子类标记代码,其余的数量词短语、判断短语、固定短语、时间短语和代词短语没有划分子类。因此,此处表格内容为空。表格第四列为子类名称。第五列代表藏语短语的结构,其中小写英文字母代表词性;大写英文字母表示短语;“+”表示连接;“/”代表“或者”;“[ ]”表示可有可无;“...”表示前面的词重复连接;短语结构中出现的藏文表示固定搭配的藏语虚词;“;”前后是不同的短语结构,例如,名补结构的名词短语(NPM)中,名词是中心词,名词后面的形容词、方位词或助词用来修饰前面的名词。又如,在偏正结构的短语中,整体的功能和其中一个成分的功能相同,这个成分就是中心词。偏正关系的名词短语的中心词是名词,前面部分是修饰中心词的定语,定语部分由名词或名词短语、动词或动词短语、形容词(除单音节的形容词以外)或形容词短语、代词充当。定语和中心词之间用属格助词,有时属格可省略,但其意义及功能不变。为了控制篇幅,不作一一列举。最后一列是藏文实例。
随着自然语言信息处理技术的不断发展和完善,从原来的以词为单位的语法分析方法转换成以短语为处理单位的语法分析的思想。在这样的背景下,藏文信息处理也不例外,在藏文句法分析、藏汉机器翻译、藏文文本检索等领域都要用到藏语传统语法不太被关注的藏语短语。因此,本文对藏语短语的定义、藏语短语与藏语句子的区别等方面进行了研究。在此基础上对藏语短语进行分类,并规定了信息处理中藏语短语类别单位的标记代码。下一步,我们将在建立大规模藏语语料库的基础上进行藏语短语的自动抽取研究,进而建立藏语短语信息库,为基于藏语短语的藏文句法分析、统计机器翻译、藏文文本检索等领域的研究奠定坚实的基础。
表1 藏语短语的分类及其标记代码
续表