龙从军,刘汇丹,周毛克
(1. 中国社会科学院 民族学与人类学研究所,北京 100081; 2. 中国科学院软件研究所,北京 100190; 3. 中国社会科学院大学,北京 102488)
人通过识别文本中的实体、概念来理解文本。理解了文本中的实体概念,在某种程度上就理解了文本的大致内容。名词或名词短语经常被用来表达实体、概念。名词或名词短语的识别,是一个句子的主要组成部分,它携带着丰富的句法和语义信息,是分析和理解句子意义和结构的基础。在自然语言信息处理领域,名词短语的识别和结构分析正确,可以提高机器翻译、信息检索、文本分类、自动句法分析等自然语言处理系统的性能。
在藏语信息处理领域,词法分析取得了丰富的成果[1-4],信息处理逐渐从以词法分析为主过渡到以句法、语义和篇章分析为主的阶段。从句法分析的角度来看,研究内容表现在两个方面:一是句子识别,二是句法分析。句子识别主要讨论如何从连续文本中切分出单个句子。如从语言规则出发,可以根据藏语动词语尾的特点,构建句子边界切分标记库,实现句子切分[5-7];或者采用规则和统计相结合的方法识别句子边界[8-12];也有一些研究,在双语语料对齐研究中,探讨句子的边界问题[13-14]。句法分析主要讨论基于短语结构的句法分析[15]和基于依存语法的句法分析[16-17]。为了降低句法分析的难度,研究者倾向于采用组块分析方法进行局部句法分析,其中名词组块是组块分析的重要部分[18-20]。尽管局部句法分析取得了一定的成果,但是,从语言工程实践角度来看,成系统、上规模的藏语句法树库资源仍极其缺乏,实用的句法分析工具也未见公开。
本文开展基于藏语短语结构句法树库的最长名词短语研究,从构建短语结构树的角度,厘清最长名词短语的定义、类别。从句法树库中选取了6 038个句子,对名词短语的类型、结构等进行统计分析。初步构建藏语最长名词短语识别器,分析识别效果和存在的问题。
台湾学者Chen研究英语名词短语的分类,总结出三种名词短语:最短名词短语、最长名词短语和普通名词短语。所谓最短名词短语是指不包含其他名词短语的名词短语。最长名词短语是指不被其他名词短语所包含的名词短语。普通名词短语是不具有任何限制的名词短语[21]。周强把名词短语也分成三类:最短、最长和一般名词短语。一般名词短语指所有不是最长和最短的名词短语[22]。两种分类类似,但内涵有差别,如在对待单个词构成短语时,前者的基本思想是,一个词可以构成最长名词短语;但后者认为,一个词构成的短语不是最长名词短语。钱小飞在总结各种名词短语定义之后,区分了最长名词短语和表层最长名词短语,从他列举的例子中,可以观察得出,所谓表层最长名词短语是指在句法树的子树中包含的第一个层级的名词短语,非表层最长名词短语是指表层最长名词短语中不包含动词短语的嵌套名词短语[23]。
Koehn和Knight从句法树的角度界定最长名词短语和介词短语,即给定一个句子S和它的句法分析树t,名词和介词短语是句子S的子树ti,它至少包含一个名词,但不包含动词,不被更大的名词短语和介词短语所包含[24]。Koehn和Knight对最长名词短语的界定基于句法树,这个定义比较符合本文基于短语结构树的藏语最长名词短语的定义,藏语最长名词短语基于句法分析树,更加注重名词短语及其他短语在句法分析树上的位置。参考前人的研究成果,结合藏语句法分析树的实际情况,本文把藏语最长名词短语界定为:
给定一个藏语句子的句法分析树S,最长名词短语是S的子树t,t是名词短语,但t的父节点及祖先节点都不是名词短语。
这个概念界定比较宽泛,从句法分析树看,自顶向下,第一个名词短语就是本文所指的最长名词短语。
最长名词可以由单个名词、代词、数词等构成。如图1所示,KP-SBJ-AGE短语的子节点NP(人称代词提升为名词性短语),KP-OBJ-TAR短语的子节点NP,VP短语的子节点NP为最长名词短语。
图1 句法树中的最长名词短语
为了更加细致地描述藏语最长名词短语,特做如下界定:
① 最长名词短语是指中心词为名词的所有短语;最长名词短语的中心词位置可以居于短语首、短语中和短语末。如图2(a)的中心名词居尾、图2(b)的中心名词居中、图2(c)的中心名词居首。
③ 名词化标记可以作为最长名词短语的中心词,如图2(d)名词短语的中心是名词化标记。
④ 最长名词短语可以是嵌套短语,包括内嵌名词化短语,如图2(a)是嵌套的名词化短语,图2(b)中嵌套有名词短语,图2(d)内嵌套动词短语。
图2 名词短语结构类型
本文使用的藏语句法树库由中国社会科学院民族学与人类学研究所构建,句法分析采用了短语结构语法,本文研究材料来源于1万句基本句型句法分析树库。
在句法树库中,一个句子除了按照词切分之外,还包括词的词性信息、短语类型信息、句法功能信息、语义角色信息,以及句子(或者结构)的关系信息。在短语类型层级的节点上,标注的信息包括短语类型、句法功能和语义角色。如果涉及句子或者结构之间的关系,在短语的句法功能之后标注关系信息,例如:
叶子节点(终节点)是词和词性。词与词性的上位节点是短语(非终节点),非终节点可以承载短语信息、句法功能信息、语义角色信息和句子关系信息。上例中,KP-OBJ-TAR表示带有格标记的名词短语(KP)的子节点在句子中充当间接宾语(OBJ),表示对象(TAR)语义角色。
基于短语结构语法的藏语句法树库标注符号可以分成三类:短语标注符号、句法标注符号和语义角色标注符号。
① 短语标注符号包括IP(带时体态的句子)、S(核心句)、NP(名词短语)、KP (带有格标记短语)、NZP(名词化短语)、VP(动词短语)、ADJP(形容词短语)、ADVP(副词短语)、ADZP(副词化短语)、NGP(领属关系短语)、QP(量词短语)、MP(数词短语)、PRN(插入语短语)、IDE(独立成分)、UP(带助词标记短语)。
② 句法标注符号包括SBJ(主语)、OBJ(宾语)、PRE(谓语)、ADV(状语)、APP(同位语)。
③ 语义角色标注符号包括AGE(施事)、PAT(受事)、TAR(对象)、DIR(方向)、SPA(处所)、TIM(时间)、MAN(方式)、INS(工具)、MAT(材料)、SOU(源点)、PUR(目的)、FAC(使役)、RES(结果)、BAS(依据)。
在句法树标注过程中还需要说明的一些标注符号包括I(时体态)、T(时)、E(态)、H(名词化标记)、AUX(助动词)、G(连接标记-属格)、PL(复数标记)、U(助词标记)、Z(后缀标记)、RP(人称代词)、K(格标记)、Y(语气标记)。词性标注体系可以参阅《中国语言生活绿皮书A006》[注]赵小兵,孙媛,龙从军,等.信息处理用现代藏语词类标记集规范(草案).教育部语言文字信息管理司.中国语言生活绿皮书A006. 北京: 商务印书馆,2015.。
为了研究最长名词短语的内部结构,展示藏语最长名词短语的特性,作者首先从句法树库中选择一定的句法树,抽取出最长名词短语。抽取方法主要根据嵌套括号标记,找到句法树中最长的、节点标记类型为NP的短语,并将该节点的文本表示抽取出来;同时,将构成短语的每个词语的类别也抽取出来。例如:
表1 低频最长名词短语结构类型的种类及出现次数
频次大于10的名词短语结构类型出现次数如表2所示。
表2 频次大于10的最长名词短语的结构类型及出现次数
序号类型频次实例实例翻译38RP+G+NP+ADJP10我的许多好友39 RP+PL+G+NP10你们的家乡
实际上,出现频次最高的前10个约占全部最长名词短语的87%。尤其是单个名词和代词充当的短语占比高于64%。频次较高的前10种类型结构都不包含嵌套名词化短语,长度也不大,最多由4个音节构成,详细情况如表2所示。
从表2中可以归纳如下几种类型:
(1)独词短语包括名词、代词、数词都可以直接构成独词短语,RP,NP,MP,例如,
(2)独词加标记(复数、敬语和约数标记) 名词、代词带复数、敬语标记构成RP+PL,NP+PL,NP+Z,数词可以带约数标记构成MP+Z,例如,
(3)双词短语根据中心词的位置不同可以分成:中心词居后和中心词居前,前者构成的类型是NP+NP,后者构成的类型有NP+RP、RP+MP、NP+MP、NP+ADJP,例如,
(4)三词短语根据中心词的位置不同可以分成:中心词居后和中心词居前,前者构成类型有:NP+G+NP、RP+G+NP、NP+NP+NP、NP+VP+H[注]名词化短语不作为修饰语时,名词化标记是短语的中心。,后者构成类型NP+ADJP+MP、NP+QP+MP,例如,
其他类型的短语都是在上述四种类型的基础上扩充,本文不再一一阐述。
藏语最长名词短语的边界词也具有明显特征。名词短语经常添加格标记,格标记是名词短语最重要的右边界特征词之一,还有包括数词、指示代词、复数标记、敬语标记、形容词等边界特征词。从本文数据统计结果看,作为名词短语一部分的、典型右边界词中,数词有1 313个,复数标记267个,代词905个,不作为名词短语一部分的右边界特征词主要是格标记,共有4 752个名词短语有格标记。名词短语左边界特征词不明显,判断难度相对大一些。
本文使用两种方法进行最长名词短语识别实验:一种基于序列标注方法,把名词短语识别转换为对名词短语边界特征词的识别;另一种基于句法分析方法,在整个句法树生成过程中,统计名词短语子树分析的结果。
在实验中,共使用6 038句藏文句法树进行实验,将其中5 000句作为训练语料,其余1 038句作为测试语料,其实验结果如表3所示。
表3 短语识别情况
基于句法分析的方法,使用伯克利大学的Berkeley Parser在训练集上训练一个句法分析器,对测试语料进行句法分析,提取其中的最长名词短语。句法分析完全正确的句子比例为32.49%。从测试语料中共识别出短语2 290个,其中1 947个是测试语料中实际有的短语,测试语料中实有名词短语的总数为2 304,名词短语识别的正确率、召回率和F1值分别为85.02%、84.51%、84.76%。
基于序列标注的模型,将最长名词短语识别转化为序列标注问题,根据词语在名词短语中的位置,给其分别赋予位置标签,本文采用常用的BMESO标签集。使用CRF++进行序列标注的训练和预测。从测试语料中共识别出短语2 240个,其中1 952个是测试语料中实际有的短语,测试语料中实有名词短语的总数为2 304,名词短语识别的正确率、召回率和F1值分别为87.14%、84.72%、85.92%。
从表中数据可以看出,在识别最长名词短语任务中,基于序列标注的方法要比基于句法分析的方法稍好。
在基于句法分析方法中,缺乏格标记的名词短语容易出错,尤其是VP的孩子节点,通常,VP可以分析为NP和VP,也可以是ADVP和VP,从训练语料的情况来看,分析为NP和VP的概率相对较大,因此,模型在预测时经常会把ADVP预测为NP,如图3所示。
图3 句法分析模型预测结果(右),标准答案(左)
本文实验以基本句型语料为主,从前文的统计分析也可以看出,较长的名词短语所占比例不大,因此在实验中,基于序列标注模型的处理结果要好于句法分析模型。
最长名词短语识别是句法分析的一项重要子任务,本文在藏语句法树库建设中,针对最长名词短语问题,从句法树角度界定了最长名词短语的定义,专门分析了最长名词短语的结构类型,并采用句法分析方法和序列标注方法分别进行实验,考察最长名词短语的识别结果,从实验结果来看,在针对小规模语料实验中,序列标注的方法比句法分析的方法稍好。但是,本结果也许与实验的语料类型有关,序列标注对短距离标注任务效果明显,从最长名词短语结构分析来看,本次语料对序列标注模型有利。由于受到语料规模和句法分析文本类型的限制,本文未能开展基于神经网络的句法分析实验,这是今后努力的方向。藏语句法分析急需在两个方面开展工作:扩充句法树库规模;完成短语结构树与依存句法树库之间的转换,这两个问题也是我们近期研究的重点任务。