班玛宝,才智杰,拉玛扎西
(1. 青海师范大学 计算机学院,青海 西宁 810016; 2. 藏文信息处理教育部重点实验室 青海 西宁 810008; 3. 青海省藏文信息处理与机器翻译重点实验室 青海 西宁 810008)
随着信息技术的不断进步,藏语自然语言处理已经发展到了“句”的层面。但是由于多种原因,藏文句法分析的研究还未取得重大突破。若要深层次地理解藏文,就必须对藏文句子进行句法分析[1]。迄今为止,有关藏文句法分析方面的文章都是针对所有藏文句型展开。然而不同类型的藏文句子在结构特征方面存在明显差异,从而导致藏文句法分析效果不够理想。针对不同类型的句子,研究其句法,可以提高藏文句法分析的整体性能。
疑问句是一种常见的藏文句型,也是藏文问答系统、搜索引擎、信息的抽取和检索等问题中的主要句型。本文通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,并归纳了结构特征,进而利用PCFG研究了藏文疑问句的句法分析。经测试,在封闭测试集上的准确率、召回率和F1值分别达97.6%、97.3%和97.4%,在开放测试集上的准确率、召回率和F1值分别达96.0%、95.4%和95.7%。
自20世纪50年代开始,句法分析作为自然语言处理领域的核心任务之一,一直是研究人员关注的热点问题[2]。目前用于句法分析的主要方法有规则法、统计法和规则与统计相结合的方法,统计法中又有基于最大熵的依存句法分析和基于深度学习的句法分析等方法。文献[3]采用规则的方法,作者从分析汉语的句法特点出发,规定了汉语句法规则,进而研究了汉语句法分析方法。文献[4]采用了统计方法研究了汉文句法,在正确分词的前提下,句法分析的准确率和召回率分别为86.9%和85.7%[4]。文献[5-6]采用了规则与统计相结合的方法,其中文献[5]分析了PCFG独立假设的局限性,从而在句法结构共现概率中引入了上下文信息,利用Inside-Outside算法进行迭代,最后提出了一个基于统计模型的自顶向下的汉语句法分析器,在封闭测试下,其标记准确率和标记召回率分别为88.1%和86.8%;文献[6]从单个句法分析标记错误和句法分析层次结构标注错误两个角度进行了探究,利用规则和统计的理论,发现自动修正不一致,其一致性检验的准确率为87.6%,召回率为94.8%。文献[7]采用最大熵的依存句法分析方法,比较了自顶向下(Up2Down)算法、自底向上(Down2Up)算法和最大生成树(MST)算法的效果,得出最大熵模型的依存句法分析算法中MST算法效果最好的结论。文献[2]采用深度学习的方法,介绍了前馈神经网络的依存句法分析模型和长短时记忆神经网络的依存句法分析模型,并对基于这两种模型的句法分析效果进行了比较;实验表明,基于前馈神经网络的依存句法分析模型在宾州树库开发集上无标记依存正确率(UAS)和带标记依存正确率分别为91.4%和89.8%,测试集上无标记依存正确率(UAS)和带标记依存正确率分别为90.2%和88.5%;基于长短时记忆神经网络的依存句法分析模型在宾州树库开发集上的无标记依存正确率(UAS)和带标记依存正确率分别为91.9%和90.5%,测试集上的无标记依存正确率(UAS)和带标记依存正确率分别为90.7%和89.0%。
用于藏文句法分析的主要方法有基于规则和基于判别式的依存句法分析方法。文献[1,8]采用规则的方法对藏文句法分析的算法进行了研究,并设计和实现了句法分析器,但未考察句法分析效果。文献[9]提出基于判别式的藏语依存句法分析方法,采用感知机方法训练句法分析模型,CYK自底向上算法解码生成最大生成树,句法分析正确率达到81.2%。文献[10]采用判别式的依存句法分析方法,提出了一种基于判别式的藏文复合句切分标注方法,句法分析的准确率达到了88.7%。文献[11]通过分析藏语判断句的特征,构造了其句法树生成规则,并通过PCFG解决句法歧义问题,最后通过CYK算法进行解码,自动生成判断句句法结构树。
在藏文书面语中,每个疑问句至少会有一个疑问代词,而且不同的疑问代词通过与其上下文相结合可以构成不同类型的疑问句。藏文疑问句的结构特征如表1所示。
句法分析指通过某种方式对句子结构进行自动分析。上下文无关语法CFG(context-free grammar)是一种较好的句法分析模型,但它不能解决有歧义句子的语法树解析问题。从统计上看,一个语法树解析是否正确,主要与句法规则出现概率有关。概率上下文无关语法PCFG(probabilistic context-free grammar)在CFG的基础上增加了句法规则概率,提升了句法分析的性能,是一种句法分析的好模型。CYK(Cocke-Younger-Kasami)是基于动态规划思想设计的一种自底向上对上下文无关文法CFG进行句法分析的算法,也是适用于PCFG剖析的一种标准的动态规划算法,对给定的句子进行自底向上分析并生成广义的句法结构树。本文在藏文疑问句句法分析时,选择了PCFG模型,并以CYK算法解码。
基于PCFG的句法分析模型主要包括语法规则初始概率值和结构共现概率两个参数,其计算方法如下。
3.1.1 语法规则的初始概率计算方法
统计训练语料中各规则出现的次数,利用最大似然估计求出每条规则出现的频率,作为语法规则的初始概率值,计算如式(1)所示。
(1)
其中,C(A→X)表示规则A→X在树库中出现的次数,其中A表示非终结符(nonterminal symbols)集,X表示终结符(terminal symbols)集,P(A→X)表示规则A→X的概率估计值。
本文在沿用已有算法的基础上,对训练语料进行迭代训练,从而得到一个收敛的语法规则。为了尽量减少语法规则概率的估计对语料库的依赖,对语法规则的初始估计概率值进行再次估算,方法如下:
设置一个阈值γ,将语法规则分为高频规则集HFR和低频规则集LFR,分别如式(2)、式(3)所示。
设M为LFR集合中规则的个数,N为HFR中所有规则的概率值总和,即:
(4)
利用如下公式得开始迭代的初始概率值:
(5)
(6)
这里a的取值范围为0~1,是再次估计后HFR集合中所有规则的估计概率值的总和;同样1-a为LFR集合中规则的概率值总和。
3.1.2 结构共现概率计算方法
结构共现概率的计算采用最大似然估计的方法。处于句首的句法范畴F向前共现概率P(ε,F)、非句首的句法范畴F向前共现概率P(v,F)、处于句尾的句法范畴E向后共现概率P(ε,E)和非句尾的句法范畴E向后共现概率P(v,E)计算分别如式(7)~式(10)所示。
从实际的语言现象来看,对于一个确定的训练语料,即使语料规模再大,也会遇到数据稀疏问题。其原因在于进行句法分析时,测试语料中会遇到训练语料中从未出现过且合法的新语法规则,从而出现零概率问题。
图1 句法树S
数据平滑的基本原则是适当减少藏文训练语料库中出现的语法规则概率,而把减少的那部分概率赋予训练语料中未出现的合法的新的语法规则,过程如下:
设N为训练的标识数,nr为语料中出现r次的事件个数,则式(11)成立:
N=∑rr×nr
(11)
按最大似然估计原理,出现r次的语法规则A→X的概率为:
(12)
根据式(12)中Turing公式,调整出现r次的规则A→X的概率为:
(13)
使用Good-Turing公式,可以得到训练语料中所有语法规则的概率和为:
(14)
C(A→X)>0表示该语法规则在训练语料中出现的次数大于零,训练语料中从未出现过的语法规则的概率和为:
(15)
C(A→X)=0表示在训练语料中出现的语法规则次数为零。
藏文疑问句句法分析中的句法排歧是主要难点,人脑可以通过考虑各种综合因素来避免歧义产生,但计算机难以解决歧义问题。由于本文对藏文疑问句进行句法分析时,测试语料已分好词,故排歧时不需要考虑分词歧义,文章中句法排歧主要解决的是节点的标记。本文利用统计的方法来计算歧义句中每个词与上下文之间的概率之积,通过找出概率最大的句法结构树来实现消解歧义的目的。
UP->uc#0.024
可得两个符合语法规则的句法树,如图2和图3所示。
图2 句法结构树1
图3 句法结构树2
分别计算以上两个句法结构树的概率值:
句法结构树1中:
句法结构树2中:
(1) 规则集及其概率值:
(2) 利用概率CYK句法解码算法后生成的句法结构树如图4所示。
图4 句法结构树
我们从青海师范大学建立的藏语语料库[14]中选择了500个疑问句,对此人工标注句法标记,得到500个结构树库作为实验语料。实验过程为:
① 用CFG模型生成规则;
② 用PCFG模型计算由CFG模型生成的各种规则的概率值;
③ 用CNF模型计算由PCFG模型输出结果中结构共现概率;
④ 用概率CYK算法对藏文疑问句进行句法分析并生成广义的句法结构树。
实验包括封闭式测试和开放式测试。封闭测试时,对训练语料中的500个原句进行了测试;开放式测试时,随机找了100个未在训练语料中出现的疑问句进行了测试。实验结果如表2所示。
表2 藏文疑问句句法分析实验结果
表2中的准确率、召回率和F1值是自然语言处理领域常用的评价标准,其计算方法如下:
从表2中的实验结果可以看出,基于PCFG的藏文疑问句句法分析在封闭测试集上的准确率、召回率和F1值分别达到了97.6%、97.3%和97.4%,在开放测试集上的准确率、召回率和F1值分别达到了96.0%、95.4%和95.7%,句法分析效果比文献[9-10]有明显的提高,表明根据具体句型及其特征,针对性的研究句子的句法,其性能有很大的提高。由于训练语料较少,影响了实验结果。主要有以下两种错误:
疑问句是一种常见的藏文句型,也是藏文问答系统、搜索引擎、信息抽取和检索等问题中的主要研究句型。本文通过分析藏文疑问句的构成特点,对藏文疑问句进行了分类,并归纳了各类藏文疑问句的结构特征,在此基础上利用PCFG对藏文疑问句进行句法分析。经测试,在封闭测试集上的准确率、召回率和F1值分别达97.6%、97.3%和97.4%,在开放测试上的准确率、召回率和F1值分别达96.0%、95.4%和95.7%,句法分析效果比现有藏文句法分析有了明显的提高。测试中主要出现了短语节点标记错误和词节点标记错误两种类型,究其原因是由于训练语料规模较小而造成。
PCFG模型属于监督式学习方法,对训练语料的质量要求很高。为了能更好地研究藏文句法,今后一方面需不断扩建藏文疑问句句法标记树库来提高句法分析效果,另一方面应研究并尝试无监督式的基于神经网络模型的藏文句法分析技术,以提高藏文句法分析的性能。