康旭珍,李 茹,李双红
(山西大学 计算机与信息技术学院,山西 太原 030006)
随着中文信息处理技术的不断发展,自然语言处理研究逐渐从句法处理转移到语义处理和语用处理方面,许多研究工作者尝试以新的角度来观察、发现新的语言问题。其中基于框架语义学理论构建的框架语义网络知识库为自然语言处理开辟了一条新的道路。基于汉语框架网,将一个汉语句子形式化表示成框架依存图,用来表示依存于目标词的各个框架元素的语义依存关系,也是进行语义理解的一种有效方法。由于在每个框架元素中不同的词对整个框架元素的语义理解起着不同程度的作用,所以本文旨在通过不同的机器学习方法对短语型框架元素的语义核心词进行识别,从而进一步将框架依存图转化为框架核心依存图。
近年来,不少研究者已经开始重视这方面的研究,而且取得了一定的成就,但是主要集中于对短语中心词和短语结构等方面的相关研究。程月,陈小荷基于条件随机场的汉语动宾搭配自动识别,验证了条件随机场模型在词语搭配实例自动识别方面有效可行性[1]。周雅倩、郭以昆等使用了基于最大熵的方法识别中文基本名词短语[2]。目前对于框架元素语义核心词提取的研究已经有了一定的基础,文献[3]中结合了多词块技术,大大提高了识别效率,利用多词块中的关系标注、序列标注找到一个短语中的核心成分,在本质上就是分析这个短语的语义依存关系。本文就是在此基础上,考虑到目前多词块标注技术不够成熟,其标注结果只能达到83%左右,有一定的限制性,在做下一步工作时,为了避免错误累积,综合考虑效率、训练时间等各方面因素,将不使用多词块技术,直接利用CRF、最大熵模型、SVM等机器学习方法进行框架元素核心词的识别,以期达到更好的识别效果。另外,本文研究的另一大优势就是可以更好的处理语料中复杂短语类型的框架元素。
关于本文中框架元素语义核心词的提取问题既可看作一个序列标注,也可以看作一个分类问题。短语型框架元素中包含有两类词: 一是这个短语的核心词,二是非核心词。本文的任务就是对框架元素中的核心词进行识别。而基于统计学习理论CRF模型、ME模型以及SVM模型,其具有理论完备、适应性强、泛化性能好等优点,尤其对于分词[4]、词性标注[5]、文本分类[6]等这些中文信息处理方面尤为有效,所以本文通过实验对这三种常用的方法进行了验证与比较。
汉语框架网[7](Chinese FrameNet,CFN)是以Fillmore的框架语义学作为理论基础,以伯克利FrameNet为参照,以真实语料为依据的机器可读的汉语语义词典。汉语框架网由框架库,词元库和句子库组成。框架库的每个框架包括核心框架元素和非核心框架元素以及包含在这个框架中的若干词元。框架中涉及的各种参与者、外部条件和其他概念角色,称为框架元素(Frame Elements)。
框架元素[8]分为核心框架元素、非核心框架元素和通用的非核心框架元素。本文的研究对象就是从经过CFN三层标注的句子库中提取的6 750个简单短语类型和1 338个复合短语类型的框架元素,并不区分其中的框架元素类别。
框架依存图[3]( Frame Dependency Graph, FDG) 是对于一个句子中基于一个目标词和依存于这个目标词的各个框架元素的语义依存关系的图形化表示。框架依存图中的节点包含有目标词以及依存于这个目标词的框架元素,图中每条边上标有相应的语义角色。
框架核心依存图(Frame Kernel Dependency Graph, FKDG)是由目标词、依存于目标词的框架元素的语义核心成分组成。从给定句子中抽取的核心依存图,可以看作是这个句子深层语义的图形化表示。它是在框架依存图的基础上,对每个依存项代表的框架元素提取其语义核心词。
为了更好地对一个句子进行语义理解,可以将框架依存图转化为框架核心依存图,这就需要我们对图中每个节点所对应的框架元素进行核心词的提取。
本文中对核心词给出如下描述: 在特定的短语中,对短语语义起决定性的那些词。例如,形容词性短语“很好”中的“好”就是核心词。需要说明的是,在汉语短语结构中并不是所有的短语都有核心词,有些并列结构的短语就没有核心词,如名词性短语“方针路线”等。
文献[3]中对框架元素语义核心词的定义,一个框架元素中的词可以分成两部分: 一部分是核心词,这些词对理解这个框架元素的语义是必要的;另一部分是修饰核心词的词语以及各种功能词,如: 叹词、语气词、助词、标点符号等。
条件随机场(Conditional Random Fields,CRF)是John Lafferty 在2001年提出的一个基于统计的序列标记和分割的方法。CRF是一个无向图模型的框架,它能够被用来定义在给定一组需要标记的观察序列的条件下,一个标记序列的联合概率分布。假设X,Y分别表示需要标记的观察序列和它相应的标记序列的联合分布随机变量,那么CRF(X,Y)就是一个以观察序列X为条件的无向图模型[9]。在给定观察序列X的条件下,标记序列Y的联合分布为:
其中每个fk(i,yi-1,yi,x)是整个观察序列和相应标记序列中位置为i和i-1的标记的特征,而每个gk(i,yi,x)是在位置为i的标记和观察序列的特征。λ和μ是特征函数的权重,Z是归一化因子。
3.1.1 特征的选择以及特征模板的设置
特征选择是使用CRF进行框架元素核心词自动识别的核心步骤,特征选择的好坏将直接影响CRF模型识别的性能,我们可以通过一些模板来定义特征。模板是对上下文的特定位置和特定信息的考虑。而CRF模型最大的优点就是,不仅能够使用字、词、词性等上下文信息,还能综合利用这些特征的组合特征。由于本文研究的目标是针对词,所以在进行特征选择时主要考虑了以下几个基本特征:
(1) 词,当前词以及前后一定窗口内的词;
(2) 词性,当前词以及其前后各个词的词性;
(3) 短语类型,当前词所属的短语类型信息;
根据这些特征,我们定义如表1中的基本特征。
表1 特征选择中的基本特征
续表
在实验中我们运用上表中的基本特征进行组合,根据本文任务的具体要求构成以下七种复合特征来进行实验。复合特征如表2:
表2 CRF模型中的复合特征
模型描述: 设最终输出值构成的语言学类别有限集为Y,对于每个y∈Y,其生成均受上下文信息x的影响和约束。已知与y有关的所有上下文信息组成的集合为X,则模型的目标是: 给定上下文x∈X,计算输出为y∈Y的条件概率p(y|x)[10]。
进行框架元素核心词的提取,我们所用的训练集就是以词为研究单位的,假设有一个样本集{(x1,y1),(x2,y2),…(xn,yn)},每一个xi(1≤i≤n)表示一个将分类的词的上下文,yi(1≤i≤n)表示该词被标注的结果。根据最大熵原理,概率值p(y|x)的取值符合下面的指数模型:
3.2.1 最大熵模型的特征选取
最大熵模型的关键在于如何针对特定的任务为模型选取特征集合,所以在框架元素语义核心词的提取过程中所选的特征主要采用前面叙述的表1中的若干个基本特征,在此不重复描述。
在实验过程中使用的复合特征如表3所示:
表3 最大熵模型中的复合特征
支持向量机(Support Vector Machine,SVM)是一种基于统计学习理论的新型机器学习方法,是借助于最优化方法解决机器学习问题的新工具。SVM的主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率,由于其具有全局最优、结构简单、推广能力强等优点,近几年得到了广泛的研究并广泛应用于模式识别、自然语言处理等领域,而且取得了不错的效果。所以对于本文中的识别任务,使用SVM模型也是我们的重要方法之一。
3.3.1 SVM模型的特征选取
根据目前语料库的状况,可选的特征有表1中的若干个基本特征以及这些特征的复合特征,选择不同长度的观察窗口。实验中,对于语料中的核心与非核心的识别问题,选定其中一类为正例,则另一类相应的为负例。随机选择500个正例样本和500个负例样本作为初始训练集,用于训练初始SVM分类器。
本文实验所用的语料库是从CFN标注的句子库中随机抽取了包含六种基本短语结构类型[11]的框架元素6 750个,并对这些框架元素的短语类型和分布进行了统计,结果如表4所示。
表4 框架元素的短语类型及长度分布统计
根据文献[3]中的框架元素核心词规则集,对这6 750个框架元素的进行了语义核心词的人工标记,标记集为T={h,n},其中h代表核心词,n代表非核心词。例如:
par-np-obj 大量 m-n 的 u-n 中国 nsh-n 古代 nt-n 典籍 n-h
manr-ap-adva 很 d-n 难 aq-h
其中,“par-np-obj”分别表示CFN三层标注中的框架元素名、短语类型、句法功能,“m-n”中的“m”表示“大量”这个词的词性,“-n”表示“大量”这个词为非核心词。
本文实验中首先将上述的6 750个短语型框架元素按照不同类型分类,分为6种基本的类型,每种类型的框架元素都按照训练集/测试集8∶2的比例进行切分。在实验过程中,我们使用了CRF工具包,在选定特征空间的基础上,设置了T0~T6七个特征模板,在这七个模板上分别进行了实验,其中将T0模板作为实验的Baseline实验。由于本文中对于任何一个待识别的词都会有一个识别结果,所以我们使用正确率及平均正确率对实验结果进行评测:
正确率(precision)=正确识别的词的个数/测试集中词的总数×100%
(4)
(5)
其中,l是测试集中框架元素的短语类型的总数。
表5 利用CRF模型对不同短语类型框架元素实验结果
4.2.1 结果分析
从实验结果可以看出,在语料库中占较重比例的名词性短语框架元素的识别结果比较高,这是因为名词性短语的结构比较简单,其中大多以定中结构出现,核心词比较容易判断。动词和介词短语型框架元素相比较其他短语型的框架元素的分析复杂,正确率较低。而形容词和处所词短语类型,因其构成比较简单,正确率一般能达到100%。
在上述实验中,本文做了一个Baseline实验(T0模板),在该特征模板中只考虑了词和词性这两个基本特征,然后在此基础上增加了CFN三层标注中的短语类型这一特征。实验结果表明,对于本文的识别任务,短语类型这一特征起着重要的作用,识别效果得到比较大的提高。
通过分析错误实例,我们发现首先是语料库中人工标注的错误,所以进行了语料库的进一步修改,使得实验结果提高了2%左右。其次,基于统计的方法建立模型,应尽可能的选择比较丰富的框架元素作为训练集,本文采用随机抽样的方法从CFN句子库中抽取的框架元素,很难避免数据稀疏问题,也导致一些错误。另一方面因为CRF模型的训练结果并不是选取的特征数越多,正确率越高。所以在上述实验结果中模板T3取得的识别效果最好。
表6 利用最大熵模型对不同短语类型框架元素实验结果
4.3.1 结果分析
从表中可以看出,model2识别的效率较好一些,这是因为最大熵模型中最后的分类结果与其上下文信息密切相关,但是由于存在过拟合现象,所以并不是窗口越大,效率就会越高,所以窗口为2的识别效率最好。由实验得知,在本文任务中,分别考虑当前词的前两个和后两个词及词性,达到的识别效果最好。
在实验的训练过程中我们使用了RBF核函数,而RBF核的C和σ2是两个可以人为调节的参数,参数取值不同,对应的分类器性质以及推广识别率也将有很大差别。利用“穷举法”求解出最佳的参数组合(C,σ2)。
表7 利用SVM模型对不同短语类型框架元素实验结果
4.4.1 结果分析
对于本文的实验目的,通过对比以上三种模型下的识别结果,SVM模型的效率明显不如另外两种。这其中可能一方面是因为用本文选取的特征模板来训练SVM的分类器,不是最佳的;另一方面,SVM不能确定数据中哪些知识是冗余的,哪些是有用的,对于特征选择造成很大的困难,导致实验结果降低。再者,SVM对特征空间要求较高,而实际应用中很多数据的特征都是非数值性的,不连续也无序的关系,在数据预处理阶段造成很大的误差。
在CFN语料库中,框架元素不只包含有简单的短语类型,也有可能是由若干个短语构成的,长度大于5的复合短语型框架元素主要分布在np,vp,pp这三种类型中。例如:
“empee-np-obj 成百 m 的 u 非洲 ns 人 n 、亚洲 ns 人 n 和 c 阿拉伯 ns 人 n”
“cont-vp-obj 不要 d 向 p 任何 r 人 n 提 v 起 v 小箱子 n 的 u 来历 n”
所以本文在对简单短语型框架元素语义核心词进行识别研究的基础上,进一步对复合短语型的框架元素进行分析研究。在实验过程中,从CFN语料库中随机选取了1 338个复合短语型框架元素,按短语类型分类为np(720个),pp(448个),vp(170个),按照训练集/测试集8∶2的比例进行实验。实验中三种模型使用的特征模板分别是上述实验结果中得到的识别效果较好的T3和model2。
表8 不同模型对于复合型短语结构类型的框架元素实验结果
4.5.1 实验分析
通过对语料库中大量存在的复合型短语类型的框架元素的核心词进行识别,实验结果比较满意,在CRF模型下识别结果达到了93.17%。本文与文献[3]中基于多词块的框架元素语义核心词自动识别研究进行对比分析,结果表明,基于统计学习方法比基于规则的学习方法具有优越性,尤其是处理复合型短语类型框架元素时,识别效果得到较大的提高。但是同时也面临一个很大的困难,即需要大量的标注语料的支持,而创建新的标注语料库资源也是件很费时费力的工作。
在分析标注错误的框架元素过程中,我们发现其中有大部分识别错误的框架元素的短语类型属于并列结构。引起这一错误识别的原因可能是因为数据稀疏的问题,这也是机器学习方法中的有待解决的问题之一,所以我们还有待于进一步扩大语料库,完善规则集。
由以上实验结果得知,影响平均准确率的重要因素是由于动词和介词短语型框架元素的识别正确率较低,所以,为了进一步提高其准确率,首先需要针对这两类短语类型进行专门的分析。我们选择在最优的模型CRF基础上,对特征模板做出改进。我们在进行特征选择的时候不只是选择当前词的前后各两个词的信息,而是选择与它相邻的前后两个实词的信息,也就是远距离实词信息。在这个改进的模板上,我们分别对简单及复杂的动词和介词短语型框架元素做了实验,得到以下结果。
表9 改进的特征模板对于动词和介词短语结构类型的框架元素实验结果
4.6.1 实验分析
由以上结果得知,在改进的特征模板基础上,识别结果得到了一定的提高。这是因为CRF模型一个最主要的优点就是特征模板中可以包含各种长距离的、颗粒度很细的基于词的特征,并且对于动词和介词短语型框架元素中包含有许多作为修饰成分的虚词,这些词对于核心词的提取并没有起到很大的作用,而决定当前词是否为核心词的重要因素是与它距离最近的一些实词。所以我们在选择上下文信息的时候,选取了实词这一信息。结果证明,这一想法是可行的。在动词和介词短语型框架元素的识别效率提高的基础上,平均正确率分别提高了0.47,0.86个百分点。
自动提取框架元素语义核心词,能够实现框架依存图到框架核心依存图的转化,对进一步语义分析起到重要的作用。本文在分析现有研究的基础上,通过对比CRF模型、最大熵模型以及SVM模型对简单短语类型以及复杂短语类型的框架元素进行框架元素语义核心词识别,实验结果表明,使用CRF模型进行学习得到的识别结果优于另外两种学习模型,在CRF模型上做了进一步的改进。在今后的研究中,一是学习新的特征选择方法,丰富其特征组合,选择最优参数估计方法,进一步提高其识别性能。二是鉴于现在很多研究表明,使用多学习器集成的方法能够比使用单个学习器的系统具有更好的性能,我们尝试将几种不同的学习模型集成学习,以期得到一个最适合于本文任务的学习模型,为以后构建框架核心依存图做充分的准备。
[1] 程月,陈小荷. 基于条件随机场的汉语动宾搭配自动识别[J]. 中文信息学报,2009,23(1): 9-15.
[2] 周雅倩,郭以昆,黄萱菁,等. 基于最大熵方法的中英文基本名词短语识别[J]. 计算机研究与发展,2003,40(3): 440-446.
[3] 李双红,李茹,钟立军,等. 基于多词块的框架元素语义核心词自动识别研究[J]. 中文信息学报, 2010,24(1): 30-37.
[4] 迟程英,于长远,战学刚. 基于条件随机场的中文分词方法[J]. 情报杂志,2008,27(5): 79-81.
[5] 周强. 规则和统计相结合的汉语词类标注方法[J]. 中文信息学报,1995,9(3): 1-10.
[6] 都云琪,肖诗斌. 基于支持向量机的中文文本自动分类研究[J]. 计算机工程,2002,11: 137-138.
[7] 刘开瑛,由丽萍. 汉语框架语义知识库构建工程[C]//中文信息处理前沿进展,中国中文信息学会成立二十五周年学术会议论文集. 2006: 64-71.
[8] 郝晓燕,刘伟,李茹,等. 汉语框架语义知识库及软件描述体系[J]. 中文信息学报,2007,21(5): 96-100.
[9] F. Sha, F. Pereira. Shallow Parsing with Conditional Random Fields[C]//Proceedings of HLT-NAACL. 2003(5-6):134-141.
[10] R. Koeling. Chunking with Maximum Entropy Models[C]//Proceedings of CoNLL-2000, Lisbon, Portugal. 2000:139-141.
[11] 周强,俞士汶. 汉语短语标注标记集的确定[J]. 中文信息学报,1996,10(4): 1-11.