钱小飞,侯 敏
(1. 上海大学 文学院,上海 200444;2. 中国传媒大学 国家语言资源监测与研究中心有声媒体中心,北京 100024)
基于归约的汉语最长名词短语识别方法
钱小飞1,侯 敏2
(1. 上海大学 文学院,上海 200444;2. 中国传媒大学 国家语言资源监测与研究中心有声媒体中心,北京 100024)
该文提出了最长名词短语(MNP)的操作性定义,分析了其构造和分布特征,并设计了一种基于baseNP归约的识别方法,利用MNP结构特性及起始有定成分、语义核心等语言学特征,缓解了最长名词短语长距离依赖与模型观察窗口受限的矛盾。开放测试取得了88.68%的正确率和89.21%的召回率;归约方法全面提升了识别性能,特别是将多词结构的调和平均值提高1%,优化幅度达6%以上,并且对长距离复杂结构有着更好的识别效果。
最长名词短语;识别;归约;基本名词短语
名词短语的句法处理是自动句法分析的重点和难点。最长名词短语(MNP)是语言信息处理学界专门提出的名词短语类别,约占据句子长度的60%以上,它的识别可以为机器翻译、指代消解等重要应用提供有效支持。
最长名词短语识别有两种方法:基于规则的方法和基于统计的方法,实际常结合使用。规则方法主要利用词类序列的组合规则判别边界[1];统计方法通过计算某个位置出现边界的概率[2-3]、词语的位置类别来识别MNP,其中统计机器学习方法是当前的主流方法[4]。从识别策略看,基于2-phase策略[5]的统计机器学习方法取得了较好效果:先识别组块,然后以此为特征识别MNP。
无论是统计或规则方法,以往研究尚有一些局限:(1)句法、语义知识利用度低。关注算法改进,对MNP的语言学特性,如结构特征关注不够,使识别系统过于依赖词(性)串等线性特征;(2)对长距离MNP缺少有效识别手段,识别效果随着结构长度的增加而快速降低,长度≥5和<5的MNP识别F1值相差13%~22%;(3)2-phase策略以较高训练代价提高识别精度,为减少级联错误,常使用规则方法识别组块保证正确率,但召回率较低[6],并面临适应不同词类体系的问题,单纯的2-phase策略也难以解决长距离依赖问题。
本文将最长名词短语看作是模板结构,一个典型的复杂MNP由谓词核心和围绕它的名词槽构成,据此,我们通过分析最长名词短语的句法、语义特征,设计了一种基于归约的识别方法,利用语言学特征改善了MNP,特别是长距离MNP的识别效果。
Chen[7]最早界定了最长名词短语,指不被其他名词短语包含的名词短语。后来的研究者[3,8-9]沿用了该定义,但在具体操作时有所差异,如在是否包含名词性短语、单词结构等问题上不一致。
我们沿用前人的定义,但针对有分歧的问题作出具体规定:(1)MNP既包括以名词为核心的名词短语,也包括名词性短语,如以数词、名代词等体词为核心的短语、“X 的V | A”结构、“的”字结构等;(2)包括时间短语、处所短语,但不包括方位结构,后者更接近介词短语;(3)短语的基础单位是句法组块[10],因此MNP包含单词结构。
例1直观地阐释了MNP的概念,它包含了四个NP,其中二个MNP:
例1 [mnp 这/rN 段/qN 故事/n] 如/v [mnp 飘出/v [np我/rN 记忆/n] 的/u [np一/m 点/qN 星火/n ]]
最长名词短语的句法功能分布集中,主要位于主语和宾语位置上,是识别的有利条件;而其复杂的内部构造是影响识别效果的主要因素。本体语言学关于NP结构特征的研究很多,但哪些特征对识别工作有利用价值,并且可以形式化是需要关注的问题。
首先,MNP是一个结构杂糅的语法范畴。以是否包含动词或介词短语为判别复杂结构的标准,大部分是不含这些成分的简单MNP,但也存在相当数量的复杂MNP。简单MNP内部以定中结构为主,易于识别;而复杂MNP常包含小句和谓词性结构,是识别的难点。
其次,MNP处于广泛的长距离依赖关系之中。清华TCT树库中,多词MNP平均长度4.73,最大达133词,并且更多地出现在宾语位置上,与左邻动词形成大量的述宾依赖关系;MNP内部也存在各种类型的依赖关系,如量名搭配、动宾搭配、介词框架等。这些关系是识别的关键特征,但长距离特性使其难以有效利用,是目前识别效果提升困难的重要原因。
再次,起始位置存在对MNP具有较好预测作用的确指特征,包括三类: (1)称代性成分,如起照应功能的人称代词;(2)指别性成分,如指示代词、区别词、起指别功能的人称代词;(3)命名实体,如人名、地名、机构名。指别性成分的功能是从一组事物中确定出个体,而命名实体本身就是确定的个体。这些成分对MNP的预测概率多在80%以上,而非定指的数量结构仅为50%左右。因此,MNP是更倾向于表达有定的范畴。
最后,绝大多数MNP具有语义中心,以名词性词类为主体,降低了该位置的不确定性。语义中心分为三种: (1)指代性中心(15%),如名代词、处所代词、时间代词,不易形成词汇搭配;(2)命名实体中心(10%),包括人名、地名、时间名,后两者常与介词"在"搭配;(3)普通的语义中心(71%),主要是普通名词,很多可以形成词汇搭配关系。
根据上文的特征分析,MNP可以看作是由名词性成分填充槽的模板结构,这些模板结构不仅包含谓词-论元结构,也包含表达领属等语义关系等非谓词性结构。
如果能很好地识别槽中的长距离NP成分,压缩成语义中心,并提取定语中的有用特征,则可改善识别的两个主要问题:(1) 降低结构长度,扩展模型观察视野,更充分地利用长距离依赖特征,提高长距结构识别效果;(2) 充分表达可用特征,更准确地预测复杂结构边界。
在浅层句法分析任务中,归约策略可以有效地融入统计模型[11-12],据此,结合MNP结构特征,我们设计了一种基于归约的MNP识别方法,使用识别率较高的基本名词短语来逼近槽中的长距离名词性成分,将识别工作分解为三个连续的子过程:baseNP识别,baseNP归约,MNP识别。
图1 MNP识别系统流程图
4.1 基本名词短语识别
基本名词短语(baseNP)是一种内部结构相对简单的名词性成分,有很高的识别率。为支持进一步的MNP识别,它被定义为满足四组条件的多词结构,并保证不大于MNP: (1)只由时间短语、处所短语、名词(性)短语三种功能类型实现;(2)直接结构仅包括定中和联合结构,且不包含动词性结构和介宾结构;(3)中心词隶属于集合: {名词,名代词,时间词,处所词,名动词,名形词};(4)内部不包含标点符号和连词,以及结构助词“的”。
识别以BMEO分别表示首词、中间词、尾词及结构外四个位置,选用词形、词类、词语音节数、语义类别(词林三级义类代码)四组特征,观察窗口[-3,3]。多义词在当前语料中基于单义词统计,取最高频的侯选义类(下同)。表1例句包含了三个baseNP,由BME和BE序列表达。识别系统通过预测每一个词的标记识别baseNP。
4.2 基本名词短语归约
按照生成语法的观点,名词短语存在语义核心和句法核心。汉语名词短语是左扩展结构,语义核心位于短语右部。据此,在识别baseNP的基础上,我们将其归约为右端中心词,重新构造MNP,并产生两组新的语言学特征(表1)。
(1) 语义核心特征。取值为Head或者No,表示当前词是否baseNP语义核心。
(2) 起始句法特征。归约为中心词会使得baseNP 丢失一些历史句法特征,特别是起始位置表示有定的指称性成分,归约过程将这些历史特征作共时化处理,将其保留在语义核心的时刻上,并以二元词类形式表达,如“rN/qN”,非指称性特征取值为noSyn。
表1 基本名词短语归约示意图
baseNP归约将MNP看作以baseNP为槽的模板,可以给识别任务带来多方面的好处。
首先,baseNP识别化解了更多的底层歧义,归约后使模型专注于解决高层结构歧义。大多数 baseNP 直接实现为MNP,其余作为MNP构造成分。借助于baseNP的高识别率,可以期望MNP识别能够取得良好效果。
其次,baseNP归约有效地缩短MNP结构长度,扩大模型的观察视野,从而能够化解更多的结构歧义。例3在例2上归约了baseNP。
例2是/vC [mnp当代/t 世界/n 各/rB 国/n 发展/v 纺织/n 工业/n 原料/n 的/u 共同/b 趋势/n] 。/。
例3是/vC {baseNP 国/n} 发展/v {baseNP原料/n} 的/u {baseNP趋势/n} 。/。
假设观察窗口为[-3,3],观察归约对于判断动词“发展”位置的影响。“发展”有两个可能位置: MNP内部或外部。如果在例2中直接识别MNP,模型视野被限制在MNP内部,用于判断“发展”位置的特征是“世界/n 各/rB 国/n 发展/v 纺织/n 工业/n 原料/n”,它是合法的主谓结构,模型很可能作出错误判断,认为“发展”位于MNP外部。但归约之后,模型视野覆盖了整个MNP,用于判断“发展”位置的特征是“是/vC 国/n 发展/v原料/n 的/u趋势/n”,其中助词“的”暗示“的”字结构的存在,而系动词“是”出现在MNP外部的概率高于内部,因此“发展”很可能被认为包含在MNP内部。
再次, baseNP归约使长距离搭配关系更多地出现在观察窗口内,让模型学习到更多词汇依赖特征。动宾搭配是识别MNP的有用特征,但汉语动词和宾语中心词分布在MNP左右两端,表现为“动词+定语+中心语”模式,定语较长时,模型常难以训练到搭配数据,而baseNP归约可改善这一状况。如“改善/v食物/n 科技/n 工作/n 的/u 条件/n”归约为“改善/v 工作/n 的/u 条件/n”,使“条件”进入了“改善”后三个词的视野。
4.3 最长名词短语识别
最长名词短语识别基于baseNP归约后的语料,用BFMEOS分别表示MNP首词、左部第二词、中间词、尾词、结构外部、单词结构六种位置,并选用词语、词类、词长、义类、中心特征、起始特征等六种原子特征进行组合,观察窗口为[-3,3]。
在归约语料上确立MNP边界后,利用baseNP长度信息,将MNP恢复为完整状态:
恢复前: [ 故事/n ] 如/v [ 飘出/v记忆/n 的/u 星火/n ]
恢复后: [ 这/rN 段/qN 故事/n ] 如/v [ 飘出/v 我/rN 记忆/n 的/u 一/m 点/qN 星火/n ]
5.1 实验语料 对清华大学TCT树库进行五次无重复随机抽样,每个样本容量为2 000句。实验将每四个样本合并为训练语料,剩余一个样本作测试语料,构造五组训练测试对,进行交叉验证。五组样本记作sample5,每组训练测试对记为samj,j∈[1,5]。剩余语料(34 605句)记作rest。
5.2 评价方法
采用正确率prc、召回率rec以及调和平均值F1为评价指标。引入优化幅度评价新方法的优化效果。令方法1的识别效果为E1,方法2效果为E2,方法2的优化幅度M计算如式(1)所示。
(1)
5.3 实验及评测
实验及文献数据[13]表明,某种特征的贡献程度有时会受到其他有效特征的影响。由于归约方法的训练代价相对较高,我们优先采纳了易获取的义类等稳定特征优化识别效果,以此为基线观察归约方法的有效性。实验采用条件随机场模型,分五组多角度地评价归约策略。
实验一: 归约效果实验: 观察归约对于整体识别效果的影响
采用sample5语料;三元窗口特征。由于MNP长度较大,内部成分复杂,识别基于mnp_set6,同时选用baseNP归约特征;baseNP识别基于bnp_set4(表4)。
归约方法在每个样本上都有所提高,总体上使得MNP识别的F1值提高了0.6%左右(表2)。
实验二: 长度分类评测: 观察归约对于不同长度MNP识别效果的影响
归约的主要作用是拓展模型观察视野,理论上有利于 长 距 离MNP识别。表3对多词MNP进行评测,归约策略使多词MNP识别的F1值提高1%,
表2 MNP归约效果实验项目结构数非归约归约SamnumprcrecF1prcrecF11826888.5588.6988.6288.9389.4489.182823887.5687.9187.7388.1688.3088.233797088.3289.3988.8588.9889.9789.484809988.1688.2788.2288.9389.1189.025810388.0088.9988.4988.4189.2588.83ave-88.1288.6588.3888.6889.2188.95表3 MNP多词评测项目结构数非归约归约SamnumprcrecF1prcrecF11476283.6384.3383.9884.6085.7085.152473882.3683.5482.9483.5584.0783.813459283.6185.2484.4284.9485.8785.404480183.5783.9283.7585.1684.9685.065479583.8184.4484.1384.7084.8484.77ave—83.4084.2983.8484.5985.0984.84M————7.175.096.19
图2 MNP长度分布
图3 长度分类评测
优化幅度达6.19%。
综合以往研究[3,8,14]的长度分类方式,图3报告了不同长度范围的MNP识别效果。可见,以非归约方法为基线,随着MNP长度增加,归约方法能取得更大的效果提升,当长度≥5时,归约策略使得F1值提高了约1.4%。
实验三: 复杂性分类评测: 观察归约对于简单MNP和复杂MNP识别效果的影响
以不含“的”MNP近似简单MNP,以含“的”MNP代表复杂MNP进行评价。
归约方法对简单MNP和复杂MNP都有效,尤其对复杂MNP效果更好。但两者识别效果仍相差10%左右,说明结构复杂性对于MNP识别影响仍然较大(图4)。
图4 复杂性分类评测的实验结果
实验四: baseNP设置实验: 观察baseNP实验设置对于后继MNP识别的影响
在sample5语料上,采用归约特征。baseNP识别使用与MNP相对应的标记集(表4)。
表4 baseNP与MNP标记集对应关系
图5表明,baseNP识别效果平稳;对应标记集下,归约方法(RMNP)取得了稳定提高。可以推断,这种提高源于归约后MNP长度的变化,而不仅是baseNP识别效果的提升。
此外,当baseNP识别采用语料rest增大训练规模,F1值提升1%时,MNP和多词MNP识别的F1值均提高0.25%左右,表明baseNP识别效果优化对MNP识别有积极影响。
实验五: 特征分析实验: 观察各种特征对于MNP识别的贡献
基于sample5语料,标记集测试仅采用词和词类特征;对语言特征测试,test1每次仅采纳当前特征,test2每次递加一个特征。由表5可见,词长(len)、
图5 对应标记集实验结果
表5 特征分析实验(F1-val)
义类(sem)、语义核心(head)等特征均有助于识别,起始特征(syn),特别是与其他特征联合使用时也有一定贡献。
5.4 与前人研究的比较
识别实验受到语料的词类标记体系、结构复杂程度,MNP定义、长度分布,训练代价,训练测试比等多种因素的影响。其中,长度分布被证实是敏感度较高的因素。因此分类观察不同长度的MNP识别效果(表6),有助于更客观地观察实验数据。
表6 与其他系统的实验数据比较
从MNP长度分布比例、平均句长(senLen)看,我们的实验语料在长度分布、结构复杂程度上高于其他研究。周强[3]采用的MNP定义(名词性短语)和词类体系与本文相近,代翠[8]定义相对简化,主要识别名词短语,不包括“的”字结构等名词性短语,主谓谓语句的大主语和小主语也常被合并为一个MNP。
冯冲[14]、代翠[8]采用CRF在哈工大树库上识别MNP。前者从训练语料中抽样进行测试,方法与其他研究不同。相比代翠[8]的统计模块,我们在Len<5组识别效果相对低,而在Len>=5组相对高,原因可能是MNP长度分布(语料)不同以及识别标记集的优化;在sample5测试集上模拟该文分类制定规则(原文未给出所有规则),交叉验证时未能稳定地和大幅度地提高识别效果。
Bai[6]和鉴萍[9]利用SVM基于宾州中文树库识别MNP,未报告不同长度范围的识别效果。后者提出双向标注融合的方法,并在相同标记集下比较了CRF和SVM模型,认为确定性模型(SVMs)能较好地利用长距离依存特征,更适合MNP识别。我们进行非归约实验时比较了两个模型的表现,发现CRFs能更有效地利用多位置分类标记,一定范围内,其识别性能随着标记的增多而改善(图5);同样基于表4所示标记集,采用三元历史特征,SVM标注器在mnp_set3上取得了最优性能:87.27%的正确率和87.50%的召回率,太多的分类标记反而造成识别性能下降。因此,进一步的归约实验选择了CRF模型。
钱小飞[13]同样采用归约方法在TCT语料上识别MNP,使用了BIO分类标记和一元head特征。我们将其方法应用于sample5语料,并优化特征组合,实验结果优于前者(表7)。
表7 与钱小飞[13]的实验比较
5.5 实验结果分析
归约方法改善了MNP,特别是多词结构的识别效果。实验错误主要表现在四个方面。
(1) 动词介词内含造成的误识。主要是单个MNP识别为多个MNP。例如,“摆脱/v 了/u [殖民主义/n 枷锁/n] 而/c 赢得/v [独立/a 的/v 一些/m 发展中国家/n]”应是一个MNP;多个MNP识别为一个的情况少见。
(2) 左边界处连续的动词介词边界造成的误识。如“要/vM 在/p [继续/v 巩固/v 已/d 有/v 的/u 友好/a 关系/n 的/u 同时/t]”,左边界处有多个动词及介词。
(3) 连续MNP分布造成的误识。包括: 大小主语识别为一个MNP,如“[青年人/n 思路/n] 活跃/v”;直接宾语和间接宾语识别为一个MNP,如“交给/vSB [我/rN 一/m 份/qN 材料/n]”;动宾结构直接作定语,宾语与NP中心语识别为一个MNP,例如,“读/v [书/n 姑娘]”。
(4) 典型歧义结构造成的误识。如“v np De np”结构判断动词位于MNP内外有误。
实验结果也表明,归约方法和非归约方法具有互补性。归约方法的优点是扩展了模型的观察视野,并去除或削弱了一些冗余特征;也有不足之处,主要表现为两种级联错误。
首先,baseNP归约带来了少量特征损失,使一些细致的边界特征难以表现。例如,“v dD a ...”模式中v后很可能出现左边界,当出现“v [ dD a n De n ]”序列,“dD a n”归约为n后却形成了典型歧义结构“v n De n”。但这也表明归约方法在特征选择上还有优化空间。
其次,baseNP识别错误也带来一些影响。例如,双宾结构“给/vSB [您/rN 一/m 样/qN 东西/n]”中,“您/rN 一/m 样/qN 东西/n”被误识别为baseNP,进而造成了MNP识别错误。基于正确baseNP标注语料的五折交叉验证表明,MNP和多词MNP的F1值达到90.73%和86.73%,分别提高1.78%和1.89%,这是本文实验由baseNP识别错误造成的影响的上限。
本文提出了最长名词短语的操作性定义,分析了其内部构成和外部分布特征,基于这些特征设计了一种基于baseNP归约的识别方法。多维度的实验评测表明,该方法有效地缓解了MNP长距离依赖与模型观察窗口受限的矛盾,利用MNP结构特性和起始有定成分、语义核心等语言学特征,全面提高了MNP,特别是复杂MNP的识别效果,并且在不同的实验环境下表现出良好的稳定性。下一步考虑通过概率筛选将指称性特征之外的语言学特征纳入该模型,寻求有效特征对中心词进行选择,并引入词汇搭配知识和确定性规则进一步解决结构歧义问题。
感谢清华大学周强老师为本文研究提供了TCT树库。
[1] Voutilainen A. NPTool: a detector of English noun phrases[C]//Proceedings of the Workshop on Very Large Corpora: Academic and Industrial Perspectives, 1993.
[2] 李文捷,周明,潘海华,等.基于语料库的中文最长名词短语的自动提取[C]//陈力为,袁琦.计算语言学进展与应用.北京: 清华大学出版社,1995: 119-124.
[3] 周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别[J].软件学报,2000,11(2):195-201.
[4] Guiping Zhang, Wenjing Lang, Qiaoli Zhou, et al. Identification of Maximal-Length Noun Phrases Based on Maximal-Length Preposition Phrases in Chinese[C]//Proceedings of IALP 2010: 65-68.
[5] Changhao Yin. Identification of Maximal Noun Phrase in Chinese: Using the Head of Base Phrases [D]. POSTECH, Korea, 2005.
[6] Xue-Mei Bai, Jin-Ji Li, Dong-Il Kim, et al. Identification of Maximal-Length Noun Phrases Based on Expanded Chunks and Classified Punctuations in Chinese[C]//Proceedings of the 21st ICCPOL, 2006:268-276.
[7] Kuang-hua Chen. Extracting noun phrases from large-scale texts: a hybrid approach and its automatic evaluation[C]//Proceedings of the 32nd ACL, 1994.
[8] 代翠,周俏丽,蔡东风,等.统计和规则相结合的汉语最长名词短语自动识别[J].中文信息学报,2008,22(6): 110-115.
[9] 鉴萍,宗成庆.基于双向标注融合的汉语最长短语识别方法[J].智能系统学报,2009,4(5): 406-413.
[10] Steven Abney. Syntactic affixation and performance structures[C]//Proceeding of Views on Phrase Structure, 1990.
[11] 赵军,黄昌宁.结合句法组成模板识别汉语基本名词短语的概率模型[J].计算机研究与发展,1999,36(11): 1384-1390.
[12] Elias Ponvert, Jason Baldridge, Katrin Erk. Simple Unsupervised Grammar Induction from Raw Text with Cascaded Finite State Models[C]//Proceedings of the 49th ACL, 2011:1077-1086.
[13] 钱小飞.最长名词短语识别研究[J].现代语文,2009,21:124-126.
[14] 冯冲,陈肇雄,黄河燕,等.基于条件随机域的复杂最长名词短语识别[J].小型微型计算机系统,2006,27(6): 1134-1139.
附: CRF特征模板
template_baseNP |语料格式: 表1归约前,前5列
Chinese Maximal Noun Phrase Recognition Based on Reduction
QIAN Xiaofei1, HOU Min2
(1. College of Liberal Arts, Shanghai University, Shanghai 200444, China; 2. National Broadcast Media Language Resources Monitoring & Research Center, Communication University of China,Beijing 100024, China)
This paper proposes an operational definition of Maximal Noun Phrase(MNP), and then analyzes its structure and distribution features. A MNP recognition based on baseNP reduction is also designed, which exploits the structural characteristics of MNP as well as the linguistic features such as initial definite references and semantic heads. This method eases the conflict between the long distance dependency of MNP and the limits of observation windows in classical models. The experiment indicates a good precision of 88.68% and a recall of 89.21%. The reduction method comprehensively improves system performance, especially it improves F1-score by 1% and optimal margin by 6% on multiword MNP, showing its efficiency in complex MNP recognition.
maximal noun phrase; recognize; reduction; baseNP
钱小飞(1981—),博士,讲师,主要研究领域为计算语言学。E⁃mail:qierflying@163.com侯敏(1952—),教授,博士生导师,主要研究领域为计算语言学,语言监测。E⁃mail:houminxx@126.com
1003-0077(2015)02-0040-09
2012-11-20 定稿日期: 2013-01-28
上海市高校青年教师培养资助计划(shu11053);国家语言资源监测与研究中心科研项目(YZYS08-04)
TP391
A