王晓媛
(四川大学计算机学院,成都610065)
并列结构作为句法分析的底层任务,它的正确识别对句法分析任务有着重要意义,同时也对其他自然语言处理应用有着深刻的影响,如机器翻译、信息抽取等。由于其分布的广泛性,结构的复杂性以及形式的多样化使之成为自然语言处理研究的一大难点,本文就汉语中并列结构识别的研究做出详细的介绍。
由于汉语本身的一些特点,识别中文并列结构主要有以下难点:
(1)结构的复杂性。在句子中除了一般的平行结构外还存在着嵌套并列结构,嵌套并列结构是指在一个并列结构中的某个并列成分中嵌套着一个子并列结构。而它的跨度往往比较宽,且涉及语义,不易确定左右边界,给识别工作造成了很大的困难。
(2)形式的多样性。并列结构不仅会存在于词之间,短语之间,还会出现在子句之间。形式的多样性往往会导致结构的复杂性,从而影响识别工作。
(3)边界的歧义性。如CTB(中文滨州树库)中的一个子句“上海浦东开发与法制建设同步”就存在明显的歧义性。并列结构可能是“浦东开发与法制建设”,也可能是“开发与法制建设”。因此,边界的歧义性也是正确识别并列结构的一大阻碍。
虽然研究中文并列结构有很多困难,但是作为句法分析的底层任务,它的正确识别对自然语言处理的许多任务都有着积极的影响。这些年来,国内的学者在周强、孙宏林、吴云芳[1-3]等人的带领下,对此项研究进行了许多有意义的探索,并产生了积极的影响。本文将从实验结果以及研究方法对并列结构的研究进行详细的梳理。
并列结构的实验中,通常以P 值(正确率)、R 值(召回率)、F 值(调和平均值)作为实验的评测指标。各值公式如下:
目前,研究并列结构的识别主要包括基于规则、基于统计、统计与规则融合三种方法。基于规则的方法主要是根据人工总结的语言学知识而制定的规则,基于统计的方法主要是依据统计机器学习模型来识别,这些都是目前比较主流的方法。以下将依此作详细介绍。
文献[3]中吴云芳就识别并列结构间规则的这一问题进行探索,从句法、语义两个层面对《人民日报》标注语料库和中文概念词典的语言资源展开了定量的考察和定性的分析。将并列结构的研究主要分为无标记并列结构的研究、有标记并列结构的研究和并列标记的研究三部分,提出对于无标记并列结构的研究,主要目标是正确辨别同类词连用而形成的歧义;对于有标记并列结构的研究,主要目标是确定并列结构的左右边界;而并列标记研究的主要任务则是发现标记形式对并列结构句法语义约束产生的影响,从而利用这一影响进一步帮助并列结构边界的识别。并将这些约束条件进行形式化的描述,然后基于知识描述对并列结构进行自动识别。
王东波[4]在文献[3]的基础上,详细分析了清华大学TCT973 树库中的单层单标记的联合结构,从句法结构和语法功能中统计得到规则模板,然后基于模板并结合词语的语义相似度进行实验,结果显示在封闭测试和开放测试下的F 值分别为59.74%和59.15%,这一结果表明这种粗粒度的模板和缺乏精准化的语义计算在识别联合结构的问题上是行不通的。
以上基于规则的方法在研究并列结构这一问题上都没有很好的支撑力。而在最新发表的文献中,刘小蝶[5]在概念层次网络[6](HNC)的指导下,针对中文专利中有标记的并列结构,从八个维度对并列结构进行标注,并从语义、结构和外部词三个方面对专利文本中的并列结构进行了归纳,制定出217 条形式化的规则,并将其融合到HNC 机器翻译系统中。测试结果表明,HNC 系统中并列结构的准确率达到69.33%,召回率达到68.93%,翻译结果优于Google 在线翻译系统。这表明了该规则适用于识别专利文献并列结构的研究中。
由于基于规则的方法依赖于人工的总结,不容易根据具体的情况进行调整,而基于统计的方法可以从训练集中自动或半自动的获取相关的语言知识,建立出有效的统计语言模型,同时还可根据实际的数据不断进行优化。所以,有一批学者采用基于统计的方法来识别并列结构。而并列结构的识别可看作是序列标注问题,由于CRF[7](条件随机场)自身的优势:不仅能充分考虑到上下文以及词和词性的特征,而且还可加入其他相关的语言学特征使得它成为学者们识别并列结构主要的统计模型。
王东波最早在文献[8]中使用CRF 来研究有标记的联合结构。在18 个复杂的特征中加入词语长度、词语拼音、是否连词以及是否边界词四个语言学特征,共同构成CRF 的特征模板。从含嵌套联合结构、无嵌套联合结构和最长联合结构三个方面对《人民日报》和973 树库进行开放和封闭测试。从测试结果来看,增加了语言学特征的实验结果要略微高于不添加语言学特征的实验。
郑略省[9]同样使用CRF 模型进行并列结构的研究。首先对HIT-IR-CDT 语料库中自动抽取的并列关系的角色信息进行标注,然后通过CRF 来实现并列关系的识别。实验表明,这种做法确实优于基于图的依存分析方法,正确率和召回率分别提高13.8%和9.1%。
一直致力于现代汉语虚词用法研究的郑州大学自然语言处理实验室,在文献[10-11]中根据已有的连词用法构建了连词结构的短语规则,并将该规则作为特征融合到CRF 模型中。实验结果表明,基于CRF 的识别结果优于基于规则的实验。
王浩[12]通过在传统的CRF 中加入隐结构感知模型,来解决句子在训练过程中无法被观测到的文法信息,利用类感知器模型来对序列进行识别。研究结果表明,加入隐结构感知模型的CRF 明显优于传统的CRF。
基于规则的方法可移植性较差,而基于统计的方法会受到训练语料大小的限制,所以,有一部分学者采用规则与统计混合的方法来进行并列结构的研究。
苗艳军在文献[13-14]中采用最大熵模型[15]与错误驱动相结合的方法来进行研究,首先根据连接词的位置来确定并列结构的左右边界,然后使用错误驱动对最大熵的识别结果进行校正。实验结果表明,加入规则后的最大熵模型的识别结果比没有错误驱动的结果高出3.4%。
石翠在文献[16]中针对中文专利文献使用规则与统计相结合的方法对单层的并列结构进行识别。依据专利文献自身的对称性,构建了一些提取规则,将其融入CRF 的特征模板中,然后再根据基于错误驱动制定的后处理规则进行完善。本文使用文献[8]做基线系统,实验结果表明,该模型相较于基线系统F 值提高了10.36%。
本文总结了近年来与中文并列结构有关的研究,不难看出,此项研究在诸位学者的坚持下正不断前进着。可概括为以下几点:
(1)从研究方法来说,学者们尝试了各种方法,大致可分为基于规则,基于统计和基于混合的方法。由于条件随机场处理序列标注问题的自身优势比较突出,因此大部分研究还是使用条件随机场模型来进行识别。CRF 也在各类实验中,表现出不错的结果。基于规则的方法相较于CRF 来说,总体稍显弱势,分析原因可能是因为并列结构的复杂性,有很多规则没有被发掘出来,从而影响了实验结果,而混合方法相较于统计方法来说,有效规则提取越多,提升效果越明显。
(2)从研究语料来说,学者们更倾向于《人民日报》以及CTB 树库等,文本领域比较单一。这是因为新闻语料在自然语言处理的各类任务中都更为普遍,而且具有更为成熟的标注处理,对开展其他上层任务有着较好的利用价值。
(3)从研究目标来看,大多都是研究有标记的、简单的并列结构,对语料进行比较粗粒度的分析。
以上不难看出,并列结构的识别仍需有很长的路要走。对此,本文提出以下几点建议,希望可对感兴趣的研究人员提供一定的参考价值:
(1)目前的研究大多集中在字数较少,结构单一的方面,未来可考虑更大跨度,结构更加复杂的情况。而且大多都基于有标记的联合结构,以后可考虑无标记的联合结构以及并列标记的情况。相信这些问题的解决会让并列结构的研究更进一步。
(2)是面对目前粗粒度的规则研究,应多观察研究中文的并列结构,考虑更细粒度,构造出更多有效的规则,将其不断完善。
(3)目前研究语料都存在规模较小的情况,可考虑利用半监督的机器学习或引入迁移学习[17]扩充语料,进一步发现更多规则,语料集的扩充,也有利于神经网络的引入,利用神经网络较强的学习能力,可自动获取更多特征,为并列结构的研究提供更多便利。
(4)并列结构的识别最终是服务于自然语言处理的各项任务和应用,作为自然语言处理的底层任务,未来应更多地结合机器翻译、信息抽取等领域,在具体任务中检验并列结构的识别结果,以及由此而产生的一些实际的影响。