基于条件随机场的人物信息抽取

2016-03-25 17:40郑轶�k
计算技术与自动化 2015年4期
关键词:人物

郑轶�k

摘要:近年来,信息抽取成为自然语言处理的一个热点,同时也是难点。针对不同的问题,大家提出了不同的方法,而大多数的方法是基于启发式规则或者抽象成分类问题,本文将从人物百科中抽取人物信息看成是一个序列标注的问题,利用条件随机场对生语料进行序列标注。此外,文中详细介绍数据分析的方法以及特征选取方法,所提出的方法直接从生语料中抽取,节省了大部分方法的数据预处理部分,同时避开了大部分方法使用的句法分析的特征,有效地提高了信息抽取的效率。在文章的最后做了两组对比实验,实验结果表明,本方法能够非常准确地从HTML生语料中抽取出人物信息。

关键词:CRFs;人物;人物信息;信息抽取

中图分类号:TP391.1文献标识码:A

1引言

随着互联网的不断发展,每天网络中产生的信息越来越多,各种信息也呈爆炸式增长。而如何有效的从网络中抽取出我们感兴趣的信息,则显得非常重要了。

传统的信息抽取方法一般来说分为两类:基于无监督的启发式规则进行抽取,和基于机器学习方法进行有监督的信息抽取。其过程一般是定义一个清晰的信息抽取需求,然后分析所要处理语料的数据格式,再选择合适的方法进行信息抽取。

为了从大规模的信息中抽取出所需要的信息,以及促进信息抽取的发展,美国华盛顿大学图灵中心(University of Washington Turing Center)提出开放信息抽取(Open Information Extraction),这一理念也被称为“新型抽取范式”的一种知识抽取方法[1]。

信息抽取系统的发展主要经历了几个阶段,每一个阶段都有其典型的系统,例如TEXTRUNNER系统[2]、REVERB系统[3]、R2A2系统[5]等。其中TEXTRUNNER系统是最早的开放信息抽取系统,主要通过自监督的学习器、信息抽取器和基于重复信息的评价器三个部分来进行信息抽取,其相比之前出现的KNOWITALL系统,错误率降低了30%[4]。但是EXTRUNNER有其自身的问题,首先是其抽取出的信息有些是无意义的,第二由于其light verb construction的现象导致丢失了关键信息。在此基础上出现了REVERB系统,它的主要原理是以动词作为句子的核心抽取标记,增加语法限制和词汇限制,通过一定量的训练语料发现信息抽取模式并进行泛化[5],其抽取效果较好,但是明显的缺点是重动词轻其他词性,如以名词作为中心词的关系就抽取不出,而名词作为中心词在语言现象中出现的情况也属常见,同时其论元的确定有写也是错误的。这两类信息抽取方法都是依据简单的启发式规则或简单论元进行,不能适合大部分的复杂的语言语境,而后面出现的R2A2增加了论元识别器,即ARGLEARNER,目的是识别每一个Arg1和Arg2的左右边界,原理是采用REPTree和条件随机场以及正则表达式等技术进行语法监测,其准确率和召回率较前面的系统都有显著的提升。

信息抽取的很重要的过程是分析数据文本,对指定信息进行定义,并发现其特征。本文借鉴了前面采用的信息抽取技术,并针对本文应用的百科数据进行分析,重点在于信息定义以及分析数据中信息特征,进行信息识别及抽取的过程,提出了基于条件随机场的信息抽取方法。

3基于条件随机场的人物信息抽取

本文的主要内容是做网页信息的序列标注,所以这里本文采用CRF++开源工具包作为本文的分类器。CRF++工具包提供了两类特征接口,一类是Unigram特征,一类是Bigram特征,其不同点在于生成特征时,包不包含前面一个输出,顾名思义,Bigram是包含的,因此其能产生较多的特征,但同时效率也较低。

3.1数据分析

本文采用的数据语料是从网络中爬取的历史人物百科信息。该语料的特点是数据完全是原始的HTML数据,也正是因为如此,数据中包含了大量的HTML标签和大量的对识别无意义的标识符。因此如何从生语料中分析出有价值信息就显得格外重要。

经过仔细分析数据特点,我们发现对于人物百科HTML源码,人物简介部分,和人物介绍部分的HTML标签并不固定,是会变化的。而且部分内容会以图片连接的形式加入到HTML中,所以对于这些特殊情况,我们要对数据进行预处理。

3.2序列标注

从网页源代码中抽取人物信息的过程可以看成是序列标注的过程,即识别出HTML源中哪些部分是我们需要的语句块,对于语句块的序列标注具有多种表示方法,较常见的是IOB表示法和start/end表示法[7]。

IBO表示方法又可以分为IOB1,IOB2,IOE1和IOE2等四种。IOB1最早在[8]中提出,后来[9]在IOB1上进行改进,提出了其他几种方法。但是其本质是相同的。表示如下:

B代表当前元素是一个组块的开始。

I 代表当前元素是一个组块的内部元素。

E代表当前元素是一个组块的结束。

O代表当前元素不在任何一个组块当中。

start/end是另外一种表示方法,最早由[10]中提出。其表达内容相比于IOB更加细致,共有I,O,E,B,S五种符号。其中BIEO表达的意思和上面一样,而S代表当前元素独立成一个组块。

本文采用start/end表示方法,将我们所需要标注的训练语料和测试语料都用BIEOS的方式标注。

3.3特征选择

与以往进行序列标注的任务不同,我们的数据对象是HTML生文本,因此不需要进行Parser等工作,如此对于特征选取的效率会有一定的提高,但是同时也提高了分析数据特征的困难程度。对传统的文本进行特征提取方式会提取句法结构、词性等自然语言元素,对于本课题的任务,由于采用CRF++工具包作为分类器,本文采取以下特征模板:

Unigram:

1)div中每一个标签中间的句的句原型。因为标签中句原型是该部分的最直接、最明显的信息特征,因此这是第一个最重要的特征。

2)中句原型所对应的HTML标签,没有则为NULL。即该句原型是被什么HTML标签所包含,不同的HTML标签表达的信息不同,因此HTML标签可看作为该句的描述。

3)当前标签前的class内容(-1,-2,-3,-4),没有则为NULL。其中-1表示当前标签的前一个class的内容,-2表示当前标签的前两个的class内容,以此类推,该项共表达了4个特征。class在HTML中表达固定部分的信息,其对应的是css样式。如果前4个class都存在体现了标签间互相包含的层次关系。

4)当前句的父class,没有则为NULL。由于CRFs并不体现推理关系,也就是说各个特征之间在算法层面相互独立,因此对于该特征与3中特征并不重复,该特征体现当前句是包含在哪个class中,对于当前句具有识别作用。

5)当前句后面的HTML标签(+1,+2,+3,+4),没有则为NULL。其中,+1表示当前句后第一个HTML标签,+2表示当前句后第二个HTML标签,以此类推,该项共表达了4个特征。由于部分HTML标签有结束标记,部分HTML标签没有结束标记,因此用该特征来标记当前句的HTML信息。

6)当前句距离本

的距离归一化值。用来标记当前词的位置信息,位置对于序列标注具有重要的作用,而为了统一标准,这里对其进行归一化处理。

Bigram:

1)class内容-4/ class内容-3/ class内容-2/ class内容-1。也即Unigram中的特征3中的4个特征的组合特征,组合特征会产生更丰富的信息,有利于序列标注的准确性。

2)HTML标签+1/ HTML标签+2/ HTML标签+3/ HTML标签+4。也即Unigram特征5中4个特征的组合特征。

4实验结果

根据上述标注方法,本文标注了3组不同数量的测试集,8组不同数量的训练集。

从表中我们可以看出,人物描述部分TITLE和CONTENT是一一对应的。测试结果1:

第一,测试不同标注数量的训练集对测试的影响。首先选定测试集为TEST1,当训练集为TRAIN1TRAIN8时整体准确率、召回率和F值的变化如下:

1)随着标注数量的增多,从标注1200组数据到标注2000组数据的过程中,整体的准确率上升幅度非常大,说明标注的数量对于整体的准确率影响很大。

2)SUMMARY部分的准确率一直处于100%状态,说明选取特征与实际HTML中的情况相对吻合,但由于召回率起始并不高,说明标注语料覆盖的程度较小。

3)TITLE和CONTENT部分的F值一直处于100%状态。这一现象说明用于CRFs训练的特征与实际HTML中的TITLE、CONTENT部分的分布情况十分吻合,同时根据我们所选取的特征说明HTML源中该部分的HTML标记相对规则。

测试结果2:

第二,测试使用标注数量最大的训练集对相对大规模的网页文本进行抽取,统计其准确度情况。

从表中我们可以看出:

1)随着测试集的增多,使用同一训练集的召回率在不断下降,说明所标注的训练集的内容并没有覆盖所有的实际情况。

2)尽管测试集数量从2000上升到10000SUMMARY、TITLE和CONTENT部分的准确率始终保持在98%左右, 说明我们所选取的特征确实反映了实际HTML中的情况。

从上面的两组结果我们可以看到,本文所提出的基于条件随机场的人物信息抽取,对于百科文本具有十分良好的效果,其准确率和召回率能够满足实际应用的需要,信息抽取出的结果有利于下一步科研的进行。后续工作我们还会继续添加训练语料,以尽可能完整地覆盖实际百科HTML中的实际情况。

5结论与展望

本文中,根据特定的任务分析出数据的特点,有效地利用了人物百科HTML源中各个标签所起的作用,分析出能够合理表示我们所需信息的特征及其组合。

以往的信息抽取或者利用启发式规则进行抽取,或者将其抽象成分类问题进行抽取,本文将信息抽取看成是一个序列标注问题进行序列标注,而不是抽取。在特征选择的部分,抛开以往方法所用到的句法分析等耗时的步骤,直接从生语料中选取特征,一方面节省了大量的时间,另一方面减少了对生语料的处理步骤,从整体上讲,大幅度的提高了信息抽取的效率。此外本文所提出的方法并不仅限于人物百科的抽取,同样的方法可以应用到其他对于HTML源的信息抽取任务,提供了一种新颖的信息抽取思路。

信息抽取是当前自然语言处理的热点也是难点,如何从每天产生的海量数据中抽取出我们所需要的、感兴趣的信息,对于节省人力物力非常有意义,当前的信息抽取一般采用基于启发式规则和机器学习相结合的方法来进行。但是大多是针对特定任务而提出的方法,并不具有通用性,因此如何提出一个普适的信息抽取方法将成为信息抽取发展的一个方向,这将为自然语言处理的发展,做出巨大的贡献。

参考文献

[1]张智雄,吴振新,刘建华,等. 当前知识抽取的主要技术方法解析[J]. 现代图书情报技术,2008,08:2-11.

[2]Michele Banko, Michael J Cafarella, Stephen Scoderl, Matt Broadhead, Oren Etzioni. Open Iniformation Extraction from the Web[C]. In Proceedings of Conference on Arti_cial Intelligence, 2007:2670-2676

[3]Anthony Fader, Stephen Soderland, Oren Etzioni. Identifying Relations for Open Information Extraction[C]. In Proceedings of the Conference of Empirical Methods in Natural Language Processing, 2011

[4]SCHMITZ M,BART R,SODERLAND S,et al.Open language learning for information extraction[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics, 2012: 523-534.

[5]ETZIONI O,FADER A, CHRISTENSEN J, et al. Open information extraction: The second generation[C]//Proceedings of the Twenty-Second international joint conference on Artificial IntelligenceVolume Volume One. AAAI Press, 2011: 3-10.

[6]孙静, 李军辉, 周国栋. 基于条件随机场的无监督中文词性标注[J]. 计算机应用与软件, 2011, 28(4): 21-23.

[7]丁伟伟,常宝宝. 基于语义组块分析的汉语语义角色标注[J]. 中文信息学报,2009,05:53-61+74.

[8]RAMSHAW L A,MARCUS M P.Text chunking using transformation based learning[C]//Proceedings of the 3rd Workshop on VeryLarge Corpora. 1995.

[9]SANG E F,KIM T J. Veenstra. Representing text chunks [C]//Proceedingsof the 38th Annual Meetingof the Association for Computational Linguistics, Hong Kong, China. 1999.

[10]UCHIMOTO K,MA Q,MURATA M,OZAKU H,ISAHARA H.Named Entity Extraction Based on A Maximum Entropy Model and Transformation Rules [C]// Proceedings of the 38thAnnual Meeting of the Association for Computational Linguistics, Hong Kong, China. 2000.

猜你喜欢
人物
戏曲人物表演艺术漫谈
音乐剧《迷藏》中“方老师”一角的饰演体会
论红色电影《英雄儿女》中的爱国情怀