刘绍毓 席耀一 李弼程 唐永旺 陈 刚
(解放军信息工程大学信息系统工程学院 河南 郑州 450001)
无监督实体关系触发词词典自动构建
刘绍毓席耀一李弼程唐永旺陈刚
(解放军信息工程大学信息系统工程学院河南 郑州 450001)
摘要传统的实体关系触发词词典构建主要采用人工方法和有监督的扩展学习方法。但是,上述两种方法都需要大量的人工参与,并且当关系类型发生变化时需要重新构建触发词词典。提出一种无监督的实体关系触发词词典自动构建方法。首先,对关系实例文档集进行分层狄利克雷过程建模,通过主题过滤和词语概率权重过滤构建候选触发词集合;然后,利用依存句法分析对候选触发词集合进行再次过滤以得到最终的触发词词典。该方法有效避免了传统实体关系触发词词典构建所需的大量人工参与。实验表明,基于分层狄利克雷过程和依存句法分析的实体关系触发词词典自动构建方法有效降低了人工标注成本,取得了较高的准确率。
关键词实体关系触发词词典分层狄利克雷过程依存句法分析
0引言
实体关系触发词也称实体关系指示词、实体关系描述词、实体关系语义标签等,是关系句子实例上下文中用来详细说明实体对构成的实体关系表达意义的词。例如雇佣关系触发词有“司机”、“部长”、“主席”、“经理”、“CEO”等,就学/毕业于关系的触发词有“学员”、“学士”、“硕士”、“博士”等,事务关系触发词有“合伙人”、“同伴”、“同事”、“上司”、“老板”等。实体关系触发词是实体关系的重要组成部分,是对实体间二元关系的扩展和丰富。
自动内容抽取会议ACE(Automatic content Extraction)定义的实体关系抽取任务包括实体关系识别和描述RDC(Relation Detection and Characterization)两个任务[1]。具体说来,即首先发现两个实体之间是否存在关系,其关系类别是什么;然后抽取出实体关系触发词,从而完整地描述实体与实体间的关系。实体关系触发词在实体关系相关研究中具有重要的实际效用和理论价值。一方面,正确抽取实体关系触发词能帮助用户更好地理解实体关系;实体关系触发词是结构化关系知识库中关系实例的重要标志,因此其能帮助用户快速准确地从关系知识库中检索出特定关系类型的实例对。另一方面,实体关系触发词能够有效指导实体关系抽取,提高实体关系抽取的性能,具有非常重要的实际效用和理论价值。
1相关工作
现有的构建实体关系触发词词典的研究较少,主要有两种方法:一种是人工方法;一种是基于初始触发词库的有监督扩展学习方法,其通过抽取关系句子实例的触发词扩展初始触发词库。
基于初始触发词库的有监督扩展学习方法主要有以下研究:Villaverde[2]首先把实体关系触发词限定为动词并构建初始触发词库,然后根据文本语料中实体对间的语法结构和依赖性去确定触发词,进而达到扩展触发词库的目的。但是,其研究具有局限性,除动词之外,实体关系触发词还可能是名词。中文实体关系触发词词典构建研究起步较晚,其性能依赖于分词工具和句法分析,难度比英文大,效果也不及英文。2007年,刘克彬[3]在利用基于规则的方法进行实体关系识别的同时抽取实体关系触发词。该方法首先人工构建初始实体关系触发词库,然后从训练语料中学习泛化得到候选触发词集的抽取规则,通过计算候选触发词集中词与初始触发词词典中词的相似度来确定关系句子实例的触发词,进而达到扩展触发词词库的目的。2008年,孙晓玲[4]提出了一种基于同义词词林的实体关系触发词抽取方法。需要结合统计机器学习来快速高效地进行实体关系触发词抽取。
人工构建触发词词典工作量大,无法保证其完备性,并且当关系类型改变和语言发展变化时,需要重新构建。基于初始触发词库的有监督扩展学习方法虽然能对实体关系触发词库进行有效扩展,但仍无法摆脱其对人工构建的初始触发词库的依赖。因此,亟需一种无监督学习方法快速高效地完成任意类型的实体关系触发词词典的自动构建。
2实体关系触发词词典自动构建
2.1问题分析
触发词词典构建需要从关系语料集中自动识别触发词。无监督实体关系触发词自动识别面临的挑战主要有:
(1) 关系语料集可能包含噪声句子实例,需要消除噪声句子实例中无关词的干扰。例如,包含实体“马化腾”和“腾讯”的句子“开会之前,马化腾在腾讯公司的大会议室等待着董事会成员。”中的“等待”并没有表达两实体间的雇佣关系。
(2) 同一关系类型的语料往往涉及多个领域,各领域语言的不同增加了触发词识别的难度。例如,雇佣关系在体育领域的实例“孔卡效力于广州恒大。”和在娱乐领域的实例“张韶涵是福茂唱片公司的签约艺人。”的触发词分别是“效力”和“签约”。本文特定实体关系在具体领域的子类型称为关系子类型。
主题模型能够自动发现数据集中的隐含类别。如果利用主题模型对特定关系类型的关系语料进行建模,可以有效地发现其中隐含的主题,即语料包含的关系子类型。主题模型不仅可以自动发现关系子类型,而且可以得到每一关系子类型的词语概率分布。在该概率分布中,最能表达该关系子类型的词语一般具有较大的概率权重。例如,体育领域的雇佣关系对应的关系子类型-词分布中“前锋”、“主教练”等词具有较大的概率权重,娱乐领域的雇佣关系对应的关系子类型-词分布中“演员”、“艺人”等词具有较大的概率权重,而这些词正是雇佣关系的触发词。
主题模型仅利用关系语料中词语的共现信息识别触发词,却没有考虑关系句子实例中实体对的上下文语境信息。2014年,王健等[5]发现事件触发词与事件元素在句法上存在依存关系,并利用依存句法分析实现了生物事件触发词的抽取。与事件触发词类似,实体关系触发词与句子实例的实体对也存在依存关系,因此可以利用关系句子实例中实体对的上下文依存信息来识别触发词。
因此,本文用基于分层狄利克雷过程HDP(Hierarchical Dirichlet Process)和依存句法分析相结合的方法自动构建实体关系触发词词典。
2.2HDP原理介绍
LDA是自然语言处理研究中常用的主题模型,其属于非监督有向图概率模型[6]。在进行文本处理时LDA假设文档由服从狄利克雷分布的主题组成,每个主题由服从多项式分布的单词组成。LDA建模时文档数据被视为词袋模型,并且词语满足位置可交换性。LDA为实现多文档之间的主题共享提供了解决途径。但是,LDA模型需要预先指定文本中的主题个数。
2005年,Teh[7]提出了非参数贝叶斯模型HDP。HDP是LDA模型的非参数模型,其能自动生成主题数目,为模型的自我优化提供了可能。
HDP的超参数有三个[8]:基分布H、聚集度参数γ和α0。基分布H为θji提供先验分布。全局分布G0服从以H为基分布,γ为聚集度参数的狄利克雷过程,表示为:
G0|γH~DP(γ,H)
随机分布Gj条件独立于给定分布G0,并且服从以G0基分布的狄利克雷过程,即:
Gj|α0G0~DP(α0,G0)
如果1个HDP模型可以被用作已分组数据关于θji的先验分布。对任意组j,令θj1,θj2…为以Gj为分布的独立同分布随机变量。每个θji分布可以用来生成相应的观察xji。即:
θji|Gj~Gjxji|θji~F(θji)
从HDP的有向图(如图1所示)可以看到,各个文档的主题均服从基分布H分布,保证了各个文档之间的主题共享。首先,以基分布H和聚集度参数γ构成了Dirichlet过程G0~DP(γ,H);然后以G0为基分布,以α0为聚集度参数,对每一组数据构造Dirichlet过程混合模型Gj~DP(α0,G0),Dirichlet过程混合模型能够实现数据的聚类和分布参数估计[9]。
图1 HDP的有向图模型
HDP过程有多种构造方法,常用的是CRF(Chinese restaurant franchise)构造方法,CRF由中国餐馆过程CRP(Chinese restaurant process)扩展而来[10]。CRP构造的具体过程为:假设有无数家中国餐馆,每家中国餐馆有无数张餐桌,每张餐桌能容纳下无数个顾客。所有餐馆共用一份相同的菜单,菜单中有无数个菜。每张餐桌只能点用一个菜,同一餐馆的不同餐桌可点用同一道菜,不同餐馆的不同餐桌也可点用同一道菜。第一个顾客进入餐馆后选定一张餐桌坐下并确定这张餐桌的菜;第二个顾客进入餐馆后要么和第一个顾客同坐一张餐桌,要么另选一张餐桌坐下并确定该餐桌的菜……依此类推,第n个顾客会以c/(n-1+α)的概率选择已有人坐的餐桌子(c表示已选择该餐桌坐下的人数),或者以α/(n-1+α)的概率选择一张新餐桌,其中α是此过程的标量参数。HDP的CRF构造实际上是为顾客分配餐桌和菜的过程,即首先为每一位顾客分配餐桌,然后为每张餐桌分配菜,每道菜都有可能被点到,同时也可能有新的菜被点到。
(1)
从式(1)可以看出,nk越大,第Xn+1个顾客越有可能选择已有人的桌子坐下,即越大的群越容易变大,表明Dirichlet过程具有集群性质。
2.3实体关系触发词词典构建流程
本文提出了一种基于HDP和依存句法分析的实体关系触发词词典自动构建方法。首先,对关系实例文档集进行HDP建模,通过主题过滤和词语概率权重过滤构建候选触发词集合;然后,利用依存句法分析对候选触发词集合进行再次过滤以得到最终的触发词词典。实体关系触发词词典自动构建的流程如图2所示。
图2 基于主题模型和依存句法分析的实体关系触发词词典构建框架
2.4候选触发词集合构建
Step1将包含实体对的一个句子视为一篇文档,得到一个文档集合D={d1,d2,…,dD}。利用HDP对该文档集合进行建模,过程如下:选择整体基分布G0~DP(γ,H)对文档集D进行建模。对于文档dj,从G0中选择局部分布Gj~DP(α0,G0)。对于文档dj中的每个词xji,首先根据Gj选择该词语的主题θji,然后根据θji对应的分布F(θji)选择词语xji。根据CRF构造HDP。模型挖掘文档集合中的隐含主题T={T1,T2,…,TK},并得到每一主题Ti的特征分布φTi。
Step2统计每一主题Ti含有的非零特征数目Ni。主题中含有的非零概率词语越多,其包含触发词的概率越大。若主题中含有的非零概率词语较少,那么该主题有可能为噪声主题。设θ1为每一主题所含有的非零概率词语的下限阈值,若主题Ti满足Ni<θ1,将其从主题集合T中滤除。
然后,根据每一主题Ti的词语概率分布φTi利用式(2)计算其所包含词语的权重,并按照大小排序。
(2)
其中,|Ti,w|表示主题Ti中特征w的出现次数,|Ti|表示主题Ti中包含的特征数目。
最后,针对每一主题中不可避免包含的一些噪声词语,可以利用其小权重值的特点对其进行过滤。对于每一主题Ti,设θ2为噪声特征阈值,若特征w的权重WeightTi,w>θ2,则将其添加入候选触发词集合CT。
2.5候选触发词集合过滤
利用主题模型得到候选触发词集合的方法仅仅考虑了词语的共现信息,却忽略了关系句子实例中实体对的上下文语境信息。而且单纯依据词语在主题中的权重选择触发词会导致CT内存在较多噪声词语。为此,本文拟利用依存句法分析获取关系句子实例中实体对的上下文语境信息,并利用该信息对候选触发词集合CT进行过滤。
依存句法分析由Tesniere最先提出[11],其将句子解析成一颗依存句法树,用以描述各个词语之间的语义依赖关系。在实体关系句子实例的上下文中,触发词一般与实体对之间存在依存关系。例如关系实例“雇佣关系<马化腾,腾讯公司>”对应的句子实例“马化腾是腾讯的CEO。”的依存句法分析结果如图3所示。与实体“马化腾”或“腾讯”有依赖关系的词集合是{是,的,CEO},此词集合包括触发词“CEO”。
图3 雇佣关系句子实例依存句法分析示例
再如包含两个人名实体“徐志摩”、“徐申如”的关系句子实例“徐志摩的父亲徐申如曾经拥有一座发电厂。”的依存句法分析的结果如图4所示。与实体“徐志摩”或“徐申如”存在依存关系的词有“父亲”和“拥有”,甚至包括人名实体“徐申如”,显然也包括实体关系触发词“父亲”。
图4 父子关系句子实例依存句法分析示例
上述两个实例依存句法分析结果中与实体对存在依存关系的词集合都包含触发词,但仍存在噪声词语,如“是”、“的”、“拥有”。需要对这样的噪声词语进行过滤,步骤如下:
(1) 考虑到命名实体一般不是触发词,滤除触发词集合中的命名实体(人名、地名、组织机构名)。
(2) 对同类实体关系的所有实体关系句子实例进行依存句法分析,去除停用词,并统计与实体对存在依存关系的词语信息W={
对特定实体关系而言,触发词应该同时存在于候选触发词集合CT和W中。因此,将CT中不存在于W中的词语过滤掉,得到了触发词集合即为构建的触发词词典。
3实验及结果分析
3.1实验数据及预处理
本文用中文维基资源,采用一种半自动的方式获取与人物相关的实体关系语料,用以减少人工标注语料的工作量,具体步骤如下:
(1) 抽取中文维基模板页面中的所有人物Infobox模板http://zh.wikipedia.org/wiki/Category:人物信息框模板,并对各个模板在所有维基页面中的出现频次进行统计,选取频次最高的50个模板;
(2) 人工标注各个Infobox模板中表达预定义实体关系的属性名称,将Infobox模板和属性名称加入对应的实体关系中,如将“Infobox Officeholder”中的属性“毕业院校”添加至“母校”关系;
(3) 在所有维基页面中提取指定Infobox模板和属性名称的属性值,与当前维基条目名称形成实体关系对,并加入对应的实体关系中,如将维基条目“阿诺德·施瓦辛格”与正文中属性“毕业院校”对应的属性值“威斯康辛大学苏必略分校”形成实体关系对,加入“母校”关系;
(4) 在维基中抽取包含上述实体对的所有句子,并粗略地认为所有的句子都表达了该实体对对应的实体关系,并将其作为实体关系标注语料。
实验选取出现频次高且数据丰富的四类实体关系作为测试对象,分别是:配偶、母校、雇佣、国籍。数据集的相关统计特征如表1所示。
表1 实体关系语料的数据统计
本文实验采用NLPIR/ICTCLAS汉语分词系统2014版http://ictclas.nlpir.org/对数据进行中文分词,并去除停用词,保留名词、动词和形容词。采用斯坦福大学自然语言处理组提供的开源工具Stanford Parser version .3.1 http://nlp.stanford.edu/software/lex-parser.shtml对数据进行依存句法分析。
3.2实验结果及其分析
以往的实体关系触发词词典构建需要大量的人工参与,费时费力且局限于特定关系类型。本文的方法是无监督的,对各种关系类型具有通用性。为验证本文提出的基于HDP和依存句法分析的实体关系触发词词典自动构建方法的性能,本文构建了System-1、System-2和System-3,具体如下:
System-1:仅采用依存句法分析构建触发词词典;
System-2:仅通过主题模型构建触发词词典;
System-3:采用基于主题模型和依存句法分析相结合的方法构建触发词词典。
评价机制:(1) 在相同的关系语料集上人工构建实体关系触发词词典,将本节方法获得的触发词词典与之比较,通过计算准确率进行评价。(2) 采用信息检索中的常用评价指标AP值比较触发词抽取算法的性能。
从表2实体关系触发词抽取的实验结果可以看出,基于主题模型和依存句法分析相结合的方法性能明显优于其他两种方法。基于依存句法分析的方法效果较差,原因在于与实体对存在依存关系的词语较多,因此噪声也较多。基于主题模型的方法假设触发词在主题中具有较大权重,其利用关系语料中隐含的统计特性,通过挖掘隐含主题识别触发词。实验证明该方法优于基于依存句法分析的方法,证明该假设有一定的合理性。基于主题模型和依存句法分析相结合的方法与前两者相比具有更好的效果,说明触发词一般在主题中具有较大权重,同时与实体对之间也存在依存关系,证明了本文方法的有效性。
表2 不同方法构建的触发词词典准确率比较
另外,不同关系类型的准确率具有一定差异,主要原因有:(1) 数据集中不同关系类型的语料句子数目不同,数据集不平衡;(2) 有些实体关系的触发词比较明确,例如“配偶”关系的触发词通常是“结婚”、“夫人”、“夫妇”、“娶”等意义明显的词,而有些关系的触发词比较隐晦,而且在不同领域差异较大,例如娱乐领域的“雇佣”关系触发词通常为“艺人”、“歌手”等,在体育领域通常出现的则为“租借”、“主教练”等。
为进一步比较System-3与System-1、System-2的性能,本文采用信息检索中的AP指标判断所抽取触发词的质量好坏,AP指标用于评价有序检索结果的好坏。AP值可以较好地体现一个抽发词抽取算法性能的好坏,如果一个抽发词抽取算法能够使正确的触发词排名尽量靠前,那么该算法的AP值就比较高。图5-图8分别给出了上述三种算法在四种实体关系上的AP值大小比较。实验给出了上述算法所抽取的触发词前10、20、50、100、150、200个触发词的性能。
图5 配偶关系AP值比较
图6 母校关系AP值比较
图7 雇佣关系AP值比较
图8 国籍关系AP值比较
由图5-图8可以看出,采用AP值比较触发词抽取算法的性能时,基于主题模型和依存句法分析相结合的方法依然具有最佳性能。仅采用依存句法分析与仅利用主题模型的方法或者仅考虑实体对的上下文语境信息,或者仅利用关系语料中词语的共现信息识别触发词,性能均比较差。而将两者相结合的方法避免了各自的缺陷,在各种实体关系语料中均提升了性能。另外,采用AP值评价触发词抽取算法性能时,基于依存句法分析的方法略优于基于主题模型的方法。通过观察触发词排序结果发现这是因为基于依存句法分析的方法相对基于主题模型的方法能将触发词排序提前一些,导致其AP值略高一些。随着触发词识别数目的增多,AP值均呈下降趋势,只有雇佣关系例外。经过分析是因为大量触发词的排序介于20至50之间,使得触发词数50对应的AP值略有上升。
4结语
实体关系触发词词典对实体关系抽取具有重要意义。目前,实体关系触发词词典的构建大都采用人工构建或有监督的触发词扩展学习方法,这两种方法需要大量的人工参与,并且当关系类型发生变化时需要重新进行构建。本文提出了一种无监督的实体关系触发词词典自动构建方法。该方法在对实体关系句子实例进行HDP建模后,采用主题过滤、词语概率权重过滤得到候选触发词集合,然后采用基于依存句法分析的候选触发词集过滤以得到触发词词典。实验结果表明,该方法能自动构建各种类型的实体关系触发词词典,并且取得了较高的准确率。尽管构建的触发词词典具有一定的准确率,但仍有待提高。一方面,这是因为获得的关系句子实例集中存在较多噪声;另一方面,算法在主题过滤和概率权重过滤过程中涉及的阈值因子对过滤操作具有较大影响。下一步工作:采用合适方法对关系句子实例集进行噪声过滤;寻找过滤阈值因子的快速寻优方法。
参考文献
[1] Zhou G,Qian L,Fan J.Tree kernel-based semantic relation extraction with rich syntactic and semantic information[J].Information Sciences,2010,180(8):1313-1325.
[2] Villaverde J,Persson A,Godoy D,et al.Supporting the Discovery and Labeling of Non-taxonomic Relationships in Ontology Learning[J].Expert Systems with Applications,2009,36(7):10288-10294.
[3] 刘克彬,李芳,刘磊,等.基于核函数中文关系自动抽取系统的实现[J].计算机研究与发展,2007,44(8):1406-1411.
[4] 孙晓玲,林鸿飞.人际网络关系抽取和结构挖掘[J].微电子学与计算机,2008,25(9):233-236.
[5] 王健,吴雨,林鸿飞,等.基于深层句法分析的生物事件触发词抽取[J].计算机工程,2014,40(1):25-30.
[6] 冯时,景珊,杨卓,等.基于LDA模型的中文微博话题意见领袖挖掘[J].东北大学学报:自然科学版,2013,34(4):490-494.
[7] Teh Y W,Jordan M I,Beal M J,et al.Hierarchical dirichlet processes[J].Journal of the American Statistical Association,2006,101(476):1566-1581.
[8] 段瑞雪,王小捷,孙月萍,等.HDP主题模型的用户意图聚类[J].北京邮电大学学报,2011,34(S1):55-58.
[9] 周建英,王飞跃,曾大军.分层Dirichlet过程及其应用综述[J].自动化学报,2011,37(4):389-407.
[10] Blei D M,Griffiths T L,Jordan M I,et al.Hierarchical Topic Models and the Nested Chinese Restaurant Process[C]//Proceedings of the Conference on Neural Information Processing Systems,2003:16.
[11] 吴佐衍,王宇.基于HNC理论和依存句法的句子相似度计算[J].计算机工程与应用,2014,50(3):97-102.
AUTOMATIC CONSTRUCTION OF ENTITY-RELATION TRIGGER WORD DICTIONARY BASED ON UNSUPERVISED METHOD
Liu ShaoyuXi YaoyiLi BichengTang YongwangChen Gang
(SchoolofInformationSystemEngineering,PLAInformationEngineeringUniversity,Zhengzhou450001,Henan,China)
AbstractTraditional construction of entity-relation trigger word dictionary mainly uses artificial or supervised extended learning methods. However, both of the methods require a lot of human involvement, and when the relation type changes, there has the need to rebuild trigger word dictionary. This paper proposes an unsupervised automatic construction method for entity-relation trigger word dictionary. First, we use hierarchical Dirichlet process to model the relation instance document set, and build candidate trigger word set by topics filtration and words probability weight filtration; then we make use of the dependency parsing to filter the candidate trigger word set once again for acquiring final trigger word dictionary. This method effectively avoids the extensive human involvement required by traditional construction of entity-relation trigger word dictionary. Experiments show that the automatic entity-relation trigger dictionary construction method based on hierarchical Dirichlet process and dependency parsing effectively reduces the manual annotation costs and achieves a higher accuracy.
KeywordsEntity-relation trigger word dictionaryHierarchical Dirichlet processDependency parsing
收稿日期:2014-09-08。国家高技术研究发展计划项目(2011AA 7032030D);全军军事研究生课题(军事学YJS1062)。刘绍毓,硕士生,主研领域:实体关系抽取。席耀一,博士生。李弼程,教授。唐永旺,硕士。陈刚,讲师。
中图分类号TP391
文献标识码A
DOI:10.3969/j.issn.1000-386x.2016.05.018