融合句义分析的跨文本人名消歧

2015-08-10 09:42罗森林邹丽丽石秀民
浙江大学学报(工学版) 2015年4期
关键词:语义聚类实体

张 晗,罗森林,邹丽丽,石秀民

(北京理工大学 信息与电子学院,北京100081)

面对铺天盖地的互联网信息,搜索引擎的使用逐渐成为大部分网民主要的行为之一.据Guha等[1]的统计可知,5%~10%使用搜索引擎的用户搜索请求中包含人名作为查询词.然而,现实生活中重名现象十分严重,对某一个特定人名的查询结果往往是不同现实个体网页的混合.人名消歧是判断相同姓名字符串是否指称现实中相同实体的过程,针对搜索结果中相同姓名字符串的多文本混合现象,进行文本聚类,即将同名的每一个人的相关文本划分在一类.人名消歧具有巨大的实际应用价值,是搜索引擎、社交网络和人名知识库构建等领域的基础性研究.

随着多文本处理的广泛应用,跨文本人名消歧研究受到越来越多的重视.SemEval-2007评测设立了英文网络人物搜索任务 Web People Search(WPS)[2].在由ACL SIGHAN 和中文信息学会联合组织的CLP 2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)上首次设置了中文跨文本人名消歧任务,并且在CLP 2012上再次设置了这一评测任务,将WPS 以及Text Analysis Conference(TAC)的KBP 实体链接任务进行融合.任务不仅要求判定人名实体是否已在知识库中定义以及是知识库中的哪一条定义,而且要求对于不属于知识库中定义的文本进行聚类,与2010年相比增加了任务难度.本文针对中文跨文本消歧任务,利用句义分析提取句义特征实现人名消歧.

1 相关工作

1998年,Bagga等[3]首次提出跨文本的同指消歧任务.他们对每个文本形成待消歧名字的简单摘要,并用向量空间模型表示,通过聚类方法将具有人名同指关系的文本聚在一起.他们的方法是较通用的文本消歧技术,没有考虑到人名消歧的特殊性.2003年,Mann等[4]通过特征模板大大丰富了特征空间中的个人属性信息,在一定程度上改善了特征提取算法.2005年,Malin[5]提出一种利用社会网络图来实现人名消歧的方法,该方法首先构造待消歧人名的社会网络图,然后采取随机游走和网络切割的方法来精确社会网络进行人名消歧.2010 年在CLP 2010上,Wang等[6]利用启发式后处理规则优化命名实体识别效果,然后根据领域信息将文本分类,针对不同领域的人物文本采用不同的处理方式,他们提交的2个系统都表现良好.Xu等[7]依据段落与待消歧名字的距离,将不同位置的特征赋予不同权重进行层次聚类,并对比分析不同链接方法应用到人名消歧的效果.2011年,陈峰等[8]运用社会网络分析法解决中文不同文本同名歧义问题,利用同名的人各自对应不同中心网络的特点,使用谱聚类将社会网络图划分子图,通过“集团”划分来区分不同实体.Wei等[9]用空间向量模型表示文本,以TFIDF计算特征权重,采用支持向量机和凝聚层次聚类相结合的多阶段处理策略实现了人名消歧.2012年在CLP 2012上,Peng等[10]在命名实体识别的基础上,对不同名实体特征、部分词性以及人物职业名称赋予不同参数值,结合TF-IDF 构成文本表示模型进行聚类,他们提交的SIR-NERD 系统效果良好.

现有的主要算法大致可以分为以下2类.第一类是对于每一篇文本,用特征向量表示,然后计算向量之间的相似度,采用层次聚类算法将描写现实中同一人物的文本划分为一类.第二类是采用图聚类算法.图的构造方法是利用文本中命名实体的关系建立一个初始社会关系网络,然后对该网络釆用图聚类算法将节点聚成若干个内部节点紧密连接的“社团”.

层次聚类算法是目前主流的算法,选取合适的特征表示文本是该方面研究的主要工作.目前,大多数特征是文本中的浅层次特征(词法,句法),没有考虑特征词在语句中扮演的语义角色及它们之间的依存关系,造成信息丢失.图聚类的算法只考虑部分命名实体之间的关系,一方面会造成特征稀疏,另一方面这些命名实体不能充分地描述实体特征,效果并不理想.挖掘文本中更深层次的语义信息,利用不同层次的强弱特征,进而发挥各类特征对人名消歧的作用是有意义的.

2 句义结构模型及句义分析

句义结构模型[11]以现代汉语语义学为基础,从句义角度研究句子的句义成分以及成分之间关系的句义结构化表示模型,将抽象的句义表示成计算机可处理的结构化数据.模型将句义结构分为句型层、描述层、对象层和细节层4个层次,包含的句义成分有句义类型、话题、述题、谓词和项等.句义成分中的项分为基本项与一般项,项的具体功能用语义格表示,对应的语义格分为7个基本格和12个一般格.模型的基本形式[12]如图1所示.

句义分析通过句义结构模型分析句子结构信息和语义信息,抽取能够表述句子语义的特征,这些特征能够表达人物实体的重要信息是文本强特征.句义分析的具体方法是根据句义结构模型的基本框架,分别处理不同语义格的对象成分及语义格结构信息,主要的语义格类型说明如表1所示.

表1 语义格类型说明Tab.1 Description of semantic case

在句义结构模型自动构建的基础上依次查询上述语义格对应的项作为特征词,根据语义格的依存关系构造不同组合方式形成具有更精确语义表达能力的特征词组.对于基本格,要排除查询词字串(待消歧人名),若与其他一般格在语义上存在依存关系,则将它们的对应项合并形成新的特征词组.对于一般格,只提取修饰基本格的作为句义特征,若与其他一般格在语义上存在依存关系,则将它们的对应词合并形成新的特征词组.

图2 “自治区主席高雄实地考察天门山景区”的句义结构Fig.2 Sentential semantic structure of“chairman of autonomous region, Gaoxiong survey Tianmen mountain scenic spot”

以下列查询词为高雄的句子为例:“自治区主席高雄实地考察天门山景区”.句义结构的生成利用了课题组的自动构建系统ACSM①http:∥www.isclab.org/csa/bfs-csa.php,是基于融合反馈机制的CRF++模型的句义分析器,不依赖于句法分析仅利用词法分析结果即可实现,保证了分析的性能,对语义格类型的识别准确率达到94%以上.所得的句义结构实例如图2所示,体现了句义分析的作用:“景区”是“考察”动作的承受对象,“主席”与“高雄”在该句同指一个实体对象,具有同位属性,所以,该句中受事格、同位格所对应的项“景区”、“主席”两词都能够表达具有区分能力的信息.然而仅仅这两个词的表达是不精确的,带来一定程度的噪音,根据上文方法提取具有依存关系的同位格-属格、受事格-空间格两种语义形式,将对应项“自治区主席”、“天门山景区”作为特征词组,这两个词组的表达更细致,有利于区分不同实体对象.此外,去除容易形成噪音的谓词项以及与实体相关性不大的描述谓词的语义信息,如该句中的“考察”“实地”,保证了句义特征表达的准确性.

3 算法原理

针对文本分析只停留在表层的问题,本文利用句义结构模型在语义层分析句子,根据语义信息和语义格结构信息处理句子中不同的语义成分和不同语义项之间的依存关系,利用句义特征准确表达语句信息.在抽取实体特征时加入了书名、歌名、电影名等特殊专有名词以及人物职业,丰富了实体特征类型,结合名词统计特征进行两阶段层次聚类,利用文本强弱特征实现跨文本人名消歧.

本文提出的融合句义分析的跨文本人名消歧是在文本预处理的基础上,首先对查询词采用启发式规则的后处理方法进行人名实体识别,将文本集分为人名文本集Nr和非人名文本集Other.然后针对人名文本集Nr根据模板提取与查询词相关的局部名实体特征及职业,采用基于规则的分类方法匹配知识库定义的名字并标记其编号Id.最后针对剩余文本集Out以及非人名文本集Other分别通过自动构建句义结构模型,提取句义特征,利用词袋模型统计词频,依次表示文本进行两阶段层次聚类.

系统主要包括:预处理、人名实体识别、文本表示、分类和两阶段聚类4个模块.算法原理如图3所示,各模块的具体内容在下文详细介绍.

图3 跨文本人名消歧算法原理图Fig.3 Cross-document personal name disambiguation algorithm schematic diagram

3.1 预处理

对文本集的预处理模块主要包括数据清洗、分句、分词、词性标注以及命名实体识别.数据清洗阶段去除知识库XML标记以及文本中一些无法正确识别的特殊字符.然后进行分句并依据文本名、段落、段落中位置对每一句编号,目的是方便抽取查询词上下文语句以及构建句义结构模型.之后对文本进行分词、词性标注,采用中科院计算所的分词工具ICTCLAS2013.

3.2 人名实体识别

由于人名消歧语料的特殊性,例如查询词为“高山”“白雪”等字串时,文本集中存在大量查询词以普通词形式存在的情况,针对这些词的实体识别效果是非常不理想的.导致错误的主要原因是没有充分利用前后文信息,这种情况直接影响之后的句义结构模型构建的效果.针对上述情况,在利用ICTCLAS2013命名实体识别功能的基础上,采用基于启发式规则的后处理方法提升人名的实体识别效果.从文本集中抽取出查询词指代人名的文本子集Nr,则剩余文本组成文本集Other,这些文本中的查询词以普通词或者其他命名实体形式出现.整体的识别模块框架如下所示.

3.2.1 并列词规则 并列词是以并列连词或符号串联在一起的字串集合,并列连词和符号有:“和”、“或”、“与”、“、”等.由于并列实体词在文本中的距离相对较远,在统计系统中识别效果不好.并列词规则是若查询词的并列词被识别为人名,则查询词也是人名,例如“高山和黄磊都来自云南”中,黄磊作为查询词高山的并列词被识别为人名,而高山被识别为普通名词,则根据并列词规则将高山识别为人名.

3.2.2 名称同指规则 由于现实中经常出现一个人拥有曾用名的情况,甚至拥有笔名、网名等多个名称,这些名称在同一个文本中均指代一个人.名称同指规则即若查询词前缀、后缀或通过“,”连接的字串是“原名”“又名”“笔名”“曾用名”“别名”“网名”等,并且这些词跟随人名出现就将查询词识别为人名,例如“高山,原名高增昌”这两句中,高山和高增昌指代现实中的同一个人,高增昌被识别为人名,则根据规则查询词高山也被识别为人名.

3.2.3 前、后缀称谓词规则 前、后缀称谓词规则是利用人名称谓识别人名.前、后缀词是实体词前面或后面标示实体类型的部分.若查询词本身符合人名的一般原则,而且前、后缀词是人名称谓,则查询词为人名.例如“(记者高超)”“杜鹃老师”这两句中,记者及老师都是人名称谓词,则查询词高超和杜鹃被识别为普通词,根据该规则将它们识别为人名.

3.3 文本表示

本文根据特征模板提取与查询词相关的局部名实体特征及职业,通过自动构建句义结构模型,提取句义特征,利用词袋模型统计词频,利用上述三层特征分别表示文本并进行聚类.

由于名实体及职业信息在人名消歧任务中扮演着重要角色,首先在抽取文本名实体特征及职业时,先从句子划分完毕的文本中抽取查询词的所在句,然后从这些句子中抽取相关的机构名、人名、地名.特别地,通过观察语料发现,其中出现的人大部分是歌星、演员、作家和学者等知名人士,对于这些特殊人群,一些书名、歌名、电影名等出现在“《”“》”之间的专有名词可以有效地区分他们,所以将全文本中出现的这些名词划分到名实体特征中构成一维独立特征.最后利用职业称谓词典匹配查询词前后缀职业,上述特征由相关的特征词集合组成,构成的第一层特征空间表示文本,标记如表2所示.

表2 第一层特征类型及标记Tab.2 Types and markers of first layer characteristics

根据4章的特征选择实验,从8种语义格中选择施事格、受事格、说明格、范围格、描写格、空间格所对应的项.根据2章介绍的句义特征提取方法从查询词上下文信息(一般为查询词所在句的上下各一句话)中提取特征词和词组构成句义特征,利用所选取的特征将文档形式化表示在n 维空间的向量,构成第二层特征空间表示文本,如下所示:

空间中的每一维wn都是选取的特征词或词组.

利用词袋模型(BOW)统计所有的名词词频,用空间向量模型表示文本构成第三层特征空间,词袋模型的特点在于该模型忽略掉文本的语法和语序,用一组无序的单词来表达一段文字或一个文档.系统采用词频矩阵TF 对词袋特征进行加权,主要表示度量词t与文档d 之间的关联度:通常,如果文档不包含该词,则定义为零;否则定义为非零.对于向量中的非零项,定义词的权重方法有多种.系统采用的方法如下:若词t出现在文档d 中,则用规范化词频来计算,计算公式为

式中:freq(d,t)为词t在文档d 中出现的次数.

3.4 分类和两阶段聚类

利用上述三层特征空间,采用一种融合分类和两阶段聚类的处理策略.首先针对人名文本集,利用知识库定义及表2所示的第一层特征空间进行基于规则的分类方法,将知识库中提及的每一个人的相关文本划分为一类.规则为对于每一篇文本和知识库定义内容,若nr或snz特征集交集非空,或者nt或ns特征集交集元素数不小于2,或者nt或ns特征集交集元素数等于1并且occupation特征集交集非空,则将该文本标记为知识库定义编号.

后两个阶段是针对未被划分到知识库定义的剩余文本集Out以及非人名文本集Other分别进行聚类,其中第一阶段利用句义特征构成的第二层特征空间进行基于凝聚的最小距离法层次聚类,两文本的相似度用重叠系数(overlap coefficient)计算.假设文档dx的特征向量为fx,文档dy的特征向量为fy,则

η是为了避免式(3)的分母过小而设定的阈值,一般根据训练集确定.

第二阶段聚类是在第一阶段聚类结果映射的基础上,使用第三层特征空间以及相同的层次聚类算法.两文本的相似度用空间向量v1、v2之间的余弦夹角表示,如下:

对于结果映射过程,首先观察第一阶段的聚类结果,然后将所有聚类类别中包含文本数≥2的类别筛选出来,将这些类别中的文本在层次聚类初始化数据前聚为一簇,而那些只包含一个文本的离散类别不作任何处理.根据表3所示的部分文本聚类结果,第二阶段层次聚类输入数据的初始化状态如图4所示.P1、P2、P3、P4、P5依次表示表3中显示的文本,树状图中的虚线表示没有进行第二阶段层次聚类之前的初始状态,嵌套簇图更直观地显示了第一阶段聚类的映射结果.

开展4章所述的参数选择实验得到重叠系数μ作为第一阶段聚类停止时的相似度阈值,夹角余弦值θ作为第二阶段聚类停止条件.

表3 第二阶段聚类结果示例Tab.3 Typical example of second stage clustering result

图4 以树状图和嵌套簇图显示的聚类初始状态Fig.4 Clustering initial state showed by tree diagram and nested cluster diagram

4 实验及结果分析

4.1 实验数据资源

实验数据是CLP 2012中文人名消歧评测任务开放的语料,其中包含16个不同的待消歧人名,每个名字包含50~200篇不等的文本,共包含1 634篇文本,并且对每一个人名均包含一个提供少量实体信息的知识库.其他数据资源还包括常用人名称谓1 510个.

4.2 评价方法

采用CLP 2012 使 用 的B_Cubed 指 标 评 价 实验结果.

式中:P 为准确率,Rec为召回率;S 为标准聚类结果集合,d 表示文档,Si∈S 表示标准结果类别集合中的一类;R 为实际聚类结果集合,Rj∈R 表示实际聚类结果集合中的其中一类;|Si|和|Ri|分别为集合Si和Ri的 大 小.

对参与聚类的每个文档分别求出P 和Rec,再求出平均值作为聚类结果的P 和Rec.F 采用通常的计算公式计算:

4.3 实验结果及分析

对融合句义分析的跨文本人名消歧系统进行3组实验:句义特征选择实验、聚类参数选择实验和系统总体效果对比实验.

第1组实验是句义特征选择实验,目的是选择系统所需的最优化句义特征组合.首先分析消歧中不同语义格的表达能力,挑选出8种语义格进行实验,语义格的编号如表4所示.

表4 句义特征编号Tab.4 Number of semantic features

对语料进行统计分析发现,大部分文本所提取的句子均含有的基本句义特征是施事格.实验以施事格作为基线,依次加入其他基本句义特征,观察它们对层次聚类准确率的影响,均取重叠系数0.49作为聚类停止条件,保留使准确率上升的句义特征,丢弃使准确率下降的句义特征.

由图5可知,选择施事格、受事格、范围格、描写格、说明格、空间格作为最优句义特征组合,这种句义特征组合具有较强的表达能力,可以更精确地反映句义信息.

第2组实验是两阶段聚类的参数选择实验,选择最佳的μ 与θ 的组合方式作为两阶段聚类的停止条件.实验中,μ 以0.02为间隔在0.15~0.35的区间变动,θ以0.02 为间隔在0.08~0.20的区间变动,其中θ1=0.08,实验结果如图6所示.由图6可知,当μ 取0.31,θ取0.12时,聚类效果最好.

图5 特征选择实验结果Fig.5 Results of experiments of feature selection

图6 两阶段聚类参数选择实验结果Fig.6 Results of feature selection with two-stage clustering

第3组实验是系统总体效果对比实验.对比系统是2 个 参 与CLP 2012 评 测 的 系 统TBHMERD[13]、SIR-NERD和本文系统去除句义分析模块的结果,如表5所示.

表5 系统总体效果对比实验结果Tab.5 Comparison with system overall experimental results

由表5可见,去除句义分析模块后仅利用特定属性和统计特征的处理方法的准确率较低,而加入句义分析模块的本文系统效果明显提升,F 优于其他两个评测系统,特别是在准确率方面表现良好.原因是句义特征可以精确表达信息,作用于对凝聚层次聚类效果影响较大的底层,优先将部分文本划分为一类;然后结合统计特征,适应了凝聚层次聚类自底向上的特点,有效地避免了只使用特征融合并赋不同权重的单层次的聚类方法所带来的噪音.采用该处理方法不仅增加了句子分析的深度,而且合理地利用了文本强弱特征.召回率相对SIR-NERD 系统下降将近1%,可能的原因如下:1)命名实体识别效果不理想,造成特征数据稀疏;2)某些文本中的句子形式不规范,例如缺少谓词或其他语义成分、出现某些代词等,只根据该句无法正确地提取有效句义特征;3)分类算法所利用的实体属性特征不够丰富,且规则不够完善,导致知识库定义人名的相关文本被划分到Out文本集中.

5 结 语

本文结合文本强弱特征,合理利用分类聚类算法实现了跨文本人名消歧.特别地,利用句义结构模型分析句子的结构信息和语义信息,通过分析特征词在语句中的依存关系,深化了句子分析层次,提取的句义特征增强了特征向量的表达能力,有效地避免了信息丢失,更准确地描述语句中实体相关信息.实验证明,结合句义特征的层次聚类方法明显提高了系统的准确率以及综合性能.综上所述,句义分析可以应用到跨文本人名消歧的研究中,并能够取得良好的效果.

由于利用重叠系数的相似度计算方法没有考虑到句义特征在句子中扮演角色的重要程度,下一步工作的重点是句义特征权重计算方法的研究.同时,利用上下文信息丰富句义特征以解决由于某些句子形式不规范原因造成的特征稀疏的问题,以期提高算法的召回率.这些研究将提高句义分析能力,进一步提升跨文本人名消歧的效果.

):

[1]GUHA R,GARG A.Disambiguating people in search[C]∥The 13th International World Wide Web Conference.New York:Association for Computing Machinery,2004:102-107.

[2]ARTILES J,GONZALO J,SEKINE S.The SemEval-2007 WePS evaluation:establishing a benchmark for the web people search task[C]∥Proceedings of the 4th International Workshop on Semantic Evaluations.Prague:Association for Computational Linguistics,2007:64-69.

[3]BAGGA A,BALDWIN B.Entity-based cross-document conferencing using the vector space model[C]∥Proceedings of the 17th International Conference on Computational Linguistics:Volume 1.Montreal,Ganada:Association for Computational Linguistics,1998:79-85.

[4]MANN G S,YAROWSKY D.Unsupervised personal name disambiguation[C]∥Proceedings of the 17th Conference on Natural Language Learning at HLT-NAACL 2003:Volume 4.Sofia,Bulgaria:Association for Computational Linguistics,2003:33-40.

[5]MALIN B.Unsupervised name disambiguation via social network similarity[C]∥ Workshop on Link Analysis,Counterterrorism,and Security.Minneapolis:[s.n.],2005,1401:93-102.

[6]WANG H,DING H.A multi-stage clustering framework for Chinese personal name disambiguation[C]∥CIPS-SIGHAN Joint Conference on Chinese Language Processing. Tianjin:[s.n.],2010:88-94.

[7]XU R,XU J.Combine person name and person identity recognition and document clustering for Chinese person name disambiguation[C]∥CIPS-SIGHAN Joint Conference on Chinese Language Processing.Tianjin:[s.n.],2010:95-100.

[8]陈峰,王厚峰.基于社会网络的跨文本同名消歧[J].中文信息学报,2011,25(05):76-82.CHEN Feng,WANG Hou-feng.Social network based cross-document personal name disambiguation [J].Journal of Chinese Information Processing.Tijanjin:[s.n.],2011,25(05):76-82.

[9]WEI H,XU B,ZHAO T.Study on Chinese person name disambiguation based on multi-stage strategy[C]∥2011 8th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD).Chongqing:IEEE,2011:1177-1181.

[10]PENG Z,SUN L.SIR-NERD:a Chinese named entity recognition and disambiguation system using a twostage method[C]∥CIPS-SIGHAN Joint Conference on Chinese Language Processing.Wuhan:[s.n.],2012:115-120.

[11]罗森林,韩磊,潘丽敏,等.汉语句义结构模型及其验证[J].北京理工大学学报:自然科学版,2013,33(2):166-171.LUO Sen-lin,HAN Lei,PAN Li-min,et al.Chinese sentential semantic mode and verification[J].Beijing Institute of Technology:Natural Science,2013,33(2):166-171.

[12]冯扬.汉语句义模型构建及若干关键技术研究[D].北京:北京理工大学,2010.FENG Yang.Research on Chinese sentential semantic mode and some key problems[D].Beijing:Beijing Institute of Technology,2010.

[13]HAO Z,DEREK F.A template based hybrid model for Chinese personal name disambiguation[C]∥CIPSSIGHAN Joint Conference on Chinese Language Processing.Wuhan:[s.n.],2012:121-126.

猜你喜欢
语义聚类实体
真实场景水下语义分割方法及数据集
语言与语义
前海自贸区:金融服务实体
基于K-means聚类的车-地无线通信场强研究
实体书店步入复兴期?
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
“吃+NP”的语义生成机制研究