地名知识辅助的中文地名消歧方法

2016-06-05 14:57雷,李伟,连伟,梁鹏,龚
地理与地理信息科学 2016年4期
关键词:歧义知识库本体

马 雷 雷,李 宏 伟,连 世 伟,梁 汝 鹏,龚 竞

(1.信息工程大学地理空间信息学院,河南 郑州 450052;2.四川省应急测绘与防灾减灾工程技术研究中心,四川 成都 610041)

地名知识辅助的中文地名消歧方法

马 雷 雷1,2,李 宏 伟1,连 世 伟1,梁 汝 鹏1,龚 竞2

(1.信息工程大学地理空间信息学院,河南 郑州 450052;2.四川省应急测绘与防灾减灾工程技术研究中心,四川 成都 610041)

地理空间中对位置的描述可以基于形式化的地理坐标,也可以利用自然语言文本中的非形式化地名来表达。文本中的同一地名可能指向很多地理位置,这就引起了地名歧义,地名消歧就是消除概念指称上的认知分歧,为地名分配唯一的地理位置。该文从地名知识的角度出发,首先提出了一种基于地名本体的地名知识统一表达方法,介绍了地名知识来源和地名知识库建库流程;然后给出了中文地名消歧原理和算法流程,从语义关系、拓扑关系、距离关系和地名密度4个维度计算地名实体之间的地理关联度进行地名消歧;最后通过实验对消歧方法进行了验证与评价,结果表明该消歧方法具有较高的准确率、召回率、覆盖率和F值。

地名;知识;地名本体;地名消歧;关联度

0 引言

地理空间无处不在,人类所有的活动、知识和决策都和地理空间中的位置相关,位置参照可以是形式化的地理坐标,也可以是自然语言文本中的非形式化地名。自然语言文本是地理信息的重要数据源,据统计至少70%的文本文档包含以地名形式表达的地理位置参考信息[1]。形式化表达是所有空间处理的基础,可以通过空间分析和几何计算实现,但是当前GIS空间处理的过程还无法通过地名实现。中文地名复杂多样,尤其文本中的地名,歧义现象非常严重,消除地名歧义是文本中定性地名信息空间化的必备环节,是连接自然语言处理和GIS的桥梁[2]。

地名歧义分为geo/non-geo歧义和 geo/geo歧义[3]。若某一地名具有非地理意义,则称为geo/non-geo歧义,例如人名或者普通单词;同一地名对应多个地理位置就产生了geo/geo歧义,例如红河可能指河流也可能指红河县、昌乐县红河镇,它们使用同一个地名但指向不同的地理位置。据统计,全球80%以上的地名是无歧义的,但是自然语言文本中83%以上的地名存在歧义,其中一部分地名存在5个甚至更多的候选地理位置。网页中的地名37%左右存在歧义,法新社新闻集合中新闻网页中高达40.1%的地名存在歧义[4]。从自然语言处理的角度看,地名消歧属于词义消歧的一种,并着重处理地理领域的geo/geo歧义。Olligschlaeger[5]在开发数字视频图书馆时尝试将新闻中提到的地名位置在地图上标出,此后出现了很多地名消歧方法。通常地名消歧分为两步:1)从本文中识别出所有地名,确定歧义地名对应的所有地理位置,构成候选位置集合;2)基于上下文和知识资源作为证据源,设计一系列的启发式规则方法,从候选位置集合中选择唯一的地理位置。

国外对地名消歧的研究主要分为基于地图的方法、基于外部资源的方法和数据驱动的方法3种类型,前两者都是基于启发式规则的方法,后者是基于语料库的方法。 1)基于地图的方法。源于数字图书馆中的地名歧义问题,Smith[6]提出了一种基于位置地理坐标的地名消歧方法,将上下文语境中的位置在地图上表达,计算质心并与歧义地名相关的实际位置比较,与质心最近的位置被选为正确的地名;基于信任的方法[7],综合地理距离和文本距离进行地名消歧,Zhao提出了一种考虑文本距离和地理距离的GeoRank算法[8]。2)基于外部资源的方法。利用地名库进行训练;基于维基百科生成共现模型(co-occurrence)应用于地名消歧[9];SPIRIT系统中基于多种资源(SABE、TGN 和OS)的地理编码方法[10];基于WordNet、GeoWordNet本体层次树结构特征解决地名歧义,典型的就是基于整体-部分关系的概念密度算法[11]和基于邻近关系的地理密度算法[12]。3)数据驱动或者是监督方法。基于标准的机器学习技术,例如贝叶斯分类[13]、支持向量机[14],监督学习方法的缺点是为了达到高精度需要大量的训练数据,并且没有考虑未登录地名。国内针对中文地名消歧问题的研究也取得了一些成果。张毅等[15]提出了一种基于证据理论的地名消歧方法,通过计算地名所指地理实体语义关联度,利用D-S证据理论合成排歧证据,最终实现地名消歧;唐旭日[16]提出了一种基于认知显著度的地理编码方法,认为地名与实体之间的关联程度取决于该实体在上下文中的地名认知显示度;朱少楠等[17]认为地名数据库中的绝大多数地名具有行政隶属关系,通过构建歧义地名关联的行政隶属关系树状图进行地名消歧;杜萍[18]在地名识别的基础上编写JAPE规则用于中国县级以上行政区划地名消歧。可见国内对地名消歧的研究都是依据启发式方法,在一定范围内取得了不错的消歧效果。

本文提出了一种基于地名知识的地名消歧方法,并通过实验进行了测试分析,结果表明该方法具有可行性,能够达到一定的消歧精度。

1 经典的地名消歧方法

1.1 基于地图的地名消歧方法

基于地图的方法起源于数字图书馆中的地名歧义问题[6],此方法中上下文的大小是固定的,质心仅通过非歧义的或者已经存在歧义地名质心计算。Buscaldi[19]利用了所有可能的参考,上下文的大小取决于包含在句子、上下文和文档中的地名数量。对于歧义地名t和上下文C中的地名,ci∈C,0≤i≤n,n表示上下文的大小。上下文是由出现在同一文档、段落或者句子中的地名组成。将歧义地名t的候选地理位置表示为t1,t2,…tk。

1.2 基于概念密度的地名消歧方法

WordNet的结构化数据特征能够将词义消歧算法引入到地名消歧领域,其中之一就是概念密度(Conceptual Density,CD)算法,该算法由Agirre提出[20],作为给定词义和它的上下文之间的相关性度量方法,基于WordNet的子层计算,通过上位关系(is-a)决定概念密度。Buscaldi[11]利用整体-部分关系(part-of/holonymy)代替上位关系,这种方法假设一个歧义地名决定WordNet整体层次的一部分,并且上下文中的地名通常跟相关的正确地理位置分开。

基于概念密度的地名消歧算法具体步骤为:选择歧义地名t,列出对应的k个候选地理位置|t|;选择t所在文本的上下文,由一系列地名组成;构建|t|的子层次结构,每一个对应一个地理位置;对于t的每一个候选地理位置s,计算概念密度CDs;选择最大的CDs对应的地理位置作为最终的结果。其中,CDs是与s相关的子层的概念密度,改进了原始的概念密度计算公式,如下式:

(1)

式中:m是子层次中相关的同义词集,a是常数0.1,n是子层次中的同义词集的总数,f是和子层相关的地理位置的频率权重(1,2,…)。所有相关的同义词集都是歧义词和上下文词的同义词集,即候选地理位置与上下文地名之和。

2 基于地名本体的地名知识表达与建库

2.1 地名知识模型与分析

现有地名库的空间表达能力有限并且缺乏对时空关系和模糊空间位置的支持,提出一种顾及人类常识空间认知、地名时态特征和空间关系特征的地名本体模型。在地名本体的基础上实现地名知识的统一表达,面向地名领域相关标准和地名专家经验知识,涉及陈述型与规则型地名知识,突出对语义和时空等地名特征的表达,提出一种地名知识统一表达模型(TKURM,ToponymKnowledgeUnifiedRepresentationModel)[21],如图1所示。

图1 地名知识统一表达模型(TKURM)

该模型包括地名本体、时空规则库和空间元知识文档。空间元知识是关于地名知识的知识,用来描述和说明地名知识的特征定义,文档存储为XML格式。地名本体主要是对地名概念、属性和关系的描述,主要包括地名要素模型、地名类型模型、时态模型、几何形态模型和空间关系模型。时空规则库主要包括地名规则知识,应用于规则推理,挖掘隐含的地名知识。文献[21]对该模型进行了详细阐述。需要特别指出的是,地名要素类型和空间关系是反映地名实体地理关联度的重要因子,其完备性直接影响实名识别和消歧的精度。依据国家标准《地名分类与类别代码编制规则》(GB/T 18521-2001)进行地名分类,结合地名词典和叙词表定义地名本体概念语义关系;对于地名本体中地名实体之间的空间关系,分别采用四交模型、圆锥模型表达拓扑关系和方向关系,采用定性与定量距离相结合的方式表达距离关系。地名知识模型不基于某种特定的存储,并且能够方便地映射到其他知识模型中,这是地名知识共享和重用的基础,有利于地理空间知识的共享[22]。

2.2 地名知识库构建

知识获取是知识库构建与知识管理必不可少的一部分,处于基础地位。地名知识的获取途径主要通过标准规范、背景语料库、数据资源和地名专家知识等。其中地名数据库是依据一定区域内各类基础地理要素注记的名称及其属性特征而建成的关系数据库,是地名知识的重要数据来源,基于逆向工程实现了1∶5万和1∶25万地名数据库语义知识获取。整个逆向过程分为3个步骤:1)逆向工程阶段。此阶段依据现有地名数据库的表、表主键、表外键、属性和约束等内容,逆向推理出内在的ER模式;2)ER模式向地名知识本体映射阶段。此阶段通过预处理、模式映射(表关系映射、表属性映射和约束映射等)和地名专家确认3个步骤实现了ER模式和地名本体之间的转换;3)地名数据记录向地名知识OWL的映射阶段。由步骤2可知完成了地名语义知识结构的转换,此阶段依据地名本体的语义知识结构重构地名数据库中的数据记录,在ER模式向地名本体映射的驱动下转换具体地名知识实例展现形式。包括地名数据映射、交互补充和地名专家确认3个步骤。

基于TKURM设计了中文地名知识库构建流程,如图2所示。其中地名信息变化发现模块是针对当前地名数据库时效性差而设计的,通过网络爬虫技术爬取提取地名信息,采用人机交互方式进行地名匹配,将地名信息存储于地名数据库并实现地名实时更新;专家知识、地名数据库和空间元知识库作为数据源辅助地名知识库构建。依据本流程构建了中文地名知识库,用于中文地名的识别和消歧,其中地名知识库的质量和完备性直接决定了地名消歧的精度。

3 地名知识辅助的中文地名消歧方法

3.1 中文地名消歧原理

Leidner[2]从语言和知识角度系统地总结了地名消歧中常见的16条启发式规则,这些规则之间有些是互斥的,怎样从中选取合适的规则融入一个统一的模型中进行地名消歧是需要首先解决的问题。首先做出以下两个限定:同一文本或段落中多次出现的地名均指向同一地理位置[23];同一文本中出现的地名所对应的地理实体之间存在一定的关联,例如等价关系、包含关系或相离关系[24]。

图2 基于TKURM的地名知识库构建流程

地名实体之间的关联强度对确定歧义地名的准确参照起重要作用[25],关联强度越大则关联度值越趋向于1,表明两个地名实体越相似,反之亦然。本文针对中文地名的特点和地名知识库结构,参照文献[25]提出的地名消歧方法,通过计算地名实体与上下文中地名实体之间的地理关联度进行中文地名消歧,具有最大地理关联度的就是该地名所指向的地名实体。地名t指向的地名实体g的计算公式为:

g=arggi∈StmaxSem(gi,Sc(t))

(2)

式中:gi表示第i个候选的地名实体,St表示地名指向的候选地名实体集合,c(t)表示地名t上下文地名集合,Sc(t)表示上下文地名匹配后的地名实体集合,Sem(gi,Sc(t))表示gi和Sc(t)的地理关联度,g表示从St中选择的具有最大地理关联度的地名实体。

计算地理关联度的核心是地名实体之间的地理关联强度,从语义关系、拓扑关系、距离关系和地名密度四方面进行加权计算。两个地名实体gi和gj之间的地理关联强度可以表示为:

Sem(gi,gj)=α*Semsac(gi,gj)+β*Semtopo(gi,gj)+

γ*Semdis(gi,gj)+φ*Semdes(gi,gj)

(3)

式中:Semsac(gi,gj)表示语义关系关联强度,Semtopo(gi,gj)表示拓扑关系关联强度,Semdis(gi,gj)表示距离关系关联强度,Semdes(gi,gj)表示地名密度关联强度。

(1)语义关系关联强度。语义关系主要是地名类型概念之间的关系,其关联强度主要通过地名类型本体树中概念节点之间的语义距离来衡量,同时受到概念深度因子的影响,具体计算公式如下:

Depth(gi)+Depth(gj)|Depth(gi)+Depth(gj)|+2×Depth(O)

(4)

式中:Semsac(gi,gj)表示地名实体gi和gj的语义关系关联强度;τ为语义距离调节因子;δ为关联强度调节因子; Distance(gi,gj)表示地名实体gi和gj的地名类型之间的语义距离,即地名类型本体树中连接两个概念最短距离的边数量;Depth(gi)和Depth(gj)表示地名实体gi和gj的地名类型在本体树中的层次深度,即地名类型本体树概念节点与根节点的最短路径包含的边的数量;Depth(O)表示整个本体树的层次深度。

(2)拓扑关系关联强度。主要考虑相等、包含/包含于、相交、邻接和相离等几种拓扑关系,参考领域专家意见并通过实验反复测试,可得地名实体gi和gj之间的拓扑关系关联强度取值分别为:

(5)

(3)距离关系关联强度。主要是指地名实体之间在地图上的定量距离量度,距离越近关联强度越大,反之亦然,关联强度如下所示:

Semdis(gi,gj)=eρ*dis(gi,gj)

(6)

(7)

式中:gi和gj的坐标为(Øgi,θgi),(Øgj,θgj),r表示地球的半径,Δθ表示θgj-θgi。

(4)地名密度关联强度。地名密度即候选地名实体在地名知识库中所处区域的密度,具体量化为知识库中两个地名实例节点的最近公共祖先所包含的上下文中地名实例直接子节点数量,数量越多密度越大。将地名实体gi和gj之间的地名密度关联强度取值分别为:

(8)

式中:Des(cgi,gj)表示地名实体gi和gj的地名密度,即最近公共祖先cgi,gj所包含的上下文中地名实例直接子节点数量;Des(TO)表示地名知识库中地名实例节点的子节点数的最大值。

3.2 中文地名消歧算法流程

4 实验测试与分析

地名消歧方法的评价性能指标与词义消歧、信息检索和自然语言处理领域的度量标准类似,主要包括准确率、召回率、覆盖率和F值。准确率P是正确消歧的地名数量占算法能够识别出的歧义地名总数的比率;召回率R是正确消歧的地名数量占文档集合中所有实际歧义地名总数的比率;覆盖率C是算法能识别出的歧义地名总数占文档集合中实际歧义地名总数的比率;F值是用来加权准确率和召回率得到的平均指数,计算公式表示为:

(9)

实验数据源主要是中文地名知识库和标注语料库,标注语料库是基于地名知识结构进行人工标注的识别与消歧语料库,该语料库能够给地名知识库中的地名分配一个正确的空间参考。目前该标注语料库中现有文档数量9 400个,其中中文地名总数84 000个,歧义地名数量14 700。

实验采用3种级别的上下文:句子上下文、段落上下文和文档上下文进行消歧测试,句子上下文就是在同一个句子中包含的所有地名数,段落上下文就是指在同一个段落中包含的所有地名用于消歧,文档上下文就是文档中包含的地名作为消歧上下文。为了便于横向比较,本文选取经典的基于地图的方法进行地名消歧测试比较,由于基于密度的方法原理是基于WordNet,而WordNet与本文的地名知识本体的结构是完全不同的,故无法采用基于密度的方法进行比较。基于文本方法和基于地图方法的地名消歧结果如表1所示。

表1 采用不同上下文的地名消歧结果比较

从结果中可以看出,本文的方法在上下文很小时也能达到很高的精度,基于地图的方法相比本文的方法,需要更多的上下文信息才能得到同样的消歧性能。本文的方法在不同上下文下准确率、召回率、覆盖率和F值都有很好的结果,限于本体结构的影响,覆盖率目前还不能达到100%。

5 结语

目前地名消歧在自然语言处理领域得到了快速发展,一些新的方法相继提出,并且与已经存在的方法比较,均取得了不错效果。但是针对中文地名消歧的研究,在GIS和NLP领域都处于探索和实验阶段。本文仅是通过地名知识这一视角,利用定性与定量相结合的方式,提出一种中文地名消歧方法。实验证明该方法具有一定的精度、覆盖率和稳定性,但依旧需要完善地名知识库,进一步提高地名识别精度,并采取多种策略解决歧义问题。中文地名消歧未来依旧具有广泛研究的空间,例如:对于geo/non-geo歧义的研究,基本没有成熟的研究;利用地名消歧自动标记网络文本中的歧义地名从而丰富网络中显式的空间知识,为决策提供精准定位服务;将地名消歧应用于地理信息检索、问答系统、基于位置的服务和空间信息挖掘等领域。

[1] HILL L L.Georeferencing:The Geographic Associations of Information[M].Mit Press,2009.

[2] LEIDNER J L.Toponym Resolution in Text:Annotation,Evaluation and Applications of Spatial Grounding of Place Names[M].Universal-Publishers,2008.

[3] AMITAY E,HAR′EL N,SIVAN R,et al.Web-a-where:Geotagging web content[A].Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval[C].2004.273-280.

[4] GARBIN E,MANI I.Disambiguating toponyms in news[A].Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing[C].2005.363-370.

[5] OLLIGSCHLAEGER A M,HAUPTMANN A G.Multimodal information systems and GIS:The informedia digital video library[A].Proceedings of the 1999 ESRI User Conference[C].1999.102-106.

[6] SMITH D A,CRANE G.Disambiguating Geographic Names in a Historical Digital Library[M].Springer Berlin Heidelberg,2001.127-136.

[7] RAUCH E,BUKATIN M,BAKER K.A confidence-based framework for disambiguating geographic terms[A].Proceedings of the HLT-NAACL 2003 Workshop on Analysis of Geographic References-Volume 1[C].2003.50-54.

[8] ZHAO J,JIN P,ZHANG Q,et al.Exploiting location information for web search[J].Computers in Human Behavior,2014,30:378-388.

[9] OVERELL S,RÜGER S.Using co-occurrence models for placename disambiguation[J].International Journal of Geographical Information Science,2008,22(3):265-287.

[10] CLOUGH P.Extracting metadata for spatially-aware information retrieval on the internet[A].Proceedings of the 2005 Workshop on Geographic Information Retrieval[C].2005.25-30.

[11] BUSCALDI D,ROSSO P.A conceptual density-based approach for the disambiguation of toponyms[J].International Journal of Geographical Information Science,2008,22(3):301-313.

[12] BENSALEM I,KHOLLADI M K.Toponym disambiguation by arborescent relationships[J].Journal of Computer Science,2010,6(6):653.

[13] SMITH D A,MANN G S.Bootstrapping toponym classifiers[A].Proceedings of the HLT-NAACL 2003 Workshop on Analysis of Geographic References-Volume 1[C].2003.45-49.

[14] MARTINS B,ANASTCIO I,CALADO P.A Machine Learning Approach for Resolving Place References in Text[M].Springer Berlin Heidelberg,2010.221-236.

[15] 张毅,王星光,陈敏,等.基于语义的文本地理范围提取方法[J].高技术通讯,2012,22(2):165-170.

[16] 唐旭日,陈小荷,张雪英.中文文本的地名解析方法研究[J].武汉大学学报(信息科学版),2010,35(8):930-935.

[17] 朱少楠,张雪英,李明,等.基于行政隶属关系树状图的地名消歧方法[J].地理与地理信息科学,2013,29(3):39-42.

[18] 杜萍,刘勇.中文地名识别与歧义消除——以中国县级以上行政区划地名为例[J].遥感技术与应用,2011,26(6):868-873.

[19] BUSCALDI D,ROSSO P.Map-based vs knowledge-based toponym disambiguation[A].Proceedings of the 2nd International Workshop on Geographic Information Retrieval[C].2008.19-22.

[20] AGIRRE E,RIGAU G.Word sense disambiguation using conceptual density[A].Proceedings of the 16th Conference on Computational Linguistics-Volume 1[C].1996.16-22.

[21] 马雷雷,李宏伟,梁汝鹏,等.基于地名本体的地名知识表达方法[J].测绘科学技术学报,2015,32(3):305-309.

[22] 龚健雅,耿晶,吴华意.地理空间知识服务概论[J].武汉大学学报(信息科学版),2014,39(8):883-890.

[23] GALE W A,CHURCH K W,YAROWSKY D.One sense per discourse[A].Proceedings of the Workshop on Speech and Natural Language[C].1992.233-237.

[24] MARTINS B,MANGUINHAS H,BORBINHA J,et al.A geo-temporal information extraction service for processing descriptive metadata in digital libraries[J].e-Perimetron,2009,4(1):25-37.

[25] WANG X,ZHANG Y,CHEN M,et al.An evidence-based approach for toponym disambiguation[C].Geoinformatics,2010 18th International Conference on IEEE[C].2010.1-7.

A Method to Toponym Disambiguation Aided by Toponym Knowledge

MA Lei-lei1,2,LI Hong-wei1,LIAN Shi-wei1,LIANG Ru-peng1,GONG Jing2

(1.InstituteofSurveyingandMapping,InformationEngineeringUniversity,Zhengzhou450052;2.SichuanEngineeringResearchCenterforEmergencyMapping&DisasterReduction,Chengdu610041,China)

In geographic space,a location can be expressed by either geographic coordinates or natural language texts,corresponding to formalized or non-formalized expressions respectively.A typonym in texts,however,can refer to different locations in geographic space,leading to toponym ambiguity.The toponym disambiguation is therefore to eliminate cognition divergence of concept reference and assign unique geographic coordinate for such ambiguous location.From the perspective of toponym knowledge,this paper proposes a unified expression method based on toponym ontology,and investigates the data source of toponym knowledge,and proposes the framework of constructing a toponym knowledge database.Next,this paper describes the theory of toponym disambiguation,and the corresponding algorithm flow by means of semantic relation,typology relation,distance relation and toponym density to calculate the geographic correlations for toponym disambiguation.Semantic relation mainly refers to the type of relationship between the concepts of toponyms.Typology relation mainly contain equal,contain,intersection,adjacent and disjoint etc.Distance relation refers to quantitative distance between the toponym entities on the map.Toponym density represents the density of toponym entities in regions in toponym knowledge base.The proposed method is evaluated by experiments,where the experimental results show that the proposed method produces a high accuracy in terms of precision,recall rate,coverage rate and F value.

toponym;knowledge;toponym ontology;toponym disambiguation;correlation

2015-12-18;

2016-03-24

国家自然科学基金项目(40871183、41140012、41271392、41401463、41571394);四川省应急测绘与防灾减灾工程技术研究中心开放基金项目(K2014B016、K2015B014)

马雷雷(1987-),男,博士研究生,主要研究方向为地理本体与地理信息智能处理。E-mail:gisxiaomage@163.com

10.3969/j.issn.1672-0504.2016.04.002

P208

A

1672-0504(2016)04-0005-06

猜你喜欢
歧义知识库本体
眼睛是“本体”
eUCP条款歧义剖析
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
English Jokes: Homonyms
基于本体的机械产品工艺知识表示
高速公路信息系统维护知识库的建立和应用
基于关联理论的歧义消除研究
基于Drupal发布学者知识库关联数据的研究
“v+n+n”结构的哈萨克语短语歧义分析与消解
专题