左昌麒 梅洋 房俊 梁英
摘要:针对专家推荐场景下中文机构名称存在语义异构的问题,提出搜索引擎与规则相结合的中文实体名称消歧方法,首先利用搜索引擎的映射能力解决异构问题,然后通过编辑距离纠正实体机构名称,最后使用后缀、缩写等规则对实体进行消歧。该方法在12108份包含同名机构实体的真实数据集上测试具有良好的性能表现,机构数量降低12%,实验结果表明所提方法有效。
关键词:实体消歧;搜索引擎;基于规则;专家推荐
中图分类号:TP391.1 文献标识码:A
文章编号:1009-3044(2021)01-0247-03
Abstract: Aiming at the problem of semantic heterogeneity of Chinese institution names in expert recommendation scenarios, a Chinese entity name disambiguation method based on search engines and rules is proposed. First, the mapping capabilities of search engines are used to solve the heterogeneous problem, and then the entity institution name is corrected by editing distance. And finally use suffix, abbreviation and other rules to disambiguate entities. The method has a good performance when tested on 12108 real data sets containing institutional entities with same names, and the number of institutions is reduced by 12%. The experimental results show that the proposed method is effective.
Keyword: Entity Disambiguation;Search Engine;Rule Based;Expert recommendations
1 引言
当前,科技项目评审一般依赖于专家推荐系统从专家库中抽取专家。实体消歧[1]技术在上述专家推荐场景下能够解决语义异构问题。目前国内的中文人名存在大量的重名现象,导致难以定位某些用户;对于机构来说,机构名称存在随着时间变迁的情况,在使用时同样存在简称和简写的情况。这些情况造成了数据可用性大大降低,故需要通过实体消歧辨别不同个体,为上层算法提供数据支持。
中文机构名称在评审过程中一直扮演着重要地位,一般要求评审专家和项目申请人不能处于同一单位。目前针对机构名称的研究主要集中在从大规模文本中识别机构。通过专家库和申请系统的限制,已经使机构名称相对规范,但同一机构不同称呼的情况仍然大量出现。图1展示了机构“中国科学院计算技术研究所”被记录为“中科院计算所”,二者实际上是对同一机构的称呼,但因为惯用简称造成机构名称没有正确统一化。这在专家推荐的过程中有可能造成专家回避时判断错误,从而存在专家参与同一机构的申请人项目的评审的风险。
针对中文实体消歧方法,有众多学者开展了多样的研究。杨欣欣等[2]提出了一种基于查询扩展的实体消歧方法,借助互联网引擎构建查询规则并选取前k条结果用于丰富实体特征,从而提高了消歧效果。针对不同实体与其他信息关联的差异性,谭咏梅等[3]提出了一种结合实体链接和实体聚类的消歧方法,弥补了传统单一使用实体聚类或实体链接方法存在的缺陷。随着向量化和图技术的不断发展,有学者在这方面进行了研究。马晓军等[4]针对Skip-Gram不能处理多词同义的问题,采用词向量的方法在背景知识库中获取不同词向量进行鉴别。汪沛等[5]提出一种结合词向量和图模型的消歧方法,针对旅游领域构建知识库,结合知识图谱和向量化,提升了消歧的效果。上述方法由于领域特点,不能够直接应用于评审专家推荐系统,当前也出现了一些基于机器学习方法进行实体消歧的研究,但评审专家推荐系统缺乏标注数据,相关技术难以开展实际应用。
针对上述中文实体名称消歧问题,本文采用了搜索引擎与规则相结合的方法,首先通过百度搜索引擎进行消歧,再使用基于编辑距离的机构名称纠正,最后基于后缀、缩写等规则进行名称统一,最终得到消歧后的机构名称。
2 实体名称消岐方法
实体消歧是数据融合过程中的重要环节,是整个专家推荐过程中的重要步骤。本节主要讨论中文机构名称消歧方法,并基于此方法辅助同名专家的判断,为后续专家画像构建和专家推荐奠定了基础。
2.1 算法流程
为了解决上述问题,本文提出了一种基于搜索引擎与规则的实体名称消歧方法,其流程图如图2所示。原始机构名称经过搜索引擎消歧后,部分机构名称不存在于搜索引擎中,需要使用基于编辑距离的机构名称纠正。此时的结果需要进一步根据后缀、缩写等规则进行名称统一,得到消歧后的机构名稱。
具体消岐方法为:对于每个机构,经过搜索引擎和编辑距离处理后,再由规则统一规范化,得到消歧后的机构名称,综合所有待消歧机构名称进行处理,得到消歧后机构名称集合。
2.2 消岐方法
搜索引擎里对于部分机构别名做了映射处理,在查询别名时能够自动跳转至规范名称百科页面,实现机构名称的统一化。本文选取百度百科1的查询接口,通过将原始机构名称作为参数,使用Python模拟浏览器访问接口,得到纠正后的机构名称。在此场景下,机构名称主要分为3类:
正规机构名称:该类名称已收录于百度百科中;
别名机构名称:该机构名称为收录于百度百科中其他机构的别名或者简写,例如“中国科学院计算所”属于“中国科学院计算技术研究所”的别名;
未登录机构名称:该机构名称未收录于百度百科中。
对于未登录机构名称,搜索引擎不能将该类型消歧。本文采取基于编辑距离的机构名称修正方法。编辑距离(Edit Distance),又称Levenshtein距离,是指两个字符串之间,由一个转化成另一个所需的最少编辑操作次数。编辑操作支持插入、删除、修改三种操作。编辑距离常用语拼写错误纠正场景下,针对已输入错误文本智能识别并提示纠正后的文本。本文选取编辑距离为1或2的机构名称进行修正,如表1所示。
通过搜索引擎和编辑距离的纠正后的机构后,其数据可用性仍然有待提高,需要通过规则的方式进一步统一中文机构名称。本文主要考虑后缀和数字类型机构名称的统一,对多个代表统一机构的名称进行消歧,给出示例如表2所示。
机构名称经过规则规范化之后,机构名称不规范情况得到解决,为后续专家回避任务提供了可靠的数据支持,同时也为专家画像等其他潜在任务提供了可用性更高的数据。
消歧后的机构名称能够用于专家判别。由于中文人名的特点,存在大量重名的现象。专家或学者具备所属机构信息,通过对机构名称的消歧,能够将原本属于同一机构的专家或学者判别出来。对于两位专家学者处于同一机构并且同名的情况,本文采取研究兴趣相似度判别法,即如果专家学者的兴趣差距较大,即认为是不同的专家学者实体。
3 实验及效果分析
本文针对2016到2018年的评审数据中的中文机构名称,以及专家库中的中文机构名称开展实验。使用基于搜索引擎和规则的机构名称消歧方法,基于搜索引擎消歧后,减少机构1391个;基于编辑距离和规则消歧后,减少机构74个。不同阶段独立机构数量对比如图3所示。
从图3中可以看出,本文所采用的中文机构名称消歧方法有效改善了中文机构同机构不同称呼的情况,为后续算法和策略奠定了基础。
机构名称是判断学者所属机构的重要手段,也是一定程度上解决学者重名的重要方法。由于项目申请数据中包含申请人姓名和所在机构,在对机构名称消歧前后,使用学者姓名和机构名称验证,统计结果如图4所示。
从图表中可以看出,使用学者姓名和所在机构识别专家后,独立姓名+机构数量明显增多,说明通过机构名称能助判断学者重名情况,对学者识别有一定的积极作用。
4结束语
针对专家推荐场景下的机构名称消歧问题,提出了一种基于搜索引擎与规则的中文实体名称消歧方法,詳细介绍了方法的实施过程,通过实验验证了方法的有效性。未来可考虑利用机器学习算法自动识别映射规则,规避方法中的规则依赖人工设置的方式。
致谢:本文得到北京高等学校高水平人才交叉培养“实培计划”2019年度项目“学术大数据分析挖掘技术”的资助,特此感谢。
注释:
1. https://baike.baidu.com/item/
参考文献:
[1] Borah P P, Talukdar G, Baruah A. Approaches for word sense disambiguation–A survey[J]. International Journal of Recent Technology and Engineering, 2014, 3(1): 35-38.
[2] 杨欣欣, 李培峰, 朱巧明. 基于查询扩展的人名消歧[J].计算机应用, 2012, 32(9): 2488-2490.
[3] 谭咏梅,杨雪.结合实体链接与实体聚类的命名实体消歧[J].北京邮电大学学报,2014(5):36-40.
[4] 马晓军,郭剑毅,王红斌,等.融合词向量和主题模型的领域实体消歧[J].模式识别与人工智能,2017,30(12):1130-1137.
[5] 汪沛,线岩团,郭剑毅,等.一种结合词向量和图模型的特定领域实体消歧方法[J].智能系统学报,2016,11(3):366-375.
【通联编辑:梁书】