李怡霈,王宇翔
(杭州电子科技大学 计算机学院,浙江 杭州 310018)
知识图谱是一种以图的形式描述客观事实的数据存储管理技术,常作为智能问答、推荐系统等上层应用的底层数据支撑,受到广泛的关注。利用知识图谱来高效地获取大数据中有价值的知识信息已成为研究热点[1]。目前,知识图谱中的查询大多针对事实类查询开展,根据特定的业务场景,可衍生出一类基于地理位置信息的查询。
针对事实类查询的研究工作相对成熟,研究人员已在该领域取得了丰富的研究成果。文献[2]提出了分布式SPARQL(SPARQL Protocol and RDF Query Language)查询方法,使其能适用于大规模RDF(Resource Description Framework)数据的查询。但这类查询需具备专业知识,因此不适用于普通用户。文献[3]提出了一种关键字与查询图之间的转换算法,但该算法只支持单跳关系的转换。为方便用户,文献[4]通过将自然语言问题转换为相应查询图的方式,实现了基于知识图谱的自然语言问答系统。文献[5]为了降低查询模板的构建成本,提出了一种查询模板自动生成算法。文献[6]提出了端到端的知识图谱查询方法,将查询问题等价于利用知识图谱嵌入模型实现头、尾实体预测的问题。与此同时,文献[7]基于h-邻域向量化的思想提出一种快速图搜索算法,对每个顶点h-跳邻域的拓扑特征进行编码,然后将查询顶点和其匹配顶点的邻域向量进行比较以获取子图模式之间的相似性。文献[8]提出了一个基于路径长度的相似度模型,首次提出基于锚节点的免索引近似图查询算法。文献[9]提出了基于图模拟的图模式匹配算法,以此提高子图近似匹配的适用性。文献[10]提出了集合相似度子图匹配算法,该方法建立了频繁查询模式的节点索引,并通过两步剪枝策略减少了搜索空间。文献[11]提出一种范例查询算法,能根据用户提供的查询描述来构建用户样例以匹配查询目标。文献[12]提出在最小图编辑距离约束下查找相似子图的方法。文献[13]提出了一个语义相似度搜索模型。该模型基于先验知识与字符串编辑距离实现,但只适用于弱语义近似的图查询。文献[14]采用重写查询文本的方法解决了词汇不匹配问题,提高了查询效率。
上述工作多关注于知识图谱中实体间的谓词语义关系,无法支持基于地理位置信息的知识图谱查询,例如“在日月山水小区周边的家政公司工作的钟点工”,该查询问题中不仅包含实体间关系约束“工作”,同时也包含地理位置信息约束“周边的”。于是,研究人员开始尝试构建基于地理位置信息的知识图谱,例如文献[15]构建了LinkedGeoData数据集,从OpenStreetMap中获取地理数据,通过分析数据源构建三元组数据模型,将地理数据转换为RDF格式,并在数据层面与DBpedia等数据源建立链接,以形成最终的结构化地理数据源[16]。文献[17]人构建了一个众包地理知识图谱CrowdGeoKG,从OpenStreetMap中获取不同类型的地理实体,并通过与维基百科中的地理实体做实体链接工作,丰富了地理实体的属性内容。
上述知识图谱主要针对具有地理位置信息的地理实体构建,缺失了大量与地理实体关联的普通百科实体及相应的关联关系,无法支持本文讨论的基于地理位置信息的知识图谱查询问题。因此,本文基于向百科知识图谱中融合地理位置信息构建而成的混合知识图谱,通过抽取三元组,并构建查询图以理解自然语言查询问题。此外,本文结合实验室已有的事实类语义查询方法,将基于地理位置信息的查询问题分为6类,并分别研究了相应的知识图谱查询方法。
为本文研究提供数据支持的混合知识图谱Gf的具体实例如图1所示。本文共定义了5种地理实体的距离关系、8种地理实体的方位关系以及55种地理实体的类型,并融合了百科知识图谱中的237种数据属性。图谱中的位置关系如表1所示。
表1 混合知识图谱中的位置关系详情
将本文涉及的基于地理位置信息的查询分为实体查询和属性查询,并根据地理位置信息约束的不同形式进一步划分为6类查询问题,具体分类情况如表2所示。本文将基于Bert-NER(Bidirectional Encoder Representation from Transformers-Named Entity Recognition)的信息抽取系统中的实现逻辑引入LTP(Language Technology Platform)平台,完成了对查询问题中多个三元组的抽取。具体抽取结果示例如表3所示。
表2 基于地理位置信息的查询问题的详细分类
表3 三元组抽取结果示例
在完成对查询问题中的三元组的抽取之后,分别为几类问题构建了相应的查询图。
定义1查询图。定义查询图GQ=(VQ,EQ,PQ),其中VQ是查询结点的集合,EQ为边的集合,PQ存储节点的属性。对于一个查询问题VQ={vs,vg},其中vs为某一特定结点,vg为查询的目标结点。vs的结点名称和结点类型及vg的结点类型。已知EQ中包含边e=
(a)
基于地理位置信息的实体查询的最终查询目标为知识图谱中的一组实体。其主要查询过程描述如下:首先,根据表1中的中文位置关系,将从查询问题中抽取出的两个三元组里的谓词划分为位置关系谓词和百科关系谓词,并相应地将查询问题分解为包含位置关系谓词的位置查询qw和包含百科关系谓词的事实类查询qb。其中,本文讨论的基于地理位置信息的实体查询问题的两个子查询问题间可能含有隐含信息,因此考虑隐含信息,分别完成qb和qw的查询。可根据已有研究[18]中提出的方法实现对qb的语义化查询;然后,整合两个子查询,得到最终基于地理位置信息的实体查询结果。根据查询问题中不同的地理位置约束形式,可以继续划分为下文所述的5类实体查询。
基于方位关系的实体查询问题,例如“在嘉里中心北边的医院上班的牙科医生”,最终的查询目标为类型是“医生”的一组未知实体。可从上述查询问题中抽取得到以下三元组:(嘉里中心,北边的,医院)和(医院,牙科医生,?),并将其转换为基于方位关系的位置子查询qwf“嘉里中心北边的医院”和事实类子查询qb“在医院上班的牙科医生”。其中,子查询问题qb依据文献[18]中的语义化图查询方法获取查询目标。而子查询问题qwf的主要查询流程为:
步骤1获取表1中的中文方位位置关系,通过TransE翻译模型[19]得到中文方位位置关系对应的词向量,并创建一个列表listR用于存放上述关系向量X=(x1,x2,x3,…,xn);
步骤2当得到从查询问题中抽取出的三元组后,通过TransE翻译模型获取谓词对应的词向量Y=(y1,y2,y3,…,yn);
步骤3将词向量Y依次与listR中存放的关系向量X进行语义相似度计算,并创建一个大顶堆CS用于存放相似度大于阈值τ且排名位于top-k的关系。当遍历到语义相似度为1的关系时,停止遍历,返回当前关系。其中,语义相似度通过向量间的余弦相似度计算,具体如式(1)所示;
(1)
步骤4在得到与查询问题中谓词向量语义相似度排名位于top-k的位置关系后,根据相应的查询图GQ1和GQ2分别定位到混合知识图谱Gf中的对应关系;
步骤5创建并初始化一个集合Sw用于存放最后返回的查询结果;
步骤6在Gf中找到起始实体vn,根据得到的查询图GQ1中的方位位置关系,通过广度优先算法在Gf中向外遍历vn的邻居实体vm,并判断当前邻居vm的类型是否与GQ1中的目标类型相同。若相同,则将vm加入Sw,并记录下Sw当前的实体个数m;若不同,继续遍历下一个邻居;
步骤7根据查询图GQ2中的方位位置关系,重复步骤6,直到m大于默认返回结果数n,则结束查询,返回Sw中的查询结果。
得到基于方位关系的位置子查询问题qwf的查询结果集Sw后,将查询结果代入事实类子查询问题qb进行语义化图查询。然后,新建一个集合R用于存放qb的查询结果,也就是基于方位关系的实体查询的最终结果。最后,返回结果集R中的值,完成查询。
基于距离关系的实体查询问题,例如“在春波南苑附近的装修公司工作的水电师傅”,最终的查询目标为类型是“水电师傅”的一组未知实体,其可被分解为基于距离关系的位置子查询qwj和事实类子查询qb。子查询问题qb依据事实类查询问题的语义化图查询方法获取查询目标。子查询问题qwj的具体实现步骤阐述如下:
步骤1获取表1中的中文距离位置关系,通过TransE翻译模型得到中文距离位置关系对应的低维词向量,并创建一个列表listR用于存放上述关系向量X=(x1,x2,x3,…,xn);
步骤2~步骤3与基于方位关系的位置子查询一致,不再赘述;
步骤4在得到与查询问题中谓词向量语义相似度排名位于top-k的位置关系后,根据相应的查询图GQ定位到混合知识图谱Gf中的对应关系;
步骤5创建并初始化一个集合Sw用于存放最后返回的查询结果;
步骤6在Gf中找到起始实体vn,根据得到的查询图GQ中的距离位置关系,通过广度优先算法在Gf中向外遍历vn的邻居实体vm,并判断当前邻居vm的类型是否与GQ中的目标类型相同。若相同,则将vm加入Sw,并记录下Sw当前的实体个数m;若不同,继续遍历下一个邻居,直到m大于默认返回结果数n,结束查询,返回Sw中的查询结果。
得到子查询问题qwj的查询结果集Sw后,将查询结果代入qb进行语义化图查询。然后,新建一个集合R用于存放qb的查询结果,同时也是基于距离关系的实体查询的最终结果。最后,返回结果集R中的值,完成查询。
直接范围约束下的实体查询,例如“住在海创基地1 000 m范围内的沈思齐的校友”,最终的查询目标为类型是“人”的一组未知实体,可转换为直接范围约束下的位置子查询qwd和事实类子查询qb。子查询问题qb依据事实类查询问题的语义化图查询方法获取查询目标。子查询问题qwd可根据K近邻搜索思想,以圆形范围作为搜索空间。因此,可以将查询问题约束信息中的距离范围建模为圆形搜索范围的半径r。混合知识图谱Gf中定义的距离关系边隐含距离范围信息,故可获取距离关系的上界对查询算法做剪枝操作。具体获取规则如式(2)所示。
(2)
按照以下逻辑执行直接范围约束下的位置查询:
步骤1首先构建并初始化一个候选集S、一个小顶堆Sw和一个访问列表C,分别用于存放候选的邻居实体、查询结果和访问过的邻居实体;
步骤2在混合知识图谱Gf中找到起始实体vn。选取候选集中与vn之间的距离d取值最小的邻居实体s。若最小距离大于r,则查询结束,在约束范围r内没有符合查询条件的目标实体;否则初始化一个集合M,用于存放vn的相邻边指向的邻居实体s;
步骤3根据式(2)获取当前相邻边e的上界,并与r做比较。若上界不超过r,则将当前相邻边e指向的邻居实体s并加入M;
步骤4依次判断M中邻居实体en的类型是否符合查询目标实体给定的类型。若符合,则将当前邻居实体en从M中移除,加入结果集Sw,并记录当前M中的实体数|M|和Sw中的实体数|Sw|,直到M为空结束遍历;
步骤5若当前|Sw|尚未满足目标个数n,则不断向外遍历步骤3~步骤4,直到|Sw|大于给定的返回目标个数n或达到迭代终止条件sp,结束查询,将结果集Sw中的实体作为查询结果返回。
得到直接范围约束下的位置子查询问题qwd的查询结果集Sw后,创建一个集合Sb,用于存放事实类子查询qb的查询结果。然后根据查询问题中实体间的隐含信息“住址”筛选出满足隐含约束条件的查询结果存入新建的集合Sbn中。接着,对集合Sw和集合Sbn执行取交集的操作,得到直接范围下的实体查询的最终结果,并存入新建的集合R中。最后返回结果集R中的值,完成查询。
如图3(a)所示为查询过程中存在一种特殊情况。目标实体v4到起始实体vn的实际距离大于4 000 m,不在距离关系的定义范围内,故v4与vn之间不存在距离关系边。起始实体vn迭代2次后的邻居实体v3落在约束范围r以外,按照算法将不再由实体v3继续往下查找。但v3的某一个邻居实体v4却恰好是符合查询要求的目标实体。
为了解决上述问题,本文提出了优化方案:本文为范围约束r添加了给定容差ε,将范围约束扩展至(1+ε)r,具体如图3(b)所示。通过将上述执行步骤中的范围约束r替换为(1+ε)r来实现上述优化方案。
(a)
间接范围约束下的实体查询问题可被看作为直接范围约束下的实体查询问题的扩展。对查询问题中的间接范围约束进行处理,将其转换为直接范围约束下的实体查询。
例如“步行15分钟内能从学校到杭州大剧院的邵楠的熟人”是间接范围约束下的查询问题,其最终的查询目标为类型是“人”的一组未知实体。其可被分解为间接范围约束下的位置子查询qwi和事实类子查询qb。子查询问题qb依据事实类查询问题的语义化图查询方法获取查询目标。间接范围约束下的位置子查询问题qwi可通过向直接范围约束下的位置子查询qwd转换以实现查询。具体地,子查询问题qwi中的地理位置约束“步行15分钟内”虽然不是直接的范围约束条件,但可以通过简单的速度换算来转换间接的范围约束条件。本文主要讨论步行、骑行和乘车3种出行方式与范围约束条件间的对应关系,分别将其平均速度取值为5 km·h-1、20 km·h-1和70 km·h-1。具体转换规则如下
(3)
(4)
(5)
式中,t表示出行时间;Lw、Lr和Ld分别表示步行的距离范围、骑行的距离范围和乘车的距离范围,以m为单位。根据上述位置子查询问题qwi“步行15分钟内能到杭州大剧院的学校”其中的范围约束条件“步行15分钟内”,选择式(3)进行换算,将其转换成“杭州大剧院1 250 m范围内的学校”。完成转换后,间接范围约束下的实体查询策略与直接范围约束下的实体查询策略相同,此处不再赘述。
实体查询还涉及最值范围约束形式,例如查询问题“公司距离太子湾公园最近的吕乐寅的同学”,最终查询目标为类型是“人”的一组未知实体。其中,“最近的”为查询问题中的最值范围约束。可将该问题分解为两个子查询问题:最值范围约束下的位置子查询qwe和事实类子查询qb。子查询问题qb依据事实类查询问题的语义化图查询方法获取查询目标。最值范围约束下的位置子查询问题qwe的查询方案如下文所述。
由地理知识模型为地理实体添加的距离关系的定义可知,5种不同的距离关系隐含着相应的距离范围信息,距离关系nextTo、nearBy、notFarFrom、notAround和littleFarFrom对应的距离范围依次递增。根据这些关系的隐含信息,可以将子查询qwe转换为基于距离关系的位置子查询qwj的最值匹配问题。详细的实现策略如下:
步骤1构建并初始化候选集S和小顶堆Sw,分别用于存放候选邻居实体和查询结果;
步骤2在混合知识图谱Gf中找到起始实体vn,通过广度优先算法在Gf中向外遍历vn的相邻边e,判断当前相邻边e是否为nextTo关系。若是,获取通过当前e连接的邻居实体vm,并将其加入到候选集S中;
步骤3判断当前vm类型是否为目标类型。若是,将vm加入Sw,并计算vm与vn间的实际距离d。循环遍历S中的邻居实体,直到遍历结束,返回堆顶实体vd作为查询结果;
步骤4若相邻边未匹配到nextTo关系或遍历结束尚未查询到结果,则按上述步骤2~步骤3依次遍历nearBy、notFarFrom、notAround和littleFarFrom关系。直到查询到至少一个符合条件的目标实体或遍历完所有距离位置关系,查询结束。
上述查询方法存在缺陷,当符合查询条件的目标实体vd与起始实体vn间的实际距离d超过距离关系定义的最大上界4 000 m时,该方法不再适用,但仍可按照直接范围约束下的位置子查询逻辑解决。将直接范围约束下的实体查询方法中的约束范围r赋值为5 000 m,若查询到目标实体,则将堆顶实体作为查询结果返回;若仍未查询到目标实体,则将约束范围r等差增加赋值为6 000 m,重复上述操作,直至查询到至少一个符合条件的目标实体或递增到设定的最大约束范围时,终止查询。
得到子查询结果集Sw后,创建集合Sb用于存放事实类子查询qb的查询结果。然后根据查询问题中实体间的隐含信息“工作单位”筛选出满足隐含约束条件的查询结果存入新建的集合Sbn中。接着,对集合Sw和集合Sbn执行取交集的操作,得到直接范围下的实体查询的最终结果,并存入新建的集合R中。最后返回结果集R中的值,完成查询。
基于地理位置信息的查询中还包括一类基于地理位置信息的属性查询,同样也由包含位置关系谓词的位置查询和包含百科关系谓词的事实类查询构成,其最终的查询目标为事实类子查询问题中所查找的实体的属性值,例如“嘉柯宠物诊所隔壁的打印店的营业时间”的最终的查询目标为属性“营业时间”的值。结合前文所述的位置子查询问题的实现逻辑与事实类子查询问题的语义化图查询算法,完成基于地理位置信息的属性查询。具体查询按照以下步骤实现:
步骤1判断抽取出的三元组谓词是否为范围约束,若是,将其划分为位置关系并标记为范围约束;若不是,将抽取的三元组中的谓词与表1中的位置关系做对比,判断谓词属于百科关系或位置关系,并据此将基于地理位置信息的属性查询问题分解为事实类子查询问题qb和位置子查询问题qw;
步骤2创建一个集合Sw用来存放qw的查询结果。根据谓词形式相应调用直接范围约束下的位置子查询方法、间接范围约束下的位置子查询方法或最值范围约束下的位置子查询方法完成qw中带范围约束标签的位置子查询,调用基于方位关系的实体查询方法或基于距离关系的实体查询完成qw中的其余查询,并将查询结果存入Sw;
步骤3将位置子查询问题qw的查询结果代入qb中,同时创建一个集合R用来存放qb的查询结果。调用事实类查询的语义化图查询方法完成对qb中属性值的查询,并将查询结果存入R。返回最后R中的值,作为基于地理位置信息的属性查询的结果。
前文给出的属性查询问题“嘉柯宠物诊所隔壁的打印店的营业时间”中的“隔壁的”为位置关系谓词,“营业时间”是实体的百科属性关系,可据此将上述基于地理位置信息的属性查询问题分解为位置子查询qw和事实类子查询qb。对于上述属性查询问题,抽取出的第1个三元组中的“打印店”是子查询问题qw中查询目标的类型;抽取出的第2个三元组中缺失的属性值为qb和最终基于地理位置信息的属性查询问题共同的查询目标。
本文进行了大量实验来验证基于地理位置信息的知识图谱查询方法的查询效果。
4.1.1 数据集
本文实验使用自建的查询测试集,构建过程如下:首先,根据查询问题模板,通过填充混合知识图谱中的实体名称以及定义好的地理实体类型、目标实体类型,半自动化地构建每种查询问题。例如模板“在<实体>附近的<地理实体类型>工作的<目标实体类型>”,通过填充可构建得到其中一个查询问题为“在西湖音乐喷泉附近的商场工作的售货员”。然后,将混合知识图谱文件转换为csv格式,根据构建的查询问题相应的筛选出全部正确答案添加进测试集中。最后,为6种查询问题分别构建了350个查询问题,得到共含2 100个查询问题的测试集T。为了对每种查询问题的查询效果做横向对比,本文继续为6种查询问题相应的扩展了不同结构的查询形式,并获得了共包含4 200个查询问题的基准测试集Textend。扩展的查询形式为:Q1扩展的查询形式为“有哪些牙科医生在嘉里中心北边的医院上班”;Q2扩展的查询形式为“有哪些水电师傅在春波南苑附近的装修公司工作”;Q3扩展的查询形式为“沈思齐的哪些校友的住址离海创基地不超过1 000 m”;Q4扩展的查询形式为“邵楠的熟人里有谁从学校骑行10分钟能到杭州大剧院”;Q5扩展的查询形式为“吕乐的哪些同学在离太子湾公园最近的公司上班”;Q6扩展的查询形式为“嘉柯宠物诊所隔壁的打印店什么时间营业”。
4.1.2 查询配置
设定返回结果个数n=10;设定基于方位关系的实体查询和基于距离关系的实体查询中的相似度阈值τ=0.95。
实验分析了给定容差ε和迭代次数sp对范围约束下实体查询效果的影响。由图4和图5可知,当其他条件相同时,将给定容差ε设置为0.1或迭代次数设置为20时,可在查询响应时间和查询效果间实现较好的平衡。因此,本文下述实验中设定ε=0.1,sp=20。
图4 给定容差ε对查询效果的影响
图5 迭代次数sp对查询效果的影响
4.1.3 评价标准
本文采用精确率P(Precision)、召回率R(Recall)和F1值3个评价标准来衡量查询的效果。设正确的查询结果数记为t,返回的查询结果总数为w,测试集中正确答案的总数为k,则准确率P、召回率R和F1的计算方法如式(6)所示。
(6)
实验1本文据P、R和F1指标,对6种不同的基于地理位置信息的知识图谱查询问题的查询效果进行了比较。实验结果为每种问题下所有问题查询效果的平均值,具体如图6所示。
图6 各种查询问题的平均查询效果
由图6可以看出,Q3(直接范围约束下的实体查询)和Q4(间接范围约束下的实体查询)的表现基本相当,其精确率和召回率相对较优。Q1(基于方位关系的实体查询)和Q2(基于距离关系的实体查询)表现基本相当,其中Q1在召回率上的表现稍逊色于Q2,这是因为在构建混合知识图谱时,并没有在两两实体间都添加方位关系,使得部分符合查询要求的目标实体无法通过实体间的关联边被查找。Q5(最值范围约束下的位置查询)和Q6(基于地理位置信息的属性查询)在精确率上的表现明显优于在召回率上的表现,这是因为Q5的目标实体只有一个,且由于查询方法中对于查询范围有限制,使得查找的目标实体个数只存在0和1两种可能;又由于查找到唯一一个实体时,不是正例就是负例,所以Q5的精准率较高,召回率较低。同样的,由于Q6的查询目标为属性值,返回的查询结果也大多具有唯一性,故其也表现出较高的精确率和较低的召回率。
实验2对每种问题不同查询形式下的查询效果进行对比实验,结果如图7所示。
由图7(a)和图7(b)可知,Q1和Q2在不同查询形式下的查询效果相差不大。这是因为在查询问题语义理解的过程中,从不同查询形式下的问题中抽取出的三元组是几乎一致的。由图7(c)和图7(d)可知,在扩展的查询形式下,Q3和Q4的精确率和召回率同时出现小幅度下滑,但整体稳定。这是因为在扩展的查询形式下,有一部分查询问题无法根据定义的规则抽取出完全正确的三元组,导致整体查询的平均效果受到了轻微影响。如图7(e)和图7(f)所示,Q5和Q6在不同查询形式下的查询效果差异较明显。其精确率明显下降是由于在查询问题语义理解的过程中,不同查询形式下三元组的抽取结果产生不同程度的误差。由于Q5的查询目标为最值,因此返回的查询结果具有唯一性。Q6的查询目标为属性值,因此返回的查询结果也大多具有唯一性,所以对于Q5和Q6的召回率影响不大。由图7可知,本文提出的基于地理位置信息的知识图谱查询方法,在处理不同查询模式下的最值范围约束下的实体查询问题和基于地理位置信息的属性查询问题时,适应性表现相对欠佳;在处理直接范围约束下的实体查询问题和间接范围约束下的实体查询问题时,询效果相对较优,但因查询问题理解的误差,影响了对不同查询模式的适应性;在处理基于方位关系的实体查询问题、基于距离关系的实体查询问题时,查询效果相对较优且对不同查询模式具有较好的适应性。
(a)
本文提出了一种基于地理位置信息的知识图谱查询方法,并将基于地理位置信息的查询问题分为6类分别解决。基于方位关系和基于距离关系的实体查询通过向量化表示位置关系谓词,计算谓词语义相似度并根据查询图做广度优先搜索以获取查询结果。直接范围约束下的实体查询按照k近邻搜索思想,基于混合知识图谱中位置关系的隐含信息展开查询。在此基础上,将直接范围约束下的实体查询方法扩展至适用于间接范围约束下的实体查询,并根据最值范围约束下的查询问题的自身特性,为其中一部分特殊范围约束下的实体查询问题,提供了基于距离关系边的查询方法。然后,本文结合位置查询逻辑和事实类问题的属性查询方法,提出了基于地理位置信息的属性查询方案。最后,本文对比了各种查询问题的平均查询效果,以及每种查询问题在不同查询形式下的平均查询效果。实验结果表明,本文提出的方法具有一定的应用价值。