铁路客运延伸服务产品知识图谱构建与应用研究

2022-06-30 07:46翁湦元阎志远朱建军张启蒙
铁路计算机应用 2022年6期
关键词:本体图谱品类

翁湦元,阎志远,朱建军,张启蒙

(中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081)

信息技术飞速发展,为用户提供丰富网络资讯的同时,也带来了信息过载[1]的问题,导致用户获取有效信息变得困难。铁路客运延伸服务产品(简称:延伸服务产品)涉及交通、游览、住宿、餐饮、零售、文娱等多个领域、多种业务,有着涉及领域广、品类丰富、知识层级多、内联关系显著等特点[2],通过搜索与推荐,使用户在短时间内快速获取有效的产品信息,对于提高产品曝光率、提升用户转化率具有重要作用。传统的关键词搜索法仅能命中包含关键词的内容,无法准确地反映用户搜索意图;推荐算法中被广泛应用的协同过滤法、矩阵分解法等算法存在数据稀疏,容易过拟合的问题,使产品推荐出现偏差[3]。谷歌于2012 年提出知识图谱(Knowledge Graph)概念[4],通过图谱的形式表现客观世界中的概念和实体及其之间关系,在搜索结果右侧显示相关人物、地点、事物等信息,帮助用户快速地了解某个指定内容。本文基于知识图谱技术,构建延伸服务产品知识图谱,使用户在短时间内快速获取有效的产品信息,是弥补传统搜索与推荐方法不足的有效途径。

1 相关理论

1.1 知识图谱定义

知识图谱是一种通用的语义描述框架,它将物理世界及认知世界中的知识转化为节点和边的符号化表征,这种知识的描述框架有利于知识的分享和利用。

知识图谱是以三元组[5]的形式存储知识,根据知识的定义,在知识图谱中将知识表示为实体及实体之间的关系,数学符号表示为G=(E,R,S),其中,E={ε1,ε2,···,εn}表 示实体集合,R={r1,r2,···,rm}表示关系集合,S⊆R×E×E表示知识图谱中三元组的集合,三元组通常描述一个特定领域中的事实,由头实体、尾实体和描述这两个实体之间的关系组成,目前,大部分知识图谱都是以三元组的形式表示各种类型的知识。知识图谱以统一方式定义知识结构和知识实例,从而构建一个知识系统。

1.2 知识图谱构建方法

知识图谱的构建过程主要分为信息抽取、知识融合和知识处理,如图1 中虚线部分所示[6]。

图1 知识图谱构建过程示意

1.2.1 信息抽取

信息抽取包含属性抽取、关系抽取和实体抽取,是实现自动构建大规模知识图谱的重要技术,目的在于从不同来源、不同结构的数据中提取实体、概念、属性及其之间的语义关系,并存入知识图谱中。

1.2.2 知识融合

知识融合包含共指消解、实体消歧,是对信息抽取的结果进行清理和整合的过程。其中,共指消解用于确定代词与名词短语的关系,实体消歧用于判断获取的实体指向是否统一。

1.2.3 知识处理

知识处理包含知识推理、质量评估、本体抽取,用于完善知识图谱质量。其中,知识推理从知识图谱中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而扩展和丰富知识网络。本体抽取通过对实体的处理形成概念模型,用于对知识进行组织。质量评估可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识图谱的质量。

2 延伸服务产品及其特点

2.1 延伸服务产品

目前,铁路客运延伸服务已上线的服务产品有酒店预订、旅游预订、铁路商城、网络订餐、空铁联运、铁水联运、网络约车等。产品用“行程”串接“场景”, 围绕旅客出行的前、中、后全行程,为铁路旅客提供线上线下协同、一体化的服务,满足铁路旅客个性化需求,提升铁路旅客出行体验。

2.2 延伸服务产品特点

2.2.1 涉及领域广

延伸服务产品涉及铁路运输、水路运输、航空运输、公路运输、酒店住宿、旅游、餐饮服务、电商购物等多个领域及多种业务,数据存储于多个业务系统,不便于数据整合工作,也不便于进行跨领域的数据分析、资源整合与利用。

2.2.2 品类丰富

为满足旅客多样的出行消费需求,延伸服务产品的品类需足够丰富。例如,在现代旅游经济中,人们对于旅游商品[7]的认知不再狭隘,游客对“华而不实”的工艺纪念品的兴趣逐步降低,生活类用品的比重逐渐上升,向全品类的大旅游商品发展已成为必然趋势。

2.2.3 知识层级多

在不同应用场景下,延伸服务产品相关知识的定义有所不同,将产品知识定义粒度(层级)由小至大列举如下。

(1)产品库存量单位知识

产品库存量单位(SKU,Stock Keeping Unit)知识表示对应业务中所售卖的商品颗粒度,是用户交易时不可继续细分的交易对象。

(2)标准产品知识

标准产品知识描述商品本身客观事实的颗粒度,无论用户通过什么渠道、在哪家商户购买,商品本身并没有任何区别。

(3)抽象产品知识

抽象产品知识表示进一步将标准商品向上抽象的商品系列,在这一层级中,不再关注商品具体的包装、规格等,将同系列的商品聚合为抽象商品,承载用户对于商品的主观认知,包括用户对商品系列的别名俗称、品牌认知、主观评价等。

(4)主体品类知识

主体品类知识描述商品主体的本质品类,这一层级作为商品图谱的后台类目体系,以客观的方式对商品领域的品类进行建模,承载了用户对于商品的需求,例如,各品牌各产地的鸡蛋都能够满足用户对于鸡蛋这个品类的需求。

(5)产品类目知识

作为前台类目体系,产品类目知识会依据业务当前的发展阶段进行人工定义和调整,各个业务会根据当前业务阶段的特点和需求建立对应的前台类目体系。

2.2.4 内联关系显著

旅客购买延伸服务产品一般处于旅游出行场景下,往往同时购买多种关联产品,如购买机票、预订酒店、预订门票、购买餐食等。以上产品虽横跨多个业务类目,但均为旅游出行的相关产品,因此有明显的内在关联性。

3 延伸服务产品知识图谱构建

延伸服务产品知识图谱数据来源于业务系统,均为经过人工处理后的结构化数据,简化了知识图谱构建过程中信息抽取与知识融合的相关工作,因此,延伸服务产品知识图谱的构建工作主要集中于知识图谱本体抽取上,使构建的知识图谱能更准确地表达产品间关系,用于智能搜索与推荐[8],实现产品精准触达。

3.1 本体抽取过程

在进行业务调研的基础上,从铁路客运延伸服务业务系统中提取产品数据并抽取本体[9];根据产品属性数据定义确定知识图谱本体属性;根据数据库表间字段关系与业务系统间交互关系构建本体关系;最终将本体、本体属性和本体关系存入到数据库中。本体抽取过程如图2 所示。

图2 本体抽取过程示意

3.2 本体抽取

本体信息包含该领域内有意义的概念类型和这些类型的属性,如果通过数据分析、处理手段自动抽取本体,往往会产生大量的噪音数据,并且抽取得到的概念关系松散、可信度难以得到保障。

本文基于延伸服务产品的特点,通过以下工作提升本体抽取质量。

3.2.1 本体分类

通过对本体进行分类,以树状形式表示本体间相互关系,有助于更好地表示事物间的等级关系。本体分类如图3 所示。

3.2.2 本体属性与关系构建

(1)本体属性构建

延伸服务产品本体属性多存在于结构化[10]数据中,通过采集与分析既有业务数据来获取本体属性。部分本体属性如表1 所示。

(2)本体关系构建

根据本体分类所体现的本体关系[11],以及用户在出行过程中对本体信息的关注程度,本文创建了多种本体关系,部分本体关系如表2 所示。

表2 部分本体关系

3.2.3 多维度本体组织

多维度本体组织是除本体分类以外的另一种本体信息组织的方式。建立延伸服务产品知识图谱多维度本体组织的目的在于进一步梳理铁路客运延伸服务领域的知识图谱本体关系,而并非分别聚焦于单一业务,从而使各个业务数据与客观知识相关联,提供更加全面、跨业务的全景数据视角。

结合延伸服务产品,从业务、层级、属性3 个维度,建立知识图谱本体组织,如图4所示。

图4 多维度本体组织示意

(1)业务维度

业务维度基于实际延伸服务产品销售业务划分,包含票务(如旅游套票、景区门票、飞机票、火车票、汽车票、船票等)、运输服务(如网络约车、接送机、接送站、商务座接待、保险服务等)、餐饮和商品零售业务。

(2)层级维度

根据产品本身不同的知识粒度进行抽象,分为产品SKU、标准产品、抽象产品和产品品类。产品SKU 对应产品销售粒度,即用户交易对象,标准产品对应产品客观事实,抽象产品对应产品系列,产品品类对应产品本质类别。

例如,“携程渠道销售的北京园博园门票成人票电子票”作为产品SKU,是用户交易的对象,其中,“北京园博园门票成人票电子票”是标准产品定义,在任何售卖渠道下的定义均一致;“北京园博园门票”是抽象出的产品信息,不再关注票的类型和渠道信息;“门票”则描述了产品本质品类,对应的产品类目则为票务产品。

(3)属性维度

围绕产品本身,通过创建多样的属性实现充分、准确描述产品的目的。属性维度分为通用属性、特有属性和用户感知属性。

以“熊猫专列旅游纪念票”为例,产品通用属性包括:价格、规格、包装、产地等。其作为具有文化内涵的旅游纪念品的特有属性包括:文化背景、产品形态、系列、保值率等。从用户感知角度可以进行更加丰富的定义,如:稀缺性、可作礼品、推荐特性(性价比高、收藏常备)等。

4 延伸服务产品知识图谱的应用

延伸服务产品知识图谱主要从搜索优化[12]和推荐优化[13]这两个方面为实现信息快速、精准触达提供帮助。

4.1 搜索优化

智能搜索是知识图谱比较成熟的应用方向,借助知识图谱理解用户的搜索语义,从更深层次理解用户的搜索意图,使用户可以获得更精确、更智能的搜索结果,提高搜索命中率,提升用户体验。

4.1.1 基于本体匹配优化

知识图谱帮助计算机将用户的搜索意图与产品的品类、属性进行匹配,得到比单纯关键词匹配更精准的结果。例如,在酒店搜索中输入“上海虹桥”时,传统的检索方法仅能找到酒店名字、简介等相关信息中带上海虹桥的酒店信息。而基于需求分析可以推断用户搜索的是上海虹桥枢纽附近的酒店,从而精准满足用户的搜索需求。

4.1.2 基于图谱排序优化

在传统搜索基础上,知识图谱的类目信息、品类信息、属性信息均可以作为排序依据,合适的排序依据可协助用户更快速定位所需的产品。例如用户搜索“如家”时,可知该关键词属于酒店品牌,用户大概率在搜索距离自己最近的该品牌的酒店或相关品牌的酒店,此时,应该默认以距离优先作为排序依据;当用户搜索“北京特产”时,可以得知该关键词属于商品类目,对距离不敏感,因此,应该以销售此类商品商户的特色和评分作为排序依据。

4.2 推荐优化

将知识图谱引入产品推荐中的优势如下:(1)借助图谱的本体关系推理能力,深层次发现用户兴趣;(2)有利于增强推荐系统的可解释性,从而提高用户对推荐结果的信任度。

4.2.1 基于同类本体推荐

基于本体分类结果分析本体上下位[14]关系,找到用户所搜索本体的同类本体并进行推荐。有助于引导用户点击浏览更多相关产品,提高产品曝光率。例如,旅游套票产品“驻马店三日游红色旅游专线”与“重走长征路特色二日游”同为红色旅游相关资源。在用户搜索“红色旅游”时,后者产品名称虽不带“红色旅游”,但作为强相关实体仍然符合用户的搜索意图。

4.2.2 基于推理推荐

通过分析用户输入的检索语句内关键词所对应的本体关系,推测用户检索意图并推荐符合相同检索意图的产品信息。如用户搜索“北京南至上海虹桥的火车”产品时,通过分析产品所对应知识图谱本体关系,可知用户的搜索需求为从“北京市”出发至“上海市”的“运输服务”产品。反向搜索可知,“北京市”“上海市”除了拥有“火车站”外同样拥有“机场”,可以搜索“飞机航班”产品。因此,“北京大兴国际机场至上海虹桥国际机场的航班”和“北京首都国际机场至上海虹桥国际机场的航班”同样可作为满足需求的产品向用户推荐,推荐示例如图5 所示。

图5 图谱推理推荐示意

综上所述,在延伸服务产品搜索与推荐应用场景中,知识图谱通过发挥其知识推理优势,对提高搜索效果与推荐效果,辅助用户决策具有积极意义。

5 结束语

本文针对延伸服务产品的特点,提出了延伸服务产品知识图谱的构建方法,并举例说明了该知识图谱在延伸服务产品搜索与推荐场景下的应用效果。随着延伸服务产品的迭代更新,如何及时更新延伸服务产品知识图谱的知识、如何将该知识图谱真正应用于生产运营中等,是下一步的研究内容。

猜你喜欢
本体图谱品类
基于图对比注意力网络的知识图谱补全
继齐韵往昔,以今声开来——思考自五音戏主奏乐器的演变、本体及延伸
眼睛是“本体”
图表
参展推荐品类索引
主动对接你思维的知识图谱
2013年三季度全国玩具品类进出口统计
2013年二季度全国玩具品类进出口统计
专题
Care about the virtue moral education