何文娜
(吉林体育学院,长春 130022)
以“公共体育空间”“体育空间”为关键词在知网上搜索,得到2000 年-2022 年2 月对应文献分别为282篇、1 086 篇论文。2002-2010 年仅为20 篇,2015 年起迅速增多,2019、2020 各自35 篇为最多,总体呈现上升趋势,公共体育空间已成为当前研究热点之一[1]。
通过阅读与公共体育相关的文献,自2002 年申奥成功之后,陆续通过“当代体育的空间之维”[2]“公共空间化”[3]“体育公共服务均等化”[4]“城市公共体育空间”[5]“绿道体育”[6]“可达性与公平性”[7]等概念的更替与演进,逐步形成了公共体育空间的研究方向[8]。学者从公共体育的空间布局、空间结构模式、空间特征、选址与影响因素、管理方法、资源配置差异性、居民满意度、区域经济关系、生态关系、供给侧改革、优化与决策等多个方面开展了较系统的研究,公共体育空间逐渐从初期的想法进入到空间规划均等化、从城市辐射至乡村、提升主动服务等成熟阶段[9]。在众多文献中,研究体育资源格局分布的论文占大多数,虽然部分学者已开始使用GIS 等进行体育服务设施布局优化[10]、选址规划等分析[11],因受研究背景、采用技术方法等多种因素限制,发现对部分相同类型问题的定性分析结果存在一定的偏差,亦即公共体育空间分布格局分析体系尚有待于从知识层面进一步加强与提升。
知识图谱是当前计算机领域的一种前沿信息技术[12],它主要通过网络图的形式体现实体、实体关系[13-14]。若借鉴知识图谱技术,建立一种公共体育空间知识图谱,将空间格局特征、存在问题、应对措施或解决方案等建立科学的知识体系,有利于空间格局分析方法规范化、可视化[15],亦可推动采用机器学习[16]、数据挖掘算法[17]等开展公共体育研究。虽然已有学者初步开展对长春市的城区公共体育服务空间分布研究[8-9],但尚未发现采用知识图谱进行长春市公共体育空间格局分析方法。拟发挥知识图谱的非线性结构优势,探索建立公共体育空间格局相关实体及其属性、实体间关系的方法,以期打通知识驱动型的公共体育知识图谱的构建技术流程,为未来建设适用于公共体育空间格局分析的知识图谱进行前瞻性研究。
知识图谱作为一种以图的形式体现知识的有效方法[18],其构建的核心内容是提取实体和识别实体之间的关系[5],并为实体和关系找寻正确的属性,并将属性(属性名称和属性值)赋给对应的实体、关系。实体可来自于数据库中的某个名词,也可以源于文献或网页中的某个概念;属性与实体可能同时出现(数据库表),也可能在不同体育文档中体现,所以需识别实体与属性间的确切关系。一个实体与其他一个或多个实体之间可能存在一对一或一对多的关系,而每一个关系可能含有零个或多个属性。图1 给出了公共体育知识图谱的总体构建方法的技术框架。
图1 公共体育知识图谱构建技术框架Fig.1 Construction framework of public sports space knowledge graph
首先,需要对所有的结构化、非结构化或半结构化的公共体育资料进行全面系统分析,从中提取出与公共体育空间有关的所有名词,并解析每一个名词的语义。
其次,从一个宏观的系统化思维出发,站在全方位的角度,构建一个所有名词均适用的全景式应用环境(如公共体育)。
第三,根据不同的角色与范畴,在大场景下构造一个或多个规模较小的场景(如影响因素),根据语义不同将名词分配到所适用的各小场景中。
第四,从每个不同场景定义的内涵出发,凝练与补充各场景所需的名词,形成此场景可用的候选实体及候选属性。
第五,综合分析候选名词、候选属性、小场景、大场景等,补充不同场景潜在的或遗漏的实体名词、属性。
第六,根据实体适用的大、小场景的上下文关系,提取、补全与每个实体关联的属性。
第七,兼顾多个不同范围大小场景之间多个实体相互的上下文联系,特别是语义层次的含义,进一步确定每对实体之间存在的关系、每个实体与其属性的关系。
第八,确定每对实体之间关系的属性,包括属性名称以及属性值等内容。
第九,对全场景、小场景进行多角度审视,对实体、关系、属性等分别进行对齐、补全。
实体、关系、属性的抽取既可以人为抽取,亦可以采用各种基于规则、基于数据挖掘等方法的自动化抽取。同时,可采用本地数据的离线抽取,亦可以通过在线动态抽取的方式。
收集、整理与长春市公共体育资源的设置与规划相关的方案、标准、报告、文献等资料,对其内容进行全面理解与分析,重点研究公共体育空间分布格局的影响因素(交通可达性、人口分布、群体需求、房产价格、区域建设规划、土地属性等)、存在的各类问题、采取的解决方案、合理性约束条件、可用的措施等内容。通过对数据的深入分析,提炼出公共体育的领域知识,再从知识中提取实体、属性,识别关系,建立与之相关的体育知识图谱结构(如图2)。
图2 公共体育知识图谱的概念模型Fig.2 Conceptual model of knowledge graph of public sports space
图2 展示的公共体育知识图谱的概念模型中,公共体育实体11、公共体育实体2N 等每一个实体各自均可能存在零个或多个属性;公共体育实体11与公共体育实体21 之间存在关系1,关系1 可能有多个属性及对应的属性值;公共体育实体12 与公共体育实体2N 之间存在关系M,公共体育实体1M 与公共体育实体2N 之间亦存在关系P,每个关系可能有零个或多个属性。
由于公共体育空间涉及内容非常广泛,与体育设施、体育场地、参与人群、交通、资源利用情况、建筑物、土地使用甚至房地产价格等众多信息有关。围绕公共体育空间格局等问题,根据多领域信息构建其全部知识图谱较为复杂,现以其基本属性、影响因素、存在问题、响应措施等重要相关内容为主,构建一个能够体现公共体育空间的实体、实体属性及实体之间关系的知识图谱原型。
图3 展示的是涵盖公共体育空间、影响因素、存在问题、解决方案等内容的知识图谱原型。知识图谱中的实体主要包括公共体育空间、交通可达性、群体需求、区域规划、房产价格、土地属性、分布不均衡、体育空间属性等。公共体育空间具有体育空间的属性集,主要包括名称、地址、电话、类型、坐标(经度、纬度)等多个属性,公共体育空间与它们的关系为“拥有”,即公共体育空间拥有多个属性。与体育空间具有“影响因素”关系的主要包括交通可达性、群体需求、区域规划、房产价格、土地属性等因素。公共体育空间具有分布不均衡等问题,其中分布不均衡问题主要“拥有”密度、名称等多个属性。如果分布不均衡体现出人口密度大、体育场地少等特征,则可能需要增加资源;若分布不均衡具有“水资源多”的特性,则根据水资源的用途可在合适空间设置冰上项目(如滑冰)、水上项目等选项;若该区域的山较多,可推荐建立滑雪场等项目。针对“分布不均衡”问题可采用多种解决方案,响应方案有增加体育空间、整合体育空间等多种方法,而增加体育空间需要加大投入资金、选择新址等若干个应对措施。同时,此图谱亦包含针对不同空间分布格局分析所采用的具体方法(如不同圈层缓冲区设计方法、半径等)。
图3 公共体育空间知识图谱原型的逻辑模型Fig.3 Logic model of knowledge graph prototype of public sports space
(1)公共体育空间知识图谱的表示形式
知识图谱领域有多种知识的表示方法,常采用三元组形式来表达知识(主语,谓语,宾语)或(实体1,关系,实体2)。例如,(体育空间,拥有,名称)、(体育空间,影响因素,房产价格)、(分布不均衡,采用,整合解决方案)、(增加体育空间,应对措施,选址)等等。
(2)公共体育空间知识图谱的存储方法
知识图谱按用户需求及开发人员所熟悉的技术,既可以采用传统关系数据库的二维表保存(如SQL Server),也可以存储在对象-关系数据库的对象及关系表中(如Oracle),最为理想的是保存在图数据库中(如Neo4j 等)。
(3)公共体育空间知识图谱的实现方法
若在图数据库(如Neo4j)中保存公共体育空间知识图谱,需要采用该图数据库专有的命令CQL(Cypher Query Language),即可直接在图数据库中创建公共体育空间的知识图谱物理数据。
(1)创建语法
在Neo4j 中一般采用Create 创建实体、关系等,它通过“键-值”对形式创建实体(以节点体现)、关系和属性等。可以灵活的创建不带任何属性、关系的节点,亦可在创建节点(实体)时直接创建对应的一个或多个属性或关系。另可用Match 命令在创建节点后建立关系。CQL 的创建语法为:
Create(
{ ........ } ) (2)公共体育空间知识图谱的物理实体创建命令 创建公共体育空间节点的命令:Create (公共体育:公共体育空间{名称:“公共体育空间”,地址:“吉林省长春市”,电话:“0431-88618846”,类型:“市级”}) 创建公共体育空间影响因素节点的命令: Create(可达性:交通可达性{名称:“交通可达性”}) Create (群体需求:群体需求{名称:“群体需求”}) Create (区域规划:区域规划{名称:“区域规划”}) Create (房产价格:房产价格{名称:“房产价格”}) Create (土地属性:土地属性{名称:“土地属性”}) 公共体育空间影响因素关系的命令: Match (a:公共体育空间),(b:交通可达性)Merge(a)-[:影响因素]->(b) Match(a:公共体育空间),(b:群体需求)Merge(a)-[:影响因素]->(b) Match(a:公共体育空间),(b:区域规划)Merge(a)-[:影响因素]->(b) Match(a:公共体育空间),(b:房产价格)Merge(a)-[:影响因素]->(b) Match(a:公共体育空间),(b:土地属性)Merge(a)-[:影响因素]->(b) 创建公共体育空间的存在问题节点的命令:Create(不均衡:分布不均衡{名称:“空间分布不均衡”,密度:“1 万人/平方公里”,覆盖情况:“人均3 平方米”}) 公共体育空间存在问题的关系命令:Match(a:公共体育空间),(b:分布不均衡)Merge(a)-[:存在问题]->(b) 创建可能采取的响应方案节点的命令: Create(增加空间:增加体育空间{名称:“增加空间”}) Create(整合空间:整合体育空间{名称:“整合空间”}) 构建存在问题可采取响应方案之间关系的命令: Match (a:分布不均衡),(b:增加体育空间)Merge(a)-[:响应方案]->(b) Match (a:分布不均衡),(b:整合体育空间)Merge(a)-[:响应方案]->(b) 创建响应方案可采取措施节点的命令: Create(投资:投入资金{名称:“投资”,投入金额:“5000 万”,投入单位:“国家”,开始投入时间:“2025”,投入结束时间:“2028”}) Create (选址:选择体育空间地址 {名称:“选址”,面积:“20 万平方米”,用途:“健身步道”,服务对象:“社会大众”,方法:“公用地转换”}) 建立方案与措施之间关系的命令: Match(a:增加体育空间),(b:投入奖金)Merge(a)-[:应对措施]->(b) Match(a:增加体育空间),(b:选择体育空间地址)Merge(a)-[:应对措施]->(b) 图4 展现的是在Neo4j 图数据库中创建的长春市公共体育空间知识图谱(部分),可以非常清晰地看到各个实体以及实体之间的关系,并且与设计的逻辑模型基本一致。依据实体之间的关系、相关属性判断等,可以从一个实体(节点)通过一个或多个关系(边)到达另外一个实体(节点),这种多个实体之间建立的“通道”为深层次的分析与挖掘、知识推理等打下基础。 图4 在图数据库中创建长春市公共体育空间知识图谱结果Fig.4 Createdknowledge graph of public sports space of Changchunin Neo4jgraphdatabase 当公共体育空间格局知识的分析足够充分、知识覆盖面够广,建立的知识图谱够权威时,不同专家进行空间格局分析时,可以采用基于图谱的各类机器学习,会得出更标准、更可信的结果。 (1)为了科学体现公共体育空间知识的关联关系,提出一种采用知识图谱技术构建长春市公共体育空间格局研究的非传统方法; (2)提出了公共体育知识图谱的科学构建方法,即从各类资料中提取公共体育实体、属性,识别实体之间的关系,并为实体、关系赋予正确的属性; (3)建立了体现公共体育空间格局知识图谱的概念模型,依此模型设计了一个公共体育空间格局知识图谱原型的逻辑模型,以图的形式直观体现了公共体育空间具有交通可达性等多个影响因素、存在分布不均衡特性等问题、拥有名称等多个属性,而针对分布不均衡问题可给出整合/增加体育空间的方案。 (4)采用CQL 命令在图数据库中,实际创建了长春市公共体育空间知识图谱的物理模型,证明了所设计的基于知识驱动开展公共体育空间格局研究的模式是可行的,为后续空间格局的深度分析及推理等进行前瞻性探索。4 结论与讨论