张文宇,彭舒凡,叶乃夫
(1.中国人民公安大学 信息网络安全学院,北京 100038)
犯罪活动在地理空间中展开[1],因此,犯罪团伙成员之间具有大量的空间交集。公安侦查工作中,分析重点人空间数据之间的关联,是时空关联分析的重要步骤。空间数据关联分析的实质为计算空间数据关联度,根据空间数据的构成,分为2 个方面,即空间文本关联度计算与空间实体关联度计算。目前,在空间文本关联度计算方面,主要包括:①计算文本类别关联度[2-7];②计算文本专名关联度[8-10];③综合计算类别与专名的关联度,得到空间文本的关联度[11]。公安数据库中,空间文本具有的文本类别及其专名通常超过一种,如“某省某市某区某街道”,然而已有研究认为空间文本只具有一种文本类别及其专名,不符合公安业务需求。
空间尺度包含空间范围与空间粒度[12]。计算空间实体关联度时所选的空间尺度,是影响结果的重要因素[13-14],同一地理实体,在不同的尺度下得出的结论可能相差甚远[15]。在空间实体关联度计算方面,传统方法[16-20]主要基于空间拓扑关系计算。其中,赵红伟[16]在此基础上,使用空间度量关系辅助量化空间实体关联度,提高了计算的准确性。以上方法都较少考虑到空间尺度对计算结果的影响。陈祖刚[21]虽然考虑到空间尺度的影响,但只是分别计算了2 个尺度下的关联度,并没有综合考虑各个尺度的影响。
综上,本文将重点人空间数据的关联分析分为2 个方面:计算空间文本关联度与空间实体关联度。针对现有研究的不足,对于重点人的空间文本关联度,结合文本专名与文本类别2 个多维特征,综合计算文本关联度。对于重点人的空间实体关联度,考虑到各个尺度对实体关联度的影响,通过空间实体之间的拓扑关系及度量关系对各尺度下的实体关联度进行量化,挖掘重点人与犯罪人在空间上的关联信息,提出了综合多尺度空间实体关联度的计算方法。
重点人空间数据多维特征的表达,是空间数据关联分析的基础。重点人的多维空间数据,具有文本专名、文本类别、实体几何类型3 个多维特征,使用三元组表达为:
1)P为空间数据的文本专名,其值为空间文本的具体描述。
2)C为空间数据的文本类别。若空间文本由单一的文本类别及其专名构成,则C的取值为该类;若空间文本由多种文本类别及其专名构成,则C的取值为最后一个文本类别。
空间数据的文本类别体现了空间实体的类型、隶属关系。本文根据《地名分类与类别代码编制规则(GB/T 18521—2001) 》[22],并 基 于 上 下 位 关 系(IS-A),建立了轻量级的上层空间文本类别本体,涵盖了重点人空间数据的全部文本类别,如图1所示。
图1 轻量级的上层重点人空间数据的文本类别本体
3)G为空间数据的实体几何类型,其取值存在3种情况:点(point);线(line);面(polygon)。各个类别具有固定的实体几何类型。
空间数据关联分析,就是计算出空间数据之间的关联度。由于重点人的多维空间数据由空间文本与空间实体构成,因此,将空间文本关联度与空间实体关联度结合,得到空间关联度:
式中,CGeo为空间关联度;CText为空间文本关联度;CEntity为空间实体关联度;WText与WEntity分别为空间文本与空间实体关联度的权重值,满足WText+WEntity=1。关联分析的流程如图2所示。先结合专名关联度与类别关联度计算空间文本关联度。同时,通过空间拓扑关系与空间度量关系量化每个尺度下的实体关联度,再将各尺度下的空间实体关联度综合,求得空间实体关联度。最后,通过上式将二者加权求和,得到重点人空间数据的关联度。
图2 重点人多维空间数据关联分析流程
在公安领域的应用中,若重点人与犯罪人对应的空间实体不关联,即二者不存在于同一空间范围内,说明二者共同实施犯罪的可能性较低,不为犯罪团伙。此时无论文本关联度CText是否为0,均认为2 个重点人在空间上不关联,即空间关联度CGeo为0。
空间文本具有文本专名与文本类别2 个多维特征,将其多维特征的关联度综合计算,得到空间文本关联度:
式中,CP与CC分别为专名关联度与类别关联度;WP与WC分为为空间专名关联度与空间类别关联度的权重,满足WP+WC=1。
2.1.1 文本专名的关联度计算
本文将文本专名看作字符串,使用叶鹏[8]提出的方法计算文本专名关联度。设2 个空间数据的文本专名分别为p1与p2,字符总数分别为m、n,其关联度计算如下:
式中,c为p1与p2的匹配字符数;L1(i)与L2(i)分别为匹配字符i在p1与p2中的匹配序;α与β分别为匹配度与匹配序的权重,二者常按黄金分割率,分别取值为0.6与0.4[8-9]。匹配序从左至右,根据字符依次递增。例如,p1=“北京市西城区”,p2=“西城区”,p1与p2的匹配字符为“西”、“城”、“区”,在p1与p2中的匹配序分别为4(西)、5(城)、6(区)和1(西)、2(城)、3(区)。p1与p2的关联度定义为:
2.1.2 文本类别的关联度计算
当前研究主要通过建立本体,计算空间文本类别的关联度。根据方法细分为:基于信息论、基于语义距离、基于本体属性。基于信息论的方法,以概念出现的频率量化关联度;基于本体属性的方法需对文本类别进行严格属性定义,这两类方法均不适用于空间数据的文本类别的关联度计算,因此,本文基于第1节建立的轻量级上层本体,并采用基于语义距离的方法[23]进行计算。其中,影响关联度的主要因素分别为:语义距离、概念深度、概念密度。设2 个空间数据的文本类别分别为c1与c2。
在本体中,连接c1与c2的最短路径的长度为二者之间的语义距离,记为len(c1,c2) 。语义距离越大,c1与c2的关联度越低;语义距离为0时,c1与c2是同一类别;语义距离为无穷大时,c1与c2的关联度为0,表示c1与c2没有关联。语义距离对类别关联度的影响因子记为Dis(c1,c2),公式如下:
文本类别c1的概念深度是指c1与根节点的最短路径中所包含的边数,记为Dep(c1),同理,文本类别c2的概念深度记为Dep(c2)。在本体中,下层概念都是对上层概念的细化,概念的含义随着深度的增加而具体。语义距离相等时,c1与c2的深度越大,其关联度越高;反之越低。概念深度对类别关联度的影响因子记为Dep(c1,c2),公式如下:
c1与c2的概念密度,为c1与c2最近共同祖先的直接子节点的数量,记为degree(c1,c2)。在本体中,某节点的直接子节点数量越多,对应概念的分类越详尽,其子节点间的关联度越高,反之越低。概念密度对类别关联度的影响因子记为Den(c1,c2),公式如下:
式中,degree(O)为本体树O中各节点的直接子节点数量的最大值。
因此,c1与c2的类别关联度计算如下:
式中,δ、ε、φ分别为3 个因子对文本类别关联度影响的权重值,且δ+ε+φ=1。计算类别关联度时,语义距离在3 个因素起主要作用,因此δ相对较大,ε与φ相对较小,通常取为0.9、0.05、0.05[23-24]。
考虑到空间尺度对空间实体关联度的影响,本文将空间尺度分为5个,从大到小依次为:“一级行政区域尺度”、“二级行政区域尺度”、“三级行政区域尺度”、“四级行政区域尺度”、“其他区域尺度”,与空间文本类别中的“一级行政区域”、“二级行政区域”、“三级行政区域”、“四级行政区域”、“非行政区域”及其子类别相对应。具有多种文本类别的重点人的空间数据,在不同尺度下,映射为各自对应的空间实体。如“贵州省安顺市西秀区”,在“一级行政区域尺度”时,映射为“贵州省”的空间实体;“二级行政区域尺度”时,映射为“安顺市”的空间实体;“三级行政区域尺度”时,映射为“西秀区”的空间实体;“四级行政区域尺度”、“其他区域尺度”时,无可映射的空间实体。
只具有部分尺度所对应文本类别的空间文本,可能存在同名不同地的情况;具有全部尺度所对应的文本类别的空间文本,其映射的空间实体唯一。故空间实体的关联度,应由5 个尺度下的空间实体关联度加权计算得到:
式中,CFirst、CSecond、CThird、CFourth、COther分别为5 种尺度下空间数据所对应空间实体关联度,通过量化各尺度下的空间拓扑关系与空间度量关系得到;WFirst、WSecond、WThird、WFourth、WOther分别为5 种尺度下的实体关联度对应的权重值,满足WFirst+WSecond+WThird+WFourth+WOther=1。
2个空间数据在计算关联度时存在以下情况:①2个空间数据均具有某一尺度所对应的文本类别,则直接计算两者在该尺度下的实体关联度;②2 个空间数据均无某一尺度所对应的文本类别,则在该尺度下的实体关联度为0;③2个空间数据中只有一个具有某一尺度所对应的类别,则该尺度下的实体关联度需要跨尺度计算。如“贵州省”与“贵州省安顺市”,只有后者具有“二级行政区域尺度”所对应的文本类别“地级市”,因此,该组数据在“二级行政区域尺度”下的实体关联度为:“贵州省”与“安顺市”对应实体的关联度。
某一尺度下的空间实体关联度由该尺度下的空间拓扑关系关联度与空间度量关系关联度加权得到:
式中,CS为某一尺度下的空间实体关联度,可为CFirst、CSecond、CThird、CFourth、COther;CT、CM分 别 为对应尺度下的空间拓扑关系关联度与空间度量关系关联度;WT、WM分别为拓扑关系关联度与度量关系关联度对应的权重值,且满足WT+WM=1。
2.2.1 空间拓扑关系的关联度计算
空间实体具有点、线、面3 种实体几何类型,空间拓扑关系用于描述3 种实体几何类型之间的关系。目前,普遍采用4I 模型[25]与9I 模型[26]进行描述。由于4I模型对于线线之间、线面之间的关系描述不具备唯一性[27],因此本文采用9I模型对实体之间拓扑关系进行表达,任意2 种实体几何类型的空间实体之间的拓扑关系如表1所示。
表1 空间实体拓扑关系
若重点人与犯罪人的空间数据,在某一尺度上对应空间实体的拓扑关系为相离,即在该尺度下二者不存在于同一空间范围内,所对应的空间实体不关联,此时CS为0;反之,若拓扑关系不为相离,即在该尺度下二者存在于同一空间范围内,所对应的空间实体存在关联,此时CT为1,CM通过计算得到;若2个重点人空间数据,在各尺度下的拓扑关系均为相离,则空间实体关联度CEntity为0,故空间关联度CGeo也为0。
2.2.2 空间度量关系的关联度计算
空间度量关系用于辅助空间拓扑关系,更详细地描述空间实体之间的关系[28]。对空间度量关系关联度的量化分为2 个方面,一是空间实体的重叠,二是空间实体的距离。相关定义如下:
定义1,空间实体的重叠:2个空间实体重叠部分的长度/面积。
定义2,空间实体的距离:2 个空间实体之间的距离。
实体几何类型为点-点、点-面、面-面的2个空间实体,其距离指实体几何中心之间的欧氏距离;实体几何类型为点-线、线-面的2个空间实体,其距离指点和面的几何中心到线的最短距离;实体几何类型为线-线的2个空间实体,其距离指实体之间的最短距离。
定义3,某一尺度下实体关联度的基本权重:在各尺度下,2 个空间实体为某种拓扑关系时,该拓扑关系能决定的关联度的最大值,即WT。
定义4,某一尺度下实体关联度的控制权重:在各尺度下,2 个空间实体为某种拓扑关系时,空间度量关系能决定的关联度变化的最大值,即WM。
将空间实体在某一尺度下的度量关系关联度记为CM;重叠记为O;距离记为D。CM与O、D有关,重叠O的占比越高,CM越大;根据地理学第一定理,距离D越小则关联度越高,同时距离对度量关系关联度的影响与尺度相关。空间度量关系在某一尺度下的关联度CM计算公式如下:
式中,E1、E2为2 个空间实体在该尺度下的周长/面积;S为该尺度的尺度因素,各尺度下的S取值不一;W1、W2为重叠部分分别在2个实体中的占比所对应的权重值,满足W1+W2=1;WO、WD为空间实体的重叠与距离的权重值,满足WO+WD=1。
空间实体的几何类型与空间实体之间的拓扑关系,决定了2 个空间实体的重叠,进而影响度量关系关联度的计算。
1)2 个空间实体的重叠为点时,有3 种可能:①2 个空间实体中存在几何类型为点的实体,并且2个空间实体具有交集;②2 个几何类型为线的空间实体,拓扑关系为Touches或Crosses;③2个几何类型为线-面的空间实体,拓扑关系为Touches 或Crosses 或Overlaps。此时,重叠O 不具有实际意义,则度量关系的关联度由距离D控制。
2)2 个空间实体的重叠部分为线时,有2 种可能:①2 个几何类型为线的空间实体,拓扑关系为Overlaps 或Equals 或Contains/Within;②2 个几何类型为面的空间实体,拓扑关系为Touches。此时,度量关系关联度由重叠O与距离D共同控制,O取重叠的长度,E1、E2分别取2个实体的周长。
3)2 个空间实体的重叠为面时,2 个几何类型为面的空间实体,拓扑关系为Overlaps 或Equals 或Contains/Within。此时,度量关系关联度由重叠O 与距离D共同控制,O 取重叠的面积,E1、E2分别取2 个实体的面积。
2021年某日,某市公安局接到报警:在该市某小区,某住户的财物遭到盗窃。经过犯罪现场勘验,发现是规模为两人的团伙作案,并已锁定犯罪嫌疑人。该犯罪嫌疑人经常于“GZ 省GY 市NM 区HGY 街道”一带活动。本文从公安重点人数据库中,抽取出100名重点人经常到访的空间数据。以这100 名重点人为例,本文将其空间数据分别与“GZ 省GY 市NM 区HGY街道”进行空间关联分析,得到与犯罪人的空间关联度,为侦查提供思路。
本文邀请地理科学、犯罪学领域专家对多维空间数据关联分析方法中的各权重进行打分,平均结果如表2所示。
表2 本文权重取值表
由于篇幅限制,将计算结果中关联度大于等于0.2 的重点人及其空间数据排序,如表3 所示,其中,将空间文本关联度与根据文献[16]方法计算得到的空间实体关联度结合,结果作为传统方法的空间关联度,与本文方法进行对比分析。
表3 与空间数据“GZ省GY市NM区HGY街道”关联度≥0.2的重点人空间数据排序
由表3 可知,本文方法综合了空间数据在各尺度下的关联度,只有在5 个尺度下均一致时,空间关联度为1。同时,在各尺度下实体关联度的计算中,本文更加注重拓扑关系的影响,而度量关系起辅助作用。在具有空间关联时,与空间实体具有映射关系的空间文本描述越细致,即空间文本具有的文本类别越多,其关联度可能越高;反之,越低,与事实相符。如,65、5、92 号重点人的空间文本均对应同一空间实体,但描述的细致程度不同,其关联度分别为:0.651、0.626、0.598。在相同拓扑关系下,重叠的占比越大、距离越近,关联度越高。
文献[16]的传统方法,没有考虑到空间尺度对关联度的影响,只计算2 个空间数据在其最小尺度下的关联度,并更加关注实体之间距离对关联度的影响。因此,该方法面对即便是相离的2 个空间数据,在最小尺度下其关联度也可能较高。如,48 号重点人的空间数据与目标空间数据在“四级行政区域尺度”上相离,50 号重点人的空间数据与目标空间数据在“四级行政区域尺度”上包含,因此50 号重点人的关联度理应大于48 号重点人的关联度,但传统方法却得到了大相径庭的结论。同时,传统方法在量化空间实体的度量关系关联度时,只要2 个空间数据对应的空间实体距离较远,就会存在关联度可能为负的不足。如55 号重点人使用传统方法计算得到的关联度为-0.427。
本文将重点人的空间数据定义为空间文本与空间实体,并在此基础上定义了空间文本的文本专名、文本类别、空间实体的实体几何类型等3 个多维特征及其表达。其次,提出了多维空间数据关联分析的方法,通过计算空间文本关联度和空间实体关联度,再将其结合得到空间数据的关联度。采用字符串相似度的方法计算文本专名的关联度,并建立了重点人空间数据文本类别的轻量级上层本体,以计算文本类别关联度,由此得到空间文本关联度。本文考虑了空间尺度对实体关联度的影响,认为空间实体关联度由2 个实体在各个尺度下的实体关联度加权得到。并且空间实体的拓扑关系和度量关系决定了实体关联度的大小,因此通过拓扑关系和度量关系量化了每个尺度下的实体关联度。