用户标签揭示进出口量:基于标签共现的空间关联性分析

2022-06-05 04:46张双印
测绘地理信息 2022年3期
关键词:关联性关联强度

游 想 张双印 费 腾

1武汉大学资源与环境科学学院,湖北武汉,430079

2武汉大学测绘遥感信息工程国家重点实验室,湖北武汉,430079

区域间的关联性研究对促进区域协调发展具有重要意义。而区域关联性分析取决于如何利用关联这些区域的各种数据。有众多研究强调了网络嵌入对区域关联性研究的重要性[1⁃7]。而在很大一部分研究中,区域关系是基于网络中节点之间的流量数据计算的,如交通流量、乘客流量、人口迁移[8⁃10];或基于在线用户生成数据计算。例如,Flickr网站上用户位置信息作为一种在线用户生成数据资源,被用于量化人类的旅行流量[11,12],进而被用于分析区域间的关联性;微博也是一种在线用户生成的数据资源,可通过研究微博用户的社会关系和地理位置变化来确定区域相关性[13,14]。以上研究主要针对用户带来的实际流和虚拟流,仅利用人口流动和人际交往的目标和强度来描述区域间关联性强度不够全面,这些研究本质上只围绕存在于“第一空间”[15]的流进行,“第二空间”中的流则被有意或无意地忽略了。“第一空间”即人们看到的“物理”空间,是一门物质的、可见的、可测量的、对空间客观判定的正式科学;“第二空间”指人的感知与“第一空间”的结合,是对空间进行建模和概念化的规划者和城市学家的空间[15]。

Twitter、Flickr和微博等社交网络应用程序的使用已然是一种潮流,这为从人的感知角度来研究区域联系提供了数据依据。随着这些社交应用的兴起,出现了一些关于社交网络应用的共现分析研究[16,17],其中,较为简单的标签共现分析主要被用来研究这些标签之间的关系,或进行标签特征分析和语义分析,很少被用于区域关联性分析。本文利用Flickr中用户生成的标签数据,通过标签共现分析从人类感知的角度来研究世界各地之间更加全面的关联。本文使用带有地理坐标的用户标签数据进行研究,避免了地名的模糊性问题,在“第二空间”中绘制了区域间的概念流,且为了进一步探索该方法的潜在实用性,选取了一些样本国家,对由本文方法计算出的它们之间的概念关联强度与贸易交互量进行了相关性分析。

1 研究数据与方法

1.1 研究数据

本文所用的全球用户标签数据和相应的位置信息是从Yahoo Flickr Creative Commons 100 Million(YFCC100M)数据集中提取的,该数据集包含2004⁃04—2014⁃08拍摄的公开的照片。提取其中最常用的20 000个英文标签作为研究数据,排除了一些没有实际意义的单词,如“at”和“to”这些常用介词。

1.2 研究方法

如果两个地名同时出现在同一文本中,则可以认为它们有关联[18,19]。在本文中,如果两个区域被相同的标签标记,则认为它们有关联。具有相同标签的区域可视为网络中的两个节点被这个标签所关联,并在网络中由一条边连接表示该关联关系。区域之间的边连接得越多,表示这些区域被越多相同的标签所标记,即这些区域之间的概念关联强度越强。在Bonne投影下,将世界地图分割成多个100×100 km的标准网格,构造一个查找表,表的一侧列出了所有有效的用户标签,表的另一侧对应相应用户标签所在的网格编码。

1.2.1 节点之间的概念关联性

1)构建标签网络。在查找表中,一个标签可以对应多个网格,先将这些网格视为节点,具有相同标签的任意两个节点都可以通过边连接,从而形成每个标签的网络;再将20 000个标签的所有网络叠加,形成一个包含13 968个相关联节点(网格)的集成网络。在这个集成网络中,任意两个节点之间的边数表示有多少相同的用户标签被用来描述这两个不同的位置(区域),或者在另一个意义上,表示它们之间概念关联强度。通常,节点之间连接的边的数量越多,表示节点之间的关联度越强。

2)基于标签网络计算概念关联强度。通过不同方式给节点之间的边赋权重,以下指标可用于计算标签共现网络中节点之间的概念关联强度:

①节点之间的边数(number of edges,NE)。在这个指标中,所有边的权重都是相等的,具体到每条边,lm ij表示节点i和节点j被标签m同时标记一次,不考虑带有标签m的照片在这两个节点中的数量。考虑到节点所包含的标签个数的影响,即对于同一个共现标签,不同节点包含的带有该标签的照片数目有所不同。在计算两节点之间的关联强度时,该指标记录了两个节点中出现的所有标签的数目,再令节点间的边数除以该数目。即对于节点i、j,Ti和Tj分别是节点i、j中出现的标签集合,Tij是Ti和Tj的并集,tij是集合Tij中包含的不同标签个数。NE指标计算的节点i、j之间的关联强度如下:

式中,M是所有标签总数,等于20 000;Om i表示节点i中是否有标签m,有则为1,反之为0。

②节点之间边的权重之和(sum of the weight of edges,SWE)。不同共现标签可能对两个节点之间的关联强度贡献不同,相同标签所对应的照片数量在不同节点中可能会有很大差异。鉴于此,每个节点中每个标签的照片数量被记录下来用于计算这个新指标(SWE),每条边的权重由一对节点中所包含的由共同标签所标记的较少照片数量表示,不同的边可能具有不同的权重:

行业事业单位需要建立大型设备的使用管理新模式,不能仅满足于正常开展教育教学、卫生医疗、科学研究等行业事业需求,需要借助信息化系统提高使用绩效,最大化提高管理手段的丰富性、规范性,做到有章可循。国子软件长期致力于行业资产管理理论研究,将结合丰富的管理软件实践及服务经验,助力各单位的大型设备使用绩效管理的提升。

在SWE指标中,对于每个节点对,它们之间不同边的权重变化很大,权重较大的边可能会掩盖权重较小的边对节点间关联强度的贡献。为了减少权重大的边对节点之间概念关联强度的贡献,加强边的数量对节点之间概念关联强度的贡献,本文提出了一个新的指标SWE⁃log,在这个指标中,逻辑回归函数被应用于边权重的计算,计算公式如下:

式中,z为阈值,通过多次实验选择了所有权重的均值作为z;e表示自然常数。

③词频⁃逆向文档频率的节点间边的权值之和(sum of the weight of edges term frequency⁃inverse document frequency,SWE⁃TF⁃IDF)。节点中普遍存在的标签共现对节点之间的概念关联强度通常不太重要,为了减弱广泛分布的标签(在众多节点所有节点中出现)的影响,采用TF⁃IDF方法来度量边的权重。在文本挖掘预处理中,TF⁃IDF是一种统计方法,用于评估单个单词对文集语料库中的文档集或其中一个文档的重要性。单词对某个文档的重要性随着它们在该文档中出现次数的增加而增加,但随着它们在整个语料库中出现频率的上升而降低。在该指标中,TF⁃IDF被用于评估每条共现边对节点之间概念关联强度的重要性,边的权重计算如下:

式中,Fm表示出现标签m的节点数;F表示节点总数;Ni表示节点i中的照片总数。节点之间的概念关联强度计算公式如下:

1.2.2 国家之间的概念关联性

1.2.3 交互作用与相似性的较量

为了确定本文方法得到的这些国家之间的概念关联强度是表明国家之间的交互作用还是相似性,对20个国家相互之间的关联强度与它们间的交互作用和相似度分别进行了相关性分析。各国之间的交互作用是根据从Chatham House收集到的2004—2014年10年间各国之间的进出口量(贸易量)计算的。这些进出口量和从The World Bank收集的各国人口、土地面积和人均国内生产总值的平均值被视为各国的特征,形成每个国家的特征向量。归一化后,通过计算20个特征向量两两之间的余弦相似度,得到20个国家两两之间的相似度。

1.2.4 探索分析

为了进一步探索本文方法的潜力,且由于Cha⁃tham House和The World Bank上的数据时间上限为2017年,本文还计算了2005—2015年、2006—2016年、2007—2017年这20个国家两两之间的交互作用和相似度,并将其与本文方法所得的国家间的关联强度(2004—2014年)进行皮尔逊相关性分析。

2 研究结果

实验得到了20个国家两两之间的贸易交互作用和相似度。表1为皮尔逊相关性分析结果。4种概念关联强度指标与国家间贸易交互强度的皮尔逊相关分析的P值均小于0.01,具有统计学意义,且皮尔逊相关系数均在0.7左右,相关性较好。而这4种概念关联强度指标与国家间相似度的相关系数要低得多,均小于0.2。这表明用Flickr用户标签数据计算出的国家间关联强度与国家间贸易交互强度是显著相关的,关系较为密切;而国家间关联强度与国家间的社会经济相似度间的相关性则要小得多,几乎没什么关联。4个指标中,SWE⁃TF⁃IDF关联强度与各国之间的贸易交互强度(2004—2014年)之间的相关性最强。

表1 皮尔逊相关性分析结果(2004—2014年)Tab.1 Pearson Correlation Coefficients(2004—2014)

通过相关性分析得到了国家间4种概念关联强度与2005—2015年、2006—2016年、2007—2017年国家间贸易交互强度和相似度之间的皮尔逊相关系数。国家间贸易交互强度与4种概念关联强度之间的相关系数均大于0.69,如图1(a)所示;而国家间的4种概念关联强度与2005—2015年、2006—2016年、2007—2017年各国间相似度之间的皮尔逊相关系数均小于0.18,见图1(b)。进一步说明了研究得到的国家间的概念关联强度更能代表国家间的贸易交互强度。图1(a)还表明,国家间概念关联强度与2005—2015年、2006—2016年、2007—2017年的国家间贸易交互作用之间的皮尔逊相关系数均高于其与2004—2014年间的国家间贸易交互作用之间的相关系数,且时间越往后移,相关系数越大。这表明,由Flickr用户标签数据计算得到的区域间概念关联强度更能准确地反映在该数据时间范围之后的区域间贸易交互强度,这意味着本文方法可能具有预测国家之间贸易量的潜力。由图1(a)可知,在这4个指标中,SWE⁃TF⁃IDF指标所得的国家间关联强度能最好地表示国家间的贸易交互强度。

图1 相关性分析结果Fig.1 Correlation Analysis Results

3 结束语

本文以数百万Flickr用户上传的照片中的标签和位置数据为基础,提出了一种标签共现的区域联系分析方法,用4种指标计算出了世界各地之间的概念关联强度。对结果进行相关性分析发现,基于Flickr用户感知的各种空间关联性分析指标都能很好地表示样本国之间的贸易交互强度,并且能更好地表示未来的贸易交互强度,这表明用户感知的空间关联强度对国家间的贸易交互强度有一种导向作用。这也许反映了“第一空间”和“第二空间”不是孤立存在的,在社会历史领域中,“第二空间”总是控制着“第一空间”,即想象的空间控制着具体的(真实的)空间[15]。

与以往试图揭示区域间相互作用强度的研究相比,本文方法是一种新的低成本方法,采用的是集体主观方法,可以避免任意参数化过程,且使用的数据是由分布在世界各地的数百万Flickr用户提供的,故得到的结果更全面。本文方法在缺乏传统社会经济统计数据的情况下尤其有用,且具有很大潜力。为便于同国家的贸易数据进行比较,本文方法仅在国家层面上实现了应用,但只要用户标签数据足够,该方法就可以在任何空间尺度上得到应用。此外,该方法对进出口公司、期货公司、保险公司等都有利用价值,也可以帮助制定国家或地区的社会经济政策。在后续研究中,仍要不断改进,希望在未来能有新发现。

猜你喜欢
关联性关联强度
基于单元视角的关联性阅读教学策略浅探
学贯中西(4):AI的时序性推论技能
燃气热水器性能与关键结构参数关联性分析
“一带一路”递进,关联民生更紧
奇趣搭配
智趣
计算电场强度常用的几种方法
电场强度叠加问题的求解
电场强度单个表达的比较
求电场强度的新方法お