周康胜 彭睿哲 李卓
DOI:10.16660/j.cnki.1674-098X.2101-5640-7573
摘 要:本文通过研究西安市市中心位置处未央区、莲湖区、新城区、碑林区、灞桥区、雁塔区和长安区共7个行政区2020年全年的百度地图兴趣点(Point of Interest, POI)数据,对原始POI数据进行梳理与分类,根据旅客出行目的的不同聚类成4大类POI数据:娱乐出行、医疗出行、教育出行、办事出行。然后使用核密度分析方法求得不同大类POI数据的核密度之和,以此得到不同出行目的旅客的目的地聚集区域。本文通过分析发现,不同出行目的的旅客目的地聚集区域也有所差别,其中碑林区及与碑林区接壤的其他行政区是各类旅客出行目的地的热门集中区域,需要防疫部门重点关注。
关键词:兴趣点 大数据 出行目的 新冠疫情
中图分类号:U125 文献标识码:A 文章编号:1674-098X(2021)03(c)-0166-05
Analysis of Passenger Travel Purpose under Epidemic Situation Based on Data of Interest Points
ZHOU Kangsheng PENG Ruizhe LI Zhuo
(College of Transportation Engineering, Changan University, Xian, Shaanxi Province, 710021 China)
Abstract: This paper studies the point of interest (POI) of the center of Xian, including Weiyang District, Lianhu District, Xincheng District, Beilin District, Baqiao District, Yanta District and Chang'an District, coming from Baidu Map in the whole year of 2020. The original POI data are sorted and classified according to the different travel purposes of passengers, which are clustered into four categories of POI data: entertainment travel, medical travel, education travel and business travel. Then, the sum of the kernel densities of different types of POI data is obtained by using the kernel density analysis method, so as to obtain the destination aggregation area of different travel destinations. Based on the analysis, it is found that the destination gathering areas of passengers with different travel purposes are also different. Beilin District and other administrative districts and their adjacent areas are the popular concentration areas of all kinds of passenger travel destinations, which need to be focused by the epidemic prevention department.
Key Words: Point of interest; Big data; Travel purpose; COVID-19 epidemic
2020年全球籠罩在新型冠状病毒肺炎疫情的阴影下,各国经济也因此受到了很大损失,我国虽然成功遏制了疫情的扩散,人们的生产生活已经步入正轨,但仍有零星的境外输入、冷链货物传播等局部疫情的出现,防疫形势依然严峻。通常情况下,有两种防疫的思路:一种是发现患者,根据确诊患者的出行轨迹去寻找其密切接触者,再进行隔离观察、核酸检测等对其是否患有新冠肺炎进行排除;还有一种是倡导不扎堆、不聚集,例如外来人员需隔离一周并做核酸检测才能恢复自由或是通过封闭管理等手段,尽可能地切断传播途径。上述方法虽然有效,但是都有一定的滞后性和实施难度。结合我国疫情实际情况,本文在大数据背景下提出了一种新的防疫思路:通过对庞大的数据进行数据挖掘,探索数据关系,发现以前科学方法发现不了的新模式、新知识、新规律[1],可以构建出旅客的画像,预估其出行目的与方式,对可能的人口聚集区域做出预测,有关部门可以据此加大此聚集区域的防疫力度,最大限度地杜绝疫情的传播。
由于旅客的出行需求多种多样,包括旅行、出差、访友、学习、探亲、科研调查等,而且,疫情背景下的旅客出行目的也有一定的变化[2]。因此本文利用2020年百度地图的兴趣点(Point of Interest,POI)分析疫情后旅客的出行目的,寻找具有不同类型出行目的的旅客目的地的聚集区域,对于提高防疫部门工作精确性,合理部署防疫物资有着重要价值,此外研究城市的兴趣点数据也有助于有关部门和市民对城市功能分布有更好的理解[3]。
POI(一般作为Point of Interest的缩写,也有Point of Information的说法),通常称作兴趣点,它是基于位置服务的核心数据,泛指互联网电子地图中的点类数据,基本包含名称、地址、坐标、类别四个属性;源于基础测绘成果DLG(Digital Line Graphic,数字线划地图)产品中点类地图要素矢量数据集;在GIS(Geographic Information System,地理信息系统)中指可以抽象成点进行管理、分析和计算的对象。
国外对POI数据的研究主要通过用户行为、社会影响、地理因素、时间因素等影响因素分析使用者的后续特征与行为。在提升POI数据预测准确性方面,Liu[4]提出GT-BNMF(Geographical-Topical Bayesian Non-negative Matrix Factorization)模型,把潜在空间抓取观察特征和话题事件的关联与特征值联系在一起。Lian D[5]构建了地理因式矩阵法(Geographical Modeling and Matrix Factorization, GEOMF),用投影梯度下降法解决边界限制的最小平方问题和位置的稀疏性问题。Cheng C[6]为了获取下一位置处的时间,提出factorized personalized Markov chains Localized Region(FPMCLR)模型,将POI预测时考虑周围的栅格值缩减到9个。
国内对POI数据的研究大部分是结合城市地理特征以及交通分布特征研究分析对应的POI网络。周海波[3]提出将滴滴打车的打车点和目的点数据与POI数据结合,拓展城市居民出行行为研究,对智能化网约车具有一定的参考价值。杨健[7]认为POI数据是城市功能区识别的重要参考与补充,将POI数据与OSM路网划分相结合,使城市分区更加合理。
POI聚类分析,核密度分析是了解城市功能区和旅客出行目的的重要手段。之前的研究大部分是围绕POI数据的数量、密度进行统计的,没有考虑到不同类型POI数据之间的影响以及POI数据类型的不同。本文通过收集疫情背景下的POI数据,并将疫情背景下的POI数据按照旅客出行目的进行聚类,再进行核密度分析,寻找具有不同出行目的的旅客的目的地的聚集区域,对防疫工作的高效开展有着一定的参考价值。
1 数据来源与研究区域范围
本文的数据来源于百度地图2020年全年的兴趣点(Point of Interest, POI)数据,选择其中西安市区域范围内约70万条数据作为研究范围。数据文件包含不同兴趣点的名称、类型、地址、邮政编码所属区域等多种属性信息。通过对总体数据的初步筛选,把原始POI数据分为汽车服务、汽车销售、餐饮服务、购物服务、体育休闲、住宿、风景名胜等24大类。数据文件属性释义如表1所示。
2 POI数据出行目的分析
2.1 数据处理
本文利用网络爬虫技术获取有效的信息,通过选取2020年西安市的百度地图 POI(Point of Interest) 数据,从娱乐出行、医疗出行、教育出行、办事出行4个方面表征地出行目的的聚集点。通过查阅相关文献[8]并结合疫情背景与西安市实际,本文选取以下POI数据点代表相应的出行目的:其中表征娱乐出行的相关POI兴趣点,如餐饮服务、购物服务、风景名胜、体育休闲服务、住宿服务等类别;表征医疗出行的相关POI兴趣点,包括医疗保健服务等类别;表征办事出行的POI兴趣点数据如公司企业、金融保险服务、汽车服务、生活服务等类别;代表教育出行的POI兴趣点数据包括科教文化等类别。上述每个大类中又包含若干个小类,如表2所示。
2.2 核密度估计分析
核密度估计(Kernel Density Estimation),由Rosenblatt(1955)和Emanuel Parzen(1962)提出,是概率统计中估计未知密度的函数,属于非参数检验方法之一,核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法,因而在统计学理论和应用领域均受到高度重视。在核密度分析中,每个点上方均覆盖着一个平滑曲面,在点所在位置处表面值最高,随着与点的距离的增大表面值逐渐减小,在与点的距離等于搜索半径的位置处表面值为零,仅允许使用圆形邻域,曲面与下方的平面所围成的空间的体积等于此点的 Population 字段值,如果将此字段值指定为 NONE 则体积为 1。因此每个输出栅格像元的密度均为叠加在栅格像元中心的所有核表面的值之和。如果拟合观察点的方法为采用平滑的峰值函数,并且根据点的真实概率分布进行拟合、根据最近的数据点计算地理中观测点数据分布特征,那么,数据不同点聚合越近,产生的密度值越大[9]。概率密度函数一般形成为:
其中Kernel()为核函数(不等于0、积分等于1,均值为0)。主要的核函数有uniform、normal、triangular、biweight等。w>0,平滑参数,称为带宽。w越大,函数越尖锐,反之越平滑[10]。高斯核函数的表达式为:
表达式中,xcenter为核函数中心,x为不同类型POI数据,ξ为函数的宽度参数。本文利用二次核函数(高斯核函数),核密度分析展现了数据的聚集状况,本文使用核密度对2020年西安市POI数据进行聚类,针对不同的旅客出行目的,具有不同的聚集区域。
核密度值代表被计算要素在其周围邻域中的密度,由于直接计算区域范围内不同类型兴趣点数量,仅能够反映区域范围内不同类型的兴趣点密度,却不能够反映区域周边一定空间范围内不同类型兴趣点的密度信息[9],因此本文使用核密度值代表被计算要素在其周围邻域中的密度,其中某区域核密度的值越高,代表以某种相同目的前往该区域的聚集度越高。
本文利用POI数据分析需求分布的方法为:使用ArcGIS软件,以不同类型POI数据点为基点,设置输出20m×20m的栅格,并以1000m为半径设置核密度计算缓冲区计算四类出行目的的POI兴趣点的核密度,并计算在范围内特定类型的POI 核密度值之和。本文选择西安市市中心位置处的未央区、莲湖区、新城区、碑林区、灞桥区、雁塔区和长安区进行各类地理数据核密度之和的空间分布计算分析,如图1所示。
如图1所示,颜色由蓝到红代表了核密度之和从低到高,颜色越蓝代表核密度之和越低,表示以此为目的地的人数越少;颜色越红代表核密度之和越高,表示以此为目的地的人数越多。其中以医疗出行为目的的旅客的目的地主要集中在碑林区、莲湖区东南部、新城区南部、雁塔区中部、灞桥区东部以及长安区靠近雁塔区的一小块区域;以教育出行为目的的旅客的目的地主要集中在西安市中轴线附近、碑林区、雁塔区北部以及长安区北部的大学城附近;以办事出行为目的的旅客的目的地主要集中在西安市中轴线附近、碑林区、莲湖区与新城区南部、雁塔区北部以及未央区市政府附近;以娱乐出行为目的的旅客的目的地主要集中在莲湖区东南部、新城区西南部、碑林区北部与中部、雁塔区北部靠近西安市中轴线附近以及长安区未央区灞桥区零星分布的区域,可以明显地看出,同一目的的旅客所前往的区域有一定的聚集性,不同目的POI核密度高的地区分布也有一定差别。
纵观四种不同出行目的核密度之和分布,各种出行目的的热门聚集区域主要靠近地铁站沿线分布,各种出行目的地的热门聚集区域都包含碑林区以及其它各区与碑林区接壤的区域,经过实地走访与查阅相关地图,碑林区主要是西安市城墙以内的区域,其中包含了大量的热门景点、著名商圈、省委省政府等政府机关以及多家三甲医院等,是不同出行目的旅客的出行目的地,并且由于位于城市中心地区,这些地区当地人流量本身就十分庞大。因此,碑林区以及其它各区与其接壤部分由于外来人员多需要投放更多的防疫力量,严格落实各项防疫措施;其它各区域可参考本区域的不同类型POI核密度之和,可以构建出旅客的画像,以便更好地了解外来人员来到本区域的目的,并在疫情的环境下合理分配資源,提高防疫部门的精确性,从而及时高效地发现感染者并减少损失。
3 结语
本文首先对原始POI数据进行梳理与分类,根据旅客出行目的的不同聚类成4种POI数据:娱乐出行、医疗出行、教育出行、办事出行。然后使用核密度分析方法得到不同出行目的旅客的目的地聚集区域。本文通过分析发现,不同出行目的的旅客的目的地聚集区域也有所差别,其中碑林区及各区与其接壤部分是各类旅客出行目的地的热门集中区域,需要防疫部门重点关注。此外,旅客聚集的区域随着出行目的的不同发生相应的变化,结合POI的具体属性可以更容易地总结出旅客的出行目的,更准确地实现疫情背景下的旅客出行行为预测以及疫情的高效防控。
参考文献
[1] 王家耀,武芳,郭建忠,等.时空大数据面临的挑战与机遇[J].测绘科学, 2017,42(7):1-7.
[2] 詹庆明,范域立,张慧子,等.利用区域人群流动和新兴交通数据支持疫情防控[J].武汉大学学报:信息科学版,2021,46(2):143-149,202.
[3] 周海波,魏延生,罗洪军,等.基于感兴趣点和滴滴数据的打车需求分析[J].地理信息世界,2019,26(2):60-66.
[4] LIU B, FU Y, YAO Z, et al.Learning Geographical Preferences for Point-of-Interest Recommendation[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2013:1043-1051.
[5] LIAN D, ZHAO C, XIE X, et al. GeoMF: Joint Geographical Modeling and Matrix Factorization for Point-of-Interest Recommendation[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining,2014:831-840.
[6] CHENG C, YANG H, LYU M R, et al. Where You Like to Go Next: Successive Point-of-Interest Recommendation[C]//International Joint Conference on Artificial Intelligence,2013.
[7] 杨健,李朝奎,刘彦.融合OSM路网数据与POI数据的城市功能区识别方法及其应用[J].地理信息世界,2020,27(6):1-6,13.
[8] 张玲.POI的分类标准研究[J].测绘通报,2012 (10):82-84.
[9] 赵鹏军,曹毓书.基于多源地理大数据与机器学习的地铁乘客出行目的识别方法[J].地球信息科学学报,2020,22(9):1753-1765.
[10] 殷俊杰.基于深度学习的兴趣点推荐系统研究[D].南京:南京邮电大学,2020.