周天绮
(浙江医药高等专科学校医疗器械学院,浙江 宁波 315100)
国外使用GIS技术对人口空间分布的应用研究始于20世纪70年代,其中以美国最为典型。美国于1970-1980年人口普查率先采用了自动化技术,发展了一套地理基础文件,独立坐标地图编码系统[1]。Lanscan基于土地覆盖、坡度、道路、夜间灯光和城市密度等地理因子计算回归方程系数,把人口统计数据空间化到1 km×1 km的格网上[2]。栅格模拟技术在连续的规则格网上描述人口的分布,它的优点是数据被记录在高分辨率的规则栅格上,提供了相对更加详细和精确的人口分布数据[3]。
我国的人口空间分布统计研究始于1957年。2003年廖顺宝等选择一系列影响人口分布的因子,应用多源数据融合技术,生成模拟青藏高原人口分布的1 km×1 km栅格表面[3]。
已有研究中存在的主要不足:1)用自然和社会经济特征综合估计法来间接统计人口密度分布,数据来源不能客观直接地反映人口数据,人口统计数据不够精确,无法提供城市规划、交通、环保等部门需要的更加精确的人口分布数据;2)GIS分析没有充分利用大数据处理技术,统计方法、手段和技术没有及时更新,人口统计既耗时成本又高。
用户用手机发送短信、通话、上网等行为时,可获取用户的时空信息。根据移动通信原理,网络需进行小区切换和周期性位置更新,这种定期产生的大量位置更新信息就形成了位置和轨迹数据[4]。通过对长期不规则采样的手机通话位置数据进行分析和挖掘,采用大数据处理架构,结合ArcGIS强大的地图制作、空间分析能力,可高效开展城市人口的空间分布统计。
利用手机大数据资源,在ArcGIS中建立一套城市人口空间分布统计模型:地图信息模型、人口密度模型、职住地分布模型和报警电话分布模型等。基于ArcGIS和Hadoop集成环境构建城市人口统计平台,实现大数据的空间相关性分析及其数据的可视化表达,分析城市人口的数量密度分布、职住地分布、报警电话热点分布等,为城市人口服务管理、公共安全和经济发展提供决策支持。
手机定位技术是一种不依赖于GPS、具有广阔应用前景的技术,主要包括初始蜂窝小区(Cell of Origin,COO)定位技术、TOA(Time of Arrival,TOA)定位技术、七号信令定位技术等[5]。本文实验采用COO定位技术获取手机用户通话时的位置数据。
COO定位是一种单基站定位技术,它将移动设备所属基站的坐标视为移动设备的坐标,这种定位方法的精度直接取决于基站覆盖的范围。在基站密集的城市中心区域,小区划分得很小,定位精度可以达到50 m以内;越靠近城市边缘,基站分布越分散,小区半径越大,定位精度也会扩大到几公里。
基于COO定位技术的手机通话位置数据记录了手机用户主被叫时连接的基站的位置信息,包括用户唯一识别号、通话时间、基站经纬度等数据。为保护用户隐私,剔除手机号码信息,用户ID用加密后的IMSI号表示。移动用户位置数据格式如表1所示。
表1 移动用户位置数据格式
字段名称字段含义用户ID加密后的IMSI号时间通话发生的时间时长通话时长经度X基站经度X纬度Y基站纬度Y主被叫主叫或被叫区号手机归属地所在区号
利用手机通信过程中产生的用户位置信息开展城市人口空间分布统计,在城市地图网格化的基础上,以相关算法或模型为基础,建立地图信息模型、人口密度模型、职住地分布模型、报警电话分布模型。
根据手机通信时的基站地理坐标,使用ArcGIS软件将其转换为点图层Station[5]。根据这些基站点数据构建Voronoi图(泰森多边形)来表示手机基站的覆盖范围,Voronoi图是由一组两相邻的基站点连线的垂直平分线连接组成的[5]。
先构建Delaunay三角形,Delaunay三角形外接圆的圆心是Voronoi多边形的顶点;然后依次连接Delaunay三角形的外接圆圆心即可得到Voronoi图[5]。Voronoi图具有以下3个特征:1)每个Voronoi图中仅有一个基站点;2)Voronoi图内的点到相应基站点的距离最近;3)位于Voronoi图边上的点到其两边的基站点的距离相等。以上这些特征适合于表示基站信号的覆盖范围,也能反应基站之间的拓扑关系[5]。所以,可用Voronoi多边形替代蜂窝小区,作为实际基站的覆盖小区。
对杭州市地图矢量数据进行地图匹配及几何校正。包括:1)杭州市行政区划图;2)杭州分街道地图;3)杭州市交通小区数据;4)杭州市居民小区分布图等。对GIS矢量数据图层进行坐标转换,使得手机定位数据坐标系与地图矢量数据一致[5]。
按上述方法将城市所辖区域划分成诸多泰森多边形网格,如图1所示。再根据实际情况,将数个、甚至是数十个网格合并成一个工作网格。按行政区域统计人口时,可合并成社区-街道-区三级网格,也可按火车站、大型商场、风景区等人口聚集地来合并网格,以满足不同人口统计的需要。
图1 基站相对应的泰森多边形图层
针对手机通话时的位置数据,按照用户ID进行分组,对样本中的所有用户数据按照用户ID以及时间进行排序[5]。合并每个用户ID连续1小时内的通话记录,将数据整理为每个手机用户一小时一次的基站位置记录[5]。在此基础上根据统计时段内手机连接频率最高的基站位置所属的Voronoi网格进行人口数量统计。
依据圈层结构理论通过圈层人口密度的计算来分析人口密度与城市中心距离之间的关系,反映城市人口的空间分布特征。
首先,选择城市中心,武林广场位于杭州市区几何中心,是杭州市最繁华的商业贸易地段,人口密度最高,所以选择武林广场为圈层密度中心。
其次,将城市划分为内圈层(0~5 km)、中圈层(5~20 km)及外圈层(>20 km)。对应的圈层半径分别为:0.5 km、1 km、2 km,则第i个圈层距密度中心的距离ri可按公式(1)计算:
ri=(ri-1-ri-2)+ri-1
(1)
如果第i个圈层穿越n个街道或乡镇,则该圈层的人口密度可按公式(2)计算:
(2)
式(2)中,ρi为第i个圈层的人口密度;Sn为穿越街道或乡镇的面积;ρn为该街道或乡镇的人口密度[7]。
职住地分析的关键是根据居家和工作不同的时段内用户不同的通话特征通过聚类分析识别出工作地和居住地。空间聚类分析由经纬度组成的二维向量,是多维空间的一个“点”。聚类分析的结果是将这些“点”分成不同“簇”,并且尽可能地将相似性较大的“点”归为一簇[6],形成职住地通话用户的集聚区域。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是基于密度的聚类算法。在整个样本空间点中,各类目标簇是由一群稠密样本点组成的,这些稠密样本点被称为噪声的低密度区域分割,过滤低密度区域,发现稠密样本点。与其他聚类算法相比,DBSCAN不受聚类数目的限制,更适合聚类计算中有多个居住地或工作地的情况[6]。
DBSCAN算法有2个主要参数:
1)E邻域。给定对象半径Eps内的邻域称为该对象的Eps邻域[6]。对象半径Eps值取移动基站的覆盖半径,则半径为E的范围内定位点可视为一簇。
2)核心对象。如果对象的Eps邻域至少包含最小数目MinPts的对象,则称该对象为核心对象。MinPts代表用户最少出现的次数(或阈值),工作地或居住地用户出现的天数至少要达到整个统计时段的1/2。如果用户出现天数超过该阈值,则该用户为核心对象。
某用户夜间睡眠时段定位点与工作时段定位点如图2所示。
图2 某用户夜间睡眠时段定位点与工作时段定位点
采用核密度法分析报警电话在空间分布的总体态势,即报警电话点集数据在几何分布上的特点。核密度估算是在每个报警电话的基站位置上设定相应的核密度函数,然后用该区域内所有报警电话的密度函数来体现报警电话的空间分布规律。假设空间上分布的报警电话X1,X2,…,Xn为单元变量X的独立同分布的一个样本,则X所服从分布的密度函数f(X)的核密度估计为:
(3)
其中,K(u)为核函数,用高斯核函数表示;h为窗口宽度,对估计结果有较大影响。目前对h的取值还没有明确的定义,需要进行多次试验合理进行选择。
通过挖掘110、119、122等报警电话的空间分布,分析公安、消防、交通等安全事故的高发区域和时段,可按月、季度、年度生成各类安全事故的统计报表,以饼图、直方图等多种形式在地图上表现。
ArcGIS通过Geometry API实现与Hadoop交互,通过Geometry API将数据传送到Hadoop上之后,大量的分析工作就交给Hadoop来完成。在ArcGIS中通过Model Builder构建任务模型以便于自动化地执行工作流。
为满足对海量异构移动通信数据的处理要求,构建5层处理架构,自底往上分别是:数据源、计算层、存储层、模型层和应用层,如图3所示。
图3 基于ArcGIS和Hadoop集成环境的处理架构
数据源:电信运营商的各类异构原始通信数据,包括语音信息、用户信息、基站参数等,需要进行数据清洗和转换。首先要屏蔽用户隐私信息,剔除手机号码信息,用户ID用加密后的IMSI号表示。其次要筛选出关键字段[11]。
计算层:开发高速数据交换组件、数据同步组件等,完成高效ETL处理,并能准确匹配到上层定义好的各类计算模型,进行不同的Map/Reduce计算。
存储层:ArcGIS支持PostgreSQL开源数据库。构建基于PostgreSQL的分布式关系型数据库集群和NoSQL存储集群,满足结构化和非结构化数据存储[12]。
模型层:在该层ArcGIS通过Geometry API实现与Hadoop交互,ArcGIS可以从Hadoop的hdfs文件系统中获取数据,并将数据转化为Esri中的几何对象、要素等空间数据进行空间分析。在ArcGIS的建模工具中构建各类模型,并屏蔽存储层的异构模块,向前段应用提供统一的接口。
应用层:通过ArcGIS中的Cluster and Outlier Analysis、Kernel Density、Hot Spot Analysis等工具进行分析,并以可视化方式呈现城市人口的数量密度分布、职住地分布、报警电话热点分布等。
本文实验选取中国移动杭州分公司2017-04至2017-06之间的移动通话数据,根据2017年8月10日公布的《中国移动2017年中期业绩报告》,中国移动用户8.35亿,市场份额占比61.53%,通过该比例可推算出总的人口数量。
ArcGIS中的聚类和异常分析工具(Cluster and Outlier Analysis)计算全局或局部Moran’s I,它可以评估人口的分布是聚集分布、离散分布还是随机分布。Moran’s I的值在[-1,1]之间,Moran’s I接近于1,表示空间正相关,即高高相邻或低低相邻;Moran’s I接近于-1,表示空间负相关,即高低相邻或低高相邻;Moran’s I接近于0,表示空间无相关性,即随机分布。
该工具可使用输入要素类中每个要素的以下属性创建一个新的输出要素类:Local Moran’s I index、z-score、p-value和cluster/outlier type (COType)。如果要素具有较高的z-score,表示和相邻要素有相似值,如果属性值高于平均值,则COType字段是HH,代表具有统计显著性的高值聚类;如果属性值小于平均值,则COType字段是LL,代表具有统计显著性的低值聚类。如果一个要素具有较低的z-score(如<-1.96),则表示空间异常,如果属性值高于周围对象的属性值,则COType字段值为HL,反之COType字段值为LH。
根据移动通话数据分析得到的杭州市人口密度空间分布如图4所示。市区人口密度Moran’s I值为0.46724,z-score得分为9.450127,人口分布的总体特征表现为集聚。杭州人口密度的高值集聚涵盖滨江、上城、下城全境和江干、拱墅、西湖的部分区域;余杭、萧山区的人口分布呈现离散特征,仅在临浦、瓜沥、义蓬、临平、仓前、塘栖等表现为集聚。
图4 杭州市人口密度空间分布图
图5 杭州市人口密度圈层分布图
杭州市人口密度圈层分布如图5所示。“内圈层”人口分布高度集聚,密度极值为17946人/km2,并伴随距密度中心距离的增加递减至174人/km2,比值为103,空间规律符合Smeed模型,体现“核心-边缘”的空间特征。
为了数据的准确性,以3个月(2017-04至2017-06)为一个数据统计周期,居住地用户出现时间设为23点至次日6点,工作地用户出现时间设为9点至17点。这3个月共91天,工作日61天,DBSCAN密度聚类算法中居住地、工作地时间阈值分别取46天、31天。
杭州市居住地分布如图6所示。由图6可知,杭州现已形成3大居住圈:中心居住圈,以老城区为主;次中心居住圈,包括江南城、临平城和下沙城;郊区居住圈,包括塘栖、余杭、良渚、临浦、瓜沥、义蓬等外围组团。
图6 杭州市居住地分布图
杭州市工作地分布如图7所示。工作地主要分布在杭州经济技术开发区、萧山经济技术开发区、余杭经济技术开发区、高新开发区、未来科技城等开发区以及武林湖滨、钱江新城、城北运河等大型商圈。
图7 杭州市工作地分布图
核密度估算是在每个报警电话所在基站的空间位置上设定一个核密度函数,然后用该区域内所有报警电话的密度函数来体现报警电话的空间分布规律。此方法分析报警电话的热点分布不仅可以识别罪案高发区域,还可以形成一个罪案发生密度由高到低连续变化的区域。核密度估算关键是窗口宽度h值的选择。经多次试验将窗宽h设为1 km。
以2017-04至2017-06这3个月中拨打的110报警电话为样本,采用核密度函数对110报警电话数量及分布进行分析,结果如图8所示。
图8 110报警电话核密度估算
3个月共接到报警电话17296起,从报警地点来看,萧山区报警电话次数最多,其次是拱墅区,报警电话次数最少的是下城区和西湖区。拱墅上塘、江干闸弄口、下城东新、江干城东是3个月里报警次数最多的区域。
通过报警电话的热点分布分析可以反映罪案发生的聚集状况,有助于警力资源的合理配置,也可提高公众在相关区域活动时的警觉性。
通过与杭州市2010年第6次全国人口普查和杭州市2015年全国1%人口抽样调查数据分别进行分析对比,上述关于杭州市人口密度分布、居住地和工作地分布情况与普查数据分析结果基本一致;报警电话分布情况与杭州市公安部门发布的治安通报结果相符。说明上述模型可用于移动通信大数据下的城市人口空间分布统计,可应用于城市规划、交通疏导、公共安全等众多领域,应用前景广泛。下一步将通过分析职住比、内部通勤比、内向通勤比等指标对杭州市的职住平衡状态进行评估,为杭州市城市发展规划提供空间大数据服务。
参考文献:
[1] 许亮. GIS支持下的武汉城市圈人口空间分布与预测研究[EB/OL]. http://www.docin.com/p-72961833.html, 2010-08-22.
[2] 王雪梅,李新,马明国. 基于遥感和GIS的人口数据空间化研究进展及案例分析[J]. 遥感技术与应用, 2004,19(5):320-327.
[3] 陈学刚,杨兆萍. 基于GIS的乌鲁木齐市人口空间分布模拟与变化规律研究[J]. 干旱区资源与环境, 2008,22(4):12-16.
[4] 王峰,唐美华. 基于移动通信大数据的城市人口管理解决方案[J]. 移动通信, 2014,23(13):38-41.
[5] 许宁. 基于手机定位数据的居民职住地分布特征研究[D]. 长沙:中南大学, 2014.
[6] 高硕,王铭杨,鲁旭,等. 基于大数据的城市居民职住锚点计算方法研究[J]. 西部人居环境学刊, 2017,32(1):31-37.
[7] 马淇蔚,李咏华. 2000-2010年杭州市人口分布格局时空演变[J]. 经济地理, 2016,36(8):87-92.
[8] 国家统计局. 2016年行政区划代码[EB/OL]. http://www.docin.com/p-72961833.html, 2017-05-16.
[9] CSDN. 基站定位LAC,CID转经纬度[EB/OL]. http://blog.csdn.net/zqrhzyj/article/details/63301690, 2017-03-18.
[10] OneMap. ArcGIS的大数据挖掘和并行处理[EB/OL]. http://blog.sina.com.cn/s/blog_ba3ace5f0101oqla.html, 2013-11-07.
[11] 周天绮,严奥霞. 基于移动通信大数据的流动人口统计中Hadoop的应用研究[J]. 软件导刊, 2015,14(3):36-38.
[12] 周天绮. 基于移动通信数据的流动人口统计中的Hive优化[J]. 软件工程师, 2015,18(7):58-60.
[13] 水真香. ArcGIS统计工具介绍[EB/OL]. http://www.360doc.com/content/14/0721/09/3046928_395863623.shtml, 2014-07-21.
[14] 一凡. 空间自相关分析[EB/OL]. http://blog.sina.com.cn/s/blog_6c6780330101e2ad.html,2014-04-15.
[15] CSDN. 空间点数据分析与ArcGIS[EB/OL]. http://blog.csdn.net/allenlu2008/article/details/46273425, 2015-05-30.
[16] 蹦哒. ArcGIS空间统计分析[EB/OL]. http://blog.sina.com.cn/s/blog_8db49f0e0102wwpc.html, 2016-07-17.
[17] whwyy21c. ArcGIS10中有关空间统计分析的数学公式原理及工具操作汇总资料[EB/OL]. http://wenku.baidu.com/view/ea8d3d55ad02de80d4d840c8.html, 2012-04-10.