基于手机信令数据的人口高精度时空分布特征研究
——以天津市小白楼CBD片区为例

2019-10-29 06:34翟国方张义杰
资源开发与市场 2019年10期
关键词:时间段流动规模

陈 伟,翟国方,张义杰

(1.南京邮电大学 地理与生物信息学院 江苏 南京 210046;2.南京大学 建筑与城市规划学院,江苏 南京 210093; 3.南京财经大学 工商管理学院,江苏 南京 210046)

城市人口分布是城市规划、公共服务设施配置、各项政策制定等工作的重要依据,掌握精细尺度下的人口分布信息可为科学合理地决策提供详细的量化基础[1]。由于人口在城市中的分布具有范围和时间上的双重不确定性,这给准确分析其空间分布状态带来了较大困难[2]。在传统的人口密度方法中,根据研究区域尺度和问题的不同,涉及的主要数据类型有人口普查数据[3]、土地利用数据[4]、遥感影像数据[5]、专项调查数据[6]等,数据不同程度地在时效性、误差控制等方面存在不足。此外,评估结果多是静态的,且空间统计单元较大,无法满足细化的使用需求。大数据时代的到来给上述问题的解决带来了契机,结合多源数据类型对人口分布和变化趋势展开分析与模拟逐渐成为较可靠的方法[7-9]。

除传统的密度法以外,当前城市人口分布研究的方法可总结为两大类:首先是基于密度法的各种改进方法,由于大数据的获取具有一定难度,研究中仍需要建立基本的人口密度栅格,然后通过构建模型方法对结果进行优化。戚伟等利用土地利用类型数据,通过“人口—昼夜—土地利用”关系模型和人口空间化模型,对格网单元的城市昼夜人口空间分布特征进行了分析[10];胡曾曾等基于公里网格人口分布数据,运用CA-Markov模型模拟了北京市2015—2030年4期公里网格的人口,并以街道尺度的人口数据验证了模拟结果[11];康停军等通过多智能体模拟实验获得了较高空间精度的城市人口分布,模拟的城市居住分异现象基本符合实际情况[12];凡宸等针对人口统计数据的空间单元较大的现实情况,采取一元与多元回归方法在GIS平台实现了人口密度的降尺度模拟,得到了200m栅格尺度人口数据[13]。第二类为结合大数据的人口分布分析方法,包括间接模拟和直接计算。前者代表为基于夜间灯光数据的人口模拟,原理与密度法相似,缺点是空间精度仍不足,可验证性较差,但相较传统方法已能定量反映出人口的实际空间集聚情况[14-16];后者代表为结合手机信令数据的人口分布评估。由于信令数据能较真实地表征城市人口的分布状态,具有时效性强、覆盖面广等特征,被用于人口空间行为、人口流动、城市热点片区识别等方面的研究,结果可信度较高[17-21]。里克西多等在研究中开发了一种用于收集和处理基于多个运营商网络数据的方法框架,解决了利用移动电话数据来评估泛欧人口密度分布的问题[22];龙奋杰等以贵阳市观山湖公园为例,结合手机信令数据对公园服务人数、服务时长等展开了评价,反映了城市公园的实际服务状态,避免了传统方法缺少数据检验的不足[23];黄建华等、钟炜菁等分别利用信令数据对上海市人流时空分布与移动模式[24]、人口分布与空间活动的动态特征[25]进行了研究。

鉴于此,本文基于电信手机信令数据,以天津市小白楼CBD片区为例,运用Python语言处理数据并设计人员分析模型识别驻留与流动人员属性,结合GIS对区域人员规模总体变化趋势、分地块人数极值时空分布、驻留与流动人员时空分布进行了分析,以期为涉及人口分布的城市问题研究提供参考。

1 研究区域与数据来源

1.1 研究区域

案例区域位于天津市中心城区,属小白楼CBD组成部分,面积约13.47km2。区域内及附近的主要设施与重要功能片区有天津站、意式风情街区、海河文化广场、和平路商业街、中心公园、静园、五大道文化旅游区、天津总医院、天津财经大学、天津外国语大学、天津医科大学、天津大学等,有4条地铁线从片区内部穿过,分别为1号线、2号线、3号线、津滨轻轨地铁9号线,共有站点9处。据调查,片区内建筑较密集,传统风情街区尤甚,低层建筑与高层建筑集中区的边界区分明显。(超)高层建筑主要分布于小白楼地区、海河沿岸两侧和营口道地铁站附近。总体上,研究区域是一处典型的高建筑密度、高人口密度的城市中心区。

图1 按用户ID去重(a)与按坐标计数(b)的结果(11月10日15∶00)

1.2 数据来源及预处理

本文所使用的手机信令数据来源于中国电信,数据时间跨度为2016年11月1日—11月30日,共计51694631条数据,每一条数据都包含了用户ID(手机号加密后)、坐标和活动时间信息。由于数据中涉及庞大的重复用户ID及相同坐标用户,需要对数据进行清洗、去除重复项、相同坐标用户计数等预处理,以在不影响数据质量的前提下减小数据体量,便于在GIS中进行分析,提升运行速度。此外,为了掌握人口的高精度时空分布情况,将每一天数据以小时为单位进行分割,则30天内共计720份分时数据。以上数据预处理过程均通过Python语言编程实现。本文以11月10日15∶00的数据(包括分布于15∶00—15∶59区间的所有数据)为例,提取的原始数据见图1a,去重后总计62989个点(人),同一个位置存在较多的用户ID,且这种现象较普遍,不利于数据的快速处理分析。在点的位置保持不变的情况下按相同坐标进行计数,将数据导入GIS以发现,点的数量降至2936个,人数仍为62989人,即图1b中的每个点都带有人员数量属性,初步呈现了人员活动的“热点”区域。

2 基于手机信令数据的人员分析模型构建

在数据预处理中,尚未区分区域内的驻留人员与流动人员,而人员的驻留或流动属性识别对掌握区域人员构成及其空间分布至关重要。本研究通过构建基于手机信令数据的人员分析模型进行分析,模型以Python语言编程实现,在Anaconda Navigator(Spyder)中进行运算。

2.1 模型说明

根据本研究中手机信令数据的记录规则与统计分析,若某个用户的ID一天之内出现的次数大于6次,且在区域内停留的时间超过4h,则将其标记为驻留人员;若出现次数小于6次或在区域内停留的时间小于4h,则将其视为流动人员。若某个用户的ID仅在7—19点之间出现,出现次数大于6次,且在区域内停留的时间超过4h,则将其标记为白天驻留人员;若仅在7点之前或19点之后出现,出现次数大于6次,且在区域内停留的时间超过4h,则将其视为夜间驻留人员。若某个用户的ID仅在7—19点之间出现,出现次数小于6次,或在区域内停留的时间小于4h,则将其标记为白天流动人员;若仅在7点之前或19点之后出现,出现次数小于6次,或在区域内停留的时间小于4h,则将其视为夜间流动人员。某个用户在区域内的最终坐标以该用户ID出现次数最多的坐标来表示。

2.2 模型参数设定

PN={PN1,PN2,…,PNn}为用户ID的集合,其中N={1,2,…,n};Lj={Lj1,Lj2,…,Ljkj}为用户PNj出现位置坐标集合,其中Kj={1,2,…,kj},j∈N(下同);Tj={Tj1,Tj2,…,Tjhj}为用户PNj出现时间的集合,其中Hj={1,2,…,hj};Cji为用户PNj的坐标Lji的出现次数,i∈Kj(下同),那么Cj={Cj1,Cj2,…,Cjkj}为用户PNj不同坐标出现次数的集合;cj为用户PNj的出现次数;tj为用户PNj第一次出现到最后一次出现的时间间隔,以小时为单位;Aj为虚拟变量,表示用户PNj的身份属性,0表示流动人员,1表示驻留人员;Bj为虚拟变量,表示用户PNj是否为白天驻留人员,0为是,1为否。

2.3 模型构建流程

统计用户PNj不同坐标的出现次数,由此可知该用户出现次数为:

(1)

用户PNj第一次出现到最后一次出现的时间间隔为:

tj=max(Tj)-min(Tj)

(2)

通过cj和tj的值判断该用户ID是否为驻留人员,即Aj的值为:

(3)

当Aj=1时:

(4)

某用户的最终坐标以该用户ID出现次数最多的坐标来表示,即当Cji=max(Cj)时,此时的坐标Lji便为用户PNj的坐标。

3 结果分析

3.1 区域人员规模总体变化趋势

本文对11月1日每个小时段的人员规模进行统计发现,一天内的区域总人口数量呈现出“平稳降低(0∶00—4∶00)—快速升高(5∶00—8∶00)—平稳升高(9∶00—17∶00)—快速降低(19∶00—23∶00)”的总体趋势。

0∶00—4∶00时间段的区域内总人数平稳中有所减少,主要是流动人员活动强度逐渐降低的缘故。区域内的工作人员、路过的通勤人员和其他流动人员的增加,5∶00—8∶00时间段的总人数快速增多。而流动人员活动导致区域内人数在9∶00—17∶00时间段平稳增加,17∶00达到最大。18∶00之后,区域内总人数快速降低(图2)。11月2日—11月30日的人员规模变化趋势与11月1日相似。

图2 11月1日分时间段区域总人员规模统计

从一周内相同时间段的平均人员规模变化趋势看,周五全天的平均总人数较多,17∶00后的增势尤为明显,主要由通勤人员、休闲娱乐人员等在内的流动人员活动强度较大所致;周六、周日上午在7∶00—10∶00时间段的平均总人数均较周一至周五少,这是由其区域功能特性决定的;11∶00—14∶00时间段的人员数量基本与周一至周五同时段规模保持齐平,而随着区域内下午和晚间休闲娱乐人员的快速增加,总人数规模增加明显,尤其是周六的16∶00之后;周一至周四的区域人口变化情况较相似,其中周二18∶00之后的平均人员规模较其他3天少(图3)。

图3 周一至周日相同时间段平均人员规模变化趋势

3.2 分地块人数极值时空分布

人数极值的时空分布分析可帮助了解人员活动的“热点”与“冷点”地块,我们对720个时间段的各个地块人员数量最大值及其出现时间进行统计分析发现,总体上除0∶00、1∶00、6∶00、7∶00以外的所有时间段出现人数最大值地块的人数低值均较小,同时段的地块人数高值与人数低值差异较大,变动较剧烈;0∶00—7∶00时间段的人数最大值地块数量与地块总人数均较少,表明此时区域内没有明显的人员流入;8∶00—19∶00时间段的人数最大值地块数量、地块总人数和地块平均人数均较多,反映出区域内白天的人员活动强度显著高于夜间。此外,在8∶00和17∶00早晚高峰时段出现人数最大值地块的人数高值均较邻近时段大;20∶00—22∶00时间段的最大值地块数量与地块总人数不及8∶00—19∶00时间段多,但21∶00后的地块平均人数有所回升,说明此时有部分地块(如居住地块)集聚了一定数量的人员(表1)。

表1 人数最大值地块的出现时间及相关信息统计

从人数最大值地块出现的时间段分布统计来看,0∶00—6∶00时间段的人数最大值地块数量仅占总数的0.68%,而6∶00—18∶00时间段的占比达到了87.91%,18∶00—0∶00时间段的占比为11.41%(图4)。

图4 各时间段人数最大值地块数量及占比

按照周一至周日的日期统计发现,周五出现的人数最大值地块数量、地块总人数及地块平均人数均较多,周三、周二、周四分别次之,周一较少;周六、周日出现的人数最大值地块数量为32个,但周六的地块总人数、地块平均人数较多。总体上,地块人数的高值与低值的变动较为剧烈(表2)。

表2 周一至周日人数最大值地块信息统计

对人数最小值地块的分析发现,在720个时间段内,最小值为0的地块有217个,小于10人的地块有249个,大于10人的地块有49个;有44个地块在超过1/2的时间段中最小人数为0,仅有80个地块在全部时间段均显示有人员活动。总体上,超过95%的地块于晚间出现人数最小值,其中在1∶00出现的人数最小值地块数量最多,为142个,占比达48%;22∶00、2∶00、4∶00、3∶00、0∶00时间段出现的地块数量分别次之(图5)。

图5 人数最小值地块的出现时间及地块数量、占比

地块最大人数分布及最大人数出现的时间见图6。从图6可见,天津站及其周边地区、大王庄地铁站、十一经路地铁站至海河之间的区域、小白楼地区、和平路商业街、营口道地铁站及其周边地区等片区的地块人数最大值均较高,属于人员活动热点区域(图6a)。地块人数最大值出现的时间见图6,即出现数据极值的具体日期与时间段。

3.3 驻留与流动人员时空分布

源数据既包含区域内的驻留人员,如工作人员、居住人员等,也有非区域内的通勤人员、休闲人员、旅客等流动人员,且流动人员较多。为掌握驻留、流动人员在区域内的变化趋势与空间分布情况,运用前文构建的人员分析模型识别人员属性,结果发现除了11月4日、19日的人员变化较为剧烈以外,驻留、流动人员数量的变化趋势总体上呈现出以下特征:①不论是在白天还是夜间,驻留人员和流动人员各自的总规模略有变化但相对平缓;②全天的流动人员规模远大于驻留人员规模;③白天的流动人员规模远大于夜间流动人员规模;④夜间驻留人员规模大于白天驻留人员规模(图7)。

图6 地块最大人数(a)及最大人数出现时间(b)

图7 11月1日—11月30日大于/小于4h停留时间人数变化趋势

本文将模型计算结果导入GIS以分析各个地块的驻留、流动人员数量,具体包括白天驻留人员、夜间驻留人员、白天流动人员及夜间流动人员,以11月1日的地块二为例,对应的人数分别为725人、1275人、1103人、545人,说明该地块在白天的人员流动性较大,而夜间驻留人员数量多于白天,表明可能含有居住建筑。对11月2日—11月30日的数据继续展开分析,各地块停留时间大于或小于4h的30天平均人数见表3。

表3 各地块大于/小于4h停留时间人数统计(30天平均)

在空间分布方面,夜间驻留人员的空间分布差异较白天驻留人员而言更为明显,总人员规模也较大,多分布于天津站及周边地区、大王庄地铁站、十一经路地铁站至海河之间的区域、营口道地铁站及其周边地区等;夜间流动人员的空间分布差异较白天明显,但流动人员总规模远不及白天。总体上,区域内全天的驻留人员与流动人员在空间分布上存在着一定的关联特征,即驻留人员多的地方流动人员也较多,局部地区略有差异,但人员规模差距较大(流动人员多)。对热点地块来说,驻留人员与流动人员的规模均普遍较其他地块大(图8)。

由于使用电信服务的人员数量在研究区域内的占比未知,已分析的地块人员规模并不能代表其全部人员数量。结合图7的分析过程可知,基于电信手机信令数据分析得出的夜间平均驻留人数为24557人,而根据区域内带户数信息的小区、公寓、宿舍等居住建筑分布情况的POI数据,估算出夜间总居住人口约263539人。前者与后者的比值即近似为区域内电信服务的市场占比,约为9.32%,将所有日期的白天驻留人员、白天流动人员、夜间驻留人员、夜间流动人员分别按照此比例进行校正,即可得到各自的实际人员规模。

图8 大于4h(a)与小于4h(b)停留时间人员的总体分布(30天平均)4 结论

基于手机信令数据,运用Python语言编程和GIS对天津市小白楼CBD片区的高精度人口时空分布特征进行了探索,主要结论为:①区域人口规模在研究时段内遵循“平稳降低(0∶00—4∶00)—快速升高(5∶00—8∶00)—平稳升高(9∶00—17∶00)—快速降低(19∶00—23∶00)”的总体变化趋势。从一周内相同时间段的平均人员规模变化趋势来看,周一至周四的人口变化情况较相似,其中周二18∶00之后的平均人员规模较其他3天少;周五全天的平均总人数最多,17∶00后的增势尤为明显;周六、周日上午在7∶00—10∶00时间段的平均总人数均较周一至周五少,11∶00—14∶00时间段的人员数量基本与周一至周五同时段规模保持一致,而下午和晚间总人数规模增加明显,尤其是周六的16∶00之后。②在720个时间段内,于6∶00—18∶00时间段出现人数最大值地块的数量占比达到了87.91%,空间上主要分布于天津站及其周边地区、大王庄地铁站、十一经路地铁站至海河之间的区域、小白楼地区、和平路商业街、营口道地铁站及其周边地区等片区。同时,该时段的地块平均人数较多,反映出区域内白天的人员活动强度明显高于夜间。此外,在8∶00和17∶00早晚高峰时段出现人数最大值地块的人数高值均较邻近时段大。总体上,周五出现的人数最大值地块数量、地块总人数及地块平均人数均较多,周三、周二、周四分别次之。对人数最小值地块的分析发现,有44个地块在超过1/2的时间段中最小人数为0,仅有80个地块在全部时间段均显示有人员活动。在时间分布方面,超过95%的地块于晚间出现人数最小值,其中在1∶00出现的人数最小值地块数量最多。③驻留与流动人员数量的变化趋势呈现出各自在白天和夜间的总规模略有变化但相对较为平缓,全天的流动人员规模远大于驻留人员规模,白天的流动人员规模远大于夜间流动人员规模,夜间驻留人员规模大于白天驻留人员规模等显著特征。在空间分布方面,区域内全天的驻留人员与流动人员存在着一定的关联特征,即驻留人员多的地方流动人员也较多,局部地区略有差异。夜间驻留人员多分布于天津站及其周边地区、大王庄地铁站、十一经路地铁站至海河之间的区域、营口道地铁站及其周边地区等,空间分布差异较白天驻留人员而言更为明显,人员规模也较大;夜间流动人员的空间分布差异也较白天明显,但总规模远不及白天。

猜你喜欢
时间段流动规模
科学创新人才的适度规模培养
50亿元!目前规模最大的乡村振兴债券发行
2020年我国机器人产业规模达1000亿元
夏天晒太阳防病要注意时间段
流动的光
发朋友圈没人看是一种怎样的体验
Mentor Grpahics宣布推出规模可达15BG的Veloce Strato平台
“三天后”是啥时候?
为什么海水会流动
雨点