■ 邰虹月 TAI Hongyue
在智能手机应用融入日常生活的互联网时代,人们逐渐意识到大数据对于日常生活的重要性。在我们每天使用百度相关应用软件的同时,百度可以通过对用户数据的汇总,整理成可以为城市服务的“大数据”。国内已有学者结合百度热力图进行相关研究:如汪程采取百度热力图与问卷调查相结合的形式,总结了城市中心城区人群在空间利用方面的时空特征[1];冷炳荣使用百度热力图对重庆市区的职住关系进行了研究[2];李娟通过百度热力图识别6 5 8个城市中心,对中国城市多中心发展进行了展开研究[3]。此外,由于巨大的数据样本量,百度热力图在各个领域内的研究价值得到了持续关注[4]。
本文以大连市内五个行政区为研究对象,分别为中山区、西岗区、沙河口区、甘井子区、高新园区,五个区面积共2 4 7 0.7 7 k m2,人口3 7 6.2 7万。
百度地图热力图是百度公司推出的大数据可视化产品,以手机用户地理坐标为基础,对于数据进行后台分析、处理和转换,通过色块冷暖表达人群在城市平面上的聚集程度。需要说明的是,人群的聚集程度仅由颜色的冷暖体现,是一个相对的表达,软件中没有明确的人口密度或聚集程度数值,对于大众而言更加便于理解和感知。使用此数据进行城市研究,需要对数据进行爬取、存档、处理等转换工作。
由于移动数据代表的人口分布与真实的人口分布数据可能存在误差[5],虽然百度地图热力图数据的样本量已经十分庞大,但在研究中也只能说明一定的人群聚集与分布情况或趋势,不能将其看作城市人口的真实分布情况。因此,基于数据本身的特点,本研究忽略对于人口聚集情况真实量值的探讨,重点研究大连市五区内人口聚集或分布的相对情况。
本文通过基于Ar Map软件的百度大数据采集V 1.1工具箱(图1),调试好相关参数,分别爬取2 0 1 8年6月1 0号(周末)与6月1 1号(工作日)两天的热力图数据,从7:0 0~2 1:0 0,每隔1 h爬取数据一次,共爬取热力图3 0张(6月1 0日1 5张,6月1 1日1 5张)。
通过对爬取热力图的初步分析,人群聚集随时间的变化在部分时间段内变化不大,所以选择7:0 0、9:0 0、1 1:0 0、1 3:0 0、1 8:0 0、2 1:0 0六个变化较为明显的重要时间节点。图2中分别为工作日和休息日7:0 0、9:0 0、1 1:0 0、1 3:0 0、1 8:0 0、2 1:0 0大连市五区百度热力图,由于爬取的数据为P N G格式的图片,想要获得具体的数据,需对爬取到的热力图进行再次处理。
将图2中的图片导入Arc Map中,该图片自身具有四个通道,其中命名为“b a n d_4”的第四通道使用2 5 6级灰度来表达图片中数据信息。另外三个通道为R G B色彩通道,第四通道相比之下更利于对于数据进行分类对比。因此,在Arc Map软件中加载第四通道,对于图片本身拥有的数据量值,使用软件自带的自然间断法进行重分类操作。将原有的数值重新分类为7个等级,研究中将第六级和第七级定义为高热区,第四级和第五级定义为次热区。使用该方法对爬取的所有P N G图片数据进行处理,需要注意的是,每张图片本身的数据不同,但对其进行重分类操作中级别划分数值是不变的。完成对于数据的处理之后,各张图片数据就拥有了可以一起对比的基础和依据。处理之后的热力图如图3所示。
图1 软件操作界面截图
图2 工作日、休息日百度热力图
在Arc Map工具箱中,利用栅格计算工具,使用不同等级的热力区像素数值代表该区的面积,分别计算出不同时间点高热区面积占比与次热区面积占比。计算公式为高(次)热区面积占比=第六、七(四、五)级像素数值之和/总像素数值。得出二者随时间变化的折线图(图4、5)。
2.1.1 工作日
图3 工作日、休息日处理数据
总体上,次热区变化明显,高热区变化较小。次热区随时间推进呈现先下降后增加最后下降的趋势,高热区呈现先缓慢上升后下降的趋势。
对于由图表体现出的人口集聚而言,早晨人口相对集中,早晨7:0 0,绝大部分居民还在家中,即对于大连五区而言,人口在居住用地中处于一种相对集聚的状态。到了9:0 0,次热区占比明显下降,可以理解为居民由居住地位移到工作地点,在空间上是一种分散的过程。上午1 1:0 0,次热区占比进一步下降,1 3:0 0,次热区占比基本稳定,与1 1:0 0相比,小幅度下降。证明次热区集聚的人口在午饭时间段没有进行远距离的位移。1 8:0 0,次热区出现了增加,证明居民由工作单位回到了居住地。2 1:0 0,次热区出现小幅度下降,高热区占比也到达最低值。
2.1.2 休息日
由休息日高热区、次热区折线对比图可得,总体上,次热区变化明显,高热区变化趋势较小。
次热区随时间推进呈现波浪趋势,可以理解为,休息日人群的流动与集聚更加随意,并没有呈现工作日那种随时间变化的明显规律。高热区呈现先上升后下降的趋势,即城市人群向少数区域进行集聚,向次热区外进行集聚。于1 1:0 0,高热区占比到达最高值,即人们在此时到达休闲场所呈现集聚。与工作日相比,休息日高热区占比从1 1:0 0~2 1:0 0一直处于较高水平,与居民周日的生活轨迹基本一致。
城市高热区作为城市中人口聚集程度较高的区域,这些区域是表征城市空间使用的重要节点区域。将百度热力图与地图数据进行叠合,可以得出城市人口集聚或分布的空间特征。
2.2.1 工作日
将工作日整日的热力平均值汇聚成图6,大连市五区范围内连续的高热区共有1 0处,结合地图数据对1 0处高热区进行命名,并按照其热度大小排序,依次为:西安路商业圈、中山广场、青泥洼桥、友好广场、大连火车站、华南广场、和平广场、东特购物广场、人民广场、马栏广场。将高热区聚集区域进行进一步整理与整合,总结出高热聚集区域的空间格局相关要素(表1)。由表中可得,高热聚集区用地性质多为商业、商务、办公用地,且与地铁、公交等公共交通要素密切相关。
2.2.2 休息日
休息日大连五区内共有连续高热区1 0个,结合地图分别进行命名,按照高热区面积大小进行排序,依次为:西安路商业圈、青泥洼商业街、华南广场、大连火车站及胜利广场、和平广场、柏威年购物中心、大连市医科大学附属第一医院、西岗区妇幼保健院、马栏广场、东特购物广场。1 0个高热区中有8个具有很强的商业休闲功能,其中:胜利广场、青泥洼、西安路、华南广场基本上是大连市的商业中心区,承载了市民大量的休闲娱乐购物的需求。说明休息日大连市五区内,主要人群集聚活动以购物休闲为目的,商业休闲区是使用强度最高的区域。除此之外,两处高热区是医院,妇幼保健院和大医一院(图7)。
根据表2可知,休息日与工作日人口的聚集在空间上存在明显差异,虽集聚区域仍然多以商业、商务用地为主,但是出现了两处医疗用地,且大连火车站这一城市交通用地集聚程度休息日明显高于工作日。该特征也与居民日常行为特征相符合,即休息日远距离出行频率大于工作日,休息日就医频率大于工作日。
图4 工作日高热区、次热区折线对比图
图5 休息日高热区、次热区折线对比图
图6 工作日高热区空间分布图
表1 工作日五区人群活动分布与空间格局的关系表
大连市中心区工作日和休息日表现出来的共同集聚中心主要集中在百盛、麦凯乐、新玛特等商场及车站、广场等大型公共服务设施附近。主要中心人口过于集中,而次级中心与主要中心之间的衔接作用不明显,建议下一步注重次级中心的设立,使中心区的人流密度得到有机疏散。
一方面,是市中心部分区域的过度集聚;另一方面,是工作日人口在工作时间分散。可以推断出,人口在工作时段分散到了城市的不同区域,这样的趋势长此以往定会带来城市空间的蔓延。所以,对于市区内的就业岗位应该进行合理的引导,例如,组织社区产业的发展,促进居民的社区就业,城市内应该注重就业密度,提升城市空间的使用效率,加快职住平衡工作,减缓城市的无效蔓延。
由于大连市特殊的“蜂腰”地形,城市南北之间的联系必须通过“蜂腰”区域,这样也就解释了西安路商圈作为商业核心,又是南北联系的交通要道,成为高热区聚集的原因。即在后期的城市更新及交通网(尤其是地铁线路)铺开的过程中,应处理好城市用地与交通线路站点的协调,鼓励公共出行,打造以地铁站点为核心的步行生活圈,为市中心区减轻压力。
图7 休息日高热区空间分布图
表2 休息日五区人群活动分布与空间格局的关系表
利用大数据分析城市空间结构,为城市的更新发展提供依据,已经成为了当今规划的热点。本研究使用百度热力图作为数据来源,以大连市五区为研究对象,研究城市人群的聚集情况。介绍了百度热力图软件的特点以及数据爬取软件的使用方法,简要说明了使用此数据进行研究需要的必要流程;以大连市五区为研究案例,使用Arc Map栅格计算工具将数据量化,分析了居民工作日与休息日的时间足迹,将热力数据与地图叠合,分析了居民集聚的空间特征;针对分析,提出大连市五区在城市空间结构、城市蔓延、土地使用、交通组织方面存在的问题,并进行了对策初探。本文仅是利用百度热力图进行了初步的城市人群聚集研究,在今后的城市发展中,大数据必将应用于更加广泛的领域。