黄蔚欣 张 宇 吴明柏 党安荣
随着互联网技术的快速发展,手机等智能终端设备得到普及,促使我们进入了大数据时代。2017年上半年中国手机上网用户突破11亿,人们使用手机的过程中形成了丰富多维数据,特别是其中的包含时空位置信息的定位数据为研究人的活动轨迹提供了可能性。环境行为学致力于研究人在空间里的行为规律,传统调研方法是基于观察、问卷、访谈、拍照等方式实地记录客流行为规律[1-2],效率低下且无法记录大规模和复杂的人员活动。手机定位数据包含客流的轨迹信息,为研究人的空间行为规律提供了全新的途径。在城乡规划设计领域,目前已广泛应用海量定位数据分析城市尺度[3-4]及建筑尺度[5]的空间行为规律。
“十二五”来,我国旅游产业和假日经济发展迅速[6],同时,公众假期带来的景区客流拥堵与出行体验下降,是困扰公众和景区管理者的重要问题。智慧景区的规划与建设旨在促进景区的精明规划、精细管理与精准服务[7],智慧黄山景区是我国智慧景区规划与建设的样板。本文将以智慧黄山景区为例,基于WiFi的时空行为研究方法进行景区客流研究,旨在为智慧景区规划和管理探索新的途径;并对智慧黄山风景在春节与平时的客流进行对比,对客流特征受长假的影响进行挖掘。
景区由景点和游览路径组成,人员从一个景点到达下一个景点一般只能按照已有的路径行进,因而人员活动的区域可以简化为由景点、景点之间的连线组成的拓扑网络。目前有关景区客流轨迹的研究并不多见,而通过对景区轨迹数据的分析可以帮助景观规划师更全面地认知人在景区的行为规律,为景区规划提供客观依据;同时也为管理者提供决策依据,对于提升景区的游览体验、空间品质有重要意义。
人员定位数据的收集有多种定位方式,常用的如GPS定位、RFID定位、蓝牙定位以及本文使用的WiFi定位。GPS定位技术覆盖范围广但精度略低[8],通常适用于城市尺度上的客流轨迹分析;RFID定位技术需要人们佩戴特定的设备才能收集到轨迹数据[9-10],适用于小规模人群精确的轨迹行为分析;蓝牙定位技术虽然定位精度高,但覆盖范围有限,且同时能够抓取到的手机数据量有限[11]。黄山景区面积约1 200km2,高峰期客流量逾4万,不适合用蓝牙、RFID获取人员定位数据;GPS定位技术精度虽然满足要求,但是需要游览者主动上传数据供分析,因此无法通过调研的方式获得大量具有统计意义的数据,特别是对于景区这样有着复杂交通流线的情况来说更是如此。WiFi定位技术有着合适的定位精确度和覆盖范围[12],前期的试验表明WiFi定位具有出色的设备抓取能力,相较而言更适用于景区的客流轨迹数据采集与研究。
轨迹数据指的是人员在一定时期内的各个时刻的空间位置组合而成的数据,主要具有时空序列性、异频采样性及噪声混杂性3个特征[13]。时空序列性是轨迹数据的基本特征,轨迹数据里蕴含了对象的时空动态信息。异频采样性指的是数据的不连续性,设备并不能实时抓取移动设备信息并记录下来,而是间隔一定的时间周期记录采样。噪声混杂性指的是轨迹数据包含连续轨迹离散化、定位精度、其他设备干扰等产生的大量数据噪声。
对轨迹数据聚类是普遍采用的客流轨迹研究方法之一,轨迹数据聚类的一大关键是如何衡量不同轨迹之间的相似度,主要有以下几种方法[13]:严格按照时间维度将轨迹点一一对应计算其欧式距离[14];不要求时间维度一一对应,只考虑轨迹点的时间先后顺序和时间间隔[15];只按照时间顺序记录轨迹并将某一段时空的轨迹用一个时空点代表。基于以上方法得到轨迹和轨迹之间距离的度量标准,再用机器学习里常用的KNN、DBSCAN等聚类方法挖掘轨迹数据里的信息。
在本文的研究中,首先在黄山景区主要景点布设WiFi定位设备,采集客流在黄山景区主要景点的定位数据,然后对数据进行脱敏、清洗、缺失值处理;进而按照游览天数和游览时间划分轨迹数据并对比行为差异,最后用频繁项集挖掘、轨迹聚类的方法研究智慧黄山景区客流轨迹规律,揭示游客行为特征。
根据智慧黄山景区的景点资源空间分布及信息基础设施布局特征,在黄山景区内的主要景点、3条索道上下站以及新国线换乘中心等14个地点布置了共20个用于定位的WiFi接入点。2017年1月19日—2月16日29天里一共收集了约7 800万条定位数据,记录了数据采集的时间、设备的位置和MAC地址以及信号强度等信息。然后对采集到的数据进行脱敏处理,对移动设备的MAC地址进行加密,从而避免数据涉及个人隐私的问题。
布设在智慧黄山景区的20个定位WiFi接入点所采集的数据既具有很高的相关性,又表现出一定的差异性。当然,也需要说明:本次采集到的定位数据存在一定系统性的缺失(图1)。
图1 各设备逐日接收数据量变化曲线(吴明柏绘)
图2 游客在黄山智慧景区游览的天数分布(吴明柏绘)
图3 游客/员工/WiFi定位设备逐日流量变化(吴明柏绘)
图4 WiFi定位设备一天内数据量随时间变化(吴明柏绘)
数据缺失体现在部分设备收集到的数据在一段时间里不完整,如图1所示,迎客松餐厅和光明顶处设备在1月30日后大部分时间没有接收到数据,而2月1日天海3号楼、2月5日玉屏上站和2月11日北海广场处设备的数据量也明显与前后几天的数据量有偏差。调查表明,数据缺失主要是由定位设备断电或被遮挡导致的,一定程度上影响了后期分析。为了降低数据缺失的影响,采用统计方法对大部分轨迹的缺失值进行空间维度上的填充,经检验,填充方法填充准确率约为67%。受篇幅所限,具体的缺失值填充方法在这里不展开赘述。
据统计,游览智慧黄山景区不同天数的人数服从幂律分布,表明游览黄山一天的人数占比最大,之后快速下降(图2)。为了更直观地展现人数的差异,图2中表示人数的纵坐标采用了对数坐标。由图2可知,游览7d以内的人数随时间增长衰减迅速,7d以后趋于平缓,并且数量级降到103。收集到的数据里不仅有游客的手机数据,还有工作人员的设备以及山上带有WiFi功能的设备。
一般可以认为,游客和工作人员的出现天数分布服从不同的规律,而图2中的人数分布是二者的叠加。在这里我们假设出现7d以内的为游客,7d以上的为员工,因为一般游客不可能在约一个月的时间内超过7d在黄山游览。
黄山游客日流量受春节假期的影响出现了明显的规律性波动(图3)。除夕之前游客数量较少,除夕前一天为客流最低谷;除夕到正月初七的春节假期间为游客最为集中的时段,客流在初二、初三达到顶峰后开始快速回落,一直到正月初七才开始反弹;从正月初八到正月初十是客流的第二个高峰;从正月十二(星期六)到元宵节之前是最后一个客流高峰,之后客流回归到节前水平。 相比于游客数量受春节假期的明显影响,员工与其他设备的数量基本保持不变,仅在除夕之后有少量增加,与游客行为的定性判断基本相符,也佐证了前述游客数据分类的合理性。不同地点游客逐时数据变化的趋势不甚相同(图4)。
图5 WiFi定位设备布设点间联系拓扑网络(张宇绘)
表1 客流轨迹的频繁路径列表(长度大于等于5,支持度大于0.2)
1)3条索道的上下站跟新国线都在9:00和15:00左右出现2个高峰,除太平上站之外,早高峰均强于晚高峰,另外售票处的设备晚高峰相比入口处设备要小很多,因为一般在下站买票的游客上山的时间集中在上午,也说明了定位设备的覆盖范围有限。
2)北海、光明顶、迎客松等景点基本为每天只有一个客流高峰,但高峰出现的时间并不一致,北海早于光明顶早于迎客松。
3)西海、狮子林、排云楼的变化趋势也为双峰,早高峰出现在9:00,与索道早高峰相近,晚高峰出现在8:00,为游客返回酒店住宿的集中时间。而天海则为酒店的双峰与景点的单峰叠加。
4)此外,在天海、西海、排云楼和狮子林,6:00左右有一个较小的客流高峰,应该是准备观看日出的游客。
5)各设备处员工的数据量变化同整个景区的变化类似,呈现上下班的特点,酒店和餐厅的员工数量要更多。
从收集数据的方式和数据分析结果来看,可以得到“游客从一个景点位移到下一个景点”及“在其中一个景点”停留2种行为模式。黄山景区面积约1 200km2,要做到全覆盖代价太大,因而我们的策略是在景点、索道等关键节点布设,点和点连接串联成一张拓扑网(图5)。连线对应了客流位移行为,点对应了客流在景点处的停留行为,本文研究了不同位移、不同景点这2种行为模式在时间跨度上的分布,用统计的方法分别对分布进行了拟合。
点和点之间位移的时间跨度近似服从对数正态分布。从数据里提取出轨迹里从一个点到下一个点的时间跨度,剔除其中的异常值,得到图6的频率分布图(图6中蓝色部分),用对数正态分布对其进行拟合,拟合得到的曲线如图6中红色曲线,大部分的拟合结果都十分接近,基本可以认定拟合得到的对数正态曲线能准确描述黄山景区景点之间位移的时间跨度。
不同分布曲线间离散程度差异显著,这和距离以及路线景点有关。一般点和点之间距离越长,时间跨度的分布更离散;图中拓扑点之间的连线并不意味着实际情况的唯一路径。比如从天海到迎客松这段路,中途可绕道去到莲花峰,也可直接走近路到达迎客松,多种游览路径的存在使得天海到迎客松的位移时间跨度相对更分散(对应图6中编号area_id:4 to B)。
客流在黄山风景点上停留的时长近似服从幂律分布。如图7所示,客流的停留时长频率分布图(图7中红点)随着时间增长初期衰减十分迅速,进而考虑用幂律分布对其拟合,得到图7中蓝色曲线,大致准确地描述了停留这一行为时间跨度的分布。注意到部分游客夜晚会在黄山上的酒店住宿,在过夜点上的停留时间偏长,而这种停留行为并不是这里想要研究的,因此在研究分布之前先进行了筛选,去掉了游客在其中一个点停留超过6h的数据。
图6 游客在黄山各段路径点与点之间位移时间跨度分布(张宇绘)
图7 游客在黄山各景点停留时间-跨度分布(张宇绘)
图8 游览一天和超过一天客流上下山索道选择频率分布(张宇绘)
游览一天和超过一天的客流上下山索道选择有相似的偏好,但是在太平索道的使用上存在显著差异。2类客流都最偏好选择从云谷索道上山、玉屏索道下山(YG-YP),其次偏好选择从玉屏索道上山、云谷索道下山(YPYG)。 游览一天的客流里仍有部分人选择从太平索道上山,而超过一天的客流里极少选择太平索道上山(图8)。
游览一天与超过一天到达离开黄山的时间分布有显著差异(图9)。游览一天的人群到达黄山的时间十分集中,在8:00—9:00;而超过一天的人群里则相对分散,除上午到达外,在14:00—15:00还有一波客流小高峰。游览一天的人群相对集中的在15:00点左右离开,超过一天的人群离开时间相对更早,集中在11:00—14:00。图10清晰表明只来一天的人群到达离开时间集中在图上一片区域,而超过一天的人群偏分散,有2个相对集中的区域,这2个区域的分布在到达时间上有显著不同。
以到达每个点的轨迹占轨迹总数的比例得到图示柱状图(图11),对比游览一天和超过一天的轨迹游览地点的差异。除了太平索道的上站(图11编号6)和下站(图11编号5)的位置游览一天的轨迹比例高于超过一天的轨迹,其他位置都是超过一天的轨迹到达比例更高。而排云楼(图11编号2)和西海(图11编号8)2个位置超过一天的轨迹到达比例显著高于游览一天的轨迹比例,超过一天的客流接近80%的轨迹途径排云楼和西海,而游览一天的客流里这一比例仅为40%。
长假对景区客流的影响是本文研究的重点之一。为此,将数据采集的时间设定为春节前一周至元宵节之后。如前所述,春节假期对每日客流量有非常显著的影响,在本节中,将对春节和平时客流轨迹的规律进行更深入的对比。
相对平时,春节时期在黄山游览一天的客流的到达离开时间分布相对更为分散。超过一天的客流到达离开时间分布基本一致,而游览一天的客流到达离开时间的分布在春节期间明显更为分散(图12)。这一现象的原因尚不清楚,有待进一步探讨。
图9 游览一天和超过一天客流到达离开时间分布(张宇绘)
图10 游览一天和超过一天客流到达离开时间分布(张宇绘)
图11 游览一天和超过一天客流游览地点占比(张宇绘)
图12 春节和非春节时期到达离开时间分布(张宇绘)
春节时期部分点和点之间位移行为的时间跨度更长。对春节和非春节时期分别做了4.2节中的2种行为模式时间跨度分布拟合,点上停留时间跨度分布并无明显差异,而部分点和点之间位移行为时间跨度存在显著差异。如图13所示,可以看到诸如天海至玉屏索道上站(图13编号4 to D)和天海至迎客松(图13编号4 to B)两段位移上,春节时期时间跨度明显增长,结合前边的日流量图,可以大致推断为春节时期这些路段上客流量过大出现了拥挤从而导致了时间跨度的增加。
在保留了客流轨迹的时间顺序以及轨迹开始和结束时间信息的状况下,根据PrefixSpan算法寻找到客流轨迹数据里有序集合中的频繁项集,也就是游客游览的频繁路径(表1)。从中可以看出主要有2类频繁路径,一类是云谷下站-云谷上站-北海-光明顶-天海-玉屏上站-玉屏下站(9A014DC),另一类是玉屏下站-玉屏上站-天海-北海-光明顶(CD401)。这些路径是被大量客流所选择的, 是景区中主要的游览模式。
同样在保留了客流轨迹的时间顺序以及轨迹开始和结束时间信息的状况下,基于编辑距离算法计算不同游客轨迹之间的两两距离,再运用DB-Scan进行聚类,得到游览路径的聚类(图14、15)。可以看出游客的游览具有一定的倾向性,从云谷索道上山、玉屏索道下山的游客比例高于从玉屏索道上山、云谷索道下山的游客,此外也有一部分从太平索道上山、玉屏索道下山的游客。
图13 春节和非春节时期点和点之间位移时间跨度分布对比(张宇绘)
图14 基于DB-Scan的客流轨迹聚类频率分布(吴明柏绘)
图15 DB-Scan聚类得到各类别轨迹示意(吴明柏绘)
可以发现,从云谷索道上山、玉屏索道下山的主流游览线路在春节期间所占比例有所下降,而与之反方向的游览线路比例有所上升。未能聚类的轨迹比例从春节之后就开始下降,可能是春节前游客的游览路径更加多样化产生的结果(图16)。
本文以黄山景区为例,通过在重要节点布置能够记录手机WiFi数据的接入点采集数据并进行分析,得到了人们在各个景点停留以及景点之间位移2种主要行为的时间跨度分布规律,按照游览天数和是否春节区分人群,深入比较分析了游览轨迹的差异;通过对轨迹进行频繁项挖掘以及聚类,提取出人们在黄山景区游览的主要路径,并对比其在春节前后的变化。与传统调研方法相比,传感器和大数据相结合的方法呈现出更为全面、客观和深入的特点。
在使用WiFi数据带来全新的景区客流行为模式研究方式的同时,也需要指出,现阶段包括WiFi定位技术在内的各项定位技术还存在需要进一步完善的方面,采集到的定位数据可能存在数据缺失抑或是包含大量无用的噪声,在分析之前需要做相应清洗和填充等处理,以免造成分析结论上的偏差。
WiFi定位是一种常用于中小尺度空间范围的定位技术,在本文的研究中,我们尝试将其推广到空间尺度更大,但交通流线相对简单集中的景区,希望能够找到一种对景区客流进行研究的可行方法。我们相信,使用这一方法得到的轨迹数据除了能够得到本文所呈现的分析成果外,还有更多有价值的信息有待进一步挖掘。并且,结合其他来源的数据之后,数据之间相互印证支持还能形成更深入的洞见。
当然,在实际应用中,如果能在景区增加设备的密度和覆盖范围,长时间记录数据并进行挖掘,实时对数据进行处理,将可以得到更全面、准确和深入的分析结果。依靠大数据分析辅助智慧景区规划,驱动决策管理,对于提升景区游览体验、改善景区管理模式以及应对客流突发状况都将带来全新的可能性。
图16 各类别轨迹频率分布随时间的变化(吴明柏绘)