基于时空数据的驻留行为特征可视分析

2023-02-20 09:38马小东赵凡任芃锟
计算机工程 2023年2期
关键词:视图场所时空

马小东,赵凡,任芃锟

(1.中国科学院新疆理化技术研究所,乌鲁木齐 830011;2.中国科学院大学,北京 100049;3.新疆民族语音语言信息处理实验室,乌鲁木齐 830011)

0 概述

时空数据是指具有空间和时间维度的数据,通常用来描述某一对象的空间信息随时间变化的状态。随着城市数字化转型,城市中大量商业性场所每天会产生海量的驻留行为数据[1-3]。驻留行为数据是一种特殊的时空数据,是指用户在某时间点进入驻留场所,在驻留场所停留一段时间,在另一时间点离开驻留场所产生的行为记录数据,常见场所如网吧、停车场、酒店等人员流动发生频繁的场所,这类数据记录了大量用户在相同或不同的驻留场所及其驻留时间长短的信息,从中可以分析发现用户发生驻留行为的模式,挖掘用户间行为的相似性与相异性,判断用户间是否存在时空伴随关系,从整体上分析驻留场所的流量来源及其分布。相关文献[4-5]与研究成果在智慧城市建设与管理、营商环境改善、数字化经济提升等方面均具有重要作用。

针对驻留行为数据的分析,现有方法采用数据统计分析、机器学习等技术对海量时空数据进行挖掘[6-7],如何用更灵活有效的方式发现驻留行为数据并挖掘用户间潜在的时空伴随关系是该领域的难点和重点。数据可视分析技术能有效分析驻留行为数据,根据用户驻留行为数据的时空分布,总结用户行为模式,简化复杂的时空数据,直观发现用户伴随关系,提高分析人员的效率和分析方法的正确性。本文以两个真实数据集为基础,使用可视分析技术对原始数据进行处理,提取相关的时空特征并发现用户伴随关系,同时以驻留场所不同时段的用户来源及流量分析为目标,设计多种可视分析视图,实现交互式的可视化系统。

1 相关工作

驻留行为数据与签到日志数据较为相似,许多研究对签到日志数据进行分析并优化资源分配,为相关行业提供支持[8-10]。文献[11]使用社交媒体签到数据,通过聚类方法对城市热点区域进行探索,分析得出租车不同的需求区域。文献[12]利用商场的WiFi 日志来分析用户偏好,基于时间特征和偏好为用户推荐商品。文献[13]提出结合关联聚类与社交模式聚类的分析模型,对社交网站的用户活动进行分析,探索相似的用户活动。针对日志类数据的稀疏性,文献[14]采用动态子空间策略,在多个时间片上分析相似行为,减少参数设定对结果的影响。文献[15]提出一种基于分布式的SimRank NMF 社区发现算法,解决大规模复杂网络中社区发现质量低下的问题。文献[16]对超市日志数据进行分析,了解客户的消费偏好,从而改善经营情况。文献[17]结合哈希迭代剪枝算法与摘要信息剪枝两层算法,有效去除算法中间冗余结果。

可视分析技术越来越多地用于探索用户行为模式,利用可视分析技术对海量复杂的时空数据进行分析成为可视化研究的热点方向。文献[18]提出一种基于隐喻的象形视图结合热图的方案,通过多种视图交互探索用户的空间移动模式。文献[19]使用基于像素的围巾图和时空立方体图来可视化访客记录数据,分析人员移动模式,在会场、商场中有重要的应用。文献[20]使用时间柱状图、平行坐标图以及嵌套饼图的空间分布热力图,分析犯罪数据的多维属性。文献[21]提出边缘采样方法,利用边缘重叠度减少MSV 的视觉杂波影响,同时保留通信的时变特性。文献[22]将地理热力图和打包图相结合,探索公共交通系统中具有相似移动模式的人员,用两个嵌套的环状元素对比两对象间多时段的移动模式。文献[23]通过结合词云图、时间河流图、地图以及带有释义的立方体视图等多视图,探索社交媒体数据的时空模式。文献[24]使用地理地图发现移动人员的行为规律。文献[25]使用多维数据可视化技术,对群体行为规律与模式采用模糊聚类算法,发现具有相似行为模式的用户。

根据驻留数据产生的时间跨度长且稀疏的特点,综合上述分析方法和可视化技术对驻留行为数据的分析,仍存在时间跨度上伴随关系发现不完善、无法在多个时间片上对数据进行可视分析探索、数据的多维度可视化表达不明确等问题。因此,本文使用改进的可变滑动窗口算法并结合可视分析技术,设计多变量表达的示意性地图、用户关系图、时间甘特图、径向条形图、日历热力图等多种视图,通过多视图交互分析驻留行为数据,展现数据的多个维度,支持探索不同时段的伴随关系和流量统计分析,发现数据背后隐藏的行为模式。

2 驻留行为数据分析

驻留行为数据包含大量用户出入不同场所的流动信息,从中能够得到具有时空伴随关系的用户,并运用有效的可视分析技术挖掘用户驻留行为规律,对营商管理者有着重要的意义。

2.1 数据描述

本文使用的数据集是2019 年9 月—2019 年11 月新疆维吾尔自治区网吧记录以及停车场记录数据集。在两个数据集中对涉及个人及场所隐私信息的数据字段,均做脱敏处理。每条驻留行为记录可以表示为用户d(人员或者车辆)在开始时间戳t时进入某驻留场所s,在结束时间戳t′时离开,生成一条驻留记录R。全部驻留行为记录可以表示为Ri={di,ti,,si},i=1,2,…,N,其中:si={xi,yi,ni},x、y表示驻留场所的经纬度坐标,n表示驻留场所名称编号信息,i表示该用户的第i条驻留行为记录;用户d包含用户的唯一标识等信息,如人员的ID、车牌号、籍贯等。

由于营商场所的日均人流量很大,因此通过产生的数据可以分析用户的驻留行为模式,同时人员流量分析也是非常重要的,以便分析者更好地了解驻留场所的流量情况。本文的目标是使用可视分析技术发现具有相似行为模式的用户和分析驻留场所流量变化,分析任务具体为:1)从大量的驻留数据中发现具有时空相似关系的用户,结合可视分析技术验证其合理性;2)通过驻留数据分析各个驻留场所的人员来源,为场所管理人员的管理和经营提供便利;3)基于驻留数据展示不同人群的流量变化,并从中分析人员的移动规律。

2.2 系统架构

根据驻留行为数据特征和分析任务,设计并实现时空伴随关系发现及流量分析系统,该系统包括数据处理、数据分析、数据可视化3 个模块,如图1 所示。数据处理模块是对原始数据进行处理,提取重要特征。数据分析模块是对用户行为模式进行挖掘,发现具有伴随关系的人员。数据可视化模块使用用户关系图结合时间甘特图对用户间的伴随关系进行分析验证,设计多种可视化视图对驻留场所的流量分布、来源等特征进行多时段的可视分析。

图1 系统流程Fig.1 System process

2.3 驻留行为数据

在驻留行为数据分析阶段,以具有较为明显的时空伴随关系的网吧数据为基础,采用改进的基于可变滑动窗口的数据挖掘算法。

首先,为了减少偶然因素,将上网记录数量少于3次的用户剔除(数据集中最大上网次数为22 次),将每条上网记录的开始上网时间戳t、结束时间戳t′、网吧编号n、用户ID 表示为Li=[di,ti,,ni],i=1,2,…,N。将这些数据按照上线时间升序排列。

其次,设置时间阈值为1 min,将初始滑动窗口大小设为第一条记录上线时间到阈值时间区间内所包含的记录个数,滑动窗口大小随着数据分布变化,计算所有滑动窗口大小与位置。当窗口滑动时,记录窗口内所有记录的下线时间和驻留场所地点并分别进行对比,并记录时间差在阈值时间区间内的次数,若两次记录在同一场所内发生,赋予权重为1。

最后,利用用户之间的权重,构造用户关系图的节点信息和边信息,为时空伴随关系视图的可视化进行数据准备。

3 可视分析系统设计

3.1 多变量表达的示意性地图

在分析各个驻留场所的数据时,设计多变量表达的示意性地图,通过对行为模式分布的可视化,得到该驻留场所多个维度的分析情况,对场所内的流量、人员的来源分布、平均驻留时长等基本情况进行展示。

基于地理视图的流量统计可视化方法的不足之处主要为:1)由于地理地图划分不规整,存在一些区域或行政地区的形状和轮廓不连续,在统计地区特征时,视觉元素会有遮挡,从而无法精准得出对比结果;2)可展示维度有限,对于统计型地图,区域的属性值才是重要的可视化要素。

因此,本文设计多变量表达的示意性地图,如图2 所示,示意性地图是一种以对象的大小来表示地理对象特征的图形表达方法,使用数学法则对地图进行变换,使地理对象间的距离或者区域的面积与需要表达的某个特征值成比例关系,进而得到另一种地理视图的表达。

图2 多变量表达的示意性地图设计过程Fig.2 Design process of the schematic map of multivariable representation

图2(a)表示单个图元的形成过程,其中:圆表示一个来源地点,圆的大小表示单数值特征,比如该地点的总人流量;圆内嵌套环状元素表示分类数据特征,如该类流动人口的平均驻留时长等;环内嵌套折线图展示了具有时序特征的数据,比如一个时间段(日、周、月)内流量随时间的变化。在图2(b)中,折线图将一天24 h 分为12 个时间段,对各时段的流量进行可视化。在示意性地图中加入了各类数据的表示图例,以及对特定时间片的交互探索,鼠标悬停相应的元素显示该数据的大小或比例。多种变量的表达将多个视图结合成一个视图,可以对数据的多个维度进行充分描述。

多变量表达的示意性地图生成算法具体如下:

算法1多变量表达的示意性地图生成算法

3.2 时空伴随关系视图

在探索用户间时空伴随关系时,设计基于力导向的关系视图结合时间甘特图表现具有时空伴随关系的用户,如图3(a)所示。在用户关系图中:每一个圆形节点代表一个用户;节点的大小代表用户驻留行为发生的次数;两个节点之间的连线表示时空伴随关系,是指两个用户的驻留行为数据记录中存在驻留场所一致,以及驻留开始与结束时间区域存在重合现象;圆的颜色表示该用户伴随关系发生的次数,对于伴随关系发生不频繁的节点在视图的边缘位置,对于有频繁伴随关系的节点加入交互操作,鼠标悬停相应的节点后会单独显示与该节点有伴随关系的节点;左上角显示节点ID、上网次数、籍贯、生日等信息,支持对感兴趣的用户进行搜索。

在进一步探索用户间的时空伴随关系时,系统使用时间甘特图展示多个用户间的时空伴随关系。甘特图展示了用户间的驻留行为发生的时间区间和场所,从而判断两个用户在时间和空间维度上是否有重合现象出现。在时间甘特图中:横坐标表示时间片上的各个时间点;纵坐标表示每次驻留行为发生的用户ID。若该用户在某个时间片上发生了驻留行为,则相应的横纵坐标对应的区域会有条状矩形显示,坐标轴下方是数据的缩略图,支持刷选框的滑动,灵活探索时间多尺度的驻留时长,如图3(b)所示。当鼠标悬停在条状元素上时,显示驻留场所编号、开始时间及结束时间等信息,其中条状元素的灰度颜色表示驻留行为发生的场所,若两个用户在同一时间片及同一驻留场所内有行为记录,则被视为具有时空伴随关系。

图3 时空伴随关系发现Fig.3 Discovery for spatio-temporal adjoint relations

3.3 统计特征视图

系统使用空间特征视图来展示驻留场所的空间特征分布,使用直观的地理地图展示用户驻留行为数据的空间分布。在空间特征分布视图中,每个点表示一个驻留场所,点的大小表示该驻留场所的流量大小,如图4(a)所示。空间特征分布视图支持缩放和点击交互操作。通过缩放来查看数据集整体的人流量的空间分布以及场所周边的地理信息。点击操作可以联动其他视图以展示该驻留场所的人群来源、各时段流量分析等。鼠标悬停在相应的驻留场所(即黑色圆点),显示场所地点、场所流量排名以及热度等信息。

在对驻留场所不同来源的人群进行行为特征可视分析时,采用径向条形图来统计不同年龄阶段的驻留行为模式,每个环表示一个类别的统计,环内是每个类别的数据占比,环的底部交互显示驻留场所的名称以及该驻留场所在此类场所中的热度和排名,最下方显示该驻留场所的本地人口与外来人口的占比。图4(b)是径向条形图的初始状态,交互选择驻留场所时会填充相应数据。

系统使用日历热力图来展示更大时间范围内的驻留行为数据,目的是便于分析特定时间段内的驻留行为特征,如图4(c)所示。每一个小矩形代表一个日期,该矩形颜色的深浅表示对应日期内的驻留行为发生的数量,该视图联动空间特征视图,可以探索感兴趣驻留场所的特定时间段的行为特征分布。图例显示每个流量区间所对应的颜色,支持筛选操作,选中图例可以显示对应区间的数据,点击相应的日期会显示当天的驻留行为记录数据量。

图4 统计特征视图分析Fig.4 Analysis of statistical characteristic views

4 案例分析

本节通过分析两个具体应用场景中的案例以验证本文可视化系统的有效性,分别是使用网吧记录数据进行用户间时空伴随关系的发现与使用停车场记录数据进行人员流量的来源及其时空分布分析。

4.1 网吧记录数据集分析

用户在相同网吧和一定的时间间隔内开始上线或者下线,被视为具有时空伴随行为的关系。当用户间具有一次伴随行为发生时,伴随关系作为边,连接两个用户节点。用户关系图中选择感兴趣的用户节点进行该用户的驻留行为特征分析,可以看出大量用户的伴随关系发生次数为1~3,少量用户的伴随关系比较复杂,与多名用户的上网记录均有时空伴随的现象,如图5(a)所示。为验证时空伴随发现算法的有效性,系统使用时间甘特图来详细展示用户间的驻留行为模式,如图5(b)所示。

图5 时空伴随关系发现及用户行为特征展示Fig.5 Discovery for spatio-temporal adjoint relations and display of user behavior characteristics

由图5 可以看出,在用户关系图中,选择框中上网次数较多的节点,关系图简化为以该用户为中心的伴随关系图,可以发现该用户的上网记录数量为7次,与8 名用户有多次时空伴随行为发生,通过观察这8 名用户(纵轴从上至下依次称其为1~8 号用户)的驻留记录发生的时间和场所,1 号用户共在3 个不同的网吧(不同灰度的条状元素表示不同驻留场所)进行过驻留,部分用户的驻留行为记录数据均在一个网吧中产生。通过下方刷选区域可以拖动查看整个时间片上的驻留行为记录分布,鼠标悬停在相应的时间记录上,查看用户具体记录的开始时间和结束时间以及驻留场所。两用户的时空伴随关系在视图上体现为:在对应的时间片上若对应位置有相同颜色的条状元素,则有伴随行为发生,若对应位置空白,则不存在伴随关系。

4.2 停车场记录数据集分析

对数据集中所有停车场的记录进行筛选,选取2019 年9 月—2019 年11 月新疆维吾尔自治区所有停车场记录进行分析。数据集中的多个停车场分布在不同的地区,其中某些停车场位于人口密集的商圈,大量异地车牌进出停车场,因此采用多种视图结合分析这些车辆的驻留行为模式及停车场流量,如图6 所示。

图6 特定场所的流量分析Fig.6 Traffic analysis of the specific sites

在空间分布视图中,可以直观地看到数据集整体的流量空间分布,利用百度地图API 可以查看驻留场所周边地理位置,分析车辆来源情况。如图6(a)所示,由于部分停车场之间流量差异较大,空间分布视图选择颜色编码,颜色越深表示流量越大。选中热度排名第一位的停车场进行分析,可以看出该停车场3 个月内流量高达30 万以上,放大地图查看后发现该停车场位于昌吉市区商圈中,周边有多个餐饮及商超,是市区内客流量最大的商场。

如图6(b)所示,筛选该驻留点的多变量表达视图中流量排名前两位的场所,鼠标悬停在相应的圆上显示来自该场所的车流量,流量变化的具体数量也会显示。鼠标悬停在较大圆环上,交互显示新B车牌流量为148 091辆,较小圆环则表示来自新A 的车牌流量(流量越大,表示该场所的圆环半径越大),占该驻留点流量的很大一部分。

如图6(c)所示,两场所车辆的平均驻留时长有所区别,本地车牌的平均驻留时长要大于外地车牌。在一天内的流量变化中,多个时间段的流量变化基本符合一般认知和规律:在02:00 后车流量基本为零,白天车辆较多。但是在00:00—02:00 这个时段内本地车流量比白天工作时段车流量还大,经过对多个人员年龄段进行分析,可以得出其中青年人群数量高达90%,且多数为本地人口,这种情况可能是为了促进城市经济发展,大力发展夜间经济,吸引年轻人。

如图6(d)所示,当前驻留场所记录从2019 年9 月直至2019 年11月,可以发现客流量比较规律,周六周日流量明显多于工作日,在十一期间流量达到高峰。对于方框中所有数据均为0 的日期,推断可能是设备故障等原因,通过对2020 年数据进行分析后,发现该场所同时间段内数据依然为0,经过调查得知,该时间段为商场店庆,停车场免费开放,因此无数据记录产生。

5 结束语

本文基于驻留行为数据,设计一种交互式的可视分析系统,使用可视化视图发现具有时空伴随关系的用户,对驻留场所的流量分布、来源等特征进行多时段的可视分析。可视化视图包含多变量表达的示意性地图、空间特征视图、时间甘特图、热力日历图等多种视图,具有良好的可拓展性,适用于旅游数据分析、城市功能区分析等业务场景。通过网吧和停车场两个真实数据集的案例分析验证了该系统对于驻留行为数据的可视分析任务的有效性。下一步将对多视图之间的交互联动方式进行研究,运用人机交互技术增强可视化系统效率,提升用户界面的交互体验。

猜你喜欢
视图场所时空
跨越时空的相遇
镜中的时空穿梭
听的场所
2020年5月全市场发行情况(按托管场所)
远离不良场所
玩一次时空大“穿越”
5.3 视图与投影
视图
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图