刘 黎,胡海波,杨 涛
(重庆大学大数据与软件学院,重庆 400044)
随着我国综合经济实力的不断提高,会展业得到了飞速的发展,出现了各种类型的会展,促进了各行业领域的交流与发展。现代会展内容涵盖多个组成部分,会场由多个不同功能的场馆组成,参会人员数量庞大且有着不同类型。比如2019中国可视化与可视分析大会[1]内容涵盖各种报告、海报、展览、专题研讨、挑战赛,主要场馆包含主会场(共3个厅)、两个分会场、展厅、海报区,参会人员的类型包括国内外知名学术学者专家、普通会员、参展商、工作人员、媒体及志愿者等。因此,在会展环境下产生的时空数据具有数据量大、数据附加信息复杂等特点。而数据采集设备、系统误差及采集方式也会对数据质量产生诸多影响。
一般情况下,用户不仅关注整体的规律,也关注细节的变化;不仅关注轨迹,也关注轨迹的属性。有效地处理这种需求对于传统的数据分析系统来说是一项具有挑战性的任务。可视化旨在以可理解的形式呈现复杂的数据,帮助用户提高理解能力[2]。对于有效地分析时空数据,可视分析是一个有价值和经过验证的方法[3-4]。我国重点专项2018年度申报指南提出“研究大数据的可视化技术,开发面向领域和大众的可视化工具库”[5]。因此,本文设计了一个可视分析系统(Visual Analysis system for Spatio-Temporal Exhibition Data,VASTED)来实现对会展时空数据的探索与分析。本文工作主要贡献如下:
1)集成了一个可视分析系统,结合丰富的交互,帮助用户从整体的角度分析参会人员的类型及移动规律,从细节层面发现可能的异常事件。
2)利用并改进了三维地图和甘特图。三维地图用于表示参会人员空间位置分布及轨迹线,甘特图用于表示时间、语义位置和速度属性。
现代运动跟踪技术,如GPS(Global Positioning System)、RFID(Radio Frequency IDentification)等,允许大规模的时空数据被采集。所采集的时空数据涉及到诸多领域,如运输管理、军事监视[6]、商业选址[7]等。近年来,在学界有很多关于时空数据可视分析应用与研究的工作。在具体应用方面,李致昊等[8]针对基站轨迹时空数据,设计了一个可视分析系统从时空的角度来探索城市区域功能和用户行为的关系。Liu等[7]设计了一个交互式的可视化分析系统,用于处理大规模出租车轨迹数据,以解决广告牌的选址问题,但该工作更多的注意力集中在了整体层面的分布、聚集,缺少对细节方面的探索。Orellana 等[9]结合时间、空间信息,可视化游客在公园的集体空间行为,显示整体、局部以及个体层面的流动情况,为公园更好的管理提供决策支持。Bast等[10]提出了一种可扩展的实时公共交通数据可视化方法,显示公共汽车、地铁、火车和渡轮的实时移动,来对相关交通信息进行统计,对路线做出规划。在研究方面,Wang 等[11]研究了用时间线(甘特图技术的一种实现形式)及其扩展形式对轨迹进行可视分析,但重点是时间属性。Murray等[12]提出一种基于星型坐标的交互式技术,专门用来探索多维时空轨迹数据。Tominski 等[13]设计轨迹墙整合了时间、空间和属性,轨迹墙是一个三维视图,由水平二维地图和在垂直方向堆叠的轨迹带组成。但轨迹墙比较适合可视化具有相似轨迹的轨迹群[14]。交互式时空立方体[15-16]经常被用来研究时空数据的三维可视化,但显示多个轨迹时,容易出现遮挡及空间的扭曲。Cibulski等[17]的工作研究了从时间、空间、事件本身3 个不同层次分析时空数据的事件序列,并设计了一个多视图关联分析系统。
“网格型”数据是一种比较常见的移动数据。比如Shoval[18]将“迷你以色列”公园划分为多个2 m×2 m 的网格,然后统计每个单元格的访客数。IEEE VAST 2015 Challenge[19]将游乐场划分为多个5 m×5 m 的网格,然后对每个网格的游客进行跟踪。本文所使用的文献[20]挑战1(后文简称“挑战1”)数据中,会场被看成由多个8 m×8 m 的网格组成的区域,记录每个网格的参会人员时空信息。
针对“网格型”移动数据,本文利用“中心位置替代”的方法来处理网格内部的位置变化。假设人员M0在T0时刻进入网格S0(S0映射网格中心位置)范围内的P0点,在T1时刻移动到P1点。由于移动是由时间和空间合成,网格内具体位置的变化可以转移到时间的累积,并且网格的尺寸较小,人员在网格内的具体位置变化对网格人数统计、人员整体运动分析的影响可以忽略不计。因此将人员在网格内部的任意位置近似认为所处网格的中心位置,来对数据进行平滑处理,如图1(a)所示。随着记录的增加,就可以根据时间T和网格中心位置S拟合出人员的近似轨迹,如图1(b)所示。
图1 通过网格中心位置模拟参会人员的移动轨迹Fig.1 Movement trajectory simulation of participants based on grid center
数据补全 根据挑战1 数据的描述,每个网格中心安装一个传感器,可以接收其所处网格内参会人员佩戴信号发射器发出的信号。传感器日志数据分3 d 给出,共计1 879 488行,未压缩约32 MB,记录了人员ID、人员进入传感器所在网格的时间及传感器编号(sid),sid映射该网格的中心位置。原始数据记录不完整,记录的人员具体位置信息比较模糊,具有不确定性;并且数据离散程度相对较高,数据质量低,无法利用此类数据进行有效的分析。因此,对传感器日志数据进行补全:1)对原始数据按人员ID 升序排序。2)利用插值法补全数据。
假设人员M0某一天的轨迹有n个离散时空数据点TPk=(Tk,Pk),其中k=1,2,…,n,Tk为当前时间,Pk为当前位置(图2(a))。对于TPK-1与TPk,某人在Tk-1时刻进入Pk-1位置,在Tk时刻离开Pk-1进入Pk位置。由于人员在该网格内任意位置点均可表示为该网格中心位置,因此在时间区间[Tk-1,Tk),TPi=(Ti,Pk-1),其中0≤i≤Tk-Tk-1,Tk-1≤Ti≤Tk。按此算法对每个人的数据进行插值补全(图2(b)),补全后的数据约3.2 GB。
图2 位置P与时间T的函数Fig.2 Function of position P and time T
数据采样 补全后的数据量过大,存在一定冗余,考虑到性能及尽可能保留关键时空信息,设定一个基准时间,利用系统采样的方式,每隔一段时间对每个人的数据进行采样。正常情况下,人在会议场馆中位置变化频率较低,且相邻网格之间距离较小,设定基准时间为25 200 s(07:00:00),每隔60 s,即1 min采样一次,如图3所示。
图3 数据采样后位置P与时间T的函数Fig.3 Function of position P and time T after data sampling
本文希望通过结合时间、空间、速度等属性来分析参会人员的类型和行为模式,以及可能的异常事件,来帮助会展主办方更轻松有效地回顾会展的整体状况,洞察参会人员空间行为,发现相关不足,提升以后的管理水平。因此,本文在设计视图时主要遵守以下两个原则:
1)视图准确展示数据所包含的复杂信息。
2)视图表达清晰、直观,减轻用户对数据的理解负担和认知负担。
该系统主要由全局态势地图、轨迹回放地图、轨迹甘特图、速度甘特图、时长甘特图、控制面板以及人数变化折线图组成。图4 仅展示了系统部分视图,其中(c)、(e)、(f)、(g)默认展示room6 第一天的数据。(a)为时间切换按钮组,(b)为全局态势地图,(c)为速度甘特图,(d)为控制面板,(e)为人数变化折线图,(f)为时长甘特图,(g)为轨迹甘特图。
图4 可视化界面Fig.4 Visual interfaces
3.1.1 三维地图
对于时空数据的分析,地图经常作为“视觉吸引”集中着用户的注意力,给予用户对环境最直观的洞察,因此本文提供一个地图视图。根据挑战1 中传感器布置图,本文场景为具有两层高度的封闭式会议场馆。利用Esmap 进行建模,三维还原会议场馆,因为认为三维立体显示两层楼比二维平铺显示两层楼更直观,空间利用率更高。但三维场景也面临着很多问题,例如可能造成空间的扭曲或遮挡,容易使人对高度和尺寸的感知产生误差[21],给用户带来不必要的视觉干扰等。因此,给地图增加平移、旋转和缩放功能,利用鼠标右键和滚轮操作实现。这样就可以从不同视角观察地图,降低三维地图带来的影响。
全局态势地图 全局态势地图在三维地图上添加了两个功能层,即网格坐标层和散点图。
网格坐标可以把地图网格化、坐标化,将地图本身的墨卡托坐标系转化为普通坐标系。这样地图上的标记点位置得以更精确、易懂地描绘。
散点图由不同位置、不同颜色、形象具体的人形图标组成。每个图标的位置由x,y坐标确定,颜色由该点的人数N确定。本文中,设定4 个人数区间,(0,16],(16,32],(32,64],(64,+∞),并采用常用的预警级别颜色来编码每个区间,即蓝、黄、橙、红。例如图4(b)中,标注红色图标的区域人数N>64,说明这些8 m×8 m 的网格区域此刻出现了拥堵,应做好相关措施,预防拥堵带来的相关影响。Buschmann 等[21]研究了动画的有效性,他们的实验结果表明动画为表现、分析、理解时间和空间提供了有效的手段。因此,散点图结合地图并以动画播放的形式呈现会场整体态势,展示参会人员位置的动态变化情况。动画播放的一种方式是为用户提供一个交互式的时间滑块[22],Amini 等[3]认为,用户可以通过控制滑块的滑动速度,选择性地把注意力留在感兴趣的时间段,从而更快地浏览数据并找到有价值的信息。但时间滑块通常在跳转到某一具体时刻上表现不佳,缺少一定的灵活性,本系统以另一种形式实现时间滑块。利用模拟计时器的方式自动播放动画,可在输入框输入时间跳转到指定时间,也可点击“前进”或者“后退”按钮查看前一帧或后一帧(动画地图所绑定数据为采样后的数据,一帧代表1 min)。
此外,视图右上角设计一组功能按钮,分别绑定“单层/双层显示”“聚焦楼层1”“聚焦楼层2”“2D/3D 切换”功能。“2D/3D 切换”可以充分利用二维地图和三维地图的优点,提高用户体验。
轨迹回放地图 全局态势地图从全局的角度动态还原真实场景,帮助用户实时感知会场态势;轨迹甘特图以静态的方式展示了所选人员一天的移动规律,但用户却不能洞察位置之间的距离,也看不到位置之间的轨迹形状[23],并且容易隐藏时间极短的细节。因此本文设计轨迹回放地图,如图5 所示,帮助用户探索感兴趣的少量人员的移动细节。轨迹回放地图类似于全局态势地图,将散点图替换为轨迹线,轨迹线上用白色的箭头表示移动的方向。由于采样之后的数据丢失了一部分信息,因此,面向细节的轨迹回放地图采用补全之后的数据,每一帧动画代表1 s。当用户想忽略重叠交叉的轨迹线,只关注所选人员详细的位置变化时,可以取消选择“显示轨迹”。
图5 轨迹回放地图Fig.5 Trajectory playback map
3.1.2 甘特图
3.1.1 节中,全局态势地图结合时间和空间从全局的角度溯源场景,但没有结合数据属性对单个或者一组人员进行分析。对于属性的表示,希望设计的视图能够满足以下需求:
1)很容易地看到某种属性随时间的变化,因此视图应该有一个时间轴。
2)以人为中心,可以对一组人员的该属性进行比较,这就要求视图简单和能按某种方式排序对齐。
甘特图横轴自然表示时间,可以一次查看时间、对象ID和属性3 个变量,具有按行显示、可以对行进行排序对齐、易于发现和比较模式的变化等特点。Gupta 等[23]专门讨论了甘特图的多种形式,其中以人为中心的甘特图具有两种形式,如图6所示,并选择了最合适的一种用来表示人员ID、时间和位置3 个属性。图6(a)中位置不需要颜色编码,但更占用垂直空间。图6(b)位置虽然需要颜色编码,但在必要时可以用文本标签标识属性。本文使用的数据集包含的人员远多于位置,位置垂直排列不能很好地扩展,因此选择图6(b)作为视图之一。同样,位置可以被其他属性(如速度、访问频率等)代替。
图6 以人为中心的甘特图Fig.6 Person-centric Gantt chart
轨迹甘特图 轨迹甘特图不同色条映射不同的区域,色条宽度代表在该位置的持续时间。每一行包含一个人员的移动信息,包括访问过的离散位置、访问它们的顺序等。甘特图通常适用于数据较少的情况,数据量变大就会出现杂乱和隐藏信息。但是,很难找到一种可视化技术既能完全地清晰地展示数据信息,又适应大数据量,又不损失空间上下文。所以,对甘特图做出一些改进,如图7所示。
1)一般情况下,要想知道某个色条对应的区域,需要将该色条颜色与“颜色-区域”对照表联系起来,确定了对应的区域后,再将视觉移回该色条上。如果颜色变多,用户的视觉在来回转移之中容易产生疲劳,造成“颜色-区域”对应错位。将空间位置转换为语义位置,然后标注给宽度合适的色条,减少用户的视觉转移,降低用户的视觉负担,提升用户对视图的浏览质量。
2)空间位置转变为语义位置或者颜色映射到甘特图,会淡化真实的空间信息。当鼠标移入色条时,弹出一个文本框,文本框包含区域名称、位置坐标、到达/离开时间。将坐标与时间映射到地图,就可以在地图中溯源该位置的相关场景。这类似于文献[24]中使用的嵌入地图。
3)会场的空间布局为两层楼,每层楼可以看成是一个独立的区域。而每层楼又包含多个场馆,这些场馆可以看成是由通道连接起来的独立的子区域。增加表示二楼场馆的色条高度,用户就能轻松看出轨迹的楼层变化。同样,根据经验人为地忽略那些停留时间不超过1 min的过道位置,给其对应的色条设置为透明。这样就可以降低多余颜色对用户视觉的干扰,从而向用户呈现“断开”的、更为清晰的场馆序列。
4)根据会场关键位置的访问顺序,以及人员进入会场时间的早晚对行进行排序,使行为特征相似的人员呈现聚类状态,便于进行比较,发现相同模式。
5)由于视图窗口的限制,给视图横轴和纵轴增加缩放功能。横轴缩放可以查看因宽度太小而被隐藏的色条信息;纵轴缩放可以根据情况改变视图窗口显示的行数,改善空间上下文的损失;通过横轴局部刷取功能放大某个时间段而不用拖动横轴缩放条,这是对横轴缩放的一个改进。
图7 原始甘特图与改进之后的甘特图对比Fig.7 Original Gantt chart and improved Gantt chart
速度甘特图 会展环境下,人的空间状态只有两种,要不静止(开会、处于工作岗位、休息等),要不就是以不超过正常步行速度(通常认为成人的步行速度为60~100 m/min)的速度移动(海报区、展厅参观,茶歇等),如果在某时刻出现速度偏大,那么就有可能是该人员发生了异常情况。因此,对速度的分析有助于探索隐藏的异常信息。
如图4(c)所示,速度甘特图从轨迹甘特图移植过来,色条的颜色由速度大小speed决定。本文设定4个速度区间(单位:m/s),[0,0.5),[0.5,1),[1,1.67],(1.67,+∞),分别映射蓝、黄、橙、红四种预警级别颜色。当色条为红色,即速度大于1.67 m/s 时,定义为异常速度。传感器的位置记录在空间上前后相邻,相邻两点距离间隔较小,可以近似地认为相邻点之间的运动为匀速直线运动,因此可以很容易地计算出相邻点间的距离(distance)和时间间隔(duration),从而得到移动速度(speed)。
如图8 所示,假设某人在T1时刻进入传感器P1(x1,y1)检测区域,在T2时刻进入传感器P2(x2,y2)检测区域,那么P1和P2之间的距离distance为:
从P1到P2所经历的时间duration为:
则P1与P2两点间的速度speed为:
图8 P1与P2之间的距离Fig.8 Distance between P1 and P2
通过上述计算,可以得到某人一天的速度变化情况。当速度甘特图的视图窗口要显示很多行速度时,用户可能要通过缩放、移动缩放条等操作去发现隐藏的异常速度,这样就比较耗时,会加重用户视觉负担。本视图提供“只显示异常”功能,勾选该选择框,视图窗口就只显示具有异常速度的行,这样用户就可以更轻松地获取细节的信息。
停留时长甘特图 为了查看某区域一天的人员进出情况,本文设计了停留时长甘特图(图4(f))。停留时长甘特图的每一行显示了一天中何人在何时进入了该区域,何时离开该区域,进入该区域的次数,每次在该区域的持续时间。
3.1.3 控制面板
根据分析的目标,用户可能会对某一场馆一天的人员出入情况,或者人员一天的活动情况感兴趣。为了支持用户查询需求,更灵活地更新局部视图,本文结合数据背景,考虑了时空数据的不同组成部分——时间(when)、空间(where)、对象(who)以及隐性属性速度(speed)、人数(count),提出了两个查询模型:
1)when+where →who+when+count。指定一个日期和一个位置,查询将返回在该日期访问过该位置的对象,这些对象何时进入该位置,何时离开该位置,以及每个时刻该位置对应的人数。
2)when+who →where+speed。指定一个日期和一组或一个对象,查询将返回对象在该日期内的位置变化和速度变化。
如图4(d)所示,通过下拉框选择查询条件,点击“查询”,执行查询1);通过接收“甘特图”选中的ID 或者“添加”感兴趣的ID,点击“确定”,执行查询2)。
3.1.4 人数变化折线图
场馆每个时刻的人数及人数变化趋势反映了场馆相关活动的开展情况。本文利用标准视图-折线图(图4(e)),来清晰展示各场馆的人数变化,推测各场馆的议程安排。折线图横轴缩放功能用于探索更细节的时刻。当鼠标在折线视图上移动时,鼠标位置会出现一条竖线,竖线与折线的交点高亮显示,交点旁会弹出一个文本框,用于标注该点对应的时刻及人数。另外,该视图还提供一个下拉框,便于用户选择感兴趣的场馆,对比多个场馆的人数变化趋势。
由于数据的复杂性,单纯依靠机器处理数据直接显示结果很难满足用户需求,因此多视图的关联分析是有必要的,丰富的交互也可以让用户享受探索的乐趣。本节主要介绍系统的交互流程,如何利用系统去关联分析。系统提供两个交互入口,即全局态势地图和控制面板。
地图:
1)点击“播放”按钮,帮助用户动态感知全局态势。
2)暂停动画播放,在地图上选择感兴趣的目标点,接着执行步骤3)~7)或步骤8)。
3)在“停留时长甘特图”显示该天进入目标点(一个或多个点,或者一个区域)的人员在该目标点的停留时长。
4)选择“停留时长甘特图”上感兴趣的ID,控制面板将显示这些选中的ID。
5)执行when+who →where+speed 查询,在“速度甘特图”与“轨迹甘特图”显示所选ID 的速度与轨迹,接着执行步骤6)或步骤7)。
6)反馈感兴趣的坐标点及时间到地图。
7)选择“轨迹甘特图”感兴趣的ID,在“轨迹回放地图”动态回放其轨迹。
8)控制面板显示该目标点此刻的ID,接着执行步骤5)~7)。
控制面板:
9)执行when+where →who+when查询。
10)在“人数变化折线图”显示所选场馆人数与时间的变化关系。
11)重复步骤3)~7)。
12)在控制面板输入感兴趣的人员ID。
13)重复步骤5)~7)。
实验平台为一台Intel Core i7-6700 3.4 GHz 的台式机,配置16 GB 内存。本文的重点是VASTED 的可视分析及推理,因此主要演示部分案例。
本案例研究探索了如何分析参会人员的类型及移动规律。由于room1~room6 这6 个房间用途在数据描述中未详细说明,因此在对参会人员进行分析之前,先对各房间的用途进行分析。图9以第一天的数据及room2为例演示了分析过程。
1)对于一个不知用途的房间,首先关注房间内的人数如何变化,人数变化与其他场馆有何关系。执行分析流程9)~10),查询room2 的人数变化折线图,并在折线图下拉框选中几个主要会场,对其人数变化情况进行对比,如图9(a)所示。可以看出当各会场处于工作状态时,room2 内人数较少;其余时间人数较多,峰值达到150人。
2)了解了人数变化情况之后,分析该房间人员对各个场馆的访问情况。执行分析流程3)~5),查看该房间人员的轨迹序列。从图9(b)可以看出,这些人员上午主要在主会场活动,中午前往餐厅就餐,下午主要在4 个分会场活动,一天内多次前往room2等。
3)轨迹甘特图展示了人员所访问的场馆序列,但对人员在某个场馆内具体位置点的变化表现不佳。执行分析流程7)查看room2 人员的轨迹回放。图9(c)显示,在主会场处于工作状态期间,room2 内人员大多处于主会场前排位置,也有人位于讲席台。可以推测room2 为讲者嘉宾的休息室,其人员为讲者嘉宾(VIP)。
4)确定room2人员类型为VIP之后,还可以分析出相关的报告嘉宾。根据图9(a),选择分会场A处于工作状态(人数处于波峰状态)的一个时刻,比如14:10。图9(d)中,选中分会场A 讲席区域的两个网格(矩形框选处),得到讲席区域的人员停留时长。图9(e)矩形框选ID 显示这5名人员在分会场A会议进行时分3 个时间段位于讲席处。而这3 个时间段恰好与图9(a)中分会场A 人数最多的3个时间段相符,故推测这5名人员为分会场A的报告嘉宾。图9(f)显示,这5名人员都多次前往room2,证实了推测结果。
5)对于VIP的移动规律,图9(g)(h)是对图9(b)的横轴缩放。可以看出VIP 是从入口4 进入会场,且不需要签到;进入会场后,首先进入room2 稍做准备,会议开始时进入主会场;并且只从出口4 离开会场。图9(i)的动画显示了轨迹甘特图不易发现的规律(矩形框选处),VIP 可以从主会场后面的专用通道离开会场,前往二楼也只经过扶梯2。
通过步骤1)~3)可以推测相关的人员类型及移动规律,步骤4)可以推测这类型人员中的具体角色人员,步骤5)可以总结每一类人员的大致移动规律。按此步骤,结合挑战1 的题目背景,可以对剩余五个房间做如下推测。
room1 为下午的茶歇间,时间为16:10—16:30;room3 为上午的茶歇间,时间为10:30—10:50。
room4 为媒体室。媒体记者从普通入口(入口1~3)进入会场,签到后进入room4 稍做准备。接着根据工作安排去相关区域进行采访、直播等,并且不定时进入room4。工作结束后从普通出口(出口1~3)离开会场。
room5 为黑客大赛场地。参赛人员从普通入口进入会场后先签到,9:00 左右进入赛场。中午12:00 集体前往食堂就餐,然后返回赛场。下午15:00 左右第一批人员被淘汰,16:15左右进行第二批淘汰。然后从普通出口离开会场。
room6 为工作人员休息室。工作人员从普通入口进入会场,前往room6 稍做准备后提前到各自的岗位就位,并且位置长期保持不变。部分岗位工作人员采取轮流午餐制,包括签到处、出入口(1 楼通道)、服务台、签到处,room5 第一批工作人员就餐时间为11:40—12:10,第二批12:10—12:40,如图7(b)所示。工作结束后从普通出口离开会场。
图9 分析room2人员类型及移动规律Fig.9 Analyzing types and movement rules of people in room2
对于某些类型人员的分析,可能不需要以上那样复杂的步骤。图10(a)重现了第一天从普通入口进入会场的所有人的轨迹。可以发现有部分人在上午9:30 开始陆续进入会场,签到后在会场自由活动,11:00 前后陆续离开会场。结合图10(b)发现这类人主要在海报区和展厅活动,不去参加会议。在第一天下午15:00—16:00 及第二天相同时间段也出现类似情况,其移动规律相似。故推测为团体参观人员。
本节案例以第一天数据为例,主要结合时间和空间属性,利用三维地图和甘特图,关联分析了参会人员的类型及行为模式,并可以细化某些人员类型中的具体角色。因此,该案例可以为类似场景的人员行为模式分析提供参考。
图10 分析团体参观人员移动规律Fig.10 Analyzing movement rules of group visitors
4.2.1 人员越权事件
4.1 节确定了room2 中的人员为VIP,其第一天的轨迹甘特图显示人员11201 和16473 在签到处和room4 停留,而VIP不经过签到处及room4。在后面两天,两人未出现在room2,却都出现在了room4。将两人3天的轨迹序列进行对比,结合媒体记者的移动规律,确认两人为媒体记者。因此推测两人在第1 天越权进入room2 违规采访。人员11201 进入会场时首先在签到处停留签到,09:06:31—09:19:49 在room2 停留;人员16473 进入会场时同样在签到处签到,10:30:03—10:50:59在room2停留。如图11所示。
图11 11201和16473三天的轨迹对比Fig.11 Trajectory comparison of three days of 11201 and 16473
4.2.2 电子胸牌同号事件
会议第一天,VIP 的速度甘特图显示ID 为16632 的人员速度序列中出现了比较明显的红色异常区间,对该区间进行局部缩放。如图12(a)所示,在此区间,速度达到几米、十几米每秒,甚至更快。16632 的轨迹序列(图12(b))显示,在08:34:40该人员从入口4进入会场,随后一直在主会场活动。但在09:44:40 该人员突然出现在入口4,然后停留在room2,并于10:48:24从出口4离开会场,访问的位置出现明显跳动。基于上述表现,推测人员P 复制了16632 的电子胸牌,在09:44:40 进入会场,随后一直停留在room2,寻找合适时机盗取重要资料或者物品,行窃成功后于10:48:24 从出口4 离开会场。
图12 第一天16632异常行为Fig.12 Abnormal behaviors of 16632 on day1
4.2.3 物品丢失事件
会议第一天,room2的“人员停留时长”图显示ID为11260的人员在12:28—14:00 期间频繁进入room2,如图13(a)所示。从图13(b))可以看出,此期间该人员在room2、服务台及其他公共区域之间频繁往来,并短暂停留。结合4.2.2 节提到的可能的盗窃行为,推测人员P 盗取了11260 的相关物品,11260在10:44进入room2,人员P担心暴露,于10:48:24从出口4 逃离会场。11260 在12:28 回到room2 时发现物品丢失,然后频繁前往服务台咨询,并多次在room2、room3、展厅、海报区等区域寻找该物品。
4.2.4 人员异常会和事件
第一天黑客大赛人员的轨迹甘特图显示,参赛人员10409 在上午11:01:11—11:20:19 一直处于2 楼过道某位置(图14(a)),而此时间段其他参赛人员均在赛场比赛,且周围人员较少。将该位置坐标和时间段映射到“全局态势地图”(图14(b)),发现从11:08分起,该位置有两人,包括媒体人员13612(图14(c))。两人的轨迹回放清楚地呈现了异常会和的全过程(图14(d))。媒体人员13612 从一楼到二楼,于11:08:08 在room5 门口(2 楼,10,06)位置与10409 会和,大约12 min之后,二人会和完毕,于11:20:19相继离开。
结合上述,两人异常会和可能涉及到比赛方面的不公开信息。推测两人事先已经约定好时间和地点,并且10409 提前到约定地点等待,两人会和交接完毕之后,10409 返回赛场,13612则回到媒体间整理相关信息。
图13 第一天11260异常行为Fig.13 Abnormal behaviors of 11260 on day1
图14 第一天13612与10409 异常会和Fig.14 Abnormal meeting of 13612 and 10409 on day1
通过本节案例,相对容易地从一组时间、空间或者速度属性的序列中发现具有细节差异的离群个体,然后以此为基础结合其他视图,继续向下发掘出可能的异常事件。
本节选取了文献中两个常见的时空数据可视化案例,进行差异对比。
如图15(a)所示,文献[13]利用轨迹墙在一个视图中整合了空间、时间和速度属性,轨迹沿着z轴垂直排列,速度属性通过不同的颜色沿着轨迹编码。此外可以过滤掉不关注的属性范围,来缩小显示无关数据的位置的轨迹带,突出了重点数据,减少了视觉遮挡。该方法比较适合沿着道路产生的具有相似形状的轨迹。但对于本文,比如同为媒体人员,但他们分布在会场不同方向不同位置,空间轨迹杂乱,使用该方法很难避免轨迹的交叉和视觉的遮挡。
文献[15]中通过对齐轨迹开始/结束的时间,来扩展时空立方体技术,从而优化时空立方体的视觉混乱问题,提高分析质量和分析效率。图15(b)对齐了轨迹的开始时间,意思就是以某一轨迹开始时间为基准,其余轨迹全部垂直平移,使其开始时间与基准时间重合。该图显示了轨迹的开始一段时间,可以看出在该时间段内,所有轨迹明显成一簇。但是如果要显示所有时间段的轨迹,该方法就会失效。比如对于本文的VIP,使用该方法,在入口4到room2这段开始的时间会有比较好的轨迹聚类效果。但对于后面的时间,每位VIP的路线具有随机性,因此该方法还是不能很好地解决轨迹杂乱遮挡问题。
图15 不同的时空数据可视化案例Fig.15 Different visualization cases of spatio-temporal data
本文将空间位置转换为语义位置,将轨迹沿着时间轴水平排列。语义位置可以将很多空间位置点聚类,使轨迹序列更为平整。比如主会场有一段空间轨迹,形状弯折复杂,但转为语义位置后就只有“主会场”这个标记。因此,利用甘特图可视化时空数据可以很容易对齐,按行进行比较,减少不必要的视觉干扰。再结合其他视图,就可以进行更深入的探索。
本文提出了VASTED,该系统结合具体案例,有效地探索会展环境下的时空数据,分析出了参会人员的类型和行为模式,以及可能的异常事件,可以在以后类似场景下为相关用户提供决策支持、帮助管理人员合理调动资源、更好地管理会场、响应和处理各类突发事件。此外,利用该系统还可以进行很多有趣的细节探索。比如确定各场馆的日程安排;通过日程安排找到相关人员可能的迟到、早退或者缺席现象;通过人员移动的轨迹线与场馆墙体的交叉点确定各场馆的出入口;通过全局态势地图发现相关拥堵情况等。
在数据预处理方面,原始数据未给出人员在每个网格内的具体位置信息,本文将每个人的实时位置近似处理为其所处网格的中心位置,因此在人物的精确移动分析方面还存在不足,这需要用更多数据集来进行实验和探索。由于数据集的复杂性及视图窗口的限制,在视图设计方面,用甘特图来表示轨迹,容易隐藏持续时间较短的移动信息和损失一部分空间上下文;轨迹访问的区域过多,也会对色条的色彩搭配设计形成挑战。
在未来的研究中,将对甘特图的算法设计和视图设计进行更加深入的探索,以期在保留甘特图独特优势的前提下,更好地适应大而复杂的轨迹时空数据集,帮助用户快速地洞察关键信息,发现问题。