吕健荣 陆 旻 乐 阳
(深圳大学建筑与城市规划学院 深圳 518060)
随着智慧城市概念的提出,智慧校园的建设也逐渐得到重视[1]。日益进步的物联网、云计算等技术,使智能化、信息化、物联化的智慧校园成为了可能。20 世纪 70 年代,美国麻省理工学院提出的 E-campus 计划最早引出“数字校园”的概念,随后数字化的概念在全球得到传播,“数字城市”“数字校园”逐渐得到关注[2]。近年来,涵盖从感知层、网络层、数据层、应用层到服务层的自上而下的智慧校园总体架构模型[3]的构造,使众多校园管理事务得以实现和优化,如照明管理、图书借还管理、课堂签到、院系资源共享等[4-6]。
数字沙盘投影系统,简称数字沙盘,是一种直观展示数据与信息的技术。其在传统沙盘的基础上,结合了仿真技术、虚拟技术,达到更好的视觉效果和虚实结合的交互能力,提高演示和分析的效率,从而更好地达到决策目的。近年来,国内外有诸多关于数字沙盘的研究和应用。在国内,故宫数字沙盘借助大数据和计算机科学技术,搭建集方案演示、规划评估等多功能于一体的可视化平台[7];结合地形、影像等数据构建的黄河北干流交互沙盘系统,为水利枢纽工程建设起到重要的支撑作用[8];结合高校信息传播及图形化技术构建的交互式电子沙盘,可用于探究在新媒体环境下高校信息呈现的新方式[9];借助基于 Leap Motion(一种体感控制器)设计的手势识别方案对基于 Unity3D 构建的三维电子沙盘进行控制,实现人手对沙盘系统的操作[10];结合增强现实技术构建的校园规划沙盘,在保持交互性的基础上提高了真实感[11]。在国外,Piper 等[12]通过改变黏土制作的沙盘模型的造型,利用激光扫描仪实时捕捉不断变化的几何形状,完成水流和土地侵蚀等情况的模拟分析,并对结果进行了直观展示;Mitasova 等[13]在有形用户界面和地形分析研究的基础上,通过改变 3D 物理模型的地形表面,来探索不同地形之间的关系及地形改变时发生的景观变化过程;Petrasova 等[14]结合物理三维景观模型和地理空间建模进行分析,基于分析结果进行水文模拟和野火建模等;同样,国外也有团队基于沉浸式技术结合增强现实设备,使用户沉浸在数据中,流畅地进行分析与合作[15];Zhang[16]提出城市矩阵的方法,以乐高积木作为实体模型,首先构建光学标签,然后利用计算机视觉算法识别计算,最后将结果投影到积木上。
有别于传统的“鼠标-键盘”(简称“键鼠”)人机交互方式,数字沙盘提供了更为自然的人机交互技术,如触摸屏,该技术已被证明可以极大地提高人机交互效率。有关数字沙盘的研究主要分为两种思路,一种是基于可穿戴设备的自然人机交互,如国内外均有团队为了帮助聋哑人,将无线蓝牙模块和数据手套结合,完成了从手势到语音转换系统的开发[17-18]。另一种是无需佩戴交互设备的人机交互方式,如翟雅芳[19]将Kinect 技术应用到教学中,设计具有娱乐性的虚拟教学系统;Manghisi 等[20]基于 Kinect v2 深度相机,对不同工作场所的人群进行骨骼捕捉,结合人体工学对工作场所的风险因素进行评估。随着深度学习的不断发展[21-22],基于图像识别的交互技术实现成本越来越低。孙博文等[23]利用图像分割、图像去噪等技术,结合神经网络构建的模型,在单目摄像头下也能达到很高的识别精度,完成手势的交互操作;肖志勇等[24]利用摄像头采集的用户图像,对人眼和手指进行定位,实现了基于视线跟踪和手势识别的交互方式。
本文在建设智慧校园的背景下,提出支持多人协作的智慧校园活动热力模拟交互式数字沙盘。具体地,首先利用传感器、智能计算终端等设备构建基于深度学习驱动的数字沙盘计算模型;然后采用 3D 打印技术制作交互道具,结合图像彩色信息和深度信息,将道具与手势置于以深度学习为基础的检测识别模型中,实现从键鼠交互的数字沙盘到以手势/道具为交互介质的三维数字沙盘的转变;最后构建交互式的智慧校园沙盘原型系统,并以校园活动热力模拟为应用场景,验证该系统的可行性。
交互式校园活动热力数字沙盘是在校园活动发生时,模拟校园内部道路的途经热度(简称校园活动热力),并支持实时可视化及交互的多人决策平台。该系统脱离传统的键鼠交互方式,以更为灵活多变的手势及道具进行操作。利用智能计算终端对 Kinect 相机传感器捕获的每一帧图像进行手势和道具的检测,将检测到的目标与定义好的计算进行关联,触发交互事件。通过对沙盘上手势和道具的连续感知,对道路、建筑等进行相应调整,完成不同条件下校园活动热力的模拟计算,并通过投影仪进行可视化输出,便于用户进行前后对比以辅助决策(图 1)。
图1 平台搭建及现场操作Fig. 1 Platform infrastructure and operation
交互式校园活动热力数字沙盘采用客户端和服务器(Client-Server)架构。模型的客户端使用Kinect 摄像头作为输入设备,投影仪作为输出设备,完成手势/道具图像捕捉(输入)、可视化渲染(输出)等交互界面相关的任务;服务器端负责数据存储及访问、校园活动热力模拟计算、交互判别及响应等核心计算任务。
系统基本运作流程如图 2 所示。首先,Kinect 摄像头对操作平台进行连续图像获取,智能计算终端对输入图像进行目标检测,识别其中手势/道具的具体位置并进行透视变换,实现向客户端可视界面的坐标转换;然后,根据识别的目标类别、数量、位置等信息,对校园活动热力模拟模型设置不同的计算条件,通过服务器端访问数据库调用相应数据完成热力计算,并将计算结果传至客户端;最后,客户端根据接收的信息渲染更新可视化结果,并借助投影设备完成可视化界面的输出。该技术架构摆脱了传统的单人键鼠交互方式,通过预定义的手势/道具语义信息,支持多人多道具的自然人机交互,从而提高团队的协作效率。
图2 系统运作流程图Fig. 2 Flow chart of system operation
本文根据道路热力值进行建模,完成校园活动热力模拟模型的搭建。对于本文涉及的个别名词及相互关系,定义如下:
校园活动:以校园内某一处或多处建筑为主要活动地点举办的聚集性活动,如新生军训、迎新晚会、校园宣讲会等,是校园学习和生活中的常见形式;
道路热力:校园道路承载着连接校园各个建筑的功能,道路热力用于评估道路的拥挤程度,人流量越大,该道路表现越拥挤,热力值越高;人流量越小,该道路表现越通畅,热力值越低。
当校园活动发生时,不同个体选择不同道路去往活动地点,造成不同道路的人流量存在差异,此时的道路途经热度即道路人流量的相对大小,人流量越大则热力值越高。提前预测道路热力值,有利于对热力值高的道路提前做好预防工作,防止踩踏等安全事故发生,是管理校园安全保障的一个重要方面。
通常情况下,行人在前往目的地的过程中往往会选择最短路径,因此在模拟行人对路径的选择时,本文采用 Dijkstra 算法构建校园道路有向图。有向图中的边代表道路路段,每条边的代价值由道路的长度决定,即长度越长,行人在其上花费的时间越多,其代价值越高。节点作为各道路的相交点也具有代价值,该值代表从起点到该点的最短路径所花费的代价,由所经道路所在边的代价值之和决定。最后根据 Dijkstra 算法计算过程中每条道路的使用频数,对每条道路所在边赋予权重值,作为道路热力值。
在确定起点和终点建筑后,根据就近原则确定对应的有向图节点。利用 Dijkstra 算法计算各个起点到终点的路径并结合起点建筑出发人数,根据起点建筑与起点道路节点及起点道路节点与最短路径的一一对应关系,将起点建筑出发的人数累加到最短路径所经的路段上,以最终的累加值作为路段的热力值,用于反映道路的人流量大小。最后利用颜色渐变的映射关系将道路热力值进行结果显示(图 3)。热力值越高代表路段拥挤度越高,越需要加以重视或者通过人工干预进行人流分流,以降低事故发生的概率。
图3 道路热力赋值Fig. 3 Road thermal assignment
本文基于图像的深度学习方法,利用被广泛使用的 YOLO 算法[25]对手势/道具进行训练识别,实现人机交互。不同于基于骨架开发的手势交互模型,本文采用基于图像的方法,将手势和道具交互置于统一的识别模型中,在交互道具种类和数量上具有更好的可扩展性。
构建 YOLOv4 目标检测模型需要大量的训练图像数据,如果每张图像都通过拍摄获取后进行逐张标注,那么人力和时间成本会非常高。因此,本文设计了半人工标注的训练集生成方法。
如图 4 所示,首先利用 Canny 算子[26]对手势和道具图像进行边缘自动检测与提取,通过图像增强的方式增加手势与道具的姿态信息,提高数据的多样性;然后以 7∶3 的比例将目标影像和背景图进行加权融合,模拟投影效果。在融合过程中记录标注信息,以节省后续人工标注目标对象的时间。
图4 训练图像生成流程Fig. 4 Automatic generation of training dataset
本系统采用 YOLOv4 的网络结构,结合YOLO 官网提供的权重数据,输入上述合成的训练集进行训练。该权重数据在 COCO[27]数据集(包括人、自行车、汽车、飞机等常见对象)上进行预训练,使算法从一开始就能提取目标轮廓、形态等基本信息,并对物体有一定的识别能力。利用该权重数据能够更快地使计算结果收敛,降低训练所需时间。识别效果如图 5 所示。
如图 5(a)所示,当训练次数迭代至 2 000 次左右时,模型损失值(Loss)趋于平缓,平均精度均值(mAP)接近 95%,该结果表明,模型此时接近最优解。若再进行迭代训练,结果可能会产生过拟合现象,故采用迭代 2 000 次获得的模型参数作为实验参数。从实际识别结果来看,该模型参数的平均识别准确度达到 85% 以上,所有手势和道具都能被准确地检测。即使当道具受到强光影响产生较强的镜面反射时,该模型也能被准确识别,如图 5(b)所示。
图5 Loss,mAP 图以及目标检测识别效果Fig. 5 Loss, mAP diagram and the eあect of target detection and recognition
在图像输入、手势/道具位置检测、位置信息传输以及网页渲染的过程中,由于位置信息所在的坐标系发生了变化,所以需要进行坐标转换,在此过程中涉及的坐标系有两种:Kinect 摄取图像所在的图像坐标系以及网页渲染的屏幕坐标系(图 6)。
图6 坐标转换过程Fig. 6 Coordinate transformation process
坐标系转换实际上是基于图像坐标系中的网页投影区域和屏幕坐标系中整个网页部分之间的透视变换完成的,因此需要利用 Canny 算子[26]提取网页部分在透视变换前后的 4 组映射点坐标。详细步骤如下:
(1) 对图像坐标系的图像进行网页部分的边缘提取,通过边缘包围面积过滤小边缘,仅保留包围网页投影区域的大边缘;
(2)通过多边形近似算法将边缘信息简化为4 个角点坐标,记作原始角点坐标;
(3)提取网页在屏幕坐标系下 4 个角点的坐标,记作变换角点坐标;
(4)通过透视变换求解变换矩阵,进行坐标转换。
上述操作是在系统初始化计算时对交互行为中的位置完成坐标转换,极大地降低了 Kinect 相机与投影仪相对位置的安装精度要求。
基于 YOLO 算法识别目标对象位置并进行坐标转换的流程实现,本文设计了多种手势/道具的交互方式,包括手势驱动的地图平移和缩放及各种道具支持的地图语义交互等,具体见表 1。
表1 手势/道具定义Table 1 Definition of gestures/props
当学校举行大型活动时,人流的控制是其中比较重要的部分,需要校园管理者合理规划师生前往活动会场的路径,将人流较为均匀地分布到各路段,更大效率地使用现有道路,避免某些路段人流过多带来安全隐患。
假设学校举办校运动会,学生们分别从不同建筑前往田径场进行集合,利用校园活动热力模拟模型得到道路热力图。如图 7(a)所示,图中标记路段(黑色椭圆区域)没有人流量,该区域道路没有得到利用,可通过人工干预,将西南区宿舍的人流引导至该路段,以减少其他路段的人流压力。如图 7(b)所示,利用“建筑选择”道具选中西南区宿舍,通过“箭头”道具引导人流,使校园路段得到更充分的利用,有利于降低安全事故的发生概率。
图7 人流疏导前后对比图Fig. 7 Comparison before and after flow diversion
由于道路施工等缘故,校园某些路段禁止通行,所以在进行校园活动热力模拟时,需要将某些路段禁止通行的条件纳入计算。
假设学生活动中心需要举办活动,在所有道路均能通行的情况下,使用校园热力模拟模型计算得到的道路热力图如图 8(a)所示。此时,若某路段正在进行施工操作需要将路段暂时封闭(如图 8(b)“禁止通行”道具处),利用“禁止通行”道具向计算终端发送路段禁行的信号,终端根据新的计算条件对校园活动热力模拟模型进行重新计算并反馈计算结果。该操作对校园路段状况进行了及时的模拟更新,有助于校园管理者提前预知师生活动轨迹的变化,为校园安防工作做好准备。
图8 道路障碍布设前后对比图Fig. 8 Comparison before and after road obstacle layout
本系统将传统的“屏幕-鼠标-键盘”二维的交互方式拓展至三维,直接利用手势/道具对系统进行操作。为测试系统的有效性和收集用户体验数据,特邀请 20 名受试人员(18 名学生,2 名教师),分别就单独交互及多人交互进行系统的使用并评价。
与传统的“键鼠”交互方式相比,所有体验者认为本文系统的交互空间更大,更加新颖,更适合多人协作讨论;90% 的体验者(18 名受试人员)表示该系统入门门槛低;75% 的体验者(15名受试人员)表示,该系统使用的实体道具增加了场景模拟的真实感,认为手势/道具的设计和定义很好地贴近了使用者的思维及生活常识;40% 的体验者(8 名受试人员)对系统将道具交互与即时的计算分析反馈相结合的方式印象深刻,系统具有与传统交互系统相当的计算效率,同时该系统的实体道具让他们对计算结果的理解更加深刻;25% 的体验者(5 名受试人员)表示,通过形象的道具便能大致了解用途,再结合系统设计的道具功能识别模块进行准确解读,能轻松上手系统操作。
但是,5 名受试人员反映,该系统在使用过程中存在道具误识别和漏识别的情况,影响用户体验。同时,12 名受试人员表示,目前所提供的实体道具功能相对有限,希望系统增加实体道具的种类。本实验提出的自动批量生成虚拟训练数据的方法,虽然解决了获取训练样本成本高的问题,但在模型训练方面还需要耗费大量时间,且在添加新手势或道具方面仍需进一步优化以降低系统的扩展成本。
在建设智慧校园的背景下,本文设计并实现了交互式校园活动热力数字沙盘,重点探究了如何结合深度学习、传感器和智能计算终端构建可交互的数字沙盘模型。首先,在模型构建过程中,提出通过人工合成数据集的方法降低生产数据集的时间成本;其次,利用基于透视变换的坐标转换降低传感器安装的精度要求;再次,结合 Dijkstra 最短路径算法搭建校园活动热力模拟模型,完成以深度学习驱动的“传感器输入-智能计算终端-可视化输出”的数字沙盘模型的构建,实现交互式智慧校园沙盘原型系统;最后,基于该原型系统,结合手势和其他交互道具检验系统的可交互性和实用性。实验结果表明,该系统可以准确地识别手势和道具信息,通过智能计算终端输出结果,将结果更新到沙盘可视化界面反馈给用户。用户调查结果显示,该系统具有上手快、交互空间大、适合多人协作、真实感强、计算分析反馈及时等优点。
在识别方面,基于乐高积木底部的光学标签识别方法,在语义类别定义上,受限于底部积木的排列组合数,不利于定义数量较大的实体道具;而基于图像目标识别的方法,在增加实体道具、丰富语义信息方面具有更好的拓展性。且与乐高积木[16]相比,本文采用的 3D 打印技术制作的道具更加逼近真实物体,在展示上更加形象细致。但是,目前基于 YOLO 算法实现的手势和道具的检测方法虽然通过人工合成数据集的方式大幅度地降低模型构建的时间开销,但在模型训练过程中仍需耗费大量时间,且每次更新手势或道具的类别都需要重新训练,不利于交互方式的更新。而在手机支付、手机屏幕解锁中常用的人脸识别功能,则可以在短时间内拍摄人像进行训练进而完成人脸判别的工作。因此,在之后的研究中,将对 YOLO 算法进行改造优化,探究 YOLO算法与人脸识别的算法的结合,实现手势/道具影像录入到投入系统使用的即时应用。
在传感器应用方面,目前以使用相机获取彩色图像和深度图像为主,主要通过计算机视觉完成人机交互。在之后的开发过程中,尝试将Kinect 相机携带的麦克风传感器加入交互,在手势/道具交互的基础上结合语音识别技术实现更多样化的交互方式,即用户通过简单的语句就能命令操控系统,使人机交互更加简单方便。