基于视频图像分析及单目视觉技术的地铁施工人员定位技术研究

2023-07-25 09:55:44孙有恒薛志刚王传宝邹永红

电子设计工程 2023年15期

孙有恒，薛志刚，王传宝，邹永红

（1.广州地铁集团有限公司，广东广州 510220；2.北京九碧木信息技术有限公司，北京 102200；3.中铁建华南建设有限公司，广东广州 511458）

在地铁建设过程中，视频监控系统与新技术的融合应用，使施工现场的安全管控水平显著提高。比如在施工现场安装相应的人员定位基站，给施工人员佩戴定位卡，可查看施工区域人员的实时坐标位置和历史轨迹[1]。但同时也伴随着更多的资金投入，所以减少现场设备的安装投入，利用软件技术充分挖掘已有设备的应用价值也成为智慧工地技术的一个研究方向。

该文结合广州市轨道交通十八和二十二号线建设工程综合监控系统的开发工作，研究并实现了一种基于视频图像分析及单目视觉技术的工地人员定位方法，可有效解决上述问题。

1 基本原理

广州市轨道交通十八和二十二号线建设工程综合监控系统已经在GIS 地图上精确标记出了每个视频监控摄像头的坐标位置；通过集成接口获取到每个摄像头的实时方位、摄像机参数、视频监控画面；并通过视频图像分析技术识别出视频图像中的人体。基于视频图像分析及单目视觉技术的工地人员定位方法即是基于单目视觉原理建立单张视频图像相片中人体与视频监控摄像头的相对位置关系，并通过GIS 地图中的视频监控摄像头的地理坐标，解算方位参数后再推算目标人体的坐标。再通过GIS地图技术展示出每个人体的实时坐标位置。

近些年来，不断发展起来一种视觉定位的方法，主要是通过摄像机获得周围景物的图像，利用景物中的一些自然或人为的特征，通过图像的方法得到周围环境模型来实现自身位置的确定的方法[2-4]。单目视觉的室内多行人目标连续定位方法[5]提出基于单目视觉检测方法,构建像素坐标系到世界坐标系的坐标转换模型，实现对多行人目标的连续定位与跟踪。单目视觉三维运动位姿测量方法研究[6]提出基于点特征的单目视觉位姿测量，通过特征点约束和正交迭代解算法完成目标物体的位姿测量。

基于视觉原理的空间定位方法中，单目视觉具有显著的优点：结构简单、标定步骤少，避免了立体视觉中视场小和匹配难的缺点。常见的单目视觉方法[7-9]包括结构光法[10-12]、几何光学法[13-14]、辅助测量棒法、激光辅助测距法、几何形状约束法等。

该文所介绍的方法，是利用单目视觉技术建立单张视频图像相片中人体与相机的相对位置关系，然后通过GIS 地图获取摄像机镜头的实际坐标（经纬度或投影坐标），解算方位参数后再推算人体的坐标。

2 摄像机成像几何模型

相片上的任意一个像点与对应地面点都可以由一条通过光心的直线连接起来，即所谓的中心投影，通过这条直线再辅以辅助坐标系，就可以建立起像点与地面点之间的关系。

常用的辅助坐标系包括1）像素坐标系；2）图像坐标系；3）光心坐标系；4）世界坐标系。通过这四个辅助坐标系之间的相互变换，建立摄像机成像几何模型，各坐标系关系及内外方位元素，如图1 所示。坐标系变换主要分为三个过程，如下：

图1 各坐标系关系及内外方位元素

1）根据像素坐标计算图像坐标系；

未来一周，江南大部、华南西部、西南地区东部等地累计降水量有10毫米-30毫米，部分地区有40毫米-60毫米，云南南部局地有80毫米-110毫米；此外，新疆西部、内蒙古东北部、东北地区等地降水量有8毫米-20毫米，部分地区30毫米-50毫米。上述地区累计降水量较常年同期偏多3-6成，内蒙古东北部、东北部分地区偏多1倍以上。

2）根据图像坐标系建立光心坐标系；

3）建立光心坐标系和世界坐标系之间的关系[15-16]。

图像坐标系与光心坐标系之间通过主点、焦距等内方位元素决定；光心坐标系与世界坐标系之间通过投影中心地面坐标和摄像机成像时的姿态参数建立联系。

假设空间一点P，世界坐标为[Pcx，Pcy，Pcz]T，对应的像素坐标为[pu，pv]T，建立摄像机的成像几何模型如式（1）所示：

其中，Zc是点P在光心坐标系中的Z值；ax=f/dx，ay=f/dy，f为焦距，dx、dy是图像坐标系原点在像素坐标系中的坐标；M是4 阶投影矩阵，N是与摄像机内方位元素有关的3 阶矩阵（通常由设备厂商提供）。相机成像原理如图2 所示。

图2 相机成像原理

在内方位元素已知的情况下，根据摄像机成像几何模型，像素坐标系到世界坐标系的变换包含六个转换参数（三个平移参数和三个旋转参数）。通过GIS 地图和摄像机图像相片中已知坐标的同名点对求解这六个参数。将式（1）进行整理，得到式（2）：

将上式代入式（2），展开整理得到如下三个方程：

将第三个方程中的Zc代入上面两个方程，整理得到式（7）：

根据式（7）每一个同名点对可以建立两个方程，n个同名点对可以建立2n个方程。为了获得最佳的结果，使2n＞11（n为同名点对个数），即可采用最小二乘法进行参数求解。如果内方位元素也未知，只需要增加同名点对或其他约束条件即可一并进行解算。

解算出方位元素后，即可得到该摄像机成像几何模型的全部参数。对于相片中的人体可以通过图像分析得到的像素坐标，直接计算出对应地面点的世界坐标，进一步可计算出在该点垂直于地面或平行于地面的边长。

通常而言，每个摄像机的视点位置是相同的，视频监控图像相片的成像几何模型只需要计算一次即可。

3 软件实现

基于广州市轨道交通十八和二十二号线建设工程综合监控系统的GIS 地图技术和视频图像分析技术，开发了一套工地人员定位软件，并作为综合监控系统的一个应用模块。该定位软件的数据组织如表1 所示。

表1 数据组织方案

该定位软件的主要功能包括：

1）GIS 地图及摄像机配置展示功能。此功能是基于GIS 地图添加摄像机的配置信息，包括摄像机的名称、IP 地址、访问用户名、访问密码、初始安装方位、视角范围、视角半径等配置参数。并在GIS 地图上标记出摄像机安装的精确位置，完成的摄像机配置功能和展示功能。摄像机在地图上的位置展示如图3 所示。

图3 摄像机在地图上的位置展示

2）视频监控摄像机的方位姿态展示。配置完成摄像机后，软件根据配置的初始安装方位角以及通过访问摄像机获取的旋转角度，可计算出当前的方位角（枪机是固定方位角），再根据配置的摄像机角度范围和视角半径数据，在GIS 地图上实时动态绘制摄像机的有效监控区域。摄像机动态视角范围展示如图4 所示。

图4 摄像机动态视角范围展示

3）视频监控实时画面获取和人体识别。软件集成了视频图像人工智能（Artificial Intelligence，AI）分析算法，通过已配置的摄像机访问参数，可实时读取视频监控画面。再通过配置的人体目标识别参数，即可识别分析视频画面中的人体目标，当识别到视频画面中的人体时，软件会自动保存画面，记录当前摄像机的人体头部或脚部的像素坐标、摄像机成像姿态参数、人体识别可信度数据，此时软件就采集到了用于单目视觉技术计算人体坐标的所有输入参数。视频监控图像中人体识别图片如图5 所示。

图5 视频监控图像中人体识别图片

4）人体定位坐标的计算和基于GIS 地图的定位展示。把视频图像AI 分析算法输出的图像（含人体的像素坐标）、摄像机成像姿态参数、摄像机位置坐标、摄像机方位角等输入条件，通过上文中的单目视学技术相关算法（摄像机成像几何模型算法、坐标计算或边长量测算法）即可计算出人本的定位坐标，然后再叠加到GIS 地图上定位展示。通过设置合理的软件执行频率、并过虑掉人体可信度较低的输入数据，即可实现较好的人员定位效果。人体坐标计算及基于GIS 地图展示如图6 所示。

图6 人体坐标计算及基于GIS地图展示

4 结论

利用该文方法和实现的软件，在广州市轨道交通十八和二十二号线建设工程的两个工点进行了应用，结果表明，1）经对照无人机航拍正射影像地图和特征点交会测量坐标可知，误差控制在2 m 以内，满足施工区域人员定位的管理要求。2）该方法可广泛应用于已安装视频监控设备的建筑施工区域以及其他视野相对开阔的工业园区的人员定位。3）该方法充分利用工地现场已安装的视频监控设备，深化应用视频图像分析技术、GIS 地图技术，在不增加安装人员定位设备的前提下，可有效实现地铁施工人员定位技术。