ROV 平台全景摄像系统的研究

2024-04-02 01:32:30涂绍平

控制与信息技术 2024年1期

郭旭，涂绍平，徐蕾

（上海中车艾森迪海洋装备有限公司，上海 201306）

0 引言

全景很早就出现在艺术作品中，用于表达内容繁多、事物连贯的宏大场景，譬如两宋山水画［1］。摇头式全景雏形出现在19世纪中期，反射式全景在生活中较早在20世纪初通过使用后视镜实现，用于代替赛车的安全员，之后在各种交通运载工具上普及［2］。19 世纪60年代，计算机技术的出现使得三维建模和数字图像处理成为可能；真正将全景推广开来是等到21世纪数码相机普及后，人们可以通过数字信号来处理图像，完成多幅图像拼接，这才实现真正意义上的360°全景［3］。目前全景技术在直播、虚拟现实、交通运输等领域热度高，随着计算机视觉技术、信号处理技术的不断发展，360°全景所呈现的视觉信息越来越完善，无死角的全景摄像系统将推广应用到许多领域。目前，陆地有成熟的全景产品，如全景相机、车载全景摄像；但水下场景的全景产品主要在水产养殖领域有成熟的应用［4］，而在超过300 m的深水区域则鲜有使用。

对于水下摄像，最早产品为19世纪50年代的防水照相机；19世纪90年代末，配套水下闪光设备的防水相机成功获取了50 m水深的照片［5］。后续，随着海洋经济发展、科研项目落地，海底观测带来了深海光学成像系统的资金投入。如今，具备研制深海摄像产品能力的大型公司有美国的DP&light（Deepsea Power &Light）、挪威的Kongsberg、加拿大的SubC Imaging，这些机构生产的深海摄像产品可被装载在潜水器上进行观测、记录及探索海洋。如，HUGIN高级自主水下潜航器搭载了Kongsberg 公司自身的深海超高清相机［6］。相对激光、声呐等扫描成像，镜头的凝视感光成像更容易被人的视觉所理解，水下遥控机器人（remotely operated vehicle，ROV）的全景摄像系统可以很好地帮助领航员、海底工作人员等去实时了解ROV周边的水域信息。

全景图像一般不能直接由单镜头获取。短焦镜头有更大的视角，能达到120°；再配合前弯月镜片作成鱼眼镜头，视场角度一般能超过180°。为了能实时得到360°全景图像，至少需要2 个鱼眼镜头或更多的广角镜头，然后将多镜头摄像系统所获得的包含重叠视角的多幅图像拼接为一幅“无缝”图像，实现全景［7］。为了将水下ROV的全景图像传回船上设备，需要很高的传输带宽，比如传输H.264编码的4K@30fps视频需要占用约50 Mbit/s 的带宽。由于带宽还会被其他控制、测量信号占用，因此，全景摄影系统需要在保证质量的同时缩减带宽，其中一个可行的方法是裁剪画面［8］。一套水下ROV 平台的全景设摄像系统需要多路不同视角相机，先经拼接算法生成全景画面；再经合适的压缩、视窗裁剪生成120°宽幅摄像，以较低的带宽传输给领航员。从水下生成到水面显示，全景系统都有复杂的构成及处理方式。鉴于此，本文从总体着手，介绍全景系统各部分当前的主流技术和产品，说明ROV平台全景摄像系统的研究现状。

1 全景摄像

ROV 平台全景摄像系统可分为硬件和软件两部分。其中，硬件方面主要是考虑摄像头及灯阵数量、空间布局、规格参数；软件方面则是完成多路图像处理、全景合成及上位机功能的实现。整个系统由照明系统、相机系统、图像处理系统和视频传输系统组成，如图1所示。本文主要介绍全景摄像系统的硬件、图像处理及视频传输的软件部分，相机系统硬件有感光元件、镜头等重要单元，图像处理数据有分门别类的处理算法和传输协议。

图1 ROV 平台全景摄像系统分解Fig.1 Breakdown view of panoramic camera system on ROV platform

2 水下ROV相机系统

相机是水下常见的感知硬件。光感相机采用玻璃窗口，考虑深海相机的硬度和强度，一般选择蓝宝石视窗。对于广角需求和水中1.33高折射率，视窗更多选择球面。国际上可以供应深海相机的厂商近来变化不大，表1示出常规的深海相机设备［9］。

表1 国际高品质深海相机性能Table 1 Performance of international top quality deep-sea cameras

传统的相机布局是前后两路，能基本满足ROV行驶方向上的环境分辨。为实现ROV环视，还需增加左右两路，或是继续增加上下两路。这样不仅要增加相机数量，还要约束这些相机的相对位置，尽可能让两两相机的光轴重叠或相交适当角度，方便后续的图像处理［10］。

上述四周布局的多路相机系统是针对中大型箱式载运工具，避免了自身遮挡相机的情况。对于小型或不规则载运工具或是静态摄像，一体集成的阵列相机则是最方便的相机布局方式。多路相机的两种布局方式如图2所示。

图2 多路相机的两种布局Fig.2 Two layouts for multiple cameras

2.1 分布式全景相机

单个相机之间无直接物理连接约束的全景布局方案被称为分布式全景相机，其需要根据具体的运载平台来确定相机各自的安装位置。对于箱式运载平台，相机可被安装在4个侧面的表面上；对于长侧面，则需要放置多个相机［11］。

分布式相机的每个镜头都配有主板，有独立的IP通信，即可以单独启用一个相机来传输一路画面。虽然硬件成本高，但可以在空旷等特定场景下仅开启少量相机，降低算力等负载。

相机规格参数主要有视场角和分辨率。如果镜头组的视场角在水平方向要达到360°，则可选定4 个水下110°的广角镜头。为了达到画面3 840×2 160 ppi 的分辨率，多路图像的像素之和也需要达到800 万像素以上，如可选定4个300万像素的高清相机。

对于安装位置，分布式全景相机需要约束相机系统所有相机的光轴在同一平面或是平行于一个平面，以方便建立系统的投影坐标系。因此系统应尽量满足下列条件：相机型号一致，光轴投影在同一平面，光轴高度一致。水下ROV 平台一般为规则的方形框架，适合在框架外侧各个方向安装相机。参考德国Geomer实验室研制的深海可视化系统，该系统的全景相机模组的布置方案如图3所示，其在前后、左右4个面的下侧各安装一个鱼眼镜头（红框所注）。

图3 一种ROV 全景相机布局方案Fig.3 A layout scheme for ROV panoramic cameras

2.2 集成式全景相机

集成式全景相机是将多个镜头、传感器封装为一体式，可共用主板解算和IP 通信。相较分布式全景相机，集成式全景相机结构紧凑、价格有所降低、多镜头的相对位置容易确定，缺点是俯仰角会被中大型箱式载运工具的安装平面遮挡。

集成式全景相机的各个镜头规格一般都相同，光轴被严格限制在同一个平面或圆锥面，且均匀分布。目前市场上主流产品单个镜头的视场角在110°左右，像素在300万附近，图像处理、编码等处理单元被集成在主板上。

除了无人机上用于鸟瞰的全景相机被安装在底部，集成式全景相机一般被安装在顶面上，在中型运载平台上通过顶杆拔高视野，如图4所示。图4（a）中，集成全景相机被安置在水下ROV的顶部中线位置；图4（b）是配有多目相机的三维地图街景车。

图4 集成式全景相机布局Fig.4 Layout of integrated panoramic cameras

集成式全景相机在自媒体领域应用较广泛［12］，而在深海探索领域目前还鲜有成熟产品，相关的设计有中科院西安光学精密机械研究所的4π 视场深海相机模组以及美国巴特勒公司的360°深海相机，如图5 和图6所示。

图5 4π 视场深海相机模组Fig.5 Deep-sea camera module with 4π field of view

图6 360°深海相机Fig.6 Deep-sea camera with 360° field of view

3 多路图像处理

硬件获得的多路图像并不能直接边界贴合，需要将相邻的具有部分重叠的图像进行无缝拼接、融合，才能生成一张360°视角的全景图像。早在1986 年，Haywood［13］通过水下摄像头的精确相对位置来确定获取的两幅图像之间的空间坐标关系，然后直接拼接图像。考虑相机位姿的估计误差偏大，拼接前可引入图像视觉信息的边缘配准，以改善拼接效果［14］。图像拼接技术在水下装备领域已有应用［15-16］，拼接的关键是图像配准和图像融合。配准是寻找两幅图像之间的对准关系，融合是消除拼接间隙并平滑过渡。图像拼接基本流程是图像预处理、图像配准、坐标变换和图像融合，如图7所示。

图7 图像拼接流程Fig.7 Process of image stitching

3.1 图像预处理

物景是通过相机将三维空间的点映射到二维空间所得的图像，由于相机的安装设计（透镜和成像面不平行）会存在误差，那么同一物景通过不同位置的相机所生成的图像会存在较大差异，如缩放程度、倾斜度、方位角及高度。这些物理差异会影响后续配准的效果，因此图像预处理是图像拼接前重要的步骤。

一般，针对相机本身成像的图像预处理被称为相机标定，对水雾、浑浊等环境因素的预处理是图像复原。

3.1.1 相机标定

相机标定是为了标定好成像参数，包括自身的内参（焦距、畸变系数）及相对位置的外参（世界坐标系到相机坐标系的旋转平移矩阵）。对于独立的单个相机，只需标定内参，外参则是为了确定相机之间的位置关系。通过内、外参数可以确定世界坐标系到像素坐标系的投影矩阵，这些坐标系的关系如图8所示。相机需要通过实际特征物的成像实验进行标定，方法有直接线性标定、两步标定和张正友标定［17］。特征物通常是规格已知的黑白棋盘方格，如图9所示。

图8 相机坐标系关系示意Fig.8 Relationship between coordinate systems related to cameras

图9 标定方格Fig.9 Checkerboard for calibration

3.1.2 图像复原

图像的成像过程是光线经过物体反射后到达相机后再成像。良好的天气、光线等环境下成像真实；相反，雾雨浑浊环境会使得图像信息错误或者缺失，称之为图像退化。在水下ROV成像过程中，水介质、悬浮颗粒对光线有比较严重的吸收和散射效应，会造成光线强度的衰减和光传播方向的改变，典型的影响是水下图像普遍呈现青色［18］。为了提高图像的真实度，需要针对图像的退化原因进行补偿，即利用图像退化的逆过程去恢复原始图像。图像复原方法分为3种，包括基于多图像及特殊硬件的复原方法、基于先验信息的复原方法和基于卷积神经网络的复原方法。按照McGlamery建立的光学成像模型［19］，退化过程可被简化为线性叠加，即退化函数与特殊噪声的叠加。退化函数可以通过符合先验知识的 “真实”图像与退化图像的频域比值、场景的频域模型等方法估计；特殊噪声按照可能存在的噪声类型（高斯噪声、瑞利噪声等）进行相应的滤波。

3.2 图像配准

图像配准是找到待拼接图像和参考图像之间重叠部分的对准关系，即将两幅图像中对应于空间同一位置的点一一对应起来。图像配准的算法主要分3类：基于灰度和模板的配准、基于特征的配准及基于频域变换的配准。其中，基于特征的匹配方法因为运算量小、对图像形变不敏感等优点，在实际中应用得更为广泛。

除了配准算法，还可以直接通过标定来确定重合的对应点，即在图像预处理的标定过程中确定相邻画面的公共标定点，从而直接计算出两幅图像之间的尺度关系。

3.2.1 基于特征的图像配准

基于特征的图像配准需要图像特征辨识度高，特征点达到一定数量且尽量均匀分布。根据所选取的特征点，可以求取图像之间的坐标变换关系并实现图像的配准。

尺度不变特征变换算法（SIFT）由Lowe在1999年提出［20］，后续出现了较多基于该算法不变量思想的优化算法，如SURF、PCA-SIFT、Harris-SIFT［21］等。SIFT算法根据尺度空间理论，将图像引入不断变化的尺度空间内，通过提取主轮廓，保证特征点的尺度无关性。特征点的筛选则是利用高斯差分尺度空间算子（difference of Gaussian，DoG）寻找出像素点邻域内同尺度的近邻点及相邻尺度对应位置的像素点总计27个点的极值点，并将其作为潜在特征点加入特征集合，如图10所示。由于水下环境的图像普遍存在像素模糊和亮度不均等问题，基于特征的配准就需要平衡鲁棒性和实时性。

图10 高斯差分的极值检测Fig.10 Extreme detection using DoG

3.2.2 基于标定点的图像配准

基于水下摄像头的精确相对位置，可以直接计算两幅图像的空间转换关系。对于相对位置未知，但安装位置固定的多个相机，可以通过相机标定确定相对位置，直接配准。譬如多相机系统经过黑白棋方格的标定，可以选定相邻图像重叠区域两个以上的标定点及附近特征点作为配准点。基于配准点位置关系，对待拼接图像进行相应的缩放、旋转，如图11所示，缩放比例为标定点A、B在两幅图像的直线距离比值，旋转角度为标定点在各自像素坐标的倾角差值。

图11 标定点在相邻视图的位置示意Fig.11 Positions of calibration point in adjacent views

3.3 图像融合

图像通过配准关系进行初步拼接。针对特征叠加的区域，即两幅图像重叠部分，由于亮度、视角点的差异，简单的叠放会使得图像模糊、割裂，有明显的拼接痕迹，因此需要对初步拼接的图像进行二次图像融合处理。

融合的目的是消除拼接痕迹，使重叠区过渡自然。为保证图像清晰、自然，可以降低部分细节要求，即追求图像的视觉效果，容许降低一定的真实度。根据图像的表征层，图像融合分为像素级融合、特征级融合和决策级融合［22-23］。像素级融合是常用的图像融合方法，其直接对像素灰度信息进行处理，处理方法还可以进一步分为加权融合、小波融合、多分辨率融合和基于深度学习的模型训练融合［24］。特征级融合也是需要先提取图像轮廓、角点等特征，再基于融合规则进行融合的。决策级融合是基于特征的决策可信度进行决策融合。

常用的像素级融合方法中，加权融合具有简单直接和运算量小的优点，其通过提取图像灰度信息，按照灰度值贡献率计算权重并进行加权平均，计算公式如下：

式中：f——像素点灰度；f1——第一张图像灰度值；f2——第二张图像灰度值；w1，w2——权重值，区间在［0，1］，且w1+w2=1。

权重值的选择有2种方法：一种是帽子函数加权，另一种是渐入渐出。

多分辨率融合则分为两种，即基于Laplacian金字塔和基于小波分解的融合，它们都是将图像分解为不同分辨率，然后在低频信息和高频信息处分别进行融合。

4 全景视频传输

水下ROV 视频的收看者一般是位于陆地上或是船上，即原视频经过ROV 视频系统采集后，还需经过压缩处理，然后再远距离传输到客户端的显示系统。全景视频由于视场扩大到一般视频的3到5倍，按照标清图像的要求，分辨率需要达到4 K以上。一般视频的帧率在30 fps，色深为8 bit，4K 全景视频原画的码率是5.6 Gbit/s，在压缩比率为100时所需带宽为56 Mbit/s，因此，全景视频的传输对带宽资源的要求较高。球面全景视频的像素点不均匀，也没有对应的视频编码，按照全方位媒体的格式（omnidirectional media application format，OMAF），3D 画面需要经过等距圆柱体投影（equirectangular projection，ERP）、改进的圆柱等面积投影（adjusted equal-area projection，AEP）等映射方式转换成2D画面，然后才能进行编码传输。目前，全景视频在流媒体传输领域还处于不断完善接口协议的过程中。

当前，全景视频主要是基于Tile 划分的自适应多速率传输，该方案根据实时网络带宽变化，动态传输感兴趣域（region of interest，ROI）对应的一组Tile流给用户［25］。人的双目视域在110°左右，传输ROI 是比较合理的节省硬件的策略，通过人机交互、ROI 预测，即捕捉用户视角旋转进行Tile流快速切换，从而节省带宽。ROI域是完整的高码率流，除去ROI域的其余画面（如在ROI前后30°视场角为低码流、偏远角度为1帧的图像）同样需要及时传输，进而提高用户视角快速切换的体验。全景视频远距离码率优化传输系统如图12 所示，基础层为低帧率的完整全景，增强层为高码流的多层Tile 图像数据，增强层对应的ROI 会经过运动约束分块（motion constrained tile sets，MCTS）编码，生成码流，然后将两个码流封装，按照HTTP 协议传输。码流融合可以拼接多分辨率的视频流，在进行子图像码流融合前，要初始化头信息，码流融合过程中将子图像的每一帧作为最小的压缩数据进行编码［26］。

图12 一种码率优化的全景视频传输系统Fig.12 Panoramic video transmission system with optimized rate

全景视频的传输应用场景更多是流媒体、VR等偏娱乐办公场景，注重流畅、沉浸感等用户体验，而水下运载平台的全景视频应该是更注重传输过程的时延和带宽占用。对于水下ROV全景实时性视频的长距离传输，可尝试使用UDP 无连接式的协议传输，编码则考虑选择效率更高的H.265。

5 结束语

本文对水下ROV 平台的全景摄像系统做了清晰化的拆解介绍，包括全景相机分布式、集成式两种布局方式、标定拼接的多路图像处理，还有考虑带宽资源的远距离全景视频传输。全景摄像能够帮助驾驶员快速熟悉四周环境，提高在复杂环境驾驶的安全性，让工作人员沉浸深海环境成为可能。目前水下全景摄像应用较少，随着图像处理的特征识别和复原算法等全景技术的发展以及计算效率的提高，加上水下设备的推广应用，水下全景摄像系统将会有更多的研究应用。