基于卷积神经网络的腹部组织器官表面的三维重建

2018-09-12 11:17徐珂陈智勇

科技创新与应用 2018年22期

徐珂陈智勇

摘要：文章设计了基于卷积神经网络的腹腔镜下软组织器官表面的无监督学习深度估计网络，并根据视差图像进行三维重建。实验结果表明，提出的深度估计网络所计算产生的视差图像为稠密有效的，根据视差图像进行三维重建结果较好，视差图像的SSIM的量化值为0.7626±0.0476，PSNR的量化值为16.0916±3.3080。

关键词：卷积神经网络；无监督学习；深度估计；三维重建

中图分类号：TP391 文献标志码：A 文章编号：2095-2945（2018）22-0016-03

Abstract： In this paper， an unsupervised learning depth estimation network based on convolutional neural network （CNN） for soft tissue surface under laparoscope is designed， and 3D reconstruction is carried out according to parallax image. The experimental results show that the disparity images calculated by the proposed depth estimation network are dense and effective， and the results of 3D reconstruction based on the disparity images are better. The quantization value of SSIM of disparity images is 0.7626±0.0476， and the quantized value of parallax images is 16.0916±3.3080.

Keywords： convolutional neural network （CNN）； unsupervised learning； depth estimation； 3D reconstruction

1 概述

腹部微创手术相对于传统开腹手术具有出血少，创伤小等特点。2D腹腔镜不具有深度信息，而双目立体匹配方法可将产生含深度信息的3D图像。因而双目立体匹配深度估计成为微创手术的重要研究方向。三维重建是以深度估计为基础，腹腔镜下组织器官表面的三维重建方法可分为两大类：传统立体匹配方法和基于神经网络的立体匹配方法。

传统立体匹配方法。马波涛[1]使用灰度差和统计变换的方法计算左右图像所对应的区域；高艳艳[2]使用Harris、SIFT、SURF对离体软组织器官进行基于特征的立体匹配等。这类方法下的三维重建的计算时间上较长，且匹配计算得到的深度图准确度不高。

基于神经网络的立体匹配方法。罗等人[4]在通过计算左右两幅图像中匹配块的相似性来进行三维重建；Antal[3]将左右肝脏体膜的像素点的按照通道上的强度值组成3维坐标作为输入，通过监督学习的神经网络的方法计算视差图像；周等人[5]等人采用无监督卷积神经网络方法联合训练了一个单目视差深度估计网络；Garg等人[6]使用Alexnet网络结构来估计视差图像。由于腹腔镜下腹部组织器官的金标准难以获取，所以，无监督学习更适合于腹腔镜下双目三维重建。

2 双目深度估计方法

我们首先使用无标签的已经校准的腹腔镜下双目立体图像数据训练了一个基于无监督学习的双目稠密深度估计网络，输入数据到我们已经训练好的模型上，产生视差图像，根据视差图像进行三维重建。

2.1 无监督双目深度估计网络

我们使用自编码网络来实现我们的模型。自编码网络包含两部分：编码器网络和解码器网络。我们借鉴了Disp-Net网络[7]和V-Net网络[8]方法，在解码器网络中，我们设计了14层卷积层，前4层卷积层的卷积核大小为7、7、5、5，剩下层的卷积核大小全为3，并采用了多尺度[9][10]网络结构；在编码器网络中，我们使用了7层反卷积、7层卷积级联层和视差产生层，并将后四层反卷积网络中计算产生的预测的视差图进行上采样和级联拼接，并将跳跃连接层引入到解码器网络中。双目深度估计网络如图1所示。

2.2 双目深度估计损失函数

2.3 实验细节

实验数据来自Hamlyn中心的腹腔镜视频数据集[12]。我们在Nvidia Tesla P100 GPU（16GB）服务器上使用TensorFlow框架实现了我们的无监督双目深度估计网络。我们在网络中使用了Relu激活函数和Adam随机优化器，epoch为50，初始学习率设置为10-4，批大小为16，总计训练时间约6小时，训练图像的分辨率为256×128。

3 实验结果

我们将实验结果和已公开的结果进行了比较，如图3所示。

因数据集没有金标准数据，因此，我们将此数据集上最佳结果Siamese[12]作为金标准，并使用结构相似性（SSIM）和峰值信噪比（PSNR）来评估结果。如表2所示，我们统计了测试集中7191张图像的不同方法的评估结果。

我们根据左图像和左图像所对应的视差图进行三维重建。三维重建结果如图3所示。

4 结束语

如图3和表2所示，可以看到我们的方法比basic方法好，通过深度估计网络计算产生的视差图是稠密有效的。从图3（c）上，我们的方法稠密的重建出腹部组织器官表面的手术场景图。在本文中，我们设计了基于卷积神经网络的端到端无监督深度估计网络并应用于腹部组织器官的深度估计中，计算产生了稠密的视差图像，三维重建结果较好。在今后的研究中，我们将尝试融合[13]不同场景下的深度估计网络，使用融合后的网络估计腹腔镜下组织器官表面的视差图像，以产生更为鲁棒的深度估计网絡和更为准确的视差图像。

參考文献：

[1]马波涛.基于双目立体视觉的心脏软组织三维重构技术研究[D].电子科技大学，2017.

[2]高艳艳.双目内窥镜三维重建方法的研究[D].天津工业大学，2017.

[3]Antal B. Automatic 3D point set reconstruction from stereo endoscopic images using deep neural networks[C]. Proceedings of the 6th International Joint Conference on Pervasive and Embedded Computing and Communication Systems， 2016：116-121.

[4]Luo W J， Chwing A G S. Efficient Deep Learning for Stereo Matching[C]. In： IEEE Conference on computer Vision and Pattern Recongnition， 2016：5695-5713.

[5]Zhou T H， Brown M， Snavely N， et al. Unsupervised Learning of Depth and Ego-Motion from Video[C]. In CVPR， arXiv preprint arXiv：1704.07813，2017.

[6]Garg R， Carneiro G， Reid I， et al. Unsupervised CNN for single view depth estimation： geometry to the rescue[C]. In CVPR， 2016：740-756.

[7]Mayer N， Ilg E， Hausser P， et al. A large dataset to train convolution networks for disparity， optical flow， and scene flow estimation[C].In CVPR， 2016：4040-4048.

[8]Milletari F， Navab N， Ahmadi SA. V-Net： Fully convolutional neural networks for volumetric medical image segmentation. arXiv preprint arXiv：1704.07813，2017.

[9]Eigen D， Puhrsch C and Fergus R. Depth map prediction from a single image using a multi-scale deep network[C]. The 28th Conference on Neural Information Processing Systems， 2014：2366-2374.

[10]Godard C， Aodha O M， Brostow G J. Unsupervised monocular depth estimation with left-right consistency[C]. In CVPR， 2017：6602-6611.

[11]Jaderberg M， Simonyan K， Zisserman A， et al. Spatial transformer networks[C]. Neural Information Processing Systems Conference. 2015.

[12]Ye M， Johns E， Handa A， et al. Self-supervised Siamese learning on stereo image pairs for depth estimation in robotic surgery[C]. Hamlyn Symposium on Medical Robotics， 2017：1-2.

[13]Dai W， Yang Q， Xue G R， Yu Y. Boosting for transfer learning[J]. International Conference on Machine Learning， 2007，238（6）：193-200.