王星琪,杨波
(上海理工大学 光电信息与计算机工程学院,上海 200093)
现如今,患有消化道疾病的人数在逐年增长。据统计,在中国,上下消化道疾病发病率约为60%,严重影响人类健康。胶囊内窥镜是一种消化道检测器件,在被患者吞服后会随着消化道的蠕动而缓慢移动,并在此过程中不断拍摄图片或视频记录消化系统内的情况。医生通过分析实时传输的视频或者储存的照片,以此诊断患者的情况。与传统胃镜和肠镜相比,胶囊内窥镜体积小,检测时带给患者的疼痛小,无交叉感染风险,在医疗领域备受关注。
2001 年,以色列Given Imaging 公司上市了第一款M2A 胶囊内窥镜产品[1]。此后,日本奥林巴斯公司推出Endo Capsule 胶囊内窥镜[2]并使用了电荷耦合元件提高灵敏度。韩国Intro Medic公司的产品手册上介绍MiroCam 胶囊内窥镜系统以3 帧/s 的速度捕捉图像并工作超过11 h。国内产品有金山公司的OMOM 胶囊内窥镜、安翰科技的磁控胶囊胃镜、资福医疗的大圣胶囊内镜等[3],但存在图像清晰度不高、拍摄画面较小、受噪声影响大等问题。
对于一个成像系统,提高光学镜头的性能可以明显改善成像质量,但在一定的限制条件下则很难达到令人满意的结果。例如胶囊内窥镜系统有限的空间尺寸使得光学镜头设计自由度较小,难以同时满足多个应用需求。基于深度学习的图像处理算法迅速发展,使得完成成像过程后再次改善像质变为可能,从而逐渐成为一种提升成像系统性能的补充方案。
针对胶囊内窥镜系统软硬件相结合的特点,本文探讨了一种综合光学系统优化与图像处理提升像素的方案。首先使用光学设计软件设计了一款超小型大视场胶囊内窥镜头,引入Q-type 非球面校正像差[4-6];然后通过分析图像传感器的物理成像过程,得到其各个阶段产生噪声的特性[7],使用得到的噪声模型生成训练数据并在数据集上训练神经网络模型,在临床图像上验证网络模型的效果。
美国QED 公司的Forbes 等提出了一种新的非球面数学描述方式[8],包括Qcon和Qbfs,统称为Q-type 非球面。这种描述方式使用了一个正交基底替换幂级数非球面中的附加多项式。当基底正交时,各项系数的平方和与正交分解中相关参数叠加的均方值是相等的,这使得系数能够直接体现出非球面的面形相对于基准曲线凹陷误差的均方值大小,从而加强了对面型形状的约束控制能力。其中Qcon多项式一般用来表示非球面与其最接近的二次曲面之间的偏离程度,而Qbfs多项式用来表示非球面与最佳拟合球面之间的偏离程度。本文使用Qcon非球面,其矢高表达式为:
式中:ccon为所表示的非球面最接近的球面的曲率半径;u为r/rmax;是一组以am为系数的m阶正交化Jacobi 多项式,am为表征偏离基准曲面的系数。
与传统的幂级数多项式相比,Q-type 多项式的优势主要有:
(1)其基底相互正交,在设计优化过程中各系数相互独立,互不影响;
(2)可供使用的非球面系数更多,且各系数有更大的量级,有利于提高设计效率和加工精度[9]。
目前的胶囊内窥镜产品尺寸为26 mm×11 mm,其内部结构还包含照明模块、电池、无线传输模块等,因此留给透镜和传感器的空间十分有限。本文选择了一款使用COB 封装工艺的传感器模组,其有效像面尺寸为2.4 mm×1.8 mm,单个像元尺寸为3.6 μm×3.6 μm,对应光学系统的分辨率为1/(2×3.6 μm)=138 lp/mm。
由于胶囊内窥镜在工作时拍摄范围较难控制,因此需要大视场来获取足够多的视觉信息。在广角镜头中,第一片透镜通常会有较大的直径以接受来自大角度的光线。因此,本次设计视场设置为160°并限制镜片尺寸,使其结构总长小于5 mm 且镜片的最大直径不超过3 mm。具体的设计参数如表1 所示。
表1 光学系统的设计参数Tab.1 Design parameters of the optical system
通过查找专利数据库和论文[10-12]选择一款美国的专利镜头[12]作为初始结构。在优化过程中逐次添加Qcon非球面并采用低色散和高色散的两种光学塑料来补偿色差。最终将第一、二、四片镜片替换为APL5014CL材料;第三片镜片为OKP-A2 材料。这两种材料都广泛应用于成像镜头,使用注塑工艺批量生产,有利于降低制造成本。通常非球面系数的项数越多,表面曲率越大,其加工越难,所有非球面的高次项数控制不超过4 项。同时非球面过于弯曲或者出现拐点会导致加工难度增大,因此在优化时可以通过控制光线矢高来避免。
最终系统结构如图1 所示,4 片透镜均为塑料Qcon非球面镜片,整个系统总长为4.3 mm,第一片镜片口径最大为2.4 mm。其全视场角为160°,工作距离为15 mm,系统的有效焦距为0.9 mm。其调制传递函数(modulation transfer function,MTF)如图2 所示,在奈奎斯特空间截止频率138 lp/mm 处MTF 值高于0.3,在整个视场都具有比较好的对比度和分辨率,满足清晰成像要求[13]。
图1 光学系统结构图Fig.1 Optical system structure diagram
图2 光学系统的MTF图Fig.2 MTF diagram of the optical system
一个光学系统不能单独以成像质量来进行评价,还需要对其进行公差分析。通过调制传递函数受分配公差的影响程度验证系统的加工可行性。在CODEV 软件中,给出如表2 所示的公差分配参数。考虑到整个系统尺寸较小,所给的公差适用于微小型镜头,并且目前这类小口径的镜片是可以加工制造的。在0°、40°、80°、120°、160°等5 个视场下,以奈奎斯特频率为100 lp/mm处的平均MTF 值作为评价标准,结果如图3 所示,在MTF 值大于0.3 时,所有视场的积累概率均能达到80%,基本达到设计要求。
图3 公差性能Fig.3 Tolerance performance
表2 公差参数表Tab.2 Table of the tolerance parameters
在完成胶囊内窥镜光学系统的优化之后,我们通过分析和处理传感器产生的图像噪声来进一步改善像质。
在大多数情况下可以用异方差高斯模型来近似表示图像噪声,但是在环境光照很弱时会产生误差,往往导致去噪效果不理想,因此需要改变噪声模型。一般地,一幅数字图像D[7,14]可以用线性模型表示为:
式中:D为数字图像;K为系统整体增益(包括模拟增益和数字增益);I为接收到的光电子数;N为噪声。而噪声N在传感器不同的工作阶段有不同的特性,如图4 所示。
图4 各阶段引入的噪声Fig.4 Noise introduced at each stage
第一阶段:在曝光过程中,入射光以光子的形式撞击到光传感器的成像区域,因光电效应产生与入射光强度成正比的光电子。这部分光电子存在着不确定性,其数量服从泊松分布:
式中:Np为光子脉冲噪声;P为泊松分布。这种噪声取决于入射光强,并且普遍存在于传感器中。同时这一阶段还引入了一些其他的噪声源,如光响应不均匀和暗电流噪声。
第二阶段:在成像区域每个位置都收集电子后,它们通常被集成、放大,并在曝光时间结束时作为可测量的电荷或电压输出。这一阶段的噪声取决于传感器所采用的电路设计和处理技术。因此称为像素电路噪声,包括热噪声、复位噪声、源跟随噪声和带型噪声。为了简化分析,将暗电流噪声Nd、热噪声Nt和源跟随噪声Ns等多个噪声源合一,称为读噪声Nread,表达式为:
受噪声的闪烁和随机电信号成分,或者由暗电流引起的暗峰的影响,读噪声具有长尾性质。由于胶囊内窥镜工作时照明有限,此时不可忽略的直流噪声成分使得噪声分布不再以0为中心。因此用Tukey lambda 分布族来描述:
式中:λ表示形状参数;μc表示位置参数;σTL表示尺度参数。
引入行噪声Nr来解释带型噪声Nb。虽然Nb可能以水平或垂直线的形式出现在图像中,但只考虑模型中的行方向分量(水平条纹),因为在测量噪声数据时,列方向分量通常可以忽略不计。用正态分布来描述:
第三阶段:为了产生可以存储在数字存储介质中的图像,在最后阶段读出模拟电压信号,采用模数转换器量化成离散码,这一过程会引入量化噪声。该噪声是模数转换器的模拟输入电压与输出值之间的舍入误差,用均匀分布来描述:
因此,噪声模型N可以分解成4 个部分:
在两种特定条件下获取所需的图像。第一种是明场图像,是在传感器均匀照明时拍摄的图像,表现了光子散粒噪声的性质。具体操作是:在光照均匀的环境下拍一张白纸,镜头安装在靠近纸的位置。第二种是暗场图像,是在无光环境下以最短曝光时间拍摄的图像,描述了与光照无关的噪声特性。具体操作是:在暗室里将镜头前端挡住,并以最短曝光时间拍摄。
由于拍摄的图像格式是JPEG,是经过图像信号(image signal processing,ISP)处理过的,这一过程会引入其他的干扰。因此使用Unprocessing模型[15]先将JPEG 格式还原成RAW 格式,随后再基于成像原理提取噪声模型。第一步将拍摄到的不同曝光时间的明场图像用光子传递法[16]得到参数K;第二步提取暗场图像每一行的均值,通过最大似然估计得到行噪声的参数σr;第三步对去除了行噪声的暗场图像,使用概率图相关系数法[17]得到参数λ,使用概率图法[18]估计参数σTL;第四步使用所得参数带入式(8)中构建噪声模型。实验测得的参数如表3 所示。
表3 噪声模型参数表Tab.3 Noise model parameter table
运用噪声模型生成训练数据加入到数据集中,数据集包含800 幅图像并用于训练U-net 神经网络模型,其结构如图5 所示。使用L1 损失函数和Adam 优化器,模型迭代400 次,批量大小为4,学习率最初设置为10-4,在经过200 次后降为10-5。
图5 U-net 网络结构图Fig.5 The structure of the U-net
通常使用峰值信噪比(peak signal-to-noise radio,PSNR)来作为评价指标,其值越大代表失真越少。给定大小为m×n的干净图像I1和噪声图像I2,均方误差(MSE)定义为:
则PSNR 定义为:
式中,I1,max为图片中可能的最大像素值。本文训练的网络PSNR 值为34.37。在图6中给出了3 组真实消化道图像处理前后的对比图。从图中可以看到图像的清晰度有明显地提高。
图6 原图及处理结果图Fig.6 Original image and processed image
本文就提高胶囊内窥系统的成像质量问题,探讨一种结合光学镜头优化与图像处理的综合解决方案。一方面使用CODEV 软件重新优化设计镜头,通过引入Q-type 非球面校正像差。最终得到一款视场角160°,相对孔径为F#3.0,结构总长为4.3 mm 的胶囊内窥镜头,全视场MTF在140 lp/mm 处均大于0.3,实现了大视场,高分辨率与小型化。另一方面基于传感器的工作特性得到噪声模型,使用其生成训练数据集训练神经网络。经真实样本测试,结果表明该网络模型能够有效地提高图像清晰度。本文提出的方案可以全面地改善像质,提高胶囊内窥系统的整体性能,为相关的医学影像研究提供新的思路。