李炎
(北方民族大学计算机科学与工程学院,银川 750021)
传统的医学图像检索应用中的相关模型存在以下几个问题:(1)该领域只有少数研究需要进行彻底的分析;(2)缺乏大规模药物基准数据集的获取;(3)即使通过访问大型医疗数据集,也可能存在与数据分布有关的不平衡问题[1]。因此,如何设计深度学习模式来解决上述问题是重要的。在本文中,提出了利用深度神经网络弥合机器学习模型与人类操作员之间的语义鸿沟的方法[2]。
在本文中提出了一个不同训练的并行深层网络的通用方法。本方法主要有两个方面:(1)在非常不平衡的医学基准数据集上引入健壮的检索系统,该系统不仅效率高,而且也超越了文献中的最佳准确性和性能。(2)提出一个缩小的搜索空间,使用一个具有三个卷积网络的集合模型,然后进行三个转换来检索相关信息,从而提高医疗应用的检索精度。
LBP是一个众所周知的视觉描述符,具有较低的计算消耗,并且具有相对不变性[3]。LBP已被广泛应用于医疗领域,通常将整个图像分成区域(称为单元格),并在每个像素周围考虑圆形边界。如果邻域的值大于中心值,则将其替换为1,否则替换为0。LBP特征向量通过计算单元格上的可能状态的对称图(每个值的迭代)来获得。设P是相邻像素的数量,R是半径,则LBP算子定义为:
HOG是另一种类型的视觉特征描述符[4]。它可以计算整个图像相对于x和y的梯度,并构建梯度方向直方图。然后在单元的直方图上范数正态化。该HOG特征向量定义如下:
Iy,和Ix,是图像I相对于y和x的梯度,x是每个像素及其左侧的水平区分,y是每个像素之间的差异。LBP和HOG的组合可以使检测的性能显着提升。
Radon通过公式(3)整体转换来从几个θ角度计算图像的信息总和。Radon转换可以从不同的角度重建原始图像,每个角度(θ)是一个信号,角度越多就能得到更高亮度的图像。
(ρ-xcosθ-ysinθ)指的是图像的灰度强度,δ是三角运算符,Radon变换用来重建原始图像。
本文提出一个深度学习框架的检索方法包含三个主要阶段:(1)预处理;(2)收缩搜索空间;(3)基于内容的图像检索。如图1所示:
原始IRMA数据集的大小和分辨率各不相同,为了避免失真使用零填充,然后图像调整到150×150像素创建两个增强数据集[5]。最后对使用不同输入的并行深层解决方案进行了实验结果如下。
表1 每一阶段的结果
表2 CNN最后一层的置信度与相应层IRMA错误之间的关系
从表1可以看出已经可以将IRMA的误差降低到166.84,这是所提出模型的五次运行的平均值也是目前取得的最佳性能。表2显示了不同的阈值分别导致不同的IRMA错误,随着置信度的提高,检出零错误的数量也会减少。结果证明施加高置信度阈值使得集合模型更加稳健和准确。
本文提出由三个不同训练的CNN组成的并行层次解决方法。首先通过提供一个小子集来缩小搜索空间,基于LBP、HOG和Radonfeatures的多次筛选,随后选择最佳匹配查询图像。在IRMA数据集上经过实验,所提出的方法通过预处理和PCA改进的定制字典方法实现了最低的错误率166.84(平均值),低于169.50。