王以文,顾政,褚永华
浙江大学医学院附属第二医院 临床医学工程部,浙江 杭州 310000
随着计算机技术与医学影像技术的迅速发展,医学影像诊断已经成为医生辅助诊断的主要手段。计算机技术与医学图像处理方法的进步,推动着医生诊断效率和正确率的进步。医院每天产生大量的医学图像,这些图像积累在医院的数据库中。数据量这么庞大的情况下,如何检索和归类是一个亟待解决的问题,这关系到医生的诊断效率甚至准确率。如何运用合适的检索技术进行有效地检索海量图像数据是至关重要的。
医学影像有不同于其他图像的特点,具体如下:① 分辨率较高,像素通常有256×256甚至512×512;② 医学图像的信息量较高,通常达到4000多个灰度级;③ 由于人体的特殊结构,医学图像的对比度不高,不同的器官或者感兴趣区(Region of Interest,ROI)没有明显的界限,所以图像分割比较困难;④ 医学图像不仅仅是图像信息,由于特殊的存储格式,还包括病人信息、诊断结论等,这是其他格式的图像所没有的。
医学影像独有的格式是DICOM格式。放射科仪器拍出的片子都是以DICOM格式的图像储存的。DICOM格式的各部分既相互关联又相互独立。其中规定了病人、研究、系列、图像四个层次的医学图像信息结构,以及由它们组成的信息对象[1]。
图像检索经历三个阶段。第一阶段为基于文本的图像检索技术,起源于20世纪70年代。主要思路是将图像作为数据库存储的一个对象,用文本对其描述。目前标注的信息大多是基于DICOM结构中的信息[2],包括患者的姓名、病案号等个人信息和疾病名称、疾病表征、诊断情况、拍片时间等医学信息;然后用户输入相应的文本描述,检索系统在医学图像库中查找出带有该关键字的图像,用户根据自己对检索结果的满意度调整检索策略,进一步修改限制条件,来不断提高检索结果的准确性[3]。基于文本的图像检索技术比较符合人们的检索习惯,实现起来也比较简单。然而,这种检索方法依靠的是图像信息关键字的概括,不同的人用的关键词不同,导致检索准确率并不高。
20世纪90年代以来,出现了基于内容的图像检索技术,尤其是利用物理特征进行检索,它避免了人工提取关键字的不一致性。实际上,物理特征层包括图像的颜色、纹理、轮廓、形状等视觉描述特征,这些视觉描述特征通常是低层次的,但能在一定程度上代表图像,又是非常客观的,并不需要人们去理解。运用的方法有图像分割、颜色直方图、高斯直方图、灰度共生矩阵等。比如:对于图像中主要空间结构,如自然度、开放度、粗糙度、膨胀度、险峻度等特征,可以运用全局特征GIST来处理[4]。对于形状和纹理等特征,Cai等[5]为3D神经图像检索开发了基于PCM的体积纹理特征的检索。
在理想情况下,用户更希望根据图像的含义而非颜色、纹理等特征来检索满意的图像。能够丰富表达图像的含义、场景和感情色彩等丰富信息的,是高级的语义特征。所以近年来出现了基于语义的图像检索技术。这是基于内容的图像检索技术的延伸。目前的研究热点在如何跨越“语义鸿沟”——由于计算机获取图像的视觉信息与用户对图像理解语义信息的不一致性而导致的低层和高层检索需求间的距离。解决了这个问题,根据语义特征层的语义特征去检索图像,才能得到比较满意的效果。部分研究已经取得了一些成就,例如针对高分辨率的肺部CT图像,美国普渡大学机器视觉实验室开发了ASSERT,即具带有自动选择搜索功能的检索工具[6]。美国斯坦福大学开发了基于区域的匹配技术、小波以及统计模型的方法对图像进行SBIR[7]。现在计算机方面比较热门的深度学习、神经网络算法也应用到基于语义的图像检索中。
对于计算机方法而言,医学图像检索的主要难点在医学图像分类,而图像分类的主要内容是图像处理和模式识别,主要体现在特征的提取和距离的计算。
模糊聚类是涉及事物之间的模糊界限时按一定要求对事物进行分类的数学方法,广泛分析在气象预报、地质、农业、林业等方面。通常把被聚类的事物叫做样本。模糊聚类方法用数学方法定量地分析样本的亲疏关系,客观地进行分类[8]。其中应用最广的是模糊C-均值聚类算法改进,主要集中在目标函数修改、收敛速度提升、聚类有效性、算法实现途径和混合型数据聚类等几个方面[9]。
一些文献中提到AHC算法[10]、HSBD算法[11],是将矩阵和聚类结合起来的。HSBD算法是基于语义的医学图像检索,在本体的术语相似性的基础上计算每幅图像的语义距离。HSBD算法流程图 如图1所示。
聚类算法主要体现在:每个术语当成一类,然后分别计算每个类别的相似性,更新相似性矩阵,再找出类间距离最相近的两个类(在相似性矩阵中最小的两个值),将它们合并成新的一类,如果得到的类的数目多于设定数目,那么就重复进行计算每个类的相似性,再往下。这个算法在先前生成的本体术语相似矩阵的基础上,生成树状图,通过层次构架的方法,将数据自下而上聚合,产生聚类结构[11]。
图1 HSBD算法流程图
在计算代表图像特征的向量语义距离时,将向量元素代入聚类结构计算,进行子距离融合,从而得到每幅图像的语义距离。
聚类分析模型的优点就是直观,结论形式简明。缺点是在样本量较大时,要获得聚类结论有一定困难。且单纯根据相似系数得出结论,聚类算法本身没有反馈机制,无法识别这类错误。
深度学习作为机器学习领域的一个新的研究方向,不需要人工参与设计就能将原始数据通过自动学习过程从一些简单的非线性模型变换为更高层次的抽象表达,再组合多层变换,学习提取出非常复杂的函数特征。这是深度学习与传统的机器学习最主要的区别[12]。
近年来,卷积神经网络发展迅速。它是一类高效的语义属性抽取与图像识别的深度学习算法[13],在模式识别领域得到广泛的应用。它是一种从输入到输出映射的深度网络,本质上是一种多层感知器。在神经网络的卷积层,提取局部特征;在池化层,在去除冗余信息的同时保留最能表达图像不变性的重要特征。卷积神经网络的训练过程是针对一组训练样本集,确定一个最好的函数,通过迭代更新或反馈学习等方式不断调整优化网络中的参数[14]。卷积神经网络的优点是对于特征分类效果比较好,会保留重要参数,去掉不重要的参数,很适合图像的识别;缺点是需要大量样本训练,且物理意义不明确。
简单地来说,哈希算法是将图像二值量化,产生非常适合大规模图像检索任务的高度紧凑的二进制码[15]。大多数现有的哈希方法首先将图像转化为特征向量,然后进行单独的二进制化步骤以生成哈希码。但是这个两阶段过程可能会产生次优的编码[16]。如何将哈希算法优化,使之更具有表达能力和区分能力,也是一个比较热门的方向。比如,Conjeti等[17]报告中的深度残差哈希以及Duan等[18]研究结果也是基于深度哈希的融合索引。哈希算法的优点是检索效率非常高,缺点是二值化会将图像的一些重要特征丢失[15]。
计算机辅助的医学检索技术在不同领域均有探究。目前研究比较多的有肺部CT图像、乳腺X光图像、脑部疾病CT/MRI图像等。国际上有一些开源的医学图像网站,可以给研究者们提供分析的素材。
肺部影像数据库联盟,它是医学图像学术界用于开发、研究和评价利用螺旋CT进行肺癌筛查和诊疗的影像报告和病例数据系统[19],包含带有图像和注释的1018例病例。而肺结节有比较多的医学特征,如精细度、球形度、钙化征、毛刺征等,肺结节又是早期肺癌筛查的重要研究对象,所以对肺结节图像处理的研究是比较多的。前文提到基于医学征象和卷积神经网络的肺结节图像哈希检索方法和利用深度有监督哈希的肺结节检索方法,对图像的形态学特征和语义特征加以提取和处理,获得了93.54%的准确率[14]。魏国辉等[20]提出了一种基于相似性度量的肺结节图像检索算法,该相似度量以马氏距离为基础,保持了图像的语义相关性和视觉相似性。
美国国家癌症研究所创建了开源开放的癌症图像存档系统。万艳丽等[21]选取了一些脑部胶质瘤的CT和MRI的图像作为实验素材,基于深度卷积神经网络的脑部图像视觉特征提取,设计了一种适用于脑部疾病图像的分类器。
美国匹兹堡大学医学中心的病理图像CBIR、美国耶鲁大学病理系的细胞CBIR、澳洲悉尼大学计算机系的PETCBIR,都在特定种类的图像和疾病上取得不同程度的成功[22]。
随着医学影像设备的快速发展和计算机技术不断渗入医学相关领域,医学图像检索技术已经是当今热点课题。在图像检索的方法上,特征提取和距离计算始终是两个需要攻克的问题。不同部位不同病症的医学图像的特征不同,所以用到的方法不同。有针对性的图像检索技术比全面的更为有效。
与之相关的计算机诊断技术也在迅速发展,通过与深度学习、人工神经网络等相结合,为医学图像诊断提供了新技术方法和新研究方向。而深度学习需要大量的数据集做训练,方法也是需要不断优化的,所以这方面的研究将会越来越多。
对于图像检索系统来说,最重要的是检索准确,其次是检索效率。基于深度学习和大数据并行计算技术的医学图像特征高效表示和图像检索效率将成为医学图像检索领域未来研究的主要趋势[23]。