医学图像计算机辅助诊断数据平台研究

2013-03-10 08:11王伟胜骆嘉伟林红利
中国生物医学工程学报 2013年1期
关键词:医学影像特征提取病例

王伟胜 骆嘉伟 林红利

(湖南大学信息科学与工程学院,长沙 410082)

引言

基于医学影像的计算机辅助诊断(computeraided diagnosis,CAD)系统,在降低医生阅片负担、提高疾病诊断准确率、降低漏诊和误诊率方面有着重要的作用[1-2]。其研究内容集中在医学图像分割,特征提取和分类等[3-4]。从医学图像提取病变组织是分割的目的,算法运行效率和准确性是分割算法的评估指标;利用典型的图像分割方法,结合病变组织的生理学及成像特点进行病变组织提取,是CAD 普遍采用的研究策略。研究病变组织的特征提取方法,图像的形状、灰度、纹理是最常提取的特征,在此基础上研究针对不同病变组织的特异性特征及其量化方法,是特征提取的研究热点。分类研究病变组织的良、恶性判别方法,人工神经网络、贝叶斯、支持向量机等是最常用的分类算法。

从20 世纪80 年代开始,CAD 研究在近30 多年里得到了迅速发展,国内外研究机构相继开展了多病种、多模态CAD 系统的研究,并取得了大量的研究成果[3-4]。目前基于X 射线成像的乳腺癌CAD研究最为广泛和成熟,已成功用于临床诊断,其他病种的CAD 研究虽然也取得了一些成果,但要达到临床应用的要求尚需广泛和深入的研究[5]。

首先,尽管文献报道了大量的CAD 算法,但用于CAD 算法训练、测试和评估的样本量普遍偏少,使得研究成果离临床诊断还有一定的距离。其原因主要有:(1)CAD 研究需要的医学影像数据量大、费用昂贵,病例收集比较困难;良、恶性定性诊断中所需的“金标准”病例则更难收集;(2)“金标准”标注工作量大,缺乏智能化的标注工具和统一的“金标准”数据模型。

其次,缺乏支持CAD 协同研究的机制和平台。CAD 研究需要大量的医学影像、“金标准”,同时在研究过程中也会产生大量的图像量化数据,由于缺乏统一的数据存储模型,这些宝贵的数据无法方便地共享,限制了数据的再利用;算法是CAD 研究最重要的成果,由于缺乏一个可以支持算法共享的平台,使得每个研究团队必须一切从零开始进行病例收集、标注、分割、特征提取及分类等环节的研究,从而大大降低了CAD 系统的研究效率。虽然CAD系统研究者认识到病例数据集的重要性,目前有一些组织建立了可共享的病例数据集,例如乳腺癌[6]、肺癌[7-8]等数据库,但普遍缺少统一的数据模型和数据管理工具的支持。

最后,一个可用于算法评估、开展算法对比研究和分析的标准数据库也是CAD 研究的迫切需要。

因此,一个能为不同CAD 研究团队提供数据、算法、研究工具共享的数据平台,将为解决目前CAD 系统研究中存在的病例收集困难、标准数据缺乏以及研究成果共享困难的问题提供解决方案。

本研究围绕CAD 系统研究过程中病例收集、标注、研究成果共享以及算法评估中存在的问题,提出了一个用于CAD 协同研究的数据平台。通过分析CAD 系统研究数据平台的需求,利用Oracle 数据库和VC++程序进行了具体实现,并成功运用到基于MRI 的脑胶质瘤计算机辅助分级和基于CT 的肺癌计算机辅助诊断系统研究中。

1 数据平台需求分析

1.1 数据需要分析

基于医学影像的CAD 研究中的数据,可分为影像数据、“金标准”、过程数据以及临床诊断数据。

不同模态和格式的影像数据是CAD 研究的基础,数据平台需要提供对各种影像数据的支持。

DICOM (digital imaging and communications in medicine)作为医学影像数据交换和存储的标准,已经被广泛应用在数字影像设备上[9]。数据平台要能支持不同模态的DICOM 医学影像的读取、显示和操作处理。同时也需要提供对BMP、JPG 等常用计算机图像格式的支持。

“金标准”为算法和系统训练、测试、评估提供参考标准。“金标准”应包括专家对医学图像上的病变组织的标注或病变组织的病理学诊断结果。前者即ROI(region of interest),是计算机辅助检测系统的目标。后者是ROI 的良、恶性诊断结果。由于单个专家对异常组织的标注可能会存在一定的疏漏,CAD 研究多综合多个专家的标注结果以减少个体的疏漏,使得“金标准”的准确性更高,因此数据平台要能存储多个专家对同一病例的标注结果。

图像分割算法提取的ROI、ROI 提取的量化特征或特征选择算法得到的最优特征子集,是CAD 研究的过程数据,是后续研究的基础,同时也是其他研究领域的重要数据来源。考虑到不同病种、模态以及研究团队关注的特征各不相同,如肺癌CAD 系统关注肺结节的大小、纹理、形状等特征,乳腺癌CAD 系统则更关注肿块的密度、形态和双侧乳对称特性。因此数据平台应提供对过程数据的动态存储,数据名称、类型等由用户输入。

1.2 平台业务需求分析

一般的CAD 研究过程如图1 所示,包括病例获取、“金标准”收集、图像分割与特征提取、算法评估和检索等。

图1 CAD 研究数据处理过程Fig.1 CAD research data process

CAD 研究所用病例的影像数据,主要来源于PACS 系统、影像设备或其他研究团队提供的影像数据。临床系统提供的DICOM 影像,首先需要进行匿名化处理,去除患者的姓名、身份证号码、联系电话等有关患者的个人信息,然后为每个病例分配一个唯一的标识符存储到数据库中。考虑到影像数据量巨大,在数据库中只存储了影像文件在影像服务器的路径和文件名。影像文件存储的元数据,如成像设备、成像参数等也在病例获取阶段通过对影像文件解析获得。病例学诊断数据则提供用户界面由用户录入。

一个或多个专家使用医学图像标注工具标记图像上的ROI 边界,给出ROI 特征的语义描述以及输入ROI 的病例诊断结果是“金标准”收集的处理过程。“金标准”收集工作量巨大,考虑采用智能化的标注方法来减少专家的工作量。首先采用自适应阈值、区域生长、数学形态学等自动或半自动的图像分割算法完成ROI 的初步提取,然后由专家对提取的ROI 边界进行修正;同时提供手工分割方法满足专家对复杂ROI 的分割。其他数据提供输入界面由用户录入。

研究过程中产生的图像分割结果、针对分割提取的ROI 的特征量化数据是CAD 研究的关键数据。考虑到不同CAD 使用的影像模态和特征的差异以及平台通用性和扩展性的需要,平台内置常用的图像处理算法和特征提取算法,主要包括图像预处理算法,如图像去噪、图像增强;医学图像处理常用的图像分割算法,如区域生长、阈值分割等以及图像的形状、纹理等特征提取算法。同时采用基于组件的软件开发技术,为新的图像分割和特征提取算法的加入提供接口来扩充数据平台的功能。

统一的数据集为算法评估和对比研究提供了可能,从病例库中选取一定数量的病例组成评估数据集进行算法评估,敏感性和特异性作为评价指标。

为数据提供显示、查询、浏览功能也是数据平台所需的功能。

CAD 研究中所需或研究过程中产生的大量数据可进行再利用,例如可用于医学数据挖掘、医学图像内容检索研究。

2 数据模型

如图2 所示为数据平台的数据模型,由系统用户、诊断试验、医学影像、“金标准”、CAD 分类结果及特征组成。数据模型支持不同病种的CAD 研究,一个系统用户可以创建一个或多个病种的CAD 研究数据库,每个病种的数据库称为一个诊断试验。每个诊断试验数据库中存储病例的医学影像、“金标准”、CAD 分类结果及特征数据等过程数据。

图2 数据模型Fig.2 Data model

按照DICOM 标准的患者、研究、序列、图像层次模型来存储影像数据。一个患者有一个或多个研究,研究是某个特定类型检查请求的结果,一个研究可存在不同模态的检查序列;每个序列则由DICOM 图像组成,一个序列中的多张图像按其获取的顺序,一般具有空间上或时间上的关系。

“金标准”由一个或多个专家对图像序列的标注结果和病理学诊断结果组成。标注结果则由ROI及其医学征象特征组成(医学征象描述是可选项);病理学诊断结果是指通过手术、微创手术或其他临床手段获得的ROI 临床诊断结果。

采用动态数据模型来存储研究过程数据,由分割结果(ROI)、ROI 特征以及分类结果组成。一个序列采用不同的分割算法有不同的分割结果,同一个分割结果可以提取不同的特征集合;同样,同一个分割结果采用不同的分类算法可能有不同的诊断结果。

3 平台实现与应用

3.1 平台实现

Oracle 数据库具有跨平台、高性能以及对DICOM 图像格式及XML 格式数据支持的特点,适合医学图像CAD 研究,因此采用oracle 数据库实现了数据模型。基于DCMTK[10]开发包采用VC++编程实现了数据平台,DCMTK 是德国Offis 公司提供的实现了DICOM 协议的开发包,在DCMTK 的基础上进行二次开发,可大大节省开发时间,节省开发成本。平台实现了CAD 研究所需的DICOM 图像浏览和标注功能。为减轻图像标注的工作量,平台内置了自适应阈值分割算法、分水岭分割算法、区域生长分割算法和数学形态学分割算法。可完成图像的自动、半自动及手工分割,并提供用户界面实现标注的输入;并内置了图像纹理、形状以及灰度特征的量化算法;同时平台也提供了数据管理的功能。平台提供的病例浏览和标注工具的运行界面如图3 所示。

3.2 应用

目前搭建了基于MRI 的脑胶质瘤计算机辅助分级和基于CT 图像的肺癌计算机辅助诊断数据研究数据平台。

脑胶质瘤计算机辅助分级研究共有明确病理分级结果的病例200 例,每个病例由两个医学专家使用数据平台完成了ROI 的标注和病理分级结果的录入。

肺癌计算机辅助诊断则导入了399 个病例的CT 图像及其“金标准”。“金标准”内容为ROI 的边界及专家对其从分叶、球形度、恶性程度等9 个结节征象的描述。利用平台提供的特征提取算法提取了ROI 的大小、形状、纹理等68 个特征,用于肺癌的计算机辅助诊断研究。

图3 影像浏览及标注。(a)影像浏览;(b)图像标注Fig. 3 Medical imaging viewer and annotation. (a)Medical imaging viewer;(b)Medical imaging annotation

4 结论

针对基于医学影像的CAD 研究中数据、算法及研究工具的共享问题,提出并实现了一个支持研究成果共享的医学图像CAD 研究数据平台,并应用于脑胶质瘤和肺癌CAD 研究中。

该数据平台为CAD 研究的数据存储提供了统一模型,为病例、“金标准”数据的获取、管理提供了工具,同时也为算法的训练、测试以及评估提供了统一的数据集。

数据平台实现了常用的图像分割和特征提取算法,基于组件的新算法加入机制,保证了平台的可扩充性,将大大节省CAD 系统的研究时间,提高研究效率。

利用数据平台提供的统一的数据存储模型,可以无缝地用于医学图像分析、医学图像数据挖掘和基于图像内容检索的研究领域。

[1] Henschke CI,Naidich DP,Yankelevitz DF,et al. Early lung cancer action project:initial findings on repeat screenings[J].Cancer,2001,92(1):153 -159.

[2] Sahiner B,Chan HP,Hadjiiski LM,et al. Effect of CAD on radiologists’detection of lung nodules on thoracic ct scans:analysis of an observer performance study by nodule size [J].Acad Radiol,2009,16(12):1518 –1530.

[3] Van GB,Ter Haar Romeny BM,Viergever MA. Computer-aided diagnosis in chest radiography:a survey[J]. IEEE Trans Med Imaging,2001,20(12):1228 -1241.

[4] Doi K. Computer-aided diagnosis in medical imaging:historical review,current status and future potential [J]. Computerized Medical Imaging and Graphics,2007,31(4):198 -211.

[5] Doi K. Current status and future potential of computer-aided diagnosis in medical imaging[J]. British Journal of Radiology,2005,78(1):3 -19.

[6] 郝欣,曹颖,夏顺仁.基于医学图像内容检索的计算机辅助乳腺X 线影像诊断技术[J]. 中国生物医学工程学报,2009,28(6):922 -930.

[7] 王伟胜,林红利. 肺癌数据库的改进及其集成工具的设计实现[J]. 计算机工程,2011,37(1):63 -65.

[8] McNitt-Gray MF,Armato Iii SG,Meyer CR,et al. The Lung Image Database Consortium (LIDC)Data Collection Process for Nodule Detection and Annotation [J]. Academic Radiology,2007,14(12):1464 -1474.

[9] ACR/NEMA. Digital Imaging and Communication in Medicine[EB/OL]. http://dicom. nema. org/,2011 -08 -10/2012 -04 -01

[10] OFFIS Computer Science Institute. DCMTK-DICOM Toolkit[EB/OL]. http://dicom. offis. de/dcmtk. php. en,2011 - 12-01/2012 -03 -01

猜你喜欢
医学影像特征提取病例
结合多层特征及空间信息蒸馏的医学影像分割
医学影像技术在医学影像诊断中的合理运用
影像组学在核医学影像中的应用进展
“病例”和“病历”
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
也门霍乱疫情更新
Bagging RCSP脑电特征提取算法
介入性超声医学影像在临床中的应用
基于MED和循环域解调的多故障特征提取