刘静宇,刘 颖,张 帆*
(河南大学图像处理与模式识别研究所,河南开封 475000)
随着影像技术的蓬勃发展,医学影像开始成为诊断和治疗疾病不可或缺的关键手段。由于肿瘤具有不规则性与异质性,传统的成像方式无法满足人们精准诊断肿瘤的需要,且传统的成像方式大多是定性和半定量地提取[1]肿瘤的特征。因此,人们需要开发更成熟,更精准的技术去实现对肿瘤的评估,由此影像组学兴起了[2]。影像组学的目的是深入挖掘医学影像的信息,然后利用这些特征信息来构建模型,以提高疾病早诊率和改善个体化的治疗选择[3]。近年来,越来越多的学者开始关注影像组学,致使影像组学这一技术极大地增加了医学影像在临床实践中的辅助指导价值。影像组学是临床医学研究的突破和飞跃,对于目前精准医学的发展具有重要价值。
影像组学通过从医学图像中提取有用特征以揭示疾病潜在信息,并提高生存预测,而这些影像组学特征是使用高级算法从医学图像中“挖掘”出来的,它冲破了传统影像模式的局限。目前,常将影像组学的处理流程为以下5 个部分:①获取影像数据;②图像分割;③特征提取;④特征选择;⑤建立模型。
首先,为了用于疾病的诊断和评估,影像数据是必不可少的,影像组学需要获取高质量和标准化的影像。图像是通过各种物理过程、检测参数和重建算法获得的,以创建一个二维或三维的患者图像。然而,包括辐射剂量、扫描协议、重建算法和切片厚度在内的图像采集参数在常规临床实践中差异很大。因此,比较从不同图像采集方法中提取的特征变得十分具有挑战性。为了得到更有价值的分析结果,应尽量选择并使用同种扫描设备去完成影像的采集,并且选择合理的管电压、管电流以及层厚等参数是必需的。
分割是影像组学工作流程的关键步骤,因为许多提取的特征可能取决于从周围组织中分割出来的特定ROI(region of interest)。在大多数研究中,由经验丰富的放射科医师或放射肿瘤学家通过半自动、自动切割方式,在所得到的图像中勾画出肿瘤相关的感兴趣区域,即ROI,进而根据这一特征区域估算出影像组学特征。勾勒肿瘤相关的感兴趣区时必须注意图像大小是否需配准,同时对肿瘤相关的感兴趣范围一般不低于5 cm3。而在使用软件、手动、半自动和自动勾画过程中,则必须根据时间、精度等进行选择,以避免对影像特征的提取计算造成影响。
目前,已经开发了许多用于自动或半自动分割的算法。区域生长法是一种半自动方法,通常应用于CAD 中的质量分割。此外,图形切割法、活动轮廓法和水平集法等都是最常见的分割算法。对于常用的分割工具也有很多,例如3DSlicer(www.slicer.org)、ITK-SNAP(www.itksnap.org)和MIM 软件(www.mimsoftware.com)。这些应用程序中大多数都提供了一些手动或半自动分割选择,这取决于研究人员选择最适合他们研究的软件。但是,在软件处理后仍然需要进行目视检查,因为有时软件可能会失败。
在影像组学中,高通量的定量特征被提取和分析。影像组学特征可以分为形态特征、一阶和二阶直方图特征、从特定图像得到的影像特征,以及仅适用于多模式数据集的分形和融合特征[4]。提取出影像组学特征后为了实现信息的转化,将肿瘤影像转化为多维特征。目前,用于影像组学特征提取和分析的软件包,例如“成像生物标记浏览器”(IBEX),它还可以计算影像组学模型。CGITA 和Mazda 是用于纹理分析的开源软件包,它计算用户选择的VOI 上的许多特征。
特征选择是影像组学处理流程中至关重要的一步,目的是为了避免过拟合并寻找可重现和可重复性的特征。从每个患者图像中提取大量特征,通常在几百到几千的范围内,大大超过患者人数。然而,并非所有特征对于模型区分不同分类的患者都是有用的,因为它们中的一些可能彼此高度相关或冗余,而其中一些可能与给定的分类任务没有强关联。通过特征选择,可以使用算法来为给定任务选择“有效”特征,即与将给定输出解释为一组特征的函数相关的那些特征。最简单的特征选择方法是对变量制定评分标准,根据变量的稳定性或相关性程度,剔除排名最差的那些。特征选择的单变量方法利用变量排名作为主要选择机制,有时,它被定义为“强”单变量预测变量的临界值[5]。这些方法的主要缺点是它们没有考虑可能导致更好预测的不同特征之间的依赖关系[6]。多变量方法还研究特征与目标/结果变量的关联。
影像组学可以通过影像组学特征并利用大数据分析手段来构建一个新的模型,用该模型可以预测诊断结果,对患者疾病进行分类。目前,运用有很多基于影像组学特征的预测和分类模型是运用机器学习方法构建的,并且构建的模型效果良好。其中在构建模型这一过程中,逻辑回归模型由于其简单、运行速度快的优点,成为最常用的监督分类器。
影像组学从医学图像中提取大量影像组学特征,以用于发现和验证不同疾病的定量成像生物标志物,但主要用于不同类型的癌症。影像组学的最终目标是实现癌症的准确诊断和预后,为患者提供个性化治疗方案,提高他们的生活质量。在临床实践中,影像组学的研究主要应用于表1 中的几个方面。
表1 影像组学的临床应用研究
肺癌是世界上最常见的癌症类型之一[7]。然而,大多数肺癌患者直到出现严重的临床症状时才会感觉到肿瘤的存在,这在一定程度上导致了较差的临床结果。因此,早期发现肺癌高危人群非常重要。影像组学在肺部小结节及肺癌的诊断中取得了一定的成就。通过对肺结节进行影像组学特征提取,并根据提取出的特征构建辅助诊断模型,经实验证明该模型效果良好。目前该诊断模型已经在临床上得到应用,在辅助小结节的良、恶性判断中起到了不可忽视的作用。Choi 等[8]通过从72 例肺结节病例中提取7 416 个影像特征来训练影像组学分类器,以改进低剂量CT 肺结节分级。结果显示,影像组学分类器准确率比Lung-RADS 高出12%,这显示了影像组学在精准医疗中的强大力量。在术前通过医学影像对组织学进行分类,可以帮助医生提高肺结节定性诊断的准确率,选择合适的治疗方案,避免活检等侵入性操作。
精准医疗也强调基因改变对患者的参与。肺癌是少数基因变异高的癌症之一[9],因此,基因组和影像组学生物标志物的组合有可能增强肺癌的管理。基因检测是肺癌行靶向治疗前必须进行的[10]。肺癌靶向治疗的重要靶点是对酪氨酸激酶抑制剂敏感的EGFR 突变。Jia 等[11]对503 名接受手术治疗的肺腺癌患者进行研究,选择其中345 例患者治疗前CT 图像的影像特征作为训练集,建立模型,结果显示,预测EGFR的AUC达82.8%。
郭炎兵等[12]对145 例肺癌患者的MR T2WI 进行分析,建立基于T2WI 的影像组学模型,其鉴别小细胞肺癌(small cell lung cancer,SCLC)与非小细胞肺癌(non-small cell lung cancer,NSCLC)的效能较高。影像组学的应用有助于治疗前有效鉴别诊断SCLC 与NSCLC,从而使医生能够更好地制定个体化治疗方案。
对于胃癌的诊断,影像组学也发挥着重要作用。赵建娜[13]从59 例胃癌患者CT 图像中提取了25 个影像组学特征,AUG 均在0.9 以上,敏感度及特异度也较高。这表明影像组学对胃癌的诊断具有一定的价值。除了胃癌的鉴别诊断外,胃癌的精准分期也同样重要。在分期方面,Wang 等[14]对244 例经病理证实的胃癌患者进行一项回顾性研究,分别从术前动脉期和门静脉期CT 图像提取影像组学特征,使用随机森林方法构建分类器模型。结果显示,术前动脉期的AUC 值为0.825,门静脉期AUC 值为0.818,两者的图像特征均是重要预测因子。目前,影像组学还被应用于胰腺肿瘤的鉴别诊断、恶性程度评价、预后评估等方面。然而,应用影像组学的胰腺肿瘤诊断研究大多是回顾性的[15],样本量较小,扫描参数也没有统一的标准,可能影响研究结果的准确度。
胶质瘤是最常见的脑肿瘤类型,超过78%的恶性肿瘤是胶质瘤,胶质瘤的早期诊断将有助于临床医生评估病人的病情并制定相应的治疗方案[16]。影像组学可能在精确医疗中占主导地位,因为脑胶质瘤表型的详细信息,有助于对胶质瘤的研究。Sasaki 等[17]尝试建立一个基于MRI 的影像组学模型预测胶质瘤患者的O6-甲基鸟嘌呤-DNA-甲基转移酶(O6-methylguanine DNA methyltransferase,MGMT)基因启动子甲基化状态,然而其准确性不能满足实际应用。Su 等[18]对220 例胶质瘤患者和10 例对照患者进行一项回顾性研究,以评估基于MRI 的影像组学诊断胶质瘤亚型和预测肿瘤增殖的可行性,分析发现基于多对比MRI 的影像组学可以精确区分胶质瘤亚型并预测肿瘤增殖行为。影像组学的应用可大大提高胶质瘤患者的生存预测,为胶质瘤患者的临床治疗方案提供指导。
近年来,我国女性甲状腺癌的发病率逐渐上升,其中以乳头状癌发病率增加为主。周世崇等[19]研究77 例甲状腺乳头状癌单灶患者的超声图像,分析病变超声特征和淋巴结转移之间的关系,分别计算灵敏度、准确度及特异度。发现14 个高指向性超声特征,联合预测淋巴结转移的灵敏度为71%,准确率为73%,特异度为74%,诊断率较高。此外,影像组学也被应用于鉴别诊断甲状腺良、恶性结节中。有研究[20]选取336 例有完整的病理检查结果及CT 扫描图像的病例,提取和选择10 个鉴别诊断的纹理参数。结果显示特异度为0.986 2,准确率为0.943 4,由此表明影像组学在甲状腺结节良恶性诊断中具有一定作用。
近年来乳腺癌发病率的持续增高[21],严重威胁着广大女性的身体健康。影像组学特征在预测乳腺癌复发、鉴别乳腺癌分子分型以及乳腺良恶性肿瘤等方面也发挥着重要作用,为患者的治疗方案提供了最佳的选择。Li 等[22]对122 例乳腺癌患者进行一项回顾性研究,以评估基于MRI 影像组学特征构建的模型对于预测乳腺癌分子分型的效能。结果显示,建立的影像组学模型在预测乳腺癌分子分型方面具有重要价值,得到的AUC值较高,这将有助于医生做出更精准的治疗方案。Mao 等[23]从173 名患者(包括74 名良性病变和99 例恶性病变)的乳腺X 线图像中提取影像组学特征,构建了4 个针对乳腺病灶的良/恶性分类器,得到的AUC 值最高为0.98,有助于提高良恶性乳腺肿瘤鉴别诊断的准确性。
基于大数据挖掘的影像组学方法对影像学数据的质量具有严格的要求[24]。影像组学是在CT、MRI以及超声等传统影像设备上采集图像和特征提取的。通常,大多数研究中使用的图像是来自具有各种采集协议的不同研究机构或不同制造商的机器,图像就可能存在一些差异,且扫描参数又没有统一的标准[25],这就有可能对提取的影像组学特征造成影响。此外,在机器中可能存在不同程度的噪声,从而导致信号强度变化,也会对提取的影像组学特征造成一定的影响。因此,很难获取具有相同或相似参数的大影像数据库。建议从影像组学研究一开始就制定好方案,并严格执行,以实现标准化并提高影像组学的研究质量。这包括离散化方法、首选分割方法(手动、半自动或自动)、各种影像组学特征的标准定义[26]以及关于哪些特征最稳定的指标。
影像特征的可重复性和稳定性在影像组学的研究中是极其重要的。在一项研究中,纹理特征之间的可重复性差异很大,并且在重复性分析中,许多指标被确定为仅差到中等可靠[27]。大数据分析和多中心验证都需要稳定和可重复的特征。然而,扫描设备、参数、成像算法、特征提取等因素都会给影像特征的稳定性带来影响。He 等[28]和Yang 等[29]对平扫CT和增强CT图像的特征稳定性进行研究,比较有关因素对特征的影响,从而为肺部肿瘤的临床决策提供支持。
同时,病变区域的精确分割是特征提取的前提。对感兴趣区的分割是基因组工作流程中至关重要的步骤之一,因为分割的区域会在一定程度上决定提取的特征,边缘模糊不清的肿瘤可能会降低基于形态、大小和边界等特征的稳定性。近几年来,很多分割算法已应用到肿瘤区域的标定中,但是目前还没有一种通用的、认可度较高的分割算法。因此高精度、全自动特定肿瘤分割算法将是未来的发展趋势。
在有限样本中对大量的特征进行分类和预测,不仅费时耗力,效果也不一定理想。在提取出高通量的影像组学特征后,需要利用机器学习或统计学方法对数据进行降维和特征选择,从而构建模型。Parmar 等[30-31]研究发现,影像组学的特征数量、特征选择方法及模式识别分类器都会对预测的准确率造成一定的影响。因此,更科学、更准确的模式识别和特征选择方法是未来影像组学要突破的难点。
大多数影像组学研究是单一机构的小样本探索,结论尚未得到大范围的验证,从而限制了对其他患者群体、不同类型扫描设备成像的普遍性。我们观察到,对以前开发的模型进行外部验证[32-33]的研究很少,这可能与大多数研究所开发的模型不易获取有关。此外,小样本数据库会降低其效能并增加过度拟合数据的风险。建立数据库对推进影像组学的进一步发展具有重要意义,不同区域的多中心图像数据共享可作为构建标准化、大样本数据库的解决方案,并且可以作为用于外部验证的高质量数据库。因此,多中心联合研究建立影像组学数据库将是科研工作者未来努力的方向。
影像组学是对图像特征与患者数据的提取和关联,通过从不同模态的影像中提取出高通量的医学影像特征,并采用无创、定量的方法深入挖掘在体肿瘤多元化、深层次的信息,在一定程度上对临床医生在肿瘤患者的鉴别诊断、治疗方案的选择及预后预测等方面起着重要作用。影像组学作为一个新兴的交叉学科领域,虽然已经取得了一些可观的成果,但目前在图像采集、特征提取以及数据共享等方面还存在一些不足之处,这些问题亟待解决,需要国内外广大研究者的共同努力。相信随着医学影像学数据的不断积累和标准化,以及每一步工作流程的不断优化,影像组学会快速应用于临床决策,发展为一种真正意义上的辅助诊断工具,最终实现精准医疗。