万绪明 侯艳玲 崔林阳 侯红军
1 威海市中心医院核医学科,威海 264400;2 威海市中心医院胸外科,威海264400;3 威海市中心医院医学影像科,威海 264400
肺气肿的形态特征是肺的终末细支气管远端异常持久的扩张,伴肺泡壁和细支气管破坏,导致肺泡空间扩大[1]。按病变发生的位置可分为小叶中心型、全小叶型和间隔旁型肺气肿。小叶中心型最常见,以上肺分布为主,与吸烟有关;全小叶型多见于α1-抗胰蛋白酶缺乏症者,多分布于下肺,致死率高,不同的类型与不同的危险因素及临床表现有关。该病多见于慢性阻塞性肺疾病(chronic obstructive pulmonary disease, COPD)患者,通常早期肺气肿不伴肺纤维化,而晚期肺气肿患者呼吸功能下降,同时由于肺破坏区反复修复和炎症反应,最终会导致间质纤维化发生。多项荟萃分析结果显示,肺气肿增加了患者发生肺癌的风险和不良预后[2-3],因此,通过影像学检查定量评估肺气肿严重程度对早期肺癌风险管理及COPD 早期诊断、病情判断、预后评估具有重要意义。
肺气肿可以通过影像学检查或肺功能测试来评价,但肺功能测试通常不能反映肺功能局部损害的程度,也不能显示肺气肿空间分布,同时对轻度肺气肿检测缺乏灵敏度和特异度,影像学检查中CT 具有较高的空间分辨率,可区分肺气肿的类型,并评估其分布(如下叶优势、上叶优势),同时可实现肺气肿分布的可视化和定量化,因而CT 是评价肺气肿的首选影像检查方法[4]。在肺气肿外科治疗领域,肺气肿CT 定量评估在肺减容治疗或支气管内瓣膜置入术的决策中也起着重要作用。
目前较常用的肺气肿视觉评分是Goddard 评分,该方法要求观察者分别评估双肺3 个不同区域肺气肿的严重程度。根据肺气肿的严重程度,分别给予每一个区域0~4 分的数值(不存在肺气肿为0 分,肺气肿范围在0~25%为1分,26%~50%为2 分,51%~75%为3 分,>76%为4 分),每个层面左右肺分别评分,最后将所取层面的分数相加得到肺气肿严重程度评分。该方法简单易行,能初步评估肺气肿严重程度,而且对肺气肿分布的异质性也有一定判断能力,然而该方法的缺点也显而易见,视觉评估耗时、费力、主观性强,对观察者的经验也有一定要求,并且对肺气肿变化的诊断灵敏性较低[5]。
该方法作为一种简单实用的肺气肿定量方法,临床使用较为普遍。通常有两种基于阈值的量化方法。一种方法是计算低于特定衰减阈值的面积占双肺总面积的百分比,即低密度衰减区百分比(low attenuation area percentage,LAA%),随着薄层CT 的普及和应用,普遍定义为常规扫描条件下吸气相肺密度值小于−950 HU 的区域为肺气肿,LAA%代表肺气肿的严重程度,更高的比例反映了更广泛的病变范围。另一种方法是将肺内所有像素CT 衰减值以直方图的形式表现,选定某个百分位点的CT 值作为阈值,低于该阈值的区域为肺气肿。Stoel 等[6]研究发现,肺像素直方图的第15 个百分位点对肺气肿的评估较为稳健,且在肺气肿密度的纵向研究中的变异度最低、相关性最强,故目前通常用第15 个百分位点为阈值来反映肺气肿的严重程度。多种机带软件现已能自动对肺气肿进行上述量化,因此该方法已被广泛用于肺气肿的临床评估和随访,相关研究结果显示COPD 患者肺功能指标与该方法测得的肺气肿定量指标有很好的相关性,可反映COPD 患者的临床特征,为COPD 的诊断和治疗提供参考依据[7-8],由此方法演化而来的肺叶特异性肺气肿指数和心脏CT 肺密度指数对肺漏气术后的指导和肺气肿的评估均有良好效果[9-10]。
广义上讲,机器学习是AI 的一个分支,其算法是当提供一组训练数据集时,可以通过复杂的计算统计和数学优化来提取数据集中的显著特征,然后用一定的数学模型和特征来对测试集进行预测或对输入数据进行分类[11]。
机器学习主要有2 种类型:有监督学习和无监督学习。在肺气肿定性定量研究中,目前多以联合使用2 种学习方法或单独使用无监督学习方法(如卷积神经网络)为主。较早用于肺气肿分类和定量的方法是基于局部肺纹理强度分布的自适应强度直方图和核密度估计(KDE)等[12-13],该类方法可较好地描述肺气肿区域的纹理特征,对肺气肿有较好的分类效果,但该方法稳定性较差且缺乏对肺气肿空间分部特征的描述。Yang 等[14]开发了一种基于肺纹理空间信息学习模式(spatially-informed lung texture patterns,sLTPs)的方法,该方法不但可以较早地发现轻度肺气肿,而且sLTPs 为常用的−950 HU 阈值法提供了与临床相关的补充信息,校正第1 秒用力呼气容积后,sLTPs 与英国医学研究会(MRC)呼吸困难分级、6 min 步行距离测试(6 MWT)和测试后的血氧饱和度显著相关。Peng 等[15]利用深度学习提出了采用多尺度残差网络和差分激励分量对CT 中肺气肿进行分级和量化,发现该方法有效解决了评估不同严重程度肺气肿的差异,在其肺气肿数据库上的分类准确率达到93.74%,量化结果与多种肺功能测试参数的相关系数可达0.922。除上述深度学习方法应用于肺气肿量化研究外,其他研究(如利用高斯混合模型分析CT 衰减的聚类分析[16]、基于语义分割的肺气肿部分标注半监督学习[17]、二维有限元模型体模分析[18]等)在肺气肿的分布和量化方面也有一定应用。
随着AI 技术的不断发展,在胸部CT 上全自动量化肺气肿已成为现实。Fischer 等[19]采用一种基于AI 的原型算法,在胸部CT 上实现了全自动的肺叶分割和肺气肿量化,并将其与慢性阻塞性肺病全球倡议组织(global initiative for chronic obstructive lung disease,GOLD)提出的肺气肿严重程度进行比较,结果显示其量化结果与COPD 患者的严重程度分期有很强的相关性,可以可靠地区分轻度和中度COPD,有利于在早期肺功能改变之前发现COPD。Ebrahimian 等[20]比较了AI 与放射科医师主观分级在判断肺气肿患者疾病严重程度方面的准确率,结果显示二者的AUC 分别为0.77 和0.76,二者结合可进一步提高诊断肺气肿和COPD 气道异常的准确率(AUC 为0.90),这说明AI 对肺气肿严重程度的判断与放射科医师的评估结果有相似的诊断性能。在评估疾病预后方面,Hasenstab 等[21]通过卷积神经网络对CT 影像中肺气肿及空气潴留的状况进行定量分析,并对COPD 严重程度进行分级,结果显示,该分级能合理预测患者未来5 年内的疾病进展及死亡的可能性,与GOLD 提出的分期性能相当。
然而,上述基于AI 的研究大多为回顾性的,缺少对肺气肿患者随访的评估。另外,与肺气肿严重程度相关的临床指标多使用第1 秒用力呼气容积、用力肺活量等,而总肺活量或残气量较少用于肺气肿评估,这些可能需要后续相关研究进一步完善。
在CT 肺气肿量化领域早期开展的许多工作都试图通过结合密度值或纹理的空间结构来丰富量化方法,这些方法存在一些不足:低性能、对CT 扫描仪间变异性的结果理解不佳、物理意义模糊。但随着AI 的不断发展,基于AI 的肺气肿评估和量化能以高通量的方式提供可重复性的结果,与其他方法相比,AI 算法可以减少大量时间和人工判读的主观性,同时能早期发现病变,是一种有价值的辅助诊断工具,与传统的肺功能检查联合用于COPD 的严重程度评估,可以为患者早期个体化治疗提供依据。
目前胸部低剂量CT 扫描已被广泛应用于早期肺癌的筛查,有效降低了高危人群的病死率[22]。在当前老龄化社会,COPD 已经成为医疗负担较大的疾病之一,其发病率升高和长期随访使胸部CT 的使用量快速且持续增加,故减少COPD 受检人群的辐射剂量势在必行。近年来,寻求既能保证图像质量又能客观评估和量化肺气肿严重程度的方法已成为胸部低剂量CT 研究的热点之一。
在常规CT 中,肺气肿的CT 诊断阈值定为−950 HU,Cao 等[23]收集了548 例低剂量CT 评估为不同程度的肺气肿患者,在−850 HU 到−1 000 HU 范围内采用不同阈值研究LAA%与肺气肿严重程度和肺功能之间的相关性,结果显示,在低剂量CT 上肺气肿更合适的诊断阈值为−940 HU。
通常肺气肿的定量分析受辐射剂量和重建技术的双重影响。在减少剂量的情况下,标准的滤波反投影(filtered back projection,FBP)算法会产生较高的噪声水平,并可能高估肺气肿程度,迭代重建技术的开发和应用使得降低图像噪声并获得更好的图像质量成为可能[24]。黄晓旗等[25]使用KARL 迭代重建技术量化COPD 患者的肺气肿指数、全肺容积及平均肺密度,结果显示该技术可在降低噪声、提高信噪比的同时,在一定程度上提高CT 定量测量肺气肿指数的准确性。随着第三代双源CT 的应用,能谱纯化技术联合高级模型迭代重建技术已被证明可用于胸部超低剂量CT 量化评估肺气肿,该技术能在固定管电压为100 kV、固定管电流与时间乘积为70 mAs 的条件下,通过选择合适的重建级别,所获得图像质量的主观评分均可达到诊断肺气肿的标准,且与标准剂量CT 量化肺气肿的指标具有较高的一致性[26-27]。
除迭代重建算法外,目前基于深度学习图像重建 (deep larning-based image reconstruction,DLIR)技术在超低剂量CT 肺气肿定量评估中也有广泛应用,该技术多采用深度卷积神经网络,由低剂量图像原始数据生成高质量图像[28]。Bak 等[29]利用深度学习算法将低剂量CT 图像重建的B50f卷积核转化为B31f 重建核,实现了低剂量CT 图像从尖锐核到平滑核的转换,从而显著降低了不同类型肺气肿定量的变异,可用于量化肺气肿,并对识别肺气肿的纵向变化具有意重要意义。Ferri 等[30]比较了FBP 迭代重建(ASIR-V 70%)以及不同强度的DLIR(DLIR-高强度、-中强度、-低强度)算法对低剂量胸部CT 定量评估肺气肿的差异,以FBP 图像作为参考测量肺气肿体积,结果表明DLIR 明显提高了超低剂量CT 图像信噪比,DLIR-高强度重建所得肺气肿体积与FBP 技术所得肺气肿体积具有显著相关性(r=0.999,P<0.001),可用于低剂量CT 定量评估肺气肿。
总之,低剂量胸部CT 结合深度学习在肺气肿定量评估中是可行的,且较常规CT 表现出较大优势。但是目前低剂量CT 结合深度学习用于临床也存在一些不足:(1)多数研究为单中心研究,研究对象数量较少,缺乏大规模临床验证;(2)研究对象以轻中度肺气肿较多,重度以及融合破坏性肺气肿研究对象相对较少,可能造成研究结果的偏倚;(3)部分研究中标准剂量CT 与低剂量CT 不是同时进行的,低剂量CT 评估肺气肿多是在随访肺结节时发现的,所以标准剂量CT 与低剂量CT 之间的时间间隔较长,客观上也对研究结果造成一定影响。
X 射线暗场成像于2008 年作为一种实验方法[31]应用于临床。由于X 射线为一种电磁波,具有波粒二象性,传统的基于X 射线衰减成像利用了其粒子性,而X 射线暗场成像则利用了X 射线的波动性。经过大量的动物实验和人体体外研究已证实X 射线暗场成像用于临床的可行性[32-34]。Urban 等[35]研究了48 例不同程度肺气肿患者的X 射线暗场胸片,并与其胸部CT比较,结果显示,肺气肿患者X 射线暗场信号较低,且信号不均匀,暗场图像上信号强度丢失的位置与CT 上显示的肺气肿区域有很好的一致性(AUC为0.79)。暗场信号强度系数与CT 定量肺气肿指数呈负相关,提示该技术在肺气肿评估中具有潜在的应用价值。Willer 等[36]采用队列研究对COPD 伴肺气肿患者进行X 射线暗场成像,验证其量化肺气肿的准确性,结果显示X 射线暗场成像与肺气肿视觉评估法具有良好的一致性,对区分不同程度肺气肿的灵敏感较高,且X 射线暗场胸部成像提供了肺实质结构的微观信息,可用于诊断COPD 伴肺气肿患者,而该技术的等效辐射剂量约为0.035 mSv,有望成为可替代CT 的检查方法。
UTE 序列是目前最优化的肺MRI 序列,该序列具有梯度回波特征,通过大幅缩短回波时间来减轻短T2*造成的快速信号损失,以此降低指数信号衰减对图像信噪比和空间分辨率的影响。Benlala 等[37]前瞻性纳入28 例COPD 患者,对照组为10 名既往无吸烟史和胸部症状的健康志愿者,所有被研究者均接受肺功能、胸部CT 和三维MRI UTE 成像检查,CT 以−950 HU 为阈值量化肺气肿低密度体积百分比,MRI 以低信号强度自适应阈值为0.20 自动量化肺气肿体积,结果显示二者对肺气肿定性评分的一致性较好,且二者对肺气肿体积的定量评估具有显著一致性(r=0.84,P<0.01);使用UTE 成像,观察者内和观察者间的重复性较好,组内相关系数>0.99,说明MRI 三维UTE可重复定量COPD 患者肺气肿的体积。
近年来,PCD-CT 技术日渐成熟,并逐渐被应用于临床实践。其在胸部成像的优势主要是降低扫描剂量和提高图像质量[38]。该技术可利用光子能量信息重建出不同能量段的断层图像,如虚拟单能成像(virtual monochromatic image,VMI)和虚拟平扫(virtual non-contrast,VNC)成像等。Jungblut 等[39]回顾性分析连续接受胸腹部三期PCD-CT扫描的65 例患者,VNC 图像分别从增强动脉期和静脉期后处理获得,以真实平扫数据作为肺气肿定量参考标准,结果显示后处理所得动脉期、静脉期虚拟平扫噪声指数与真实平扫图像间的差异无统计学意义;与真实平扫相比,无论动脉期VNC 还是静脉期VNC 在肺气肿量化方面的差异均无统计学意义,这说明在PCD-CT 中使用VNC 图像对肺气肿量化是可行和准确的。为进一步减少辐射,可考虑省略为肺气肿评估而进行额外的平扫。虽然PCD-CT 技术具有广阔的临床应用前景,但其VNC 图像在胸部成像中的应用较少,今后仍需大规模临床研究进一步验证其客观性和实用性。
综上所述,随着我国人口老龄化和社会健康保障需求的不断提高,肺气肿定量评估在COPD、肺癌、肺间质病变等疾病的监测、随访中具有重要意义。大数据时代下,肺气肿的定量评估逐渐由传统的视觉评估向深度学习、AI以及低剂量CT 评估方向发展,同时各种新成像技术与后处理方法也不断出现,相信随着各种技术的进步、算法的更新,对肺气肿定量评估会更快捷、方便、辐射剂量更低,评估更客观,在居民健康管理和疾病预后研究中具有广泛的应用前景。
利益冲突所有作者声明无利益冲突
作者贡献声明万绪明负责命题的提出、综述的撰写;侯艳玲负责文献的检索与分析;崔林阳负责综述的修改;侯红军负责命题的提出、综述的审阅和最终版本的修订