魏星月 王连双 王媛媛 高孟泽 何 琼 张 瑶 罗建文*
(1.清华大学医学院生物医学工程系, 北京 100084; 2.清华大学精准医学研究院,北京 100084; 3.首都医科大学附属北京地坛医院超声科,北京 100015; 4.北京理工大学光电学院北京市混合现实与新型显示工程技术研究中心,北京 100081; 5.清华大学机械工程学院精密仪器系,北京 100084)
慢性肝病(chronic liver disease, CLD)是中国居民的高发病和常见病,它影响着数亿人口[1],对中国居民的预期寿命和生活质量造成了严重的负担和影响。
CLD导致的肝脏病理改变主要有三种形式:肝纤维化、炎症和脂肪变性。肝脏纤维化在早中期可逆,如果没有积极的干预措施,病程可能进展为肝硬化、肝衰竭等相关并发症[2]。肝脏炎症是肝脏疾病进展的主要病理生理学和病理组织学基础[3]。脂肪变性是中国第一大肝病,可进展为肝硬化、肝衰竭和肝癌[4]。此外,由于复杂的病理演变过程,临床上肝脏纤维化、炎症和脂肪变性往往会相伴出现,因此,同时实现肝脏纤维化、炎症和脂肪变性这三种病理改变的诊断和评估具有重要的临床价值。
当前慢性肝病的临床诊断标准是肝脏穿刺活体组织检查(以下简称活检),但它存在有创、抽样误差等局限[5]。血清生物标志物如丙氨酸氨基转移酶(alanine transaminase, ALT)、门冬氨酸氨基转移酶(aspartate aminotransferase, AST)、血小板(platelet, PLT)和联合生物标志物,如门冬氨酸氨基转移酶纤维化指数(aspartate aminotransferase to platelet ratio index, APRI)、肝纤维化4因子指数(fibrosis 4 score, FIB-4)[6-7], 虽然已用于CLD的临床诊断,但是它们通常对早期CLD具有较低的特异度和灵敏度。因此本研究致力于开发一种能同时诊断慢性肝病肝纤维化、炎症和脂肪变性的无创、准确、便捷、适用性广的智能诊断方法。
超声成像具有无创、经济高效和实时的优点,目前被用作CLD的临床常规检查,超声弹性成像技术[8],如瞬时弹性成像(transient elastography, TE)和二维剪切波弹性成像(shear wave elastography, SWE)可以检测肝脏硬度等信息,对于肝病的诊断和评估具有重要的临床价值。因此,本研究从多模态超声数据中提取多模态超声特征,如声衰减系数(ultrasound attenuation parameter, UAP)、Nakagami分布等[9-14],结合机器学习算法,构建一个可以同时实现肝脏纤维化、炎症和脂肪变性的智能分级评估模型。
本研究是一项回顾性研究,从首都医科大学附属北京地坛医院共收集了486例慢性乙型肝炎患者的超声数据,纳入标准:①入院后行超声引导下肝脏穿刺活检病理学检查;②年龄≥18周岁;③病理学诊断标准可以应用Ishak评分系统和NAS评分系统的患者。排除标准:①临床、实验室或组织学证据为本项目研究的慢性肝病以外的肝病患者,以及合并患者;②各类合并恶性肝脏肿瘤者;③合并其他系统肿瘤或疑似肿瘤者;④合并心、肺、脑、肾、血液等重要脏器疾病患者;⑤肝穿刺活检不合格者;⑥超声二维图像、SWE、TE及其射频(radio frequency, RF)数据等任何数据提取失败的患者;⑦患者可能影响参与该研究的医疗或心理疾病。最终,142例患者的数据被纳入本研究(详细的招募流程如图1所示)。本研究获得了首都医科大学附属北京地坛医院伦理委员会的批准[伦理编号:京地伦科字(2023)-026号]。作为历史性研究可免除研究对象知情同意。
图1 详细的患者招募流程Fig.1 Detailed recruitmentTE: transient elastography; SWE: shear wave elastography.
1.2.1 患者一般资料
年龄、性别、身高、体质量等。
1.2.2 血清学指标
ALT、AST、APRI、FIB-4等。
1.2.3 SWE数据
使用Aixplorer超声成像系统(法国声科影像公司)对每位患者的肝脏进行3次SWE检查,生成3组JPEG格式的相同视野下的B模式图像和SWE图像。在每个SWE图像上,选择直径为2 cm的圆形感兴趣区域(region of interest, ROI)(图2)。记录Aixplorer系统在屏幕上自动显示的ROI内的弹性值的平均值、最大值、最小值和标准差等指标。
图2 研究方法流程图Fig.2 Pipeline of the proposed model
1.2.4 TE数据
使用iLivTouch系统 (中国无锡海斯凯尔医学技术有限公司)对每位患者进行10次TE检测,生成10组一维M模式下的射频数据、10组由iLivTouch系统输出的肝脏弹性模量值和UAP值。
1.2.5 肝穿刺活检病理结果
对每位患者进行超声引导下的肝脏穿刺活检,根据慢性乙型肝炎防治指南(2022年版)[15],肝纤维化分为5级:F0、F1、F2、F3和F4;慢性乙型肝炎患者的炎症分为4级:A1、A2、A3和A4;根据护理活动评分量表(Nursing Activities Score,NAS)评分系统[16],脂肪变性分为4级:S0、S1、S2和S3。
综上,除了患者基本信息、血清学指标和病理结果之外,对于每个患者,本研究需要收集的数据包括:3组JPEG格式的相同视野下的B模式图像和SWE图像、3组Aixplorer系统输出的指标、10组RF数据、iLivTouch系统输出的10个肝脏弹性模量值和10个UAP值。
所有入组患者的临床资料如表1所示。
表1 入组患者的人口统计学、生理学和组织学特征Tab.1 Demographic, physical, and histologic characteristics of participants
1.3.1 图像特征
使用边缘检测算法将B模式和SWE图像中的圆形ROI区域提取出来,再对提取出的ROI区域进行特征提取。
对于B模式ROI图像,使用影像组学方法计算其纹理及强度特征。具体而言,计算强度分布的一阶和二阶统计量。一阶统计特征包括最大值、最小值、均值、中值、熵等。二阶统计特征是基于灰度共生矩阵提取了5个纹理特征,即对比度、相关性、能量、均匀性和熵。同时,基于小波变换将每个B模式ROI图像分解为3个尺度,对每个尺度提取上述一阶和二阶统计特征,并进行平均。
对于SWE图像,组织的杨氏模量被伪彩色编码并叠加在灰度编码的B模式图像上,因此,首先需要通过匹配色条法从混合图像中恢复杨氏模量[17-18],然后再使用与B模式ROI图像相似的影像组学方法计算该SWE图像ROI的一阶和二阶统计特征。
1.3.2 RF特征
对于从iLivTouch获取的RF信号,计算其香农熵和4个与声衰减系数相关的特征。进一步地,利用希尔伯特变换从RF信号中获得包络信号,提取其一阶统计特征,然后,再利用Nakagami分布等来拟合包络信号,获得对应的统计学特征。
1.3.3 系统特征
在TE数据采集过程中,留存了每个患者10次采集对应的10个肝脏弹性模量值和10个UAP值,在定量评估中,计算这10个肝脏弹性模量和10个UAP值的中位数和四分位差来作为iLivTouch最终给出的4个系统特征;在SWE图像采集过程中,也留存了3组Aixplorer设备提供的7个定量指标,计算这7个指标的组间平均值作为Aixplorer最终给出的7个系统特征。
综上,从收集到的B模式图像、SWE图像、RF信号及两台超声设备直接给出的系统指标中,共提取了169个多模态特征,具体信息如图2的feature extraction部分所示。
将上述提取到的169个定量特征结合在一起,输入到支持向量机(support vector machine, SVM)中,分别进行三种病理改变的分级诊断,包括肝脏纤维化≥F1,≥F2,≥F3, ≥F4,肝炎≥A2,≥A3,≥A4,脂肪变性≥S1,≥S2共9种分级判断,其中,由于S3级的入组患者只有4例,所以本研究没有进行≥S3的分级诊断。
为了证明所提出的方法的临床实用价值,将所提出的基于多模态超声特征的SVM分类方法和基于血清学指标的SVM分类方法进行对比。对于每种疾病的分级,以肝活检病理学结果为标签,采用5折交叉验证的方式来训练和评估不同的模型。由于数据样本较小且分布不均衡,所以本研究没有单独设置验证集来对模型进行验证。准确率、灵敏度、特异度和受试者工作特征(receiver operating characteristic, ROC)曲线下面积(area under the curve, AUC)[19]及AUC的95%置信区间(confidence interval, CI)被选作评估指标。同时,为了更加客观地对比不同模型的分类性能,对所提出的模型和其他对比模型的ROC曲线进行了Delong检验。
本研究所提出的方法对于肝纤维化的分级结果如表2所示。考虑到血清学指标APRI、FIB-4和肝脏弹性信息对于肝纤维化的诊断具有重要价值,表2也给出了将APRI、FIB-4、Aixplorer系统指标(记为SWE)和iLivTouch系统指标(记为TE)分别输入到SVM中并加以训练之后的评估结果。
表2 肝纤维化分级结果及与临床指标的对比结果Tab.2 Grading results of liver fibrosis and comparison with clinical indicators
可以看到,本研究所提出的方法对于不同级别的肝纤维化分级的AUC值均在0.8以上,对于肝纤维化≥F3及≥F4,AUC分别达到了0.89和0.87。同时,本研究的方法整体上优于其他四种临床指标。
根据Delong检验结果,可以发现,所提出的多模态超声特征对比APRI指标具有显著差异(肝纤维化的不同分级下Delong检验的P值均小于0.05),相比FIB-4指标和TE指标(iLivTouch系统提供的关于肝脏弹性信息的指标)在肝纤维化≥F1、≥F2及≥F3上差异有统计学意义,与SWE指标(Aixplorer系统提供的关于肝脏弹性信息的指标)在肝纤维化≥F1分级中差异有统计学意义(P<0.001)。
本研究所提出的方法对于肝脏炎症的分级结果如表3所示。血清学指标AST、ALT经常被用在肝脏炎症的临床诊断中,表3给出了将AST和ALT分别输入到SVM中并加以训练之后的评估结果。
表3 肝脏炎症分级结果及与临床指标的对比结果Tab.3 Grading results of liver inflammation and comparison with clinical indicators
可以看到,本研究所提出的方法对于不同级别的肝脏炎症分级的AUC值均在0.8以上,对于肝脏炎症≥A3及≥A4,AUC达到了0.93,准确率、灵敏度和特异度均在0.86以上。同时,本研究的方法比其他两个血清学指标具有明显的优势。
在Delong检验中,所提出的方法和ALT指标在肝脏炎症≥A2、≥A3及≥A4这3个分级上差异有统计学意义,和AST指标在肝脏炎症≥A2及≥A3上差异有统计学意义。
本研究所提出的方法对于肝脏脂肪变性的分级结果如表4所示。与声衰减系数相关的指标对于肝脏脂肪变性具有较好的诊断能力,表4给出了将超声设备直接给出的UAP相关的指标直接输入到SVM中并加以训练之后的评估结果。
表4 肝脏脂肪变性分级结果及与临床指标的对比结果Tab.4 Grading results of liver steatosis and comparison with clinical indicators
可以看到,本研究所提出的方法对于中重度肝脏脂肪变性≥S2具有较好的诊断能力,AUC达到了0.92,准确率、灵敏度和特异度均在0.86以上。同样,本研究所提出的方法对比超声设备直接给出的UAP相关的指标具有较大的优势。在Delong检验中,所提出的方法和UAP指标差异无统计学意义。
本研究从多模态超声数据中提取了多模态超声特征,构建了一个可以同时诊断肝纤维化、炎症和脂肪变性的智能诊断模型。
本研究所提出的多模态特征在中度或重度肝病的分类中比在轻度肝病的分级中表现得更好。以纤维化为例,分级≥F3(0.89)和F4(0.87)具有更高的AUC,但分级≥F2(0.80)和F1(0.81)则AUC更低。这与早期CLD相对难以识别的临床认知一致。然而,可以看到,在早期CLD上,本研究所提出的方法比其他临床特征表现得更好,以纤维化≥F1为例,SWE指标、TE指标、APRI指标和FIB-4指标的准确率和AUC都小于0.7,而所提出的方法在准确率、灵敏度、特异度和AUC上都大于0.73,证明了所提出的多模态特征更适合CLD的诊断。
本研究对所提出的方法和其他对比模型进行了Delong检验,结果表明,所提出的多模态超声特征在肝纤维化≥F2、≥F3及≥F4这3个分级中和SWE指标不具备显著差异,考虑到本研究所提出的多模态超声特征包含了SWE指标,该结果可以表明SWE指标(即Aixplorer系统提供的肝脏硬度相关的指标)对于中重度肝纤维化的分级具有重要作用,这与临床认知一致,即肝纤维化的一个重要表现便是肝脏硬度升高。值得一提的是,SWE指标对于肝纤维化≥F1表现较差(AUC、准确率、灵敏度均小于0.5),表明SWE指标不能很好地诊断早期肝纤维化。而所提出的基于多模态超声特征的SVM分类方法和基于SWE指标的SVM分类方法的Delong检验的P值小于0.001,表明所提出的方法对于SWE指标具有显著性差异。同时,结合所提出的方法在肝纤维化≥F1分级中的准确率、灵敏度、特异度和AUC均大于0.73,证明了多模态超声特征对于早期肝纤维化的诊断具有重要价值。
在肝脏炎症的3个分级中,所提出的方法在整体上相比,AST和ALT指标具有显著性差异,结合更高的AUC等指标,可以证明多模态超声特征相比血清学指标AST和ALT对于肝脏炎症具有更好的辨别效果。
在肝脏脂肪变性的2个分级中,所提出的多模态超声特征相比UAP指标不具有显著性差异,表明UAP指标在多模态超声特征中对于肝脂肪变性的智能诊断贡献更大。这也与临床认知一致,即肝脏脂肪变性意味着肝脏中具有大量的脂肪沉积,而脂肪对于超声信号具有较强的反射和散射作用,导致较高的超声衰减。
此外,在本研究中,仅招募了142例慢性乙型肝炎患者入组,数据样本的缺乏限制了所提出模型的性能和泛化能力。更重要的是,这些患者的分级分布不均匀,事实上,如果能获得一个更大的数据集,那么可以直接实现纤维化的五分、炎症和脂肪变性的四分级,这可以进一步简化整套CLD智能诊断系统的规模和复杂度。
在本研究中,笔者提出了一种多模态定量超声方法,该方法结合了从B模式图像、SWE图像、RF信号中基于影像组学方法和超声组织定征方法提取的多模态特征以及由临床超声成像设备直接提供的特征,同时对三种形式的CLD进行分级,即肝纤维化、炎症和脂肪变性。本研究成功招募了142例慢性乙型肝炎患者,并利用他们的肝活检结果作为参考标准,以上述提取的多模态特征作为输入来训练SVM分类器。结果表明,与血清学生物标志物等临床特征相比,所提出的多模态特征具有明显优势,表明所提出的方法在CLD的临床筛查、诊断和治疗方面具有潜在应用。未来的研究方向如下:①在确保数据分布平衡的同时,扩大数据集规模;②以多分类或回归模型的方式实现对CLD的分级诊断,以降低整套CLD智能诊断系统的规模和复杂度。
利益冲突所有作者均声明不存在利益冲突。
作者贡献声明魏星月、王连双:提出研究思路, 设计研究方案, 数据采集、整理,撰写论文;王媛媛:数据整理分析;高孟泽:协助数据分析;何琼:协助设计研究方案;张瑶、罗建文:总体把关,论文审定。