大数据在乳腺癌MRI 影像组学中的应用及前景

2023-08-09 02:41:40张春灵燕德悦欧阳爱梅

中国中西医结合影像学杂志 2023年3期

张春灵，燕德悦，姚建，欧阳爱梅

山东第一医科大学附属中心医院放射科，山东济南250013

WHO 国际癌症研究机构发布的2020 年全球癌症登记数据显示，全球新增女性乳腺癌患者高达226.1 万例，发病率和死亡率在多数国家居第一位。我国乳腺癌发病率也逐年上升，因我国人口基数较大，病例数和死亡人数均居世界第一［1］。乳腺癌早期发现并积极治疗，治愈率超过90%，然而一旦复发或远处转移，生存期则明显缩短，因此对乳腺癌早期发现及精准诊疗是当前研究的热点。本研究从乳腺癌医学数据资源整合、与其他组学结合、人工智能和深度学习及面临的挑战等方面进行综述。

1 乳腺癌医学数据资源整合

医疗大数据包括生物信息数据（基因组学、蛋白质组学、代谢组学等）、影像组学数据（MRI、CT、分子影像、病理影像等）、结构化数据（检验结果、诊断、药物治疗等）、非结构化数据（临床记录）等［2］。大数据技术的发展，使乳腺MRI 的影像组学研究迅速发展，MRI 的纳入序列从单一序列到多序列多模态，模型构建从单一模型到联合模型，数据的应用从影像数据到与临床数据联合，中心研究从单中心向多中心发展，这些医学数据的整合使影像研究向临床转化迈进了一大步，为乳腺癌的临床诊疗及预后评估提供了更大的帮助。

1.1 乳腺MRI 多模态影像组学研究

随着技术的进步和设备的更新，越来越多的MRI序列应用于乳腺检查，乳腺MRI 影像组学序列也有了更多选择，多模态多参数的乳腺MRI 影像组学研究成为热点。吴杰等［3］收集因乳腺病变行MRI 检查的患者45 例，按动态对比增强磁共振成像（dynamic contrast-enhancement magnetic resonance imaging，DCE-MRI）、DCE-MRI 联合扩散峰度成像（diffusion kurtosis imaging，DKI）2 种方法对乳腺病变进行分类，比较各组间DKI 参数平均扩散系数（mean diffusivity，MD）值、平均扩散峰度（mean kurtosis，MK）值及2 种分类方法的诊断效能，认为DKI 有助于乳腺病变的诊断，联合DCE-MRI 可提高对乳腺病变的诊断效能。杜小萌等［4］探讨了基于T2WI 及DWI 序列的影像组学模型在鉴别非典型纤维腺瘤与浸润性乳腺癌中的价值，认为T2WI 联合DWI 影像组学模型可更精准地判断肿块类型，避免不必要的活检。徐敏等［5］对乳腺DCE-MRI 和T2WI 序列进行了联合研究，构建了T2WI、DCE-MRI 和T2WI 联合DCE-MRI 3 个影像组学模型，用于淋巴结转移的预测，结果显示验证组AUC 分别为0.75、0.73 和0.79。DTI 使用的扩散梯度数多于DWI，可获取更丰富的病灶信息。Ozal 等［6］的研究表明，DTI 参数中的MD 值与肿瘤病理分级相关（P=0.001），淋巴血管侵犯（lymphovascular invasion，LVI）阳性患者的各向异性分数（fractional anisotraphy，FA）显著高于对照组（P=0.045），MD 值则显著低于对照组（P=0.001），DTI 对LVI 状态有一定的预测作用。王婷等［7］研究了体素内不相干运动成像（intro-voxel incoherent movement，IVIM）联合DKI 对乳腺癌HER-2表达状态的预测，为个性化治疗提供临床支持。王铭［8］研究了IVIM-DWI 联合DCE-TIC 在乳腺良恶性病变中的鉴别诊断价值及其与Ki-67 表达的相关性，得出IVIM 的扩散系数（D）值、传统DWI 的ADC 值均与乳腺癌Ki-67 表达指数具有相关性，且D 值与Ki-67 指数的相关性优于ADC 值，提示了D 值有望成为乳腺Ki-67 指数的预测指标，为指导个体化治疗及评估预后提供重要参考。

1.2 乳腺MRI 与其他影像数据的联合组学研究

乳腺影像检查方法很多，临床常用的有X 线、CT、超声、MRI、PET 等，多种成像技术的联合影像组学研究取得了较大进展。Fusco 等［9］对乳腺DCE-MRI 图像及增强X 线摄影（contrast enhanced mammography，CEM）进行影像组学联合研究，发现单独应用CEM、DCE-MRI 图像及联合CEM 和DCE-MRI 图像得到模型的AUC 分别为0.71、0.72、0.88，联合模型具有最佳性能。Castaldo 等［10］将乳腺癌患者的MRI 和PET图像联合应用于肿瘤分级、Ki-67 指数和分子亚型的预测，发现联合影像组学模型具有较好的分类效能。Jiang 等［11］利用全数字化乳腺X 线摄影（digital mammography，DM）、数字乳腺体层合成（digital breast tomosynthesis，DBT）、DCE-MRI 和DW MRI图像的瘤内和瘤周影像组学特征分别和联合预测乳腺癌Ki-67 水平发现，DCE+DW MRI 比DM+DBT 具有更高的AUC 和特异度，与Niu 等［12］的研究结果相似。Zhao 等［13］利用DCE-MRI 和乳房X 线摄影提取的特征，建立乳腺癌诊断的影像组学模型，应用于独立测试数据集时，DCE-MRI、MRI+X 线摄影模型的准确率分别为78.8%、83.3%。Marino 等［14］采用MaZda软件对49 例乳腺癌病灶的CEM 和DCE-MRI 图像进行影像组学分析，结果表明，DCE-MRI 和CEM 的影像组学分析在非侵入性评估肿瘤侵袭性、激素受体状态和肿瘤分级方面具有潜力。Castaldo 等［10］研究显示，通过提取36 例乳腺癌MRI 和PET 图像中的影像特征，生成联合影像特征模型，可预测肿瘤分级、Ki-67 指数和分子肿瘤亚型。

1.3 乳腺MRI 与临床数据的联合组学研究

目前很多医院设立了疾病数据库，包括超声、MRI、X 线、PET 等各种影像检查资料，以及病史、体格检查、病程和实验室检查资料，这些数据的联合应用对建立乳腺癌精准诊疗体系具有重要意义［15］。赵悠帆等［16］回顾性分析了189 个MRI 乳腺影像报告和数据系统（breast imaging reporting and data system，BI-RADS）4 类乳腺病灶，提取DCE-MRI 影像组学特征用于构建影像组学模型；logistic 回归分析得出，年龄、低密度脂蛋白胆固醇和总胆红素水平是乳腺癌的临床危险因素，用于构建临床模型；并构建临床和影像组学的组合模型，结果显示组合模型的AUC 最高。车树楠等［17］回顾性分析了213 例乳腺癌患者，根据术后病理Ki-67 表达不同，分为高表达组（Ki-67≥20%，153 例）和低表达组（Ki-67＜20%，60 例）。从MRI 动态增强扫描第2 期和第7 期图像提取乳腺癌病变的影像组学特征，采用同样方法对临床信息及常规影像学特征进行参数筛选。随后，采用支持向量机（SVM）构建Ki-67 高低表达状态的预测模型，结果表明基于MRI 多期增强扫描影像组学特征的SVM 模型能有效预测Ki-67 表达状态，将影像组学特征与临床影像特征联合，能进一步提高模型预测效能。

1.4 乳腺MRI 不同数据库中心之间组学研究

在大数据技术的支持下，一些世界级的数据中心和不同形式的影像联盟顺利建立，多中心多维度研究日益增多。基于多中心多数据库的乳腺MRI 影像组学研究进一步证明了其泛化性及潜在能力。一项来自6 个不同MRI 成像平台的异构数据对乳腺癌的影像组学研究发现，在“真实”场景中，图像数据不受特定试验协议控制，组学分类模型的预测能力与以前的单供应商、单场强研究一致［18］。Bianchini等［19］是在2 家制造商的3 台扫描仪和2 种磁场强度下使用不同的扫描仪和采集参数进行重复采集，分别通过组内相关系数和一致性相关系数，以及组内变异系数评估特征的重复性和再现性。结果显示，944 个2D 特征中，79.9%～96.4%的特征在不同扫描仪相同扫描协议时显示了良好的重复性。一项来自4 家医院的研究，选择586 例患者基于新辅助化疗（neoadjuvant chemotherapy，NAC）前T2WI、DWI 和DCE-MRI 的定量影像特征构建的模型预测乳腺癌分子分型和NAC 疗效，AUC 达0.86，显著高于临床模型［20］。

但另外一项2 家医院使用5 台不同的MRI 扫描仪和不同的采集协议研究［21］得出了不同结果，该研究纳入292 例乳腺癌患者，共320 个肿瘤，用于预测乳腺癌患者对NAC 的病理完全肿瘤反应，与临床模型相比，影像组学特征分析在预测乳腺癌NAC 的病理完全缓解方面没有更优的价值，联合模型的表现也未明显优于临床模型，认为原因是受数据获取和重建参数变化的影响。因此，不同数据库中心之间的资源共享与整合需进一步的更广泛研究数据的评估和支持。

2 乳腺MRI 影像组学与其他组学的结合

随着大数据技术及分子生物学的进步，XX-组学研究不断发展。XX-组学是源于分子生物学的一个术语，如DNA（基因组学）、RNA（转录组学）、蛋白质（蛋白质组学）和代谢物（代谢组学）［22］。而影像组学与其他组学结合的多组学研究为人类更深刻地理解疾病的致病机制及有针对性的药物研发提供了坚实的基础。而研究最多和最早的多组学是影像基因组学。目前，临床最常用到的基因组学数据为胚系突变数据和肿瘤的体细胞突变数据，如携带BRCA1 或BRCA2 基因突变的健康人群可进行预防性乳房切除术，以预防乳腺癌的发生，从基因表达数据中可发现乳腺癌MRI 表型与其潜在分子生物学之间的关系［23］；影像基因组学综合影像和分子分析可解读肿瘤免疫治疗时期的肿瘤微环境［24］，使用DCE-MRI和基因表达谱进行关联解读［25］，证实影像特征与分子表型间具有牢固的关联信息。Zhao 等［26］构建了一个可扩展且可解释的深度学习框架DeepOmix 用来集成多组学数据和生存预测，该团队使用突变、拷贝数变化、基因表达和DNA 甲基化4 种组学数据，将DeepOmix 应用在8 种不同的癌症（膀胱尿路上皮癌、乳腺浸润癌、头颈部鳞状细胞癌、低级别胶质瘤、肾透明细胞癌、肺腺癌、卵巢浆液性囊腺癌和胃腺癌）数据集的预后分析，经与其他5 种最新方法（BLockForest、DeepHit、DeepSurv、glmBoost、IPF_LASSO）比较，在其中的6 个数据集中，DeepOmix 的预后预测结果表现均为最佳。

目前，影像基因组学研究普遍是分析成像特征与单一或数个基因的关联［27-28］，某些研究已开始进一步探索成像特征与基因的关联性分析，如成像特征与不同的生物学基因集显著相关，表明成像特征具有不同的生物学机制［29-31］。基因组学与影像组学相结合，分析致癌基因与影像特征的关联性，将对乳腺癌的精准医疗提供有力的帮助［32］。

3 人工智能和深度学习在乳腺MRI 影像组学中的应用

随着人工智能、大数据的蓬勃发展，医学影像人工智能的研究已涉及放射影像、超声影像、病理图像等多个方面［33］。人工智能不仅广泛应用于改善成像质量、提升成像速度等医学成像前处理中，其在疾病诊断、肿瘤分型、基因表达模式及患者预后评估等方面也广受关注。人工智能与影像组学的结合贯穿了模型构建各个环节。

Yu 等［34］研究了基于MRI 的机器学习在乳腺癌患者中的应用，提出了新的个体化临床决策诺模图可用于预测乳腺癌腋窝淋巴结转移和无病生存期。Zhu 等［35］率先利用3 种（GoogLeNet、VGG19、CIFAR）基本的深度学习卷积神经网络框架实现luminal A型乳腺癌的自动鉴别。Bougias 等［36］认为，采用深度学习、卷积神经网络和影像组学基于人工智能算法的实施，增加了乳腺MRI 的优势，可改善患者预后。Xu等［37］提出了一种新的分层集成深度灵活神经森林框架，集成多组学数据用于肿瘤亚型分类，其针对乳腺浸润性癌、多形性胶质母细胞瘤和卵巢癌3 种肿瘤进行亚型分类；结果显示无论在哪种肿瘤数据集中，多组学整合数据分类的准确率均高于单组学。

4 大数据时代乳腺MRI 影像组学面临的挑战

数据收集成本过高、整合多组学大数据困难、分析方法仍需改进，这可能是未来人们要持续面对的挑战。近几年，乳腺癌相关医疗数据呈指数级增长。但是，这些医疗数据通常仅有小部分被利用，其余庞大数据难以得到有效和广泛利用。影像组学大数据要求数据的临床问题明确、格式规范、信息完整，但是不同MRI 机型、对比剂注入方式、体位、采集时间等易造成图像的差异，且不同软件、不同采集和图像处理技术具有不同算法，也是图像质量无法很好地统一的因素，这种差异尽管在视觉分析中常被低估或忽略，但可能会对影像组学产生重大影响。一项基于乳腺MRI 的多中心研究发现，影像组学特征对扫描平台的预测产生了范围为0.91～1.00 的较高AUC 值，表明扫描平台对分类任务存在混淆特征［18］。Fornacon-Wood 等［38］比较了4 个不同软件平台（PyRadiomics、LIFEx、CERR 和IBEX）计算的影像组学特征的可靠性，发现在17 个影像组学中仅4 个具有良好的一致性，软件平台版本对特征可靠性也有显著影响。

图像分割方面，某些乳腺癌边缘不清及大量非肿块性乳腺癌的存在，使分割过程极具挑战。手工分割被认为是金标准，但其必须由影像医师执行，费时费力。另一方面，手动分割受读取器变化的影响，影像特征再现具有差异。尽管自动分割技术是客观的，但易出错。李丽等［39］认为，单一的图像分割算法难以对所有图像取得理想效果，因此对算法的不断改进优化很重要。

乳腺MRI 影像组学目前仍存在结果的不可解释性等问题。基于数据驱动的影像组学本质上无法解释潜在的生物学机制，因此无法完全解释黑盒算法的内部工作机制，这阻碍了乳腺MRI 影像组学的发展［40］。

数据共享是所有生物医学研究面临的共同挑战，数据的质量、数量和标准化程度对人工智能模型的训练结果影响较大。如想大力挖掘影像组学的潜力，则需为影像组学各个方面提供标准。对此我国学者也相应做出了一些努力，如积极地参与了St.Gallen共识的讨论，中国抗癌协会制定了乳腺癌诊治指南与规范，这些对促进乳腺MRI 的标准化扫描和数据的可用性起了很大作用。未来，通过医工结合和大数据技术研究，有望夯实医疗影像分析的数据基础，在我国甚至全世界建立高标准的数据库，基于乳腺MRI 影像组学的乳腺癌研究将有更大的发展空间和更佳的临床应用前景。