姚义好,李娟,石晶晶,申楠茜,张烁琪,周铱然,吴迪,马艳强,朱文珍
本年度RSNA年会上关于人工智能(AI)的研究报告按照部位和疾病类型、检查手段进行分类,各研究通过图像特征提取、集成学习、研发高效机器学习辅助诊断方法,服务于临床疾病的鉴别诊断和准确分级,进而辅助临床个体化治疗方案的制定,有望大幅降低影像医师的工作负荷,同时使患者获得早期诊断和适当的治疗。
对于急诊外伤、脑血管事件等,AI显示出较好的协助诊断功能。采用卷积神经网络(CNN)来检测头颅CT平扫中的颅骨骨折,由于头皮血肿是协助诊断骨折的良好指标,将其作为临床证据添加到CNN中,可以显著改善平均精度(由0.7952升高至0.8190);在不影响灵敏度的情况下,假阳性率明显下降,可见在采用深度学习模型进行图像分析的基础上加入临床背景可以使诊断更为准确。Jayadeepa等研究颅内出血(ICH)术前平扫CT,通过人工智能采用卷积神经网络进行中线移位检测和测量;与放射科医生报告相比,人工智能算法在中线偏移的检测和定量方面显示出良好的效果,其准确度为91.41%,敏感度为91.95%,特异度为90.79%。Balaji 等在头颅CT平扫上使用基于CNN的AI方案来评估ICH的准确率,结果发现28例ICH中16例为临床漏诊病例。同样Jayadeepa等通过AI模型,对22个漏诊的ICH病例进行回顾性分析,结果检出22个漏诊中的11个,敏感度为59.62%,特异度为91.07%。因此,AI可以帮助放射医师诊断ICH,降低漏诊率。但也有研究显示AI技术在有些领域还需要提高评价效能,如Walsh等研究前循环大血管闭塞最终梗死体积,就发现与自动Alberta卒中项目早期CT评分(ASPECTS)相比,医生阅片的ASPECTS与前循环出现大血管闭塞的最终梗死体积相关性更好。
对于血管成像和动脉瘤的诊断,AI也显示出较高的效能。提取动脉瘤MR图像,随机分为训练数据集和测试数据集,另随机选择50例无动脉瘤的检查数据纳入测试数据集;由两位放射科医师对动脉瘤进行手工标注,建立基于3D ResNet架构的深度学习算法,利用训练数据集进行基于像素块的分类,然后进行像素投票算法;测试数据集的敏感度、阳性预测值和特异度分别为87.1%、95.5%及92.0%;测试数据集中,算法新诊断了1个动脉瘤,19个未检出的动脉瘤中有14个位于颈内动脉,10个假阳性检测中有9个也位于颈内动脉。研究结果显示,深度学习算法检测脑动脉瘤具有较高的诊断效能。与此类似,对DSA图像进行分析,为了避免过度拟合,数据按4:1的比例分成测试和训练两组,使用基于开源Tensorflow框架的商用级机器学习软件(Cognex,ViDi Suite 2.0)进行深度学习;检测并正确定位颅内动脉瘤的敏感度为79%,特异度为79%,准确度为0.75,F1评分为0.77,AUC为0.85。未检出与已检出动脉瘤大小差异无统计学意义(P=0.19)。深度学习可在DSA图像上辅助检测和定位颅内动脉瘤。Fujita等对健康志愿者和颅内动脉瘤患者同时进行TOF-MRA及3D合成MRI序列(3D-QALAS)扫描,并采用深度学习算法产生深度学习MRA(DL-MRA)图像,通过对比研究发现3D合成MRI不仅能获得定量成像及各种对比加权成像,其通过深度学习算法获得的DL-MRA能有效显示颅内大动脉,且成像效果与TOF-MRA相当,减少MR扫描总时间并有助于放射科医生筛选血管病变。
中枢退行性疾病的研究也有可喜进展,采用AI方法可从稳定的轻度认知障碍(sMCI)中识别进行性轻度认知障碍(pMCI)。采用迭代注意力聚焦(IAF)神经网络来生成疾病相关的注意图并预测诊断结果。结果表明该方法的准确率达到了81.6%,超过了其他如基于VBM的方法(64.3%)和基于像素的深度学习方法(LDMIL,76.9%);同时也获得了较高的敏感度(60.5%),VBM和LDMIL的敏感度为36.8%和42.1%,表明该方法能更有效地识别可能的MCI转换。除了诊断结果外,聚焦注意力地图还提供了与MCI进展相关的特定病理位置。IAF神经网络可以作为新的计算机辅助诊断痴呆方法,有助于认识和理解MCI到AD的进展。
AI对脑肿瘤的诊断也是关注的热点。Hoebel等通过对48例胶质瘤患者的术前MRI的T2-FLAIR图像进行纹理分析,发现标准化对于MRI纹理特征及信号强度的重复性具有显著意义,研究者需要谨慎选择直方图箱,来确保提取的特征具有意义。另外,对比增强MRI是脑肿瘤诊断的关键,尽管钆对比剂被广泛使用,但也存在成本和缺陷。分析胶质母细胞瘤患者的术前MR影像[包括对比剂注入前后T1、T2、T2FLAIR序列及动脉自旋标记、磁敏感加权(SWI)、DWI序列]。训练深度卷积神经网络,该神经网络基于改进的U-net体系结构,具有分解的三维卷积和残差学习能力。该深度学习网络能够生成合成的增强T1加权图像,在定性和定量上都与真实的增强图像相似。对于合成的增强T1加权图像,从全脑来看贡献最大的是非增强T1图像,其次是SWI;单从肿瘤区域来看贡献最大的是DWI,其次是SWI。研究结果表明,深度学习可能有助于减少钆对比剂的使用。基于现在的研究发现异柠檬酸脱氢酶(IDH)突变状态对脑肿瘤的诊断、治疗和预后具有重要意义。一个完全自动化的深度学习网络多数投票算法,仅使用T2图像训练的网络取得了与使用多对比图像训练的网络相当的结果(采用T2-net的准确率为96.1%,AUC为0.972,TS-net的准确率为96.9%,AUC为0.981),可用于无创预测IDH突变状态。
对于儿童的影像学AI研究也出现了有意义的报道。有研究评估纠正足月的早产儿(PNs)的质子磁共振波谱(1H-MRS)和弥散张量成像(DTI),选择重要的特征,最终使用前馈神经网络(fNNs)构建了预测因子,能够预测PNs中的发育不良。对运动发育不良,预测因子具有100%的准确性;对认知发展不良,获得了100%的真实阳性率和83.3%的阳性预测值。因此fNNs可用于发现那些需要早期干预的PNs。在肿瘤诊断方面也有了新的进展,评估儿童髓母细胞瘤的MR图像,从增强T1加权像中提取放射组学特征,利用最小绝对收缩和选择算子(LASSO)Cox回归模型识别选择放射学特征(Rad-score),结果显示结合Rad-score、临床及常规影像特征的一体化模型是预测儿童髓母细胞瘤总体生存期(OS)最准确的模型(C-index:0.928)。另外,基于CT的放射组学特征也可以预测儿童神经母细胞瘤(NBs)中MYCN扩增(MNA)的能力。MNA预测效果最好的是将增强前/后各期图像相结合,检验组AUC、敏感度、特异度、准确度分别为93.8%、100%、94.9%、0.98。基于CT的放射组学特征还可用于预测儿童恶性神经母细胞瘤(PNTs)的预后,根据临床预后因素将患者分为低、中、高危组,采用Intelligence Foundry 建立两个回归模型以级联方式应用,model1用于对高危人群和其余人群进行分类,model2将其余人群分为中、低风险人群。模型在训练队列和验证队列中均表现出良好的辨别能力,模型1的AUC为0.826,模型2的AUC为0.811,结果显示基于术前CT图像的放射学分析有助于儿童恶性肿瘤的个体化治疗分层。
从数据处理来看,脑组织分割提取是神经影像学分析中图像预处理的第一步,MRI图像通过FreeSurfer进行脑提取和分割作为金标准。Michael等研究发现改进后的基于深度学习的U-Net模型能得到与FreeSurfer相当的脑组织提取结果,但每例患者仅需要几秒钟的时间来完成,而不是FreeSurfer所需要的数小时。这可以为其他任务释放计算资源,对依赖于这一步骤的神经影像学研究具有重要意义。
评估来自头颈部鳞状细胞癌(HNSCC)患者治疗前的颈部增强CT,分别来源于喉部或下咽(LHP)、嘴唇和口腔(OC)、口咽(OP),提取肿瘤的纹理特征,并与患者的年龄、吸烟状态、饮酒状态和肿瘤T分期相结合,构建预测淋巴结状态、淋巴血管侵犯(LVI)和神经周围侵犯(PNI)的模型。采用随机森林(RF)和支持向量机(SVM)两种机器学习方法构建预测模型。OC、LHP、OP三组肿瘤的纹理特征差异有统计学意义(P<0.05)。对基于原发肿瘤位置的纹理数据进行亚分层,与使用组合数据集的模型相比,预测模型的准确性提高了14%,所以为了获得最佳诊断性能需要根据原发肿瘤部位对患者进行分层。
基于深度学习(DL)的算法可以协助评估在医院中最常见的影像学检查-胸片(CR)。不同的研究机构分别对CR使用DL(DNetLoc)算法、自动检测(DLAD)算法等进行处理,结果发现基于深度学习的算法可以在CR中准确检测和定位10种异常影像学表现(肺不张、钙化、心脏肥大、实变、纤维化、结节、纵隔扩大、胸腔积液、气腹和气胸),特别是气胸的检出AUC高达0.96,总体敏感度和特异度达到89%(小型气胸敏感度为82%,大型气胸敏感度为97%),获得了较高的准确度,可以高精度地有效检测正位胸部X线图像中的气胸,用于识别需要优先审视的检查,从而有助于提高工作流程效率,改善患者结局。对于缺乏经验的年轻医生,在CR上确定肺结核的活动性相对比较困难。基于深度学习的自动算法,可以用CR将活动性肺结核(TB)与其他肺部异常和正常肺部进行分类。使用卷积神经网络(CNN)对正常与异常CR进行分类,然后使用YOLOv2-densenet模型进行深度微调。在测试数据集中,该算法在正常与异常CR分类中的准确度达到98.18%。采用该算法对活动性TB、其他异常CR和正常CR进行诊断时,准确度为78.5%,对于每个CR该算法的总体准确度为95.61%;对每个CR而言,该算法对活动性结核病的敏感度和特异度分别为79.73%和96.96%。使用CNN进行的深度学习在分类正常、活动性TB与其他异常状态CR方面显示出很高的诊断性能,可用于筛查活动性结核,从而提高诊断流程的效能。更有研究专门针对基线和治疗后胸片分别标记为活动性和非活动性结核。相关研究采用这些CR训练了一个深层神经网络,以输出有关肺结核活动性的百分比得分。初步结果表明,深层神经网络和放射科医师的诊断AUC值分别为0.80(95%CI:0.71~0.89)和0.74(95%CI:0.64~0.84)。深层神经网络算法可以在CR上较准确地确定结核的活动性,并可与医师判别结果相媲美。在结核病专家有限的情况下,深度神经网络可用于确定结核病的活动性,并监测抗结核治疗的反应。一种新开发的基于深度学习的自动检测算法(DLAD)可检测在CR中被放射科医师忽略的肺部恶性肿瘤。相关研究纳入经病理证实的胸片上发生遗漏的155例肺恶性肿瘤患者,其中127例病变是活动性病灶;当活动阈值为0.3时,DLAD对活动性肺恶性肿瘤的敏感度(54%)高于对非活动性肺恶性肿瘤的敏感度(14%);每例患者的假阳性标记数为0.24。当活动阈值为0.15时,DLAD对活动性肺恶性肿瘤的敏感度提高到60%,每例患者的假阳性标记数为0.35。DLAD算法在CR上可以检测出50%以上的肺部恶性肿瘤,而这些恶性肿瘤在CR中往往被放射科医生忽略,且假阳性率低。
基于CT检测对肺结节进行诊断也是AI研究的热点。有研究显示将AI算法与医师的诊断效能进行比较,两者结果高度相关(r=0.663,P<0.001),而AI算法的AUC高于医师的AUC(P<0.001),具有极高的临床应用潜力。Mukherjee等根据对CT扫描直径大于4mm的肺结节进行检查,建立CT筛查阳性的全国肺部筛查试验(NLST)非侵入性确定肺癌可能性的模型,通过使用一个、两个和三个筛选时间点,以三种方式建立了一个使用CT图像进行癌症预测的两阶段机器学习(ML)模型。这三个模型共有的第一个ML阶段是训练卷积神经网络(CNN)用于检测结节和预测恶性评分。ML的第二个阶段是使用Xgboost通过第一阶段预测的受试者肺结节的位置和恶性评分来预测癌症发生率。根据一个时间点的CT扫描进行预测时AUC值为(0.75±0.03,95%CI),而根据两次时间点的扫描进行预测时则达到(0.80±0.03),从NLST中的所有三个时间点进行扫描预测时可达(0.85±0.02),差异有统计学意义(P<0.01)。结果发现仅通过筛查肺部CT扫描就可以预测肺结节>4mm的受试者在以后几年是否会患上癌症,如果将来自多个筛选时间点的CT成像数据合并到模型中,则预测性能会更高。另外,Chen等评估了一种深度学习系统(DLS)的诊断性能,回顾以往胸部CT的报告,结果发现在所有的胸部CT扫描中,有0.3%发现了漏诊的肺结节,其中1/3具有临床意义。因此,使用DLS辅助的自动检测可能会提高放射科医生的工作效率。类似的研究显示,回顾性分析在阴性筛查后又经NLST筛查偶然发现肺癌患者的CT影像(n=122)。训练的基于DenseNet三维卷积神经网络的计算机辅助设计系统,根据NLST标准和肺-RADS分类分析结果,显示基于深度学习的CAD系统对阳性筛查的敏感度为89%~95%,对漏检肺癌的敏感度为74%,而假阳性率有限。肺癌在低剂量CT筛查中常被遗漏,而基于深度学习的CAD系统可能会改善早期诊断。AI算法还可以帮助进行结节复查决策。卷积神经网络(CNN)模型由NLST数据集训练得出,其会生成一个评分,在每例病例中得分最高的结节被用作指标结节。采用阈值为5.0的CNN评分免去了38例良性结节患者的CT检查和3例PET-CT扫描而不遗漏任何癌症,占随访时间内CT总数的41.3%和PET-CT的37.5%;采用0.56的阈值,则显示15个良性结节不需要任何随访,免去了23例CT扫描。在11例(35.5%)癌症患者中使用80分的CNN阈值,他们的检测和干预将会加快3.4个月。CNN生成的模型评分应用于偶然检测到的不确定的小肺结节,减少了对良性结节的随访扫描,同时潜在地加速了对高评分癌症结节的监测和治疗。
关于肺癌的诊断和疗效监测AI也表现出其优势。由基于相关合并的层次聚类算法(CHCA)有效提取的EGFR突变的非小细胞肺癌(NSCLC)的放射学表型,可以帮助识别可能受益于靶向EGFR抑制剂治疗的NSCLC患者。另有研究显示,分析每例NSCLC铂类化疗患者治疗前CT图像的放射学特征,影响PFS的独立因素为放射性组学特征、PS和N期,均被选择到nomogram中,nomogram预测PFS的c指数为0.721(95%CI:0.713~0.729),高于基于临床病理的模型(c指数:0.641,95%CI:0.631~0.651),可方便地用于对铂类化疗的Ⅳ期非小细胞肺癌患者进行PFS的个体化预测。也有相关研究进行NSCLC的淋巴结转移LNM的预测,从增强CT中提取放射学特征,降维采用Mann-WhitneyU检验和单变量方差分析,采用最小绝对收缩选择算子(LASSO)算法进行径向组学特征选择。建立了三个模型(临床模型、放射学模型和联合模型)来预测早期NSCLC的LNM,结果显示联合模型优于单纯应用放射学和临床特征建立的模型,约20%的术前IA期NSCLC患者可能存在LNM,放射学临床模型有预测LNM的潜力,可以帮助改善治疗方案。
基于AI算法的XGBoost模型可能对预测局部晚期食管癌(LAEC)术前化疗的效果有帮助,有助于改善LAEC患者术前管理的临床决策。
相关研究对多创伤患者中的急性呼吸窘迫综合征(ARDS)患者的胸部CT图像进行了基于深度学习的肺分割,利用每个肺的空间视觉词的直方图训练一个支持向量机(SVM)分类器来预测ARDS,并将该算法与常用的预后评估评分(ISS)和胸损伤评分(AIS)进行比较。基于机器学习的ARDS风险评分的AUC为0.78(ISS:0.66;AIS:0.68)。以机器学习为基础的多创伤患者肺的放射学特征能够预测ARDS,其水平高于一般临床评分。
对于各种CTA的诊断和重建,AI也显示了极高的临床应用效能。Noothout等评估了CTA中用于自动主动脉根部标记定位的深度学习的性能,结果发现,对于左半月瓣、后半月瓣、右半月瓣铰链点及右冠状动脉口、左冠状动脉口的定位,自动标记定位与观察者人工定位差异无统计学意义,而平均每个CTA分析只需要0.3秒,大大缩短了定位时间。肺动脉造影(CTPA)用于检测肺动脉栓塞时会出现假阳性(FP)结果,大多数FP是由肺树外结构和/或非管状结构引起,因此,动脉树的分割和检测结节结构的算法的集成可能是进一步减少FP的措施。人工智能算法还可以通过CTPA的放射组学特征对急性肺栓塞(APE)患者进行危险分级,即区分高危组与非高危组。有研究应用深度学习方法计算APE的CTPA血栓体积,同时由放射科医师采用梗阻评分评估APE患者的凝血负荷。DL模型的平均测量时间为(12.9±3.8)s,而第二年住院医师的平均测量时间为(10±4)min。当模型临界值设为0.1时,敏感度和特异度最高,分别为94.6%和76.5%,AUC值为0.926(95%CI:0.884~0.968),两次测量的一致性为100%。DL模型具有高度的敏感性和重复性,血栓体积与梗阻评分高度相关。采用DL模式检测APE可大大提高诊断效率,减轻放射科医生的工作量。另有研究比较了DLIR算法与CTPA标准图像重建算法的图像质量,分别采用FBP、ASIRv50和3个DLIR原型[低(L)、中(M)和高(H)]进行回顾性重建,定量测量主要PA的噪声(标准差)、信噪比(SNR)和对比噪声比(CNR)。两位放射科医生分别对ASIRv50和DLIR-M的主观图像噪声、噪声纹理、伪影和诊断质量进行了1~5级的评分。除ASIRv50与DLIR-L的CNR比较差异无统计学意义(P=0.175)外,其余各项比较差异均有统计学意义。与FBP和ASIRv相比,DLIR降低了图像噪声,提高了CNR和SNR。与ASIRv50相比,DLIR中等强度显示降低了图像噪声,改善了图像纹理,在诊断质量或伪影的主观评估方面差异无统计学意义。
AI技术在乳腺疾病的诊断中得到了较广泛的应用。使用基于深度学习的软件Lunit INSIGHT对乳腺X线检查图像进行分析,显示其对乳腺癌有较高的诊断效能,敏感度为90.2%,特异度为90.9%,准确度为90.2%,AUC值为0.960。另有研究显示,经过AI处理后的乳腺癌检测的AUC都有所提高: 数字乳房X光检查(DM/DBT)分别为0.781和0.848; 合成乳房X光检查(SM/DBT)分别为0.812和0.846。相应的AI处理后两种检查模式的敏感性、特异性也有所提高,读取时间更短。从技术角度来看,Duan等采用卷积神经网络构建了一套用于增强数字乳腺断层摄影(CEDBT)散射校正的算法,能提高图像质量。有研究采用卷积神经网络(CNN)进行乳腺良、恶性疾病分类,利用全二维乳腺X线片和全容积DBT相结合的方法(首先使用MMG进行训练,然后使用DBT进行微调)来提高模型的性能,AUC为0.93,高于单独使用2D或3D乳腺摄片,可以提高乳腺癌的诊断效率。采用DIB-MMG对其进行分析,在47例漏诊病例中检测出32例,在61例间变性癌症中检测出30例,在17例隐匿性癌症中检测出7例,总的AUC为0.738,DIB-MMG有望用于筛查性乳房X线摄影中乳腺癌的早期检测。另一项研究显示,筛查性乳房X线检查由AI进行分析,根据不同的召回率做出召回复查决定,其敏感度分别为99.3%、87.7%和76.1%,召回率分别为50%、10%和4%。召回率为50%时,达到了极高灵敏度,这意味着不必复查的那部分人几乎可以确定是正常的,因此AI可以帮助放射科医生减少工作量,在乳腺癌筛查方面具有巨大的潜力。采用基于卷积神经网络(CNN)的算法分析乳腺钼靶X线图像可以鉴别不典型导管增生(ADH)与导管原位癌(DCIS),AUC为0.90(95%CI±0.04),诊断准确度为80.7%,敏感度为63.9%,特异度为93.7%,具有很高的特异度,可以用来预测能安全观察而无需手术的单纯ADH患者。DIB-MMG在乳腺X线摄影中也可以预测肿瘤侵袭性,对乳腺导管原位癌(DCIS)、微浸润导管癌(DCIS-MI)与浸润性导管癌(IDC)进行鉴别诊断。研究结果显示DCIS-MI与DCIS的鉴别较与IDC的鉴别困难,DIB-MMG-TI用于区分IDC与其他类别是可行的。来自DBT的合成乳房X线摄影的放射组学特征在区分乳腺癌TN与非TN分子亚型方面表现出了很高的性能, 并可能影响治疗方向,其AUC为0.838, TN的敏感度和特异度分别为83.3%和79.7%。与此类似,机器学习算法在luminal A/luminal B、HER2富集、三阴性分子亚型鉴别诊断中也显示出较高的效能。基于CNN的算法可以预测乳腺癌的风险,并且可以根据已知的化疗方案进行调整,从而有望监测治疗反应。
乳腺MRI的日渐成熟为AI辅助乳腺疾病诊断增加了新的研究方向。从技术上看,Wang等在乳腺MRI中自动进行纤维腺体组织(FGT)分割时发现,模糊边缘注意生成对抗网络(FEA-GAN)在骰子相似系数(DSC)、Jaccard索引(JI)和Hausdorff距离(HD)等方面与深度学习U-Net相比,其改进均具有统计学意义(P<0.0001)。评估乳腺动态对比增强DCE-MRI图像的时间和空间分辨(4D)放射组学,以体素方式提取BI-RADS衍生的药代动力学增强特征,通过主成分分析(PCA)和人工神经网络(ANN)进行进一步分析,鉴别乳腺病变的良恶性,结果显示AUC为0.836(95%CI:0.799~0.868),显示出较高的诊断效能。另有研究显示,基于乳腺的DCE-MRI成像,使用ResNet深度学习的ROI+放射组学模型的诊断准确度为86%,较单独的ROI和放射组学模型高,且在肿瘤附近加入少量的肿瘤周组织可以获得更高的准确度(达到90%左右)。癌型DX评分(ODX)对雌激素受体(ER)阳性乳腺癌患者的风险分层起着关键作用,只有高危患者才能从辅助化疗中获益。采用多参数MRI放射组学鉴别ER阳性乳腺癌患者的高与低(exp1)、高与中低(exp2)、低与中高(exp3)的ODX风险,结果显示在exp1中,T2+DCE的AUC最高(0.83,95%CI:0.75~0.91),对exp2也是如此(0.78,95%CI:0.69~0.85);而对于exp3来说,T2的AUC最高(0.74,95%CI:0.65~0.83)。这些结果显示了T2+DCE对从低危或中危/低危患者中分层出高危患者的重要性。相比之下,T2能够独立从中高危患者中预测出低风险患者。与之前报道的只使用DCE结果相比,增加T2特征可以使AUC的风险预测性能提高11%~15%。为预测腋窝淋巴结转移情况(阳性/阴性),提取乳腺癌DCE-MRI早期和晚期的放射学特征,仅使用DCE-MRI放射组学特征、DCE-MRI放射组学与临床病理相结合都能进行有效预测,而后者效能更高,AUC值高达0.912(95%CI:0.819~0.979),敏感度、特异度和准确度分别为0.91、0.88和0.71。
AI在肝脏疾病的相关研究应用广泛。基于深度学习的模型可帮助放射科医生在增强CT中准确检测肝脏恶性病灶,检测灵敏度为89%,假阳性(FP)率为2.54%。类似的研究显示,进行增强双能CT(DECT)后,借助机器学习(ML)模型,影像组学可以准确地区分良性与恶性肝病灶,具有高特异度(97%)和阳性预测值(94%)(AUC=0.82,P<0.0001),其中仅1/35的良性(充血性血管瘤)病变被分类为恶性病变(假阳性)。肝静脉期和增强前的融合MRI放射学特征可能用于区分cHCC-CC(肝细胞-胆管混合癌)与HCC、CC,将有助于改善术前影像学诊断和治疗计划。在活体供体肝移植术LDLT中,通过术前评估肝脏和节段容积来确保适当的移植物大小的安全性是成功预后的主要指标。使用3种不同方法进行术前LDLT评估:A,完全手动;B,手动切除的AI(使用AI自动分割肝解剖,放射科医生手动切除);C,全自动。结果显示B和C效果最佳,且 B显示的总体差异最小。AI系统与专家干预相结合,有望在肝移植计划中提供更好的结果。对于进行肝大部分切除术后的肝硬化患者,基于放射组学的术前增强MR图像模型可用于预测术后患者的肝衰竭,通过使用最小绝对收缩和选择算子方法,并采用多元逻辑回归模型建立影像组学模型,发现15分钟的吲哚菁绿清除率(ICG-R15)在预测肝功能衰竭方面表现出最高的性能(AUC=0.894,95%CI:0.823~0.964)。所有肝脏MRI图像均由受过训练的临床分析人员手动描绘ROI,以量化肝脏T1、T2*和PDFF,提供有关纤维炎症、铁和肝脂肪的信息来表征肝脏状态。使用这些手动生成的分割蒙版,训练了基于U-Net的深度学习方法来自动识别并排除较差的模型拟合和伪影区域,模拟手动执行的ROI分析。将手动ROI与自动ROI进行比较,结果显示基于机器学习的自动化处理,与手动处理产生的结果非常接近,有可能极大地提高评估定量结果的效率,并提高标准临床工作流程中定量MRI分析的可行性。对T1WI的同相位图像使用纹理分析和机器学习量化处理,用于评估慢性肝病患者的肝纤维化水平,其准确度与MR弹性成像(MRE)相似(AUC分别为0.82和0.92,P=0.4066),可以在无法获得MRE的情况下用作评估肝纤维化水平的替代方法。Smith等通过人工智能算法定量分析CT图像中的肝脏表面结节,得到评分(LSN),用来评估肝脏纤维化及肝硬化的分期;结果显示该评分对早期肝纤维化、进展期肝纤维化、肝硬化诊断的AUC分别为0.88~0.90、0.89~0.93和0.90~0.96,具有较高的准确性,并可以预测具有临床意义的门脉高压及其他包括肝脏失代偿及死亡等相关预后事件。同样,基于机器学习的超声造影特征提取也可以帮助影像学医师提高对局灶性结节性增生(FNH)与非典型肝细胞癌(aHCC)的鉴别诊断。
在肾脏肿物的研究中AI也显示出其优势。在放射组学中使用机器学习结合肾脏肿瘤的三维形态和纹理特征,有助于影像学诊断中肾脏肿块良恶性的鉴别。单独使用形状指标AUC为0.65,添加纹理指标后AUC为0.69,形状指标是重要变量,其中矢状凸包周长率(CHP)是表现最好的形状指标。基于多期增强CT纹理特征的机器学习可用于鉴别透明细胞肾细胞癌(cc-RCC)与癌细胞肿瘤(嫌色性肾细胞癌、嗜酸细胞瘤),肾脏造影(NG)期TA的鉴别能力最高,AUC为0.822,敏感度和特异度分别为71.3%和81.4%,达到中等精度。类似的人工智能算法也可用于乳头状细胞癌(prcc)、透明细胞癌(crcc)、嗜酸细胞瘤(oc)的鉴别诊断,检测crcc、oc、prcc的敏感度分别为0.76、0.68、0.71,特异度分别为0.81、0.93、0.87,准确度分别为0.70、0.58、0.76。增强CT纹理特征的机器学习可以改善实体肾肿物的分类。对肿瘤病灶进行自由区域分割,得出肿瘤长度和血管肿瘤负荷(VTB)的变化,然后使用TexRAD软件进行CT纹理过滤,结果显示抗血管生成治疗后CT图像上CT纹理的定量变化可以预测无进展生存期(PFS),且精细纹理变化、肿瘤长度和VTB是PFS的独立预测因素。基于常规MR影像的深度学习,区分肾良性肿瘤与肾细胞癌的准确性较高,达到了87.2%,AUC为0.939,有助于指导临床治疗决策的制定。另有研究显示基于T2WI的纹理分析能有效鉴别低脂AML与常见肾细胞癌。基于全相位CT和全序列MR图像的机器学习模型可以鉴别低级别与高级别ccRCC,AUC分别为0.76和0.77,两者之间差异无统计学意义,可用于术前预测。
Chen等通过对包括100例胰腺肿瘤及100例对照病例的对比增强CT静脉期图像进行纹理分析及机器学习,建立了一个用以识别胰腺肿瘤的机器学习模型,其基于患者的诊断准确度为95.12%,基于模块的诊断准确度为93.43%。
对于胃癌,应用机器学习方法,放射学特征显示出良好的预测早期复发的性能,AUC为0.799(95%CI:0.741~0.857),此外临床N期、临床T期和癌胚抗原水平是早期复发的独立预测因子,结合所有这些预测因素的列线图显示出更强大的预测能力,AUC为0.842(95%CI:0.791~0.894),可用于术前预测晚期胃癌(AGC)患者术后的早期复发,是指导个性化治疗的潜在工具。通过使用AI算法从CT结肠造影CTC数据集中自动检测息肉,该算法通过3D卷积神经网络检测锯齿状息肉的对比涂层现象,有很高的敏感性;91%的息肉可见对比涂层,平均每个息肉的检测敏感度为93%±7%,平均每例患者的敏感度为94%±6%。准确的术前肿瘤分期评估对直肠癌的治疗和预后至关重要。相关研究从高分辨率T2加权成像(HR-T2WI)和扩散加权成像(DWI)通过人工神经网络(ANN)构建了放射学评估模型,并显示出良好的术前T分期表现;结合了放射学特征和临床独立的危险因素,放射学评估模型显示出更好的性能,可用于提高其T分期的准确性。影像组学特征是评估局部进展期直肠癌LARC患者无病生存期DFS的独立生物学指标,结合影像组学较临床病理或仅Rad-score诺模图更能提高个体化DFS的评估效果(C指数为0.715,95%CI:0.67~0.79)。
在生殖系统疾病中AI亦显示出其临床意义。Cheng等研究发现基于网络的多功能辅助系统可以早期检测妇科肿瘤的远距离复发,对治疗策略的制定有很大帮助。Luo等对进行子宫动脉栓塞治疗的肌瘤患者,通过训练残余卷积神经网络模型分析术前MRI图像,可以预测肌瘤体积的减少和临床结果,测试准确度分别为78.1%和84.7%,AUC分别为0.865和0.916。这将有助于临床医生确定哪些患者会是该疗法的最大受益者。Moeskops等研究基于深度学习的方法从全腹部CT扫描中自动分割皮下脂肪、脏器脂肪和腰大肌是可行的,手动测量体积与自动测量体积之间的相关性系数分别为0.996、0.997和0.941,平均约15秒内完成全扫描的分割,从而有助于心血管疾病和癌症的个性化风险评估。
深度学习使用多尺度U-Net作为检测器,诊断效能非常出色,检测骨折的特异度、敏感度和AUC分别为87%、86%和92%,还检测出39个漏诊的骨折。因此在传统CR图像上引入新型的深度学习驱动系统,可以协助放射科医生进行肋骨骨折的检测,并减少漏诊。同样,Nicolaes等和Cheng等基于对椎体CT和骨盆X线片进行深度学习,诊断骨折也有较高的效能。
Lang等对骨折患者的CT图像进行分析,使用ResNet50对脊柱病变进行良、恶性鉴别诊断,具有较高的诊断准确率,在每例患者的诊断中,敏感度为0.95,特异度为0.80,准确度为0.88。但是当对整个脊柱进行评估时,自动检测异常的准确率较低,还需要进一步改进。Chianca等回顾性研究脊柱病变患者的平扫MRI,基于HCAD软件纹理分析(TA)可将89%的病变正确地分类为良、恶性病变,而使用Pyradiomics软件的支持向量机的分类准确率可以达到87%。对于良性、原发性恶性和转移性病变的分类,两种TA软件的RF模型都准确地对70%的病变进行了分类。基于MRI检查的ML算法在脊柱病变分类中具有较高的准确度,不同软件进行的特征提取显示了一致的结果。
在膝关节和肩关节的研究中,AI技术也有了新的进展。有学者开发了一种基于CNN的U-Net的改良版深度学习系统,以从非脂肪抑制(FS)图像创建合成人工智能的脂肪抑制MR(AFMRI)图像;原始序列与AFMRI序列之间CNR测量的相关系数非常好(均>0.95)。AFMRI在检测内外半月板撕裂方面具有出色的灵敏度,对软骨和骨髓异常的评估具有中等特异性。尽管AFMRI会降低图像质量,但该技术对于诊断是可行的。深度学习合成AFMRI为膝关节的快速成像提供了一种新技术。另有研究显示,自动膝关节软骨分割法取得了与放射科医生相似的性能,可用于评估膝关节骨关节炎。一位有18年工作经验的放射科医生根据3DUTE-Cones序列的UTE adiab1ρ加权MR图像手动分割膝软骨,然后将UTE adiabT1ρ图像和相应掩码的2D切片输入到深度学习网络中,采用U-Net结构分割膝关节软骨。结果显示手动与自动分割所得的平均T1、adiabT1ρ、T2*值相关性较高,分别为0.95、0.88和0.86。深度卷积神经网络(DCNN)在X线图片上可自动识别肩关节成形术(SA)模型,并区分TSA与RTSA,以及5种特定的TSA模型,为自动关节置换图谱的快速模型识别奠定了基础。
对于儿童生长发育和骨折的诊断评估,AI也显示出其优势。采用粗-精级联神经网络对小儿腿部的股骨和胫骨进行分割和测量,训练一个粗糙的CNN模型对被试的腿进行左右两边的分类,然后对每一边进行精细的腿部分割。研究结果表明,粗-精级联深度学习方法可以实现儿童腿部的精确分割,分割精度为0.90,其准确度与专科训练的儿科放射医师相当,且自动测量每个受试者所用的时间不到1s。然而,在骨龄评估(BAA)中AI的评估效能还有待提高。Greulich&Pyle(GP)图谱是BAA的最常见标准,比较GP-BAA与基于三模型MobileNetV2卷积神经网络深度学习的BAA(DL-BAA),分析儿童手X线片,DL-BAA与GP-BAA的平均绝对误差(MAE)差异有统计学意义,实际年龄高估了5.2~8.3个月。使用经过适当设计和训练的卷积神经网络(CNN)对儿童骨折X线片进行评估,表现最好的CNN达到94.35%的准确度,AUC为0.97。相似的研究结果显示,深度学习可对儿童肘关节髁上骨折做出与放射医师准确度相当的诊断。
骨密度的评估通常依赖于双能X线吸收骨密度测量法(DEXA)。Savage等提出一种基于小波特征、AdaBoost和局部几何约束的人工智能算法,发现该人工智能模型能成功地通过CT值测定骨密度,并与DEXA有良好的相关性(P<0.001),可以成功用于CT筛查骨质疏松症。与此类似,Kamel等研究发现深度卷积神经网络(DCNNs)也可用于骨密度测量,为CR预测骨质疏松提供了一种客观的方法,也为此类疾病的筛查提供了可能。
在软骨变性的早期仅存在组成上的微小变化,如胶原蛋白(CO)和蛋白聚糖(PG)含量的变化。采用定量MRI(qMRI)进行软骨标本成像,运用傅里叶变换-红外光谱法测定CO和PG组分;建立人工神经网络(ANN)和多元线性模型(MLM),并通过遗漏交叉验证进行训练,实现了CO和PG组分的预测;模型与光谱测量之间存在很强的相关性(Pearson相关系数r>0.7),ANN的表现优于MLM。机器学习方法基于多参数qMRI预测局部CO和PG含量,具有较高的准确度,对诊断(早期)退变和监测治疗效果具有潜在意义。
很多研究人员在AI总体的技术改进和应用方面做了许多工作。通过深度学习构建能用于CT/能谱CT降低噪声的算法,Missert等发现与传统的卷积神经网络模型相比,针对个体特定调整的深度神经网络模型能够降低噪声,获得更好的CT图像。Erath等提出了一种mbDSE三射线评估方法,并将其应用于锥形束CT图像中,该方法不需要基于设备参数和散射参数构建模型,其在去除图像散射伪影、提高图像质量方面有一定的应用前景。Kim等研究发现对于CT图像,深度学习算法重建的图像质量优于滤波反投影算法,与ADMIRE重建算法相当,但深度学习重建算法更简单。
关于CT图像深度学习重建方法(DLIR)的探讨,Timothy等研究发现胸部CT扫描在所有层厚和剂量下,DLIR的性能均优于FBP和ASiR-V。与此类似,Hata等也发现与ASiR-V相比,DLIR降低了胸部CT的噪声和条纹伪影,提高了客观参数和主观图像质量。Li等对结石患者的CT图像进行分析,发现辐射剂量减少60%的ASIR-V重建图像和辐射剂量减少90%的DL图像不会影响尿路结石的评估。Zhao等研究表明NNC模型能够将薄层mDCT转换成较参考标准全剂量CT图像质量高的VHDCT,而辐射剂量减少了90%。Brady等对儿童患者的CT图像不同重建算法进行比较,发现采用基于深度学习的DL-CT重建(AiCE)技术对目标信号的检测和噪声幅度有了实质性改善,具有显著降低辐射剂量的潜力。基于深度学习的去噪(DLD)提高了超低剂量CT(ULDCT)上混合迭代重建(IR)和基于模型的迭代重建(MBIR)图像的质量,其中MBIR较混合IR更有优势。因此,DLD和MBIR均可通过提高超低剂量胸部CT的图像质量来为临床实践做贡献。
关于生成对抗网络(cGAN)有不少研究报道。Xiao等对多模态CT成像(包括平扫CT和增强CT)进行分析,结果发现通过生成对抗网络的迁移学习,与直接训练CT图像相比,图像的峰信噪比和结构相似度都有显著改善;因此,迁移生成对抗网络可以有效提高多模态CT图像的分辨率和图像质量。Tang等通过训练生成对抗网络学习来进行正常与异常CR的识别,该方法获得的AUC为0.841,而没有使用对抗性学习的AUC则为0.627。Uemura等基于条件生成对抗网络开发了一种称为pix2surv的图像新型生存分析模型,通过分析胸部CT图像,将pix2surv模型特发性肺纤维化(IPF)患者的存活预测与已建立的临床预后生物标记物[性别、年龄和生理学(GAP)指数]进行比较,结果发现,pix2surv模型在预测IPF患者整体生存方面的性能较GAP指数有显著提高。