朱熹, 夏巍, 周中柱, 李瑞雪, 朱庆强, 石博文, 叶靖
随着低剂量胸部CT在恶性胸外肿瘤患者复查随访中的普及,影像科医师的工作量与日俱增。目前国内医学影像数据的年增长量为30%,而影像科医师的年增长率仅为4%[1]。同时,为最大限度地提高肺结节的检出率和病灶细节的显示,影像科医师需对薄层(层厚0.625~1.25 mm)图像进行对比观察,每例近1000帧的不同图像(至少三种:肺窗、纵膈窗、骨窗)进一步增加了影像医师的工作负担。高负荷长时间的阅片极易产生视觉疲劳,致使工作效率和诊断准确性降低,造成肺结节的漏诊和误判[2]。研究表明[3],人工阅片对恶性胸外肿瘤患者的肺内结节的CT漏诊率约为1/3,其中大部分漏诊的肺结节体积较小,且约20%为恶性病变。
计算机辅助诊断(computer-aided system,CAD)作为人工智能应用于医学影像领域的重要分支之一,具有能精确定量、重复性好等优势,可有效减轻影像科医师的阅片压力并显著提高肺结节检出的敏感度[4]。此外CAD对恶性胸外肿瘤患者的复查也具有重要价值,可提高阅片者间的一致性,改善随访建议[5]。但就目前人工智能运行的实际情况表明,人工智能仍不够智能。除缺乏统一的行业标准与有效的监管保护以外[6],鲁棒性差为CAD目前存在的另一大缺陷[7],即软件稳定性受外界因素影响波动显著。诸多研究[8-10]证实肺结节CAD能效受人为操作、硬件设备、扫描参数、患者状态等客观因素影响较大。虽然低剂量CT已成为目前恶性胸外肿瘤患者的首选复查手段,但患者在复查随访时接受不同等级医院的不同档次设备、不同参数扫描的现象较为普遍。不同品牌、不同档次的CT亦会使用不同的重建技术,而不同重建技术是否会对肺结节CAD产生影响目前尚缺乏可靠研究。故本次研究根据结节性质进行分组,分别比较一款CAD在滤波反投影(filtered back projection,FBP)重建、量子降噪(quantum denoising,QD)、三维自适应迭代剂量降低重建(adaptive iterative dose reduction 3D,AIDR 3D)、云迭代剂量降低重建(interative dose reduction enhanced,IDRE)下对肺结节检出的差异,旨在探讨低剂量CT中不同重建技术对CAD检测恶性胸外肿瘤患者肺结节的影响。
1.一般资料
回顾性分析2017年11月-2019年1月于本院接受低剂量胸部CT扫描恶性胸外肿瘤患者。排除标准:肺部直径>10 cm肿块;图像存在严重的呼吸或其他伪影;合并其他弥漫性肺部疾病如严重肺气肿、急性胸部感染、结节病、粟粒性肺结核等。本研究通过本院伦理委员会批准免知情同意书。
2.CT扫描与重建技术
扫描采用佳能Aquilion ONE 320排螺旋CT ,扫描范围从胸锁关节上缘至胸11椎体下缘水平,患者仰卧,双手上举,吸气末屏气扫描。采用固定管电压(120 kVp)结合自动管电流调节技术(20~150 mAs)的低剂量模式,螺旋扫描模式,球管旋转时间0.5 s,准直宽度64×0.5 mm,矩阵512×512,视野400 mm×400 mm,层厚1.0 mm,层间距0.8 mm扫描。对原始数据分别采用FBP、QD、AIDR 3D、IDRE技术进行层厚1.0 mm,层间距0.8 mm的纵膈窗与肺窗的重建。
3.CAD系统
所有参与研究人员均接受CAD操作培训。所使用的推想InferRead CT Lung 4.0是一款已被广泛运用于协助肺结节检测的基于积卷神经网络的深度学习CAD软件。导入重建的各组图后CAD自动提示阳性病灶、性质并标注其最大层面直径。
4.客观图像质量测量
测量方法参考Russi等[11],由1名高年资技师在GE Advantage Workstation 4.6后处理工作站上于肺动脉分叉轴位层面的降主动脉内及同层右侧竖脊肌内分别放置面积100 mm2的圆形ROI,记录各ROI的平均CT值及其标准差(SD)。采用如下公式计算各重建技术组的平均信噪比(SNR)与对比噪声比(CNR):
(1)
(2)
5.肺结节诊断与分类标准
由4位具有15年以上胸部诊断经验的放射科医师采用盲法对IDRE重建图像共同阅片两次,每次阅片间隔一个月,当意见不统一时通过讨论达成一致。讨论结果作为肺结节诊断的标准。参考ACCP指南[12]按结节性质分为实性结节、部分实性结节、纯磨玻璃结节三组。比较不同重建技术下CAD对肺结节检测的敏感度与假阳性数。
6.统计学分析
采用SPSS 20.0统计学软件进行分析。不同组间SNR、CNR和假阳性数的差异性分析采用方差分析,两两比较采用SNK-q检验;定性资料(敏感度)采用率来描述,不同组间的敏感度差异使用χ2检验或Fisher确切概率法进行比较,两两比较采用Bonferroni校正法。如未做说明,假设检验均采用双侧检验,检验水准均设为α=0.05,以P<0.05为差异有统计学意义。
1.临床资料
最终380例纳入研究,女201例,男179例;年龄28~91岁,平均(58.51±8.62)岁;BMI为15.5~27.8 kg/m2,平均(18.75±1.91) kg/m2。人工阅片共检出3405个结节,其中实性结节2181个,部分实性结节513个,纯磨玻璃结节711个。
2.客观图像质量与效能差异
平均SNR和平均CNR依照FBP、QD、AIDR 3D、IDRE顺序呈现上升趋势,四种技术两两之间的差异有统计学意义。敏感度随图像客观质量提高而提升,假阳性率随图像客观质量提高逐渐降低。FBP、QD和AIDR 3D敏感度无显著差异,IDRE(93.64%)的敏感度显著大于FBP(90.07%),差异有统计学意义(P<0.05,表1,图1~3)。
表1 四种重建技术下平均SNR、CNR、敏感度与假阳性数
注:*为χ2检验,其他均为方差分析;两两比较采用SNK-q检验,a表示与FBP比较差异有统计学意义,b表示与QD比较差异有统计学意义,c表示与AIDR 3D比较差异有统计学意义。
图1 不同重建算法的平均SNR分析。 图2 不同重建算法的平均CNR分析。
3.四种重建技术对不同性质肺结节的显示效能
四种重建技术对检测实性结节的敏感度无统计学差异;对检测部分实性结节的敏感度略有差异,其中云迭代(95.59%)和滤波反投影(84.67%)的敏感度差异有统计学意义;对磨玻璃结节的检测结果与部分实性结节类似(表2,图4)。
表2 四种重建技术对不同性质肺结节的敏感度
注:不同组间的敏感度差异采用χ2检验或Fisher确切概率法进行比较,两两比较采用Bonferroni校正法;*表示与FBP比较差异有统计学意义。
Lodwick等[13]于1966年首次提出利用计算机进行医学影像数据分析,即计算机辅助检测。但受当时技术水平限制,此后十几年CAD的发展缓慢。直到20世纪90年代,随着计算机、数学技术的发展,CAD研究在医学影像诊断领域取得飞速进展,针对不同疾病的CAD软件不断涌现。Takahashi等[14]与Zhao等[15]的研究显示CAD作为第二阅读者可显著提高敏感度(54%~96.7%)。虽然CAD缓解了目前人工阅片面临的压力,辅助提高对肺结节检出率和阅片效率,但平均假阳性率较高(0.55~13.38个/例)仍是CAD有待解决的问题之一[16-17]。回顾本次研究,虽然在不同重建技术下CAD对胸外恶性肿瘤患者低剂量CT中肺结节敏感度与假阳性率存在部分差异,但所有敏感度均处于合理区间,且假阳性率并不算高。故在四种重建技术下,InferRead CT Lung对提高恶性胸外肿瘤患者低剂量CT肺结节的检出率具有辅助作用。
Katsura等[18]证实,人工阅片对肺结节的诊断敏感度在不同重建技术下具有差异性,但CAD是否具有同样结论尚缺乏可靠论证。故本次研究旨在探讨在其他扫描参数相同情况下,重建技术对CAD检测恶性胸外肿瘤患者低剂量CT肺结节效能的影响。本次研究中自动管电流调节技术有效降低了患者接受的辐射剂量,但不可避免地带来图像质量下降问题。作为第二代降噪技术,QD可不同程度的降低图像噪声而提高图像质量,尤其是薄层图像和三维后处理图像的质量。而迭代算法AIRD 3D的出现进一步改善了低剂量扫描带来的噪声问题。IDRE(eAIRD 3D)是一种基于AIRD 3D基础上保留高频噪声的最新一代迭代算法,能提供更高的图像纹理与分辨率。四种重建技术的先进程度以FBP、QD、AIRD 3D、IDRE顺序不断提升,平均CNR与SNR即客观图像质量也照此趋势不断提高。虽CAD对各性质、大小肺结节的敏感度存在部分差异,但结论与人工读片结果相似[19-20],各组敏感度均随图像客观质量提升而提高,假阳性率显著降低。相关研究[21-23]证实,实性结节的诊断基本不受噪声变化影响,但纯磨玻璃结节与间质性病变的检出率随噪声的降低而显著提高。故InferRead CT Lung对磨玻璃结节组间与部分实性结节组间部分敏感度同样存在差异。
各色的低剂量扫描技术的确降低了患者所接受的辐射剂量,但随之而来的弊端是图像质量的下降,为解决此问题各大CT厂商研发更新的重建技术更是不可胜举。由于条件有限,研究中仅涉及了4种重建技术,但本研究目的并非为了筛选出适用于CAD的最优重建技术,研究对象也并不是数据本身,而在于探究各组间的效能是否存在差异性。各项数据表明Infer-Read CT Lung在不同重建技术下对肺结节均均具有较高的敏感度(90.07%~93.64%)以及可接受的假阳性数(2.06~5.38个/例),但对不同性质肺结节的敏感度部分存在差异。其中部分实性结节的敏感度略有差异,IDRE(95.59%)和FBP(84.67%)的敏感度差异有统计学意义;对磨玻璃结节的检出结果与部分实性结节类似,IDRE(88.43%)和FBP(78.11%)的敏感度差异有统计学意义。诸多研究表明[24-25],CAD无论是作为第一阅片者还是第二阅片者,均可提高肺结节检出率,一定程度上弥补低年资医师的经验不足。但不同重建技术下存在的差异性均也可能使低年资医师对结节的判定造成困扰,一定程度上影响阅片效率。此外,不同重建技术下不同噪声的图像亦会对较前片对比测量病灶大小产生一定误差[26]。
图3 假阳性病例。a)滤波反投影图像;b)量子降噪图像;c)三维自适应迭代图像;d)云迭代图像。InferRead CT Lung在滤波反投影、量子降噪、三维自适应迭代图像中提示该组织为实性结节,云迭代图像中未做提示,该结构实为右肺下叶背段血管影。 图4 漏诊病例。a)FBP图像;b)QD图像;c)AIDR 3D图像;d)IDRE图像。InferRead CT Lung在FBP、QD、AIDR 3D图像中未提示该病灶,IDRE图像中做出提示,该结构实为左肺中叶纯磨玻璃结节。
在百家争鸣的时代,尽管各家公司都宣称自己的AI系统具有诸多功效,但系统是否能够达到所宣传的效果,均需要非常严格的临床验证。而目前超过90%的医学影像AI论文中使用的CAD仅处于测试阶段,并未在临床环境中进行严格论证[27]。本次研究结果中,InferRead CT Lung在不同重建技术下对检测恶性胸外肿瘤患者肺结节效能的差异性亦表明了CAD在解决鲁棒性方面仍面临诸多挑战,仍有待使用多中心的数据来验证产品的鲁棒性。但不可否认的是,目前AI带来的便利仍多于"痛点"。作为影像工作者,我们比任何人都希望AI能够尽快取代影像科医生完成一部分重复性的工作,也有理由相信AI有潜力促使影像医师诊断水平得到提升。也只有在AI的帮助下开拓新的服务领域,借助AI实现对医疗服务的创新,才能保证影像工作者拥有更美好的未来。
本研究的局限性:以四位高年资胸部放射科医师两次阅片共识作为参照标准,肺结节的判定并未全部利用病理检查作为参考。但此局限性在其他评价CAD效能研究中也较为普遍。CAD的效能受人工、设备、环境等外界因素影响,本研究结果仅代表在特定参数下一款基于卷积神经网络的肺结节CAD的运行表现,是否适用于其他类型的CAD仍需进一步验证。
本次研究中InferRead CT Lung在不同重建技术下对肺结节的检测均具有较好的表现,但对在不同重建技术下不同性质肺结节检出结果存在部分差异,故CAD鲁棒性问题仍有待进一步解决。