郭嘉杰 张志浩 项磊 宫恩浩 王浩 唐桥虹*
1 广东省药品监督管理局审评认证中心 (广东 广州 510080)
2 深透医疗 (上海 200062)
3 中国食品药品检定研究院医疗器械检定所 (北京 100050)
内容提要: 正电子发射体层成像利用示踪剂可视化人体中分子的代谢活动,在肿瘤的早期诊断中发挥重要作用。然而,探测器扫描时间以及示踪剂注射剂量的约束导致PET图像普遍存在低分辨率和低信噪比的问题。目前,基于人工智能的PET图像增强方法已取得优异成果。为此,重点介绍PET影像检查的应用现状与发展趋势,基于人工智能的PET图像增强方法,以及已上市的PET图像增强软件产品,旨在为研究开发人员和监管部门提供借鉴。
根据国际癌症研究机构2022年2月发布的癌症统计数据显示,2020年我国新发癌症和死亡病例分别为457万例和300万例,位居全球第一。据预测,2022年该数字将增加到482万例和312万例,分别是美国的2倍和5倍[1]。我国已经成为名副其实的“癌症大国”,癌症防控形势愈加严峻。
正电子发射体层成像(Positron Emission Tomography,PET)作为一种先进的核医学成像技术,利用特异性示踪剂无创地显像生物体内的生化、代谢等功能性变化。与计算机体层成像(Computed Tomography,CT)、磁共振成像(Magnetic Resonance Imaging,MRI)相比,PET具有高灵敏度和普适性优势,已被广泛用于肿瘤的区分以及治疗评估,并作为肿瘤学临床诊断的金标准之一[2]。在PET图像的重建过程中,为了获得更高的成像质量,往往需要较高的光子计数率[3]。增加扫描时间或示踪剂剂量是提高光子计数率的主要手段,但同时也会增加对患者的辐射伤害,以及因患者无意识运动而产生噪声的概率。目前,大量关于PET图像增强的科学研究正在进行,旨在实现低剂量和较短扫描时间的同时,提高PET图像质量。
近年来,人工智能在医学图像领域的应用得到井喷式增加。对于PET图像增强任务,研究人员将深度学习结合到传统PET图像的迭代重建框架中,或将患者的解剖结构图像如CT或MR作为先验信息提高成像质量。另一方面,编解码器网络、生成对抗网络(Generative Adversarial Network,GAN)可以端到端地从低质量重建图像中生成高质量图像[4]。总之,深度学习能从训练样本中学习PET系统在光子探测过程中的复杂响应函数,克服传统数学建模方法的不足,表现远优于传统方法。
PET影像检查大幅提高了早期肿瘤检测的准确率,在疫情防控方面扮演重要角色。然而我国目前的PET(PET/CT)设备装机量不足,因此研究PET快速扫描和低剂量成像技术具有重要的科学意义和应用前景[5]。
PET图像是通过向活体内注射特定的放射性示踪剂,然后由扫描仪采集数据并重建获得。放射性核素(例如18F、13N、11C等)被标记到特定化合物(例如葡萄糖、水、氨等)制成放射性示踪剂。示踪剂进入人体后参与新陈代谢,放射性核素则会聚集在感兴趣的组织中。如图1所示,放射性核素发生β+衰变,并释放正电子e+和电子中微子ve,当正电子失去动能后与电子相互作用发生湮灭反应,同时产生一对相对移动,能量为511keV的湮灭γ光子。γ光子能量高,易穿透人体,因此可被体外检测设备捕获,进而重建成像[6]。解析法和迭代法是传统的PET图像重建方法。解析法是基于PET成像原理直接推导出的数学解,根据计算过程不同,可分为滤波反投影法(Filtered Back Projection,FBP),反投影滤波法(Back Projection Filtered,BPF),卷积反投影法(Convolution Back Projection)等[7-10]。因投影数据的修正对重建结果影响甚大,所以解析法中使用的滤波器尤为重要。迭代法则基于统计原理,用投影的方式比较投影的理论值和实际值,不断更新迭代取得最佳结果。迭代法中测量所得的正弦图数据s∈ℝP×1的期望值与待重建图像g∈ℝQ×1存在如下仿射关系,见公式(1)。
图1.PET 系统结构
其中,A∈ℝP×Q为探测器系统矩阵,r代表散射和随机事件。定义目标函数F描述与s之间的不一致程度,则重建过程可表示为公式(2)。
迭代法将重建过程转换为已知正弦图数据s求待重建图像g的逆问题,即寻找使得与s最接近的g。又因服从独立Poisson随机分布,所以选择Poisson对数似然作为目标函数,见公式(3)。
P,Q分别表示LOR数量和PET图像的体素数量。经典的迭代法最大似然期望最大化法(Maximum Likelihood Expectation Maximization,MLEM)通过以下迭代更新步骤获取最优解[11]。见公式(4)。
其中,1N∈I,n是迭代次数。与FPB相比,MLEM不仅对噪声抑制效果好且对比度效果恢复显著。在实际应用中,解析法重建速度快但是抗噪能力差,而改进的迭代法由于更新形式简单,收敛速度快被广泛应用于临床实践[12]。
近年来,PET成像技术飞速发展,已广泛应用于肿瘤学、心脏病学和神经病学等领域。从世界范围看,70%的PET影像检查用于肿瘤,目前大约能诊断20种癌症[13]。PET成像技术与CT解剖学信息相结合组成PET/CT技术,以18F-FDG作为示踪剂,在肿瘤诊断各阶段发挥着至关重要的作用。如图2所示,PET/CT图像可精准地显示病变位置以及功能代谢情况。
图2.左图为PET 图像,中图为CT 图像,右图为PET/CT 像
PET有以下几方面优势。①PET能有效弥补常规影像学检查的不足,判断肿瘤的发展程度,提高鉴别肿瘤良恶性的准确率。李佳铮等[14]指出,PET可辅助预测内镜黏膜下剥离术ESD的根治性及监测术后复发;李可心等[15]利用18F-FDG PET/CT预测早期宫颈癌盆腔淋巴结转移。此外,Han等[16]结合深度学习和PET对癌症的组织亚型进行区分,尤其是腺癌和鳞状细胞癌。Ou等[17]的研究证明PET区分乳腺癌和乳腺淋巴瘤的能力优于CT。②PET/CT为已确诊的肿瘤患者临床分期和再分期提供选择依据。Orsaria等[18]研究表明PET/CT有助于评估原发性乳癌肿块及其与转移性腋窝LN的关系,进而预测肿瘤行为并指导临床实践。③PET/CT能更好地评价疗效和评估预后。Lee等[19]基于PET/CT和临床病理学特征构建统计模型,预测乳腺癌患者对新辅助化疗的反应,准确率高于仅结合临床病理学特征的模型。Peng等[20]基于PET/CT图像特征,预测鼻咽癌患者的治疗效果,达到较高准确率。另外,PET/CT对肿瘤分子及基因分型预测有重大帮助[21]。
我国每百万人口的PET/CT保有量与美国相差二十几倍,人均PET/CT设备远低于世界水平[9]。当前设备数量的不足促使PET技术向快速扫描发展。快速扫描可减少采集时间,让更多患者使用到设备,同时能降低因患者无意识运动而产生噪声的潜在概率。另外,示踪剂成本高,存在造成患者日后继发癌症的潜在风险[2]。因此,PET成像向低剂量快速扫描发展是必然趋势。
如表1所示,PET图像增强方法主要分三类,包括投影域预处理、改进重建算法和去噪后处理。投影预处理,即首先根据投影数据的噪声特点设计相应的滤波算法去除噪声,再由传统或深度学习方法进行重建。已提出的滤波算子有结构适应性滤波、双边滤波和自调节的维纳滤波算子等[22-24]。投影数据预处理方法可作为单独的模块,独立性强,计算速度快,但缺点是敏感性高,对最终重建图像的影响较大,容易造成失真。另外,主流的PET设备厂商出于专利保护通常不会提供PET原始数据,这进一步限制了此类方法的发展。
表1.PET图像增强方法的分类
早期对传统PET重建算法的改进集中在寻找EM算法的替代方法,比如有序子集最大似然法(Ordered Subsets Expectation-Maximization,OSEM),将EM算法依次应用于数据集的若干不相交子集上,提高收敛速度。另外,标准共轭梯度法、迭代坐标上升法和空间交替广义EM法等也是不错的替代方[25-28]。又因所有的最大似然(Maximum Likelihood,ML)方法都存在病态性,即对数据的微小变化敏感,估计值具有高方差,所以迭代结果会出现棋盘效应或者质量退化[29]。研究人员提出对似然函数增加约束项,使模型根据图像结构或平滑度的先验期望,从一组基本等价解中选出最有可能的解。基于公式(2)添加了约束项的迭代重建过程可表示为公式(5)。
其中,R(g)是约束函数,可以是广义高斯函数和相对差分先验等,β是惩罚系数[30,31]。
去噪后处理是指对重建好的PET图像进行滤波,常见的滤波方法有小波变换、高斯滤波和非局部均值等[32-34]。该方法不依赖投影数据,但是各厂家设备的噪声差异较大、伪影分布规律复杂,对滤波算法的性能有较高要求。另外,图像域后处理容易导致图像细节丢失和过于平滑等问题。
基于人工智能的PET图像增强方法可划分为机器学习方法和深度学习方法。研究人员受机器学习启发,用数据驱动模型取代传统的数学模型进行PET图像重建。这些模型包括综合词典和稀疏变换等,从大量的训练数据集中学习图像特征而完成建模[35,36]。另外,研究人员将图像域后处理看作回归问题,采用随机森林算法从低质量图像预测高质量图像[37]。
深度学习是机器学习的子领域,具备强大的表征能力,提供了一个数据驱动的框架学习从输入到输出的映射关系。2016年,Zhu等[38]开创性地使用深度学习从k空间数据重建MR图像。2018年起,深度学习被广泛应用于PET图像重建和去噪后处理。
如表1所示,基于深度学习的PET图像重建算法主要分为两类,第一类是端到端重建,利用神经网络直接学习正弦图数据到图像域数据的映射;第二种是基于正则化的迭代重建,将神经网络集成到迭代重建框架中,用先验信息或数据一致性约束重建过程。表2列出了近年来具有代表性的基于深度学习的PET图像重建方法。
表2.基于深度学习的PET图像重建方法
神经网络端到端重建过程可概括为公式(6)、公式(7)。
其中,gʹ为高质量的期望重建图像。神经网络N学习s→g的最佳映射Θ,该方法仅通过单个步骤一次性获取重建结果,相似于传统FBP算法。该方法的优势在于不依赖于复杂的基于成像原理构建的数学模型,直接由数据驱动,从训练数据中学习正弦图与PET图像之间的非线性映射关系。
Zhu等[38]首次将深度学习应用于PET图像重建,提出由全连接层和卷积层构成的AUTOMAP架构。如图3所示,其中第一个全连接层将复杂的正弦图数据格式化为列向量,第二、三个全连接层学习正弦图数据到图像域数据之间的反投影映射,卷积层则用于去噪。相比于传统方法,AUTOMAP重建的图像伪影更少。受AUTOMAP启发,研究人员提出各种个性化网络结构,如DeepPET,FBP-Net和DUG-RECON等[39-41]。其中,DeepPET的重建速度比OSEM和FBP分别快108倍和3倍,并且重建效果更好,FBP-Net由FBP模块和去噪器组成,前者对粗重构图像归一化,后者合并所有时间帧信息,泛化性能超过UNet和DeepPET。DUG-RECON是个多阶段网络,依次为去噪、重建和超分辨率,超分辨率能有效缓解重构图像的模糊问题。
图3.AUTOMAP 中使用的神经网络模型
GAN是一种无监督深度学习模型,通过自我博弈的方式准确地学习真实数据的分布,对医学图像处理有很大启发[42]。Liu等[43]使用条件GAN更鲁棒、更准确地重建PET图像。Hu等[44]改进WGAN,并用感知损失、均方误差和Wasserstein距离作为联合损失函数,有效解决传统重建图像中过度平滑和细节丢失的问题,同时降低了重建时间。Xue等[45]改进cycle-GAN,学习低计数正弦图到全计数PET图像之间的映射,得到了更高的重建质量。
现有端到端重建方法使用的深度学习模型结构复杂,内存利用率低,适合从正弦图生成尺寸较小(如128×128)的2D图像切片,一旦图像尺寸增大或者用于3D图像序列重建,将很难训练并用于推理。为了解决这个问题,Whiteley等[5]将正弦图数据先解析为最可能湮灭位置直方图数据(Histo-Img),与衰减图一并作为输入,使用改进的UNet将其映射到高质量PET图像。对比OSEM,该方法将3D PET图像重建速度提高了67倍,并且质量高、噪声低。Whiteley等[46]在后续的工作中进一步提高重建速度,设计一种氡反演层(Radon Invension Layer)降低模型的内存需求,快速地从全尺寸低计数数据中生成高质量的PET图像,对比OSEM+PSF和FBP方法,重建速度分别提高了7.2倍和4.9倍。
4.1.2 基于正则化的迭代重建
根据正则化方式的不同,基于正则化的迭代重建方法可分为基于生成和基于分析两类。基于生成的方法用神经网络N从隐向量z中表征期望重建图像g,并在迭代中估计z使网络的输出g与期望重建图像gʹ一致。g可表示为公式(8)。
其中N一般是降噪或生成网络,能为重建过程带来先验信息如患者间(inter-patient)信息和患者内(intra-patient)信息。z代表噪声图像或者患者的先验图像如CT和MR图像。此时,重建过程在公式(2)基础上可修改为公式(9)。
Gong等[47]预训练一个从低质量PET图像恢复高质量PET图像的深度卷积网络,并结合到传统的MLEM迭代重建框架中,使得重建结果噪声更少,细节更清晰。详细结合方式如图4所示,该方法中z初始为随机噪声图像,Θ在迭代时固定。在Gong后续工作[48]中,受深度图像先验[49]的启发,在没有成对训练数据(低计数PET图像-高计数PET图像)的情况下,使用患者的MR图像来重建PET图像。此时z固定为MR图像,迭代过程中对Θ进行估计。Xie等[50]在Gong等[47]的基础上用GAN作为N,进一步提高了重建效果。Xie等[51]在后续工作中使用低计数的PET和CT图像作为双通道输入z,高计数的PET图像作为标签,预训练一个3D降噪卷积神经网络,并取得了更好的病变对比度-背景标准偏差权衡曲线。Lv等[52]依次用两个预训练网络表征待重建图像,有效控制图像噪声和对比度。
图4.基于正则化(生成)的迭代重建模型
基于分析的方法使用神经网络显式地构造正则项,约束网络的输出图像与期望重建图像一致,见公式(10)。
其中,N一般是预训练的去噪网络或条件生成网络,Θ在迭代中固定,N的输入g也可以替换成隐向量z。Wang等[53]在最大后验重建算法基础上,利用卷积神经网络构造正则项,改善了重建结果的噪声偏差平衡。Kim等[54]将局部线性拟合函数(LLF)与去噪卷积神经网络DnCNN结合构造正则项,使得重建过程对输入的噪声水平差异鲁棒。Xie等[55]预训练从低质量PET图像生高质量MR图像的3D卷积神经网络作为正则项,用解剖学先验信息约束重建过程。结果表明,该方法能消除阶梯伪影,重建图像质量优异。
基于分析的方法相比基于生成的方法更加灵活,能够利用惩罚系数β,调节正则项对偏差的惩罚力度和EM优化的数据保真实度之间的权重。然而,β的确定依赖于经验,由调参确定,因此研究人员提出展开式迭代重构算法,将迭代重建模型展开为多个连续的可训练的深度学习模块,此时β变为可训练参数,在降低正则项的训练难度同时加强数据一致性[56]。在公式(4)和(5)基础上可得带约束项的MLEM的梯度下降形式的更新公式,见公式(11)。
其中,α是更新步长,Rʹ(g)表示R(g)的梯度。EMNet[57]将公式(13)重写为公式(12)。
即用神经网络来代替Rʹ(g),Θ在迭代中训练,使得正则化可学习。如图5所示,作者用UNet作为Rʹ(g),并将公式(13)打包成网络层以减轻内存使用量。
图5.EMNet 的模型结构
结果显示,EMNet的性能优于神经网络去噪和高斯去噪方法。此外,Bland等[58]将系统矩阵和投影算子的优点和滤波器结合,提出一种展开的神经网络结构,对比MLEM算法重建速度提高了54.5%,并显著提高图像重建质量,类似方法还有FBSEM和TransEM[59,60]。
基于深度学习的PET图像去噪过程可概括为公式(14)、公式(15)。
这类方法通常以低质量PET图像gl和先验信息prior为输入,期望的高质量PET图像ghʹ为标签训练神经网络,得到最佳参数去预测高质量PET图像gh。gl一般是传统重建方法的输出。表3列出了近年来具有代表性的基于深度学习的PET图像去噪方法。Ly等[61]和da Costa-Luis等[62]用卷积神经网络从低质量PET图像预测高质量PET图像。Yang等[63]在训练网络时,使用由不同正则化参数重建的低质量PET图像作为输入,显著改善了重建图像的病变对比度。Ladefoged等[64]以多个低剂量PET图像切片为输入,训练一种类似UNet的编解码器残差深度网络,结果表明该网络对噪声更加鲁棒。Ouyang等[65]同样使用多切片输入,使用条件GAN结合特定任务感知损失保持重建图像中正确的病理特征。基于GAN的方法还有CycleWGANs[66]和PT-WGAN[67]。
表3.基于深度学习的PET图像去噪方法
先验信息能引导神经网络进行更准确的重建。Liu等[68]和Schramm等[69]以MRI T1加权图像作为先验信息,提高了重建准确度。Chen等[70]以MRI T1加权、T2加权和T2 flair图像作为先验信息,其重建图像的质量与全剂量图像相当。另外,Chan等[71]用手动分割的病变掩模作为先验信息,改善病变区域的对比度恢复效果。Li等[72]将局部相对噪声水平作为先验信息,促使神经网络学习高噪声水平到低噪声水平之间的映射。
正则化能约束去噪过程,减小图像的平滑程度,如Kaplan等[73]提出用总变分正则约束均方误差损失函数。此外,研究人员还提出基于深度图像先验的去噪模型,基于动态PET图像和堆叠自编码器的降噪方法和基于扩张卷积的去噪网络等[59,74,75]。
PET图像增强技术是当前PET成像领域的研究热点,受到学术界和工业界的广泛关注。
为了推动基于人工智能的PET图像增强算法的创新与应用,国际医学影像领域顶会在2020年9月发起了首届超低剂量PET成像挑战赛,比赛目标是从联影医疗和西门子系统采集的低剂PET图像恢复高质量的标准剂量PET图像。比赛吸引了全球知名高校和科研机构的众多团队前来参加,呈现诸多优秀解决方案。图6展示了某团队从低剂量(全剂量的1%~25%)PET图像的恢复结果,其图像质量与全剂量PET图像相当,体现了人工智能技术在PET图像增强领域的强大赋能。
图6.低剂量PET 图像恢复高剂量PET 图像的效果
缩短PET扫描时间可以减少图像运动伪影,改善患者就诊体验,增加医院吞吐量,同时也能提高服务提供者的盈利能力。目前,各知名医疗器械公司相继投入到基于人工智能的PET图像增强软件产品的研发中。医疗软件产品属于医疗器械,其安全性和有效性与生命健康息息相关,因此世界各地都设立了严格的监管制度。国际上对医疗器械注册认证的主流法规有欧盟的CE认证、美国的FDA认证。在国内,根据中国国务院《医疗器械监督管理条例》规定,任何企业希望在中国境内生产、经营、使用医疗器械都应向相应的药品监督管理部门进行注册。2022年3月9日,国家药品监督管理局(National Medical Products Administration,NMPA)医疗器械技术审评中心发布《人工智能医疗器械注册审查指导原则》对人工智能医疗器械建立生存周期过程和规范注册技术审评要求提供了权威指导。
表4列出了当前已上市的PET图像增强软件产品,从技术方面来讲,Hyper AiR在传统迭代重建框架中加入神经网络作为正则项,以提高重建图像质量。Hyper DLR、SubtlePET和AiCE-i for PET则使用的是基于深度学习的PET图像去噪方法。图7展示了SubtlePET对超低剂量(全剂量的2%)PET图像的增强效果。
表4.已上市的PET图像增强软件产品
图7.SubtlePET 的图像增强效果
人工智能技术在PET图像增强领域显示出巨大潜力,但同样面临诸多局限与挑战。①深度学习模型是数据驱动的,其性能很大程度上取决于数据集的规模和质量。现有数据大多收集于各大医院和影像中心,因PET设备的成像协议、质控水平的差异,导致很难构建一个标准化的数据集,不利于模型训练。此外,现有研究使用的PET图像多来自正常扫描,在临床应用中,一旦输入图像中包含异常结构,如骨折、漏针、金属或运动伪影、创伤性脑损伤等,模型输出结果将不可控,这对模型的鲁棒性提出了更高要求。②深度学习是“黑盒”系统,研究人员无法通过有理论支持的公式对它进行描述,可解释性较差,这可能会给诊断过程带来未知风险,因此很难被临床医生接受。③目前基于人工智能的医疗影像辅助诊断软件被列入了风险较高的Ⅲ类医疗器械,其注册审批和市场准入的要求较高,导致能通过NMPA审批的产品很少。④可参考的人工智能医疗软件的标准较少,急需建立系统性测试方法和指标,建设统一的平台推动安全认证。
本文总结归纳了现有的PET图像增强方法包括传统方法、基于人工智能的方法,并分析其中存在的局限与挑战。PET成像技术在癌症的早期筛查、心脏、神经系统疾病等方面占据重要地位。传统PET成像受技术瓶颈和物理学限制,存在扫描时间长、易被噪声干扰等问题。人工智能技术尤其是深度学习的发展促进了PET成像技术的创新与变革,推动PET成像向低剂量、快速扫描发展。我国医疗资源有限,区域分布不平衡,且高质量医疗资源占比较少,在此背景下,基于人工智能的新型医疗技术具有广阔的市场空间。面对机遇与挑战,中国国产企业在提升PET图像质量层面取得了重大进展,在国际上处于领先地位。针对PET图像质量中国的科学家们和创新企业开发了多种基于人工智能算法研究和应用,这些技术都为提高PET图像的诊断价值提供了有力支持。
人工智能在PET图像诊断中的应用不仅能够提高PET图像的准确性和可靠性,还可以减轻医生的工作量,提高诊断效率和精度。展望未来,中国的人工智能技术在影像学、核医学等领域将加速发展。通过将人工智能技术应用于PET图像诊断和治疗,可以为患者提供更加个性化和精准的医疗服务。同时也为医生提供更加全面和准确的医学信息,加强医生与患者之间的交流和信任。进一步提高医疗质量和效率。最终,这些技术的发展将为整个社会带来更大的价值,推动医疗健康事业的发展。