陈彦宇,柏朋刚,陈榕钦,邱小平,陈济鸿,戴艺涛,全科润,周益民
1.南华大学核科学技术学院,湖南衡阳 421001;2.福建省肿瘤医院放疗科,福建福州 350014
放射治疗如今已成为肿瘤治疗的主要治疗手段之一,尤其对于鼻咽癌,通过放射治疗可以取得非常好的治疗效果[1-5]。放疗疗效的好坏与放疗计划的质量息息相关,对放疗计划进行合理的定量评估可以确保放疗计划的质量[6-7]。现阶段放疗计划定量评估方法,通常是参考指南和学术共识提出的剂量限值,根据特定剂量学参考点建立计划质量测度标准(Plan Quality Metrics, PQM),对放疗计划进行评分[8]。而临床上由于各个病例病情不同,在计划评估时会针对病情对参考标准做出调整,因此通过基于剂量限值建立PQM,对放疗计划进行定量评估存在着一定的不合理性。
本研究提供一种计算机辅助方法,根据危及器官(OAR)与靶区的空间关系,利用神经网络搭建剂量预测模型,并以个性化剂量预测结果为参考标准建立PQM,实现对放疗计划更客观、更合理的定量评估。
本研究选取2018年到2020年福建省肿瘤医院原发性鼻咽癌患者114 例,所有病例均在Pinnacle39.2(Philips Radiation Oncology Systems)放疗计划系统上进行调强放疗(IMRT)计划设计。计划靶区包括GTV_T_P(肿瘤原发灶计划靶区)、CTV1_P(原发灶临床高危区计划靶区)、CTV2_P(原发灶临床中危区计划靶区)、GTV_NR_P(颈部右侧淋巴结转移灶计划靶区)、GTV_NL_P(颈部左侧淋巴结转移灶计划靶区)、CTV_NR_P(颈部右侧淋巴结转移灶临床计划靶区)、CTV_NL_P(颈部左侧淋巴结转移灶临床计划靶区)。OAR 包括上颌下腺、颞叶、口腔、脑干、脊髓、垂体、左右侧腮腺、左右侧晶体、左右侧眼球、左右侧视神经、视交叉等。各个靶区处方剂量分别为:GTV_T_P 为69.96 Gy/33次(2.12 Gy/次);CTV1_P为61.05 Gy/33次(1.85 Gy/次);CTV2_P 为56.1 Gy/33 次(1.7 Gy/次);GTV_NR_P和GTV_NL_P为66 Gy/33次(2.0 Gy/次);CTV_NR_P和CTV_NL_P为52.8 Gy/33次(1.6 Gy/次)。OAR剂量限值标准为:Stem(脑干)D1cc<54 Gy;Cord(脊髓)D1%<45 Gy;PG_L/R(左/右侧腮腺)V30Gy<50%或V35Gy<50%;Lens_L/R(左/右侧晶体)Dmax<8 Gy;ON_L/R(左/右侧视神经)Dmax<54 Gy;Chi(视交叉)Dmax<54 Gy;上颌下腺、颞叶、口腔等其他OAR要求Dmean尽可能低,同时确保剂量热点不位于OAR上。所有计划均由主诊医生审核通过。其中81例作为剂量预测模型训练集用于剂量预测模型训练,23例作为剂量预测模型测试集用于剂量预测模型准确性验证,10例作为计划质量定量评估测试集用于计划质量评分测试。
OVH(Overlap Volume Histogram)是由Kazhdan等[9]提出,用于反映感兴趣区域与靶区空间关系的表征特征,具体表达式如下:
其中,r为靶区各向同性扩缩距离,d(p,T)为点p到靶区边界有向最小距离(靶区外到靶区边界方向为正,靶区内到靶区边界方向为负),|O|表示感兴趣区域的体积,|{p∈O} |为靶区扩缩后与感兴趣区域的重叠体积。靶区按确定步长内外扩缩特定距离,分别计算扩缩范围内感兴趣区域对应的OVH 值,便可以将三维空间关系降维成二维线性关系。
为了减少降维过程中的信息损失,本研究不仅选取了20 个靶区与OAR 关系的OVH 特征,还添加了5 项靶区扩缩体积特征。通过Pinnacle 脚本提取25 项特征信息,同时提取用于评价计划质量的剂量体积直方图(Dose-Volume Histogram, DVH)特征剂量学参数。
在Tensorflow 2.0 框架下搭建人工神经网络模型,以25 项特征作为输入,DVH 信息作为输出,实现DVH 特征剂量学参数的预测。该模型由一个输入层、一个输出层和一个隐藏层组成,隐藏层包括10个隐藏层单元。损失函数选择均方误差(Mean-Square Error, MSE),网络优化器选择Adam,初始学习率为0.01,每隔75 个epoch 进行学习率衰减,学习率衰减率为0.4,学习率衰减方式为倒数衰减,激活函数为tanh,训练迭代次数为500。
使用剂量预测模型测试集数据验证模型预测的准确性,将各个OAR 的DVH 感兴趣特征剂量学参数的预测值和实际值进行对比,如最大剂量Dmax、绝对(相对)体积-剂量Dcc和相对体积-剂量D%等,并计算△D=预测值-实际值。
Nelms 等[8]提出通过建立PQM 来定量评估放疗计划质量。这种放疗计划评估方法通过将各个靶区和OAR 的DVH 特征剂量学参数,如最大剂量Dmax、绝对(相对)体积-剂量Dcc/%等,作为计划评估的子测度项指标,根据剂量限值标准设计子测度项评分函数,并对子测度项得分加权求和实现计划质量评分,计划质量评分满足以下函数关系式:
其中,sk为计划质量评分,j为子测度项个数,ε为子测度项权重,P(X)为该子测度项的评分函数。
本研究首先制定一个基于剂量限值的PQM。由于保证靶区剂量达标是计划制定的首要目标,满足靶区剂量限值要求则该靶区子测度项评分为100,不满足则为0;基于剂量限值的PQM 危及器官评分函数见图1a,以1.1 倍剂量限值作为评分下限,剂量值高于下限则该项评分为0,0.9 倍剂量限值作为评分上限,剂量值低于上限则该项评分为100,剂量限值对应得分为60,上限到剂量限值区间得分与剂量值以线性关系从100到60,剂量限值到下限区间得分与剂量值以线性关系从60 到0。对子测度项得分加权求和后实现整体计划质量评分。表1 是按照以上方法,根据福建省肿瘤医院靶区及OAR 剂量限值标准制定的鼻咽癌PQM。
图1 PQM 子测度项评分函数图Figure 1 Diagram of PQM submetric scoring functions
表1 基于剂量限值的鼻咽癌PQMTable 1 PQM for nasopharyngeal cancer based on dose limits
在临床中评估计划质量时,会根据病例病情对参考剂量限值标准做出调整,而上述方法无法考虑到病人的特异性,因此本研究提出建立一种基于剂量预测值的PQM,用于更准确、更客观地定量评估计划质量。首先,利用剂量预测模型对子测度项DVH特征剂量学参数进行预测,再根据预测值制定子测度项评分函数,建立新的PQM。靶区评分函数按靶区优先原则依旧采取原方案;新的OAR 评分函数见图1b,其中j为具体OAR,Pj为该OAR 剂量预测值,Lj为该OAR 剂量限值,上限为Pj-0.02Lj,低于上限得分为100;下限为Pj+0.08Lj,高于下限得分为0;上下限之间的中间区间得分与剂量值成线性关系,预测值Pj对应得分为80。基于剂量预测值的鼻咽癌PQM 如表2 所示。分别用基于依据剂量限值建立PQM 和与基于剂量预测值建立PQM 两种评估方法对10 例计划进行评分,对比评分结果,并结合实际情况讨论两种方法对计划质量评估的合理性。
表2 基于剂量预测值的鼻咽癌PQMTable 2 PQM for nasopharyngeal carcinoma based on dose prediction
采用SPSS 20.0软件对预测值和实际值数据进行统计分析,采用Shapiro-Wilk 检验预测值和实际值数据的正态分布,符合正态分布的计量资料用均数±标准差表示,组内进行配对t检验分析;不服从正态分布的计量资料用M(Q1,Q3)表示,组内进行Wilcoxon秩和检验。P<0.05为差异有统计学意义。
从总体上看,△D 的剂量相关总体平均值为(-0.07±4.55)Gy,△D 的体积相关总体平均值为-1.06%±3.80%;从单个OAR 上看,表3 为23 例剂量预测模型测试集各个OAR 剂量学参数预测值与实际值对比,各个OAR 剂量学参数的预测值与实际值进行统计学分析计算出的P值均大于0.05,说明其预测值和实际值比较差异无统计学意义。图2 为OAR 剂量预测模型预测值与实际值比较图,理想情况下,各点应分布于直线y=x上。将各点进行线性拟合,剂量相关拟合线斜率0.952±0.019,截距为1.200±0.609,决定性系数为0.939;体积相关拟合线斜率0.973±0.015,截距为1.108±0.521,决定性系数为0.967。绘制y=0.9x和y=1.1x作为10%误差线,点位于误差线之间说明预测结果较为准确。验证集结果表明大部分点位于两条误差线之间,但视神经有大量点位于误差线外。对于其他预测结果超出10%预测误差限值的病例中,Chi Dmax有9 例,其中6 例预测值大于实际值;Stem D1cc有4例,其中3例预测值大于实际值;PG V30Gy有5 例,其中3 例预测值大于实际值;PG V35Gy有6例,其中3例预测值大于实际值。
图2 OAR剂量预测模型预测值与实际值比较图Figure 2 Comparison of actual values and predictive and actual values from OAR dose prediction model
表3 OAR剂量学参数预测值与实际值对比Table 3 Comparison of predictive and actual values of OAR dosimetric parameters
将10 例已通过临床审核的病例计划分别用两种评分方法进行评分,评分结果见表4,得分A 为基于剂量限值建立PQM 方法的得分,得分B 为基于剂量预测值建立PQM 方法的得分。10例病例总分中7例得分A 高于得分B。将60 分划为合格线,80 分划为优秀线,对于病例1、病例2、病例5、病例10 两种方法都评定为优秀;病例6、病例8 两种方法都评定为合格。对于病例3、病例7,基于剂量限值建立PQM 方法评定为优秀,基于剂量预测值建立PQM 方法评定为合格;对于病例9,基于剂量限值建立PQM 方法评定为合格,基于剂量预测值建立PQM 方法评定为不合格。对于病例4,基于剂量限值建立PQM 方法评定为不合格,基于剂量预测值建立PQM 方法评定为合格。病例4 的两种评分方法PQM 子测度项得分见表5,基于剂量限值建立PQM 方法判定该计划Stem、Chi、PG_L不合格,而基于剂量预测值建立PQM 方法对3个子测度项判定为合格。对于病例4的3个子测度项,Stem D1cc的实际值为59.02 Gy,Chi Dmax的实际值为60.39 Gy,PG_L V30Gy的实际值为为61.9%,将病例4的Stem、Chi、PG_L与靶区进行三维重建,其空间位置关系见图3。
表4 10例病例计划两种评分方法得分对比(分)Table 4 Comparison of the plan scores obtained by the two scoring methods in 10 cases(scores)
表5 病例4两种评分方法PQM子测度项得分对比(分)Table 5 Comparison of PQM submetric scores obtained by the two scoring methods in case 4(scores)
在放射治疗过程中,放疗计划质量直接影响放射治疗效果,因此对放疗计划质量进行科学合理的定量评估是十分重要的[10-12]。建立基于剂量限值的PQM 可以实现计划质量的定量评估,但此方法忽略了病例间的差异性,很难客观地评价个体病例的放疗计划是否达到最优[13]。除此之外,同一病种不同指南共识给出的剂量限值并不相同,这也给定量评分带来了更多的不确定性[14-18]。
建立基于剂量预测值的PQM可以根据病例的实际情况实现放疗计划质量的个性化定量评估,其核心在于准确地预测剂量学信息。现阶段研究表明,提高模型预测准确性主要通过改进模型算法和优化模型输入特征的选择[19-24]。Zhu等[21]用198例高质量前列腺癌计划建立数据库,以OAR体积和距离-目标直方图(Distanceto-Target Histogram,DTH)为几何解剖学信息特征,先用主成分分析法确定DTH和DVH的主成分特征,再通过支持向量回归方法(Support Vector Regression,SVR)建立DTH和DVH之间的数学模型,实现预测剂量学信息预测,预测结果准确性约为80%。陈辛元等[23]在鼻咽癌VMAT计划质量控制方法的研究中,选取了7个几何特征作为输入,通过搭建人工神经网络模型,预测三维剂量分布,对于剂量学指标D2%、D25%、D50%、D75%和平均剂量,预测结果和实际值的差异分别为(-0.27±1.19)、(-0.47±1.29)、(0.93±0.98)、(1.20±1.12)和(0.44±1.02)Gy。Jiao等[22]在预测模型输入特征的选择上,以未优化的剂量计算结果为剂量信息,将几何信息特征DTH和剂量信息特征结合起来作为模型输入特征,结果发现此方法可以显著提高模型预测准确性。
本研究搭建了一个人工神经网络模型,以25 个空间几何特征作为模型输入,用来预测PQM 子测度项剂量学信息。结果显示模型实际剂量-预测剂量拟合线接近于y=x,预测结果整体表现良好,准确性可达90%,高于Zhu 等[21]的SVR 模型,与陈辛元等[23]研究基本结果一致。但模型对视神经的预测效果较差,可能是由于视神经的形状比较狭长,通过OVH将几何特征降维时丢失了部分特征信息,Jiao等[22]通过将剂量信息加入模型输入特征后,对比只以几何信息作为输入特征,视神经的预测效果提高46.7%,本课题组下一步打算将剂量信息特征加入模型输入特征,提高模型预测准确性。对于其他预测结果超出10%误差限值的病例,其中大部分为预测值大于实际值,表明预测模型低估了这些病例的最优计划可以到达的程度,这可能是由于本研究选取的病例为临床治疗病例,训练集中部分计划在达到临床要求后并未对计划质量做进一步优化,仍存在改进空间。在本研究中,分别用基于剂量限值标准建立PQM 和基于剂量预测值建立PQM 两种方法对10 例测试集病例放疗计划进行定量评估。结果表明,其中有7例病例前者方法的得分高于后者方法的得分,对于以基于剂量预测值建立PQM方法评估得分较低的子测度项,表明预测模型预测放疗计划中该子测度项还存在优化空间。对于判断计划是否合格,两种方法对其中8例的判断都是一致的,对于病例9,基于剂量限值建立PQM 方法评定为合格,基于剂量预测值建立PQM 方法评定为不合格,说明该计划虽然整体满足剂量限值要求,但预测模型认为其还存在优化空间;对于病例4,其脑干、视交叉、腮腺均超过剂量限值,基于剂量限值建立PQM方法评定为不合格,基于剂量预测值建立PQM 方法评定为合格,结合该病例相应OAR与靶区空间关系图(图3)可以发现,该病例脑干和视交叉与靶区距离很小,GTV 靶区更是侵犯了左侧腮腺。由于本研究进行剂量信息评估的脑干、脊髓、视神经、视交叉皆为进行外扩后的计划危及器官组织,外扩后的脑干、视交叉与靶区存在交叠,且RTOG 0225 号报告[25]提出鼻咽癌放疗最大可接受剂量限值为脑干D1%≤60 Gy,视神经D1%≤60 Gy,单侧腮腺V30Gy<50%,考虑到OAR 和靶区的空间关系,该计划在临床上也是通过的。以上结果说明,两种评分方法都可以对大部分计划做出较为合理的评分,但对于一些特殊病例,基于剂量预测值建立PQM的评分方法能更客观地反映计划质量。
图3 病例4 OAR与靶区空间关系图Figure 3 Spatial relationships between OAR and target area in case 4
综上所述,本研究提出一种剂量预测引导的鼻咽癌计划质量定量评估的方法,该方法既可以反映计划是否存在可以优化的空间,又克服了基于剂量限值建立PQM进行定量评估过程中忽视了病例特异性的缺陷,能够更科学、更合理地通过评估得分反映计划质量。