高阳
(河北北方学院附属第一医院,河北张家口 075000)
近年来随着计算机技术的发展,深度学习算法(Deep Learning,DL)被广泛应用于图像识别、自然语言处理等领域[1-2]。目前,计算机辅助诊断系统(Computer Aided Diagnostic,CAD)成为了重要的临床辅助诊疗手段。而人工智能(Artificial Intelligence,AI)技术也已渗透到健康管理、辅助治疗与康复等医疗细分领域中。根据现有的医学数据可知,肺癌仍是目前最为常见且致死率极高的恶性肿瘤之一[3-4]。由于肺癌早期的症状并不明显,而中晚期的治疗效果不佳,所以提前对肺部结节进行监测并完成早期诊断,对于提升肺癌患者的存活率具有重要的意义。现阶段,肺部CT 影像、相关检验数值是判别良性与恶性结节的主要参照。因此,运用深度学习算法来提取图像特征,了解结节的位置、形态及晕征,可以为医生的临床诊断筛查提供重要的辅助参考。
但由于CT 图像通常存在边缘模糊及伪影严重等问题,导致其特征提取较为困难,所以需要借助复杂结构的深度学习网络来解决[5-10]。然而,随着DL网络深度的增加,受制于计算机运算能力的不足以及训练样本的缺失,DL 算法的性能难以发挥。增强学习(Reinforcement Learning,RL)是机器学习领域中的另一个研究热点,相较于DL 其更侧重于事物感知及思想表达,更强调对于完成目标策略的学习,这也为改善疾病的预测诊断模型提供了新的思路。基于上述分析,文中将RL 和DL 算法的思想相融合,设计了一个增强深度学习的网络,从而为CAD 技术的发展提供了新的思路。
随着类似于文中疾病预测诊断的复杂场景出现,需要将具有感知能力的DL 与具备决策能力的RL 相结合,利用DL 实现大规模输入数据的抽象化,再借助RL 不断优化问题的解决路径。增强深度学习算法(DRL)[11-15]的基本原理如图1 所示。
图1 增强深度学习算法原理
DL 算法通过多层非线性网络,将低阶特征进行组合与提取,以获得高阶特征,而RL 算法则借助智能体(Agent),累积环境中的惩戒值,从而得到达成目标的最优解。该文所采用的DRL 是一种端到端的感知控制模型,其动作过程主要包括三个步骤:
1)在模型动作的每个时刻,Agent 均会与环境进行交互并得到对环境的一个观察信息数据,再将该数据交由DL 进行感知,总结出该观察的特征描述;
2)基于现实上下文的预期值来评价动作过程的价值,并将最优值映射为当前过程的最优策略;
3)得到上述动作的环境反馈,然后重复步骤1)-步骤2),以获得实现目标的最优策略。
根据上文描述,可以采用马尔可夫决策过程(Markov Decision Process,MDP)[16]对RL 进行建模。将图1 中的环境S、动作A、奖赏ρ和状态转移概率f定义为四元组(S,A,ρ,f)。对于智能体Agent 在st∈S的状态下,奖赏函数可用R表示为:
此时,能够获得在st状态下Agent 执行at(at∈A)所得到的立即奖赏:
根据四元组的定义,f可以表示为:
根据式(3),可以得到Agent 在st状态下因为执行at转移到st+1的概率为:
将S→A上的动作映射记为策略π;Qπ(s,a)为模型的动作值函数,其表示在s时,执行a,遵循策略π直至某一情节结束,则Qπ(s,a)可以表征为:
其中,E[.]表示求期望,Rt为奖赏的累计和。记π*为S→A上的最佳策略,π*和π共享动作值,即:
式(6)遵循贝尔曼最优方程,可以通过迭代该方程来求解Q值,迭代方法如下:
其中,r和γ是偏置与调节系数。
根据上文对于增强学习基础理论的叙述,此次将深度卷积网络(Deep Convolutional Neural Network,DCNN)与RL 算法相结合,得到了深度卷积Q网络(DCQN)。该网络的基本结构,如图2 所示。从图中可以看出,DCQN 网络在引入DCNN 网络后,由全连接层向RL 算法输出Q值。为了防止DCNN 网络及RL 算法结合后出现迭代不稳定的现象,文中还引入了回放记忆单元。DCQN 网络的训练流程如图3所示。
图2 DCQN网络结构
图3 DCQN网络训练流程
训练过程中的转移样本记为et,其也可以由四元组表示为:
与环境交互后,Agent 将所有的转移样本逐一存储在回放记忆单元中。记θ为DCNN 网络的参数,每次迭代时,均从回放记忆单元中随机抽取批量样本,并使用梯度下降法(Gradient Descent,GD)对DCNN 网络进行更新。引入该机制后,可以有效避免样本关联,从而保证迭代过程的稳定。
在所设计的DCQN 网络中,值函数优化的目标函数Yi表示如下:
式中,Q(s′,a′|θ
i)是目标值网络的输出。在迭代过程中,使用当前Q值和目标Q值的均方误差作为网络迭代使用的误差函数:
在迭代过程中,需要使用式(10)所示的梯度进行误差传播,则有:
为了保证算法评估时的公平性,该次仿真采用了统一的计算机软硬件平台。该计算平台的相关参数如表1 所示。
表1 算法仿真平台参数
文中使用的检验数据为肺部CT 图像,其由肺部图像数据库联盟(LIDC)提供,所有图像均有肺部结节。根据先前的临床诊断数据,可将其分为良性结节与恶性结节,此次还统一进行了人工数据标注。该数据集的数值信息,如表2 所示。
表2 数据集参数
在评价模型的性能时,文中采用了精确率(Precision)、召回率(Recall)与ZSI 相似指数这三个指标,其定义如下:
其中,各个符号的释义如表3 所示。
表3 数据集结构组成
该次所采用的DCQN网络结构信息,如表4所示。
表4 DCQN网络结构信息
DCQN 网络主要基于卷积运算对临床诊断图像进行特征提取,再利用池化运算降低网络中的参数。所设计的DCQN 包括13 个卷积层和5 个池化层(4 个最大值池化、一个平均池化),模型的输出层则采用Sigmoid 函数。模型在训练时,采用动态学习率调整机制。此外,数据集中75%为训练样本,剩余25%则为测试样本。
该算法实现了从肺部CT 图像中提取肺部轮廓,然后再判别肺结节性质的功能。部分样本的肺部轮廓分割与肺结节性质识别示意,分别如图4 和图5 所示。作为对比,此次还采用同结构的DCNN网络作为对照组。其中图4(a)、(c)与图5(a)、(c)为DCNN 网络的运行效果;图(4)(b)、(d)及图5(b)、(d)则为DCQN 网络的运行效果。此外,图4(a)、(b),图5(a)、(b)为原始的CT 图像;图4(c)、(d),图5(c)、(d)是算法运行后的图像。
图4 肺部轮廓识别效果
图5 肺结节性质识别效果
不同算法在图像分割及肺结节病理识别预测时的相关计算结果,如表5 所示。
表5 肺部病例识别与预测结果
从图4 中可以看出,该算法在进行轮廓提取时,可以基于临床检验数据,利用器官间特征与位置间的关系,进行特征提取及编码,从而实现轮廓的自动化提取。而由表5 可知,DCNN 网络较增强学习算法,在图像轮廓提取上具有更高的精度。而与DCNN网络相比,DCQN 在包含正例、反例、坏点等情况下的综合识别精度提升了9.13%。这说明通过将两个算法相结合,可以进一步提升DCNN 网络对图像提取的精度。
从图5 可以看出,在识别肺部结节时,算法可以有效克服外部干扰,并对不规则形状、高模糊度及灰度分布不均匀的肺部结节完成准确识别。同时表5也给出了算法在肺结节病例预测上的结果,由表可知,DCNN 网络的识别精度、召回率、ZSI 均优于增强学习算法,而将两个算法结合后,DCQN 算法的三个指标相比DCNN 网络分别提升了0.052、0.039 和0.043。综合上述结果可以看出,DCQN 算法具有较高的精度及较广的适用范围。
文中基于深度学习和增强学习的优点,结合医学图像、数值检验的应用场景特点设计了一个DCQN 网络。该网络在医学图像分割、肺结节预测的相关指标上较现有方法均有了显著改善。因此,随着计算机辅助诊疗技术的进一步发展,所提算法将会有更广阔的应用前景。