王彬冰 白雪 陈明 郑光浩 胡东 张璐 张华 贾宏远 刘吉平 单国平
在放射治疗中,肿瘤靶区的自动勾画是研究者感兴趣的问题[1-5]。CT影像中,对于肺内孤立性团块影病灶,虽然可以通过阈值分割、卷积神经网络等方法确定其范围,但无法确定病灶的性质。其中,周围型肺癌和肺结核球就存在以上鉴别困难。深度学习方法在图像分类领域获得了广泛认可,它通过多层非线性变换,从海量数据中自动提取抽象特征,既消除了主观因素的影响,又能提取到更加高级的抽象特征[6-8]。但是,目前未见其用于肺癌或肺结核球方面的相关报道;缺乏大样本量的图谱可能是原因之一。本研究在前期收集的肺癌和肺结核图谱的工作基础上,使用深度学习方法对以上两者进行分类,旨在实现肺内病灶的良恶性判断,减少医生重复工作量和肉眼观察可能出现的疏漏,以期提高肺癌靶区自动勾画的准确性。本研究使用2家医院的胸部CT检查数据,比较了病理类型明确的肺癌和肺结核2D纹理图片,现将结果报道如下。
1.1 图像数据获取 (1)肺癌图谱:选自浙江省肿瘤医院61例周围型肺癌患者,均为肺实性病灶,无肺部弥漫性疾病和其他实变,且经病理证实为肺癌。CT影像来源于GE LightSpeed CT模拟机和Philips Brilliance Big Bore CT模拟机,扫描电压均为120kV,电流80mA,平扫,扫描层厚5mm,患者由经验丰富的临床医师勾画可见肿瘤病灶,勾画窗宽设置为[-1 000,500],肿瘤CT横断面最长径为 1.2~4.4cm(2.3±0.6)cm。(2)肺结核球图谱选自阿克苏地区第一人民医院53例患者,均有肺结核球病史,CT影像提示为继发性肺结核并有结核球,且无肺部弥漫性疾病和其他实变。CT影像来源于Siemens Emotion CT和Siemens SOMATOM Definition Flash CT,扫描电压分别为 130、100kV,电流 80mA,平扫,扫描层厚2mm。CT影像经网络传输到RayStation(RaySearch Laboratories AB,斯德哥尔摩,瑞典)治疗计划系统,由经验丰富的放射影像科医生使用轮廓勾画工具标记结核球病灶,结核球CT横断面最长径为1.3~4.5(2.9±0.4)cm。肺组织在纵隔窗、窗宽[-125,225]条件下,使用阈值勾画工具勾画,随后在肺窗[-1 000,500]下检查并修改,勾画完成后,影像数据和轮廓数据分别以DICOM和DICOMRT格式导出。
1.2 训练集数据增强 本研究是对肺癌和肺结核球的分类模型研究,研究的感兴趣区是第一节中影像医生所标记的范围以及其临近区域。而原始DICOM影像包含的信息多,如果直接使用原始DICOM影像进行训练,效果不理想,模型不易收敛,因此对图像作了如下处理:(1)只提取图像中肺组织部分,去除其他组织,减少无关图像信息;(2)根据标记的肺癌或肺结核球轮廓裁剪图像,裁剪图像像素56×56,减少其他肺组织纹理对分类的影响。扩大训练图谱数据集是降低过拟合的有效方法,对采集的肺癌和肺结核球图谱,本研究对训练图谱库中图像作平移、反转、旋转处理,见图1。经过数据增强后,数据库中一共包含了2 346张肺癌图像和2 340张肺结核球图像。
图1 训练集数据处理与数据增强
1.3 卷积神经网络模型 本研究对已标注为肺癌和肺结核球的影像,使用基于GoogLeNet的模型进行训练,GoogLeNet提出的多尺度感知层Inception结构使用密集成分来近似最优的局部稀疏结构,以提高计算性能。GoogLeNet使用224×224的图像作为输入,但如果图像尺寸过大,则易把不相关信息混入训练图像,直接影响分类结果;而且GoogLeNet对大尺寸自然图像使用的大尺寸卷积核和大步长,在识别肺癌/肺结核球特征时,略显粗糙。对于所收集图像的统计发现,使用56×56(约3.7cm×3.7cm)的图像可以包含绝大多数的感兴趣区(肺癌、肺结核球的平均最长径为2.3、2.9cm)。因此,在本研究修改了训练模型,使它适应较小尺寸的图像,并且提取到更精细的特征,使用线性整流函数(rectified linear unit,ReLU)作为激活函数。GoogLeNe网络模型结构及参数见表1。
1.4 数据测试分析 测试集数据选择独立于训练集的患者CT影像,其中肺癌62幅,肺结核球图谱84幅,使用与生成训练集图谱相同的方法获得,所选择图谱均经病理证实为肺癌和肺结核球,扫描条件同1.1。训练集数据用于模型训练,验证集数据用于评估超参数的好坏,测试集数据用于评估模型是否只过度拟合了训练数据以及模型的泛化能力。为了测试模型在不同情况下的分类能力,对这146张图谱分别按2种方法分组:(1)为比较不同CT来源对最终分类结果的影响,测试集被分成两组:测试集图谱和训练集图谱来源一致(A组,70张);在测试集中加入其他来源图谱(B组,76张)。(2)为比较模型对不同大小病灶的分类能力,测试集被分成病灶CT横断面最长径<3cm(C组,88张)和≥3cm(D组,58张)。使用caffe深度学习框架训练模型,训练在一台intel Core i7-7700HQ CPU@2.80GHz、GPU NVIDIA GeForce 940MX、8GB RAM的电脑上完成,迭代100 000次。定义TP为将肺癌预测为肺癌数,TN为将肺结核球预测为肺结核球数,FP为将肺结核球预测为肺癌数,FN为将肺癌预测为肺结核球数,计算模型对肺癌/肺结核球分类的精确率(Precision)P=TP/(TP+FP),召回率(recall)R=TP/(TP+FN),F值(F-Measure)F=(2*P*R)/(P+R)。
表1 GoogLeNet网络模型结构及参数
2.1 不同CT设备的CT密度表 本研究所收集的CT影像来源于4台不同的CT机,CT密度表见图2。CT密度表均使用CIRS Model 062M模体在每台CT机上测量。当 HU 值在[-1 000,-750]和[500,1 500]区间内,4 台CT机的HU值和物理密度对应关系之间存在一些差别;[-750,500]区间范围内各CT机之间HU值和物理密度对应关系接近。本研究所标记的感兴趣区域在肺窗[-1 000,500]下,处于HU值和物理密度对应关系符合度较好的区间。
2.2 模型分类结果 使用深度学习网络模型对肺癌、肺结核球进行分类,迭代100 000次,训练过程见图3。可以看到模型损失函数Loss值随迭代步数增加逐渐趋于0,Accuracy为模型对验证集数据正确分类的概率,其值随迭代步数增加逐渐趋于1。训练完成后,分别对测试集中每张图片输出模型预测的属于肺癌或肺结核球的概率,以50%概率为分类阈值。模型的总体分类精确率、召回率、F值分别为88.9%、77.4%、82.8%,分类结果见表2。
图3 模型训练的Loss值及Accuracy曲线
表2 模型对肺癌、肺结核分类的结果
在A组中,分类精确率、召回率、F值分别为89.3%(较高)、96.2%、92.6%(较好);在B组加入了未包含在训练集中的其他CT机型来源的测试集图谱,分类精确率、召回率、F值分别为88.5%、63.9%、74.2%,均低于A组。从病灶大小分布来看,A组中有38.5%(10/26)的肺癌图谱病灶最长径>3cm,有29.5%(13/44)的肺结核球图谱病灶最长径>3cm。B组中有38.8%(14/36)的肺癌图谱病灶最长径>3cm,有52.5%(21/40)的肺结核球图谱病灶最长径>3cm。分类结果表明,A组中有1例(10%)病灶最长径>3cm的肺癌图谱和2例(15.4%)病灶最长径>3cm的肺结核球图谱分类错误。而B组分类错误的13例肺癌图谱中,有11例(84.6%)为新CT机型来源图谱,且这11例新图谱中有8例(72.7%)图谱的病灶最长径>3cm。而肺结核球测试集图谱与训练集图谱来源相同,因此分类准确率较高,A、B两组中肺结核球被错误分类的比例分布为6.8%和7.5%。C组为肺癌或肺结核球病灶最长径<3cm的图谱,模型对C组的分类精确率、召回率、F值分别为89.2%、86.8%、88.0%,均高于D组(88.2%、62.5%、73.2%)。其中C组分类错误的图谱主要为不同CT来源的肺癌图谱(4例),D组有6例不同CT来源的肺癌图谱被错误分类。结果显示模型对与训练集图谱来源不同以及病灶最长径>3cm的图谱分类能力较弱。
分类模型对A、B、C、D组图谱分类的AUC值分别为 0.987、0.897、0.959、0.887,可以看到模型对 A 组和 C组有较理想的分类结果。模型对测试集图谱的分类概率结果见图4。
图4 各组图谱分类结果的ROC曲线(特异度表示测试集肿瘤图谱分类结果的假阳性率,灵敏度表示测试集肿瘤图谱分类结果的真阳性率)
周围型肺癌与肺结核球的鉴别存在一定困难。对于一些不典型病例,易造成误判。本文对深度学习方法在肺癌和肺结核球分类问题上的有效性进行了研究,在对2D训练图像进行肺组织提取、裁剪、旋转、翻转等数据增强方法后,使用改进的GoogLeNet模型对周围型肺癌和肺结核球分类模型进行训练,使它更好地识别肺癌和肺结核球图像的细节特征。最后使用了不同图像来源和特征的测试集图谱,测试了模型的分类能力。研究结果对于放射治疗中肺癌的靶区自动勾画具有实际应用价值。目前肺癌与肺结核球鉴别诊断的技术主要包括:(1)使用CAD法提取病变图像的参数特征,然后进行分类[9-10];(2)使用能谱CT并对能谱衰减曲线、物质分离和Eff-Z等多参数进行定量分析,以提高鉴别诊断正确率[11-12];(3)采用深度学习分类方法,以平扫CT影像为学习图谱库,克服部分患者不能接受增强CT检查、增加额外检查费用、引入其他参数的定量分析等问题。
在二分类问题中,训练集两类样本的数量是否平衡,会对训练结果产生影响。因此,本研究在选择训练样本时,通过病例数、数据增强等方法控制两类样本的比例,最终训练集中两类样本比例为1.003∶1。为避免当肺癌和肺结核球靠近胸壁时无法识别病灶,本研究使用阈值勾画和人工勾画结合的方法对肺组织进行准确分割,以获得高质量的训练数据。对独立于训练样本的肺癌和肺结核球CT影像测试结果表面,分类模型能有效地区分两者。深度学习方法除了需要大量数据和高质量标记作为训练集外,还需要注意不同设备训练集数据来源对最终训练结果的影响[13]。虽然在临床实践中,CT图像扫描的管电压、重建层厚相对固定,但不同设备间硬件差异以及图像算法均可导致两种机型扫描图像的差异。本研究发现,如果训练集CT图像和测试CT图像均来自相同的多个扫描机型,模型分类结果较好,但是在测试集中加入其他CT设备的影像,分类结果明显下降。这是由于训练集中的样本缺乏差异性造成的。这提示不同中心之间的训练模型使用前,应加入相应训练数据重新训练。
本研究还发现,模型的分类能力受病灶最长径大小的影响。病灶最长径<3cm的图谱分类结果好于>3cm的图谱。造成分类结果差异大的原因可能来自2个方面:(1)训练集图谱中,肺癌的平均最长径较小[(2.3±0.6)cm 比(2.9±0.4)cm],因此训练集中>3cm 的肺癌图谱样本量较少,而肺结核图谱样本量较多,样本数不平衡导致分类结果出现偏差。(2)考虑到计算效率,在准备训练集时,裁剪图谱使用3.7cm×3.7cm的图像尺寸。>3cm的肿块可能超出图像范围而造成图像特征不全,影响分类学习结果。本研究存在一定的局限性,如选取的病例图谱数量仍有待扩大,而更大的图谱库有助于得到更高的分类准确度,同时有效避免数据过拟合。另外,本研究只选取了肺癌和肺结核球两类病灶作为训练图谱,在实际临床工作中训练集图谱的分类方法还能进一步细分,如可以包括病理分型分期,预测治疗效果、基因表型的研究等,这将在今后完善相应类型的图谱。
综上所述,深度学习方法对周围型肺癌和结核球的鉴别诊断具有一定的潜力,可以有效地鉴别周围型肺癌和肺结核球,但病灶大小以及训练集、测试集图谱来源对训练结果有一定影响。