刘渊,程玉玉,贺睿敏,周卫兵,贺秋冬,肖若冰,贺阳,谢常军,谢海辉,文洪永,陈娟,何尧林
1.中南大学湘雅医院肿瘤科,湖南长沙410008;2.郴州市第一人民医院核医学科,湖南郴州423000;3.南华大学船山学院,湖南衡阳421001;4.南华大学附属第二医院放射治疗科,湖南衡阳421001
鼻咽癌作为一种常见的头颈部恶性肿瘤,有地方聚集的特点,在我国华南地区发病率较高[1],临床表现为早期无特异性症状、淋巴结转移率高等[2]。目前放射治疗联合化疗、靶向药物等综合治疗手段已经取得比较理想的治疗效果[3]。除治疗方式外,患者病情的个体差异(原发灶外侵范围、乏氧状态、淋巴结转移和是否有远处转移等)也是影响治疗效果的重要原因[4]。其中淋巴结转移状况对远处转移发生率有重要影响[5],对引流区所有的淋巴结施行均匀的高剂量照射将会导致较高的并发症[6],所以能否准确地识别转移淋巴结是提高鼻咽癌疗效的关键因素之一。通常情况下,经过影像手段的人工识别可以较为准确地判断患者淋巴结转移情况,但由于使用的判断标准为基于CT、MRI图像中淋巴结形态学的差异,对影像医师的经验要求较高,不利于快速鉴别诊断[7-9]。随着图像处理技术的发展,以影像组学为基础的机器学习方法在鉴别转移淋巴结方面展现较强的潜力[10-11],其可以通过挖掘图像中包含的高通量数据信息进行深层次、多维度的分析,为临床实践中的计算机辅助诊断提供可能。
本研究针对鼻咽癌转移淋巴结进行分析,结合PET鉴别结果与现行鉴别标准对其中转移淋巴结识别进行研究。希望构建一个自动、量化鉴别转移淋巴结的模型,为临床快速诊断或辅助诊断研究提供一种新思路。
选择2017年7月~2018年6月于郴州市第一人民医院和中南大学湘雅医院收治的50例鼻咽癌患者治疗前CT、PET/CT图像作为研究材料进行回顾性分析。患者平均年龄53岁(18~74岁),男39例,女11例。纳入研究中的患者均经过活检病理学、影像学检查确诊为鼻咽癌伴有局部淋巴结转移,无远处转移发生,无多发肿瘤存在。病理分型明确鼻咽癌原发灶T分期:T1期7例,T2期19例,T3期17例,T4期7例。研究中CT及PET检查前患者均未接受放疗、化疗及其他治疗方式,两种检查间隔不超过15 d。
CT图像为TOSHIBA Aquilion 16型和GE 64排LightSpeed CT平扫及静脉灌注增强扫描获得的平扫及动、静脉时相的增强图像,扫描条件120 kV,110 mA,层厚3 mm,扫描范围包括颅顶至锁骨下2 cm。PET扫描设备为飞利浦Ingenuity TF PET/CT,扫描范围包含CT检查所扫描部位。研究中所使用示踪剂放射化学纯度>99%,pH=7.0,患者由体质量计算静脉注射剂量18F-FGD,通常为0.10~0.12 MCi/kg。
研究中将体积>1 cm3的淋巴结作为感兴趣区域(Regions of Interest,ROI)。主要选择咽后淋巴结、颈部II区、Ⅲ区淋巴结等转移概率较高的区域进行勾画。图像勾画使用MIM Maestro软件(MIM software,Cleveland,OH),由2名肿瘤放疗专业医师分别进行手动勾画,勾画结果由第3位高年资医师进行检查,手动勾画完成后统一对所有ROI边缘进行平滑处理。淋巴结分类使用2种方法:(1)使用PET图像中SUVmax>2.5;(2)2013年鼻咽癌转移淋巴结鉴别专家共识中CT图像最大横截面短轴长度对淋巴结进行是否转移的分类[7],任意满足上述2条件的淋巴结认为为转移结节,均不满足上述2条件的淋巴结认为是良性结节。
使用IBEX[12]进行影像特征的提取,提取出的特征大体分为4类:(1)灰度强度(Intensity direct);(2)强度直方图(Intensity histogram);(3)形状特征(Shape-based);(4)纹理特征(Textrue-based)。先后获得病变部位特征共50个,其中的非相关性特征和冗余特征会造成数据过拟合并且影响模型精确度,因此必须对所有特征进行筛选,使用R语言中的最小冗余最大相关性算法去除冗余特征和不相关特征,并对所有特征数据进行线性归一处理,最后筛选出18个特征分组。
1.5.1 数据分割本研究共获得143枚淋巴结,经检验得出的转移淋巴结103枚,机器学习模型中使用100枚淋巴结特征作为训练组,43枚淋巴结作为测试组,训练集与测试集数据量对比为7:3,使用K-fold 5折交叉验证进行模型的交叉验证评估,算法选择逻辑回归(图1)。
1.5.2 惩罚项系数C和阈值选取为了使得模型不出现过拟合的现象,采用L1正则化规则,如式(1)所示:
图1 预测模型流程图Fig.1 Flow chart of prediction model
式中,前半部分为正则化项(包含w的范数),后半部分为损失函数,C为正则化系数λ的倒数,其控制了两者在最终的损失函数中所占的比重,C值过小说明模型复杂度小,会出现欠拟合,C值过大会导致模型泛化能力过强,导致过拟合。因此须选择一个使模型获得最佳泛化能力的C值。
在逻辑回归模型求解过程中,分类器将样本输出结果映射到取值为(0,1)的范围内,评估模型精确性时,可以进行自定义分类阈值使得模型获得更好的分类效果:
特征提取使用Embedded嵌入法,首先使用随机森林算法对数据进行验证,得到各个特征的权重系数,去除权重值排名前五的特征,对剩余的特征使用单变量统计检验,再以一个特定的打分函数如式(3)返还特征的得分值,最终统计出各个特征对预测目标的相关性系数:
其中,P_value为去除某项特征后的假设检验P值。
使用5折交叉验证分别经过5次迭代计算得出的模型平均得分(表1),当C值为10时,模型的得分均值达到饱和值0.68,故惩罚项系数C的最佳取值为10。
通过设置不同阈值来判断模型分类精度(图2),不同阈值的模型测试结果如表2所示。如图2所示,当阈值为[Threshold(阈值)>0.3,Predict(预测值)=1]时,模型的综合效果最佳。当阈值为0.3时模型的测试结果如表3所示,经计算,模型敏感度为90.0%(27/30),特异性为76.9%(10/13),精确度为86.0%(37/43)。
表1 不同C值的模型平均得分Tab.1 Mean score of model for different C values
经过特征提取后所得特征相关系数如图3所示,图3所示以下特征可作为预测淋巴结转移的重要特征:(1)最大横截面直径(Diameter);(2)平均宽度(Mean Breadth);(3)灰度强度能量(Intensity Direct Energy);(4)像素数量(Number of Voxel);(5)频度(Busyness);(6)形态密实度(Shape-Compactness)。
初诊鼻咽癌患者中,颈部淋巴结转移发生率超过80%[2,13]。由于转移淋巴结的存在,鼻咽癌患者发生远处转移的概率也会随之提升[5]。通过以放射治疗为主的综合治疗方案,可以取得较好的疗效。在鼻咽癌病例的靶区勾画过程中,需要将淋巴结引流区(GTVnd)纳入照射区域。常用的放疗方案有全颈部照射和选择性颈部照射。研究证明选择性颈部照射在疗效方面与全颈部照射无明显差异,并且在保护敏感器官方面具有一定的优势,例如选择性颈部照射几乎不会出现颅后神经损伤[6,14]。此外,对部分转移概率极低的淋巴结分区纳入临床靶区也会增加(如口症、放射性皮炎、颅神经损伤等)并发症的发生率[15-17]。所以,根据淋巴结转移情况施行针对性的个体化放疗方案,将有利于治疗方案的选择和改善患者预后。
现行转移淋巴结鉴别中依据为CT、MRI图像中最大横截面短轴长度和中央坏死、包膜外侵犯或不均匀强化的表现情况等形态学判断标准,而本文未采用MRI图像,是因为MRI图像与CT图像所使用的特征集不同,多种特征集合的结合产生的多模态结构数据可能会带来一些不确定因素。相对于现行影像学判断标准,影像组学可以通过分析图像中所包含的高通量数据信息来判断淋巴结转移情况。很多研究说明了影像组学与机器学习方法结合在鉴别转移淋巴结方面具有一定的潜力[18-20]。
图2 不同阈值的真实值与预测值混淆矩阵图Fig.2 Confusion matrix diagrams of actual and predicted values with different thresholds
表2 不同阈值测试结果Tab.2 Test results of different thresholds
本研究在构建分类模型时,适当使用正则化惩罚系数和模型鉴别阈值等优化方案,在不使用任何方案的前提下,模型的初始精度为68.5%,而经过优化后的模型精度为86.0%,因此,在模型构建过程中针对性地使用一些优化方案对提高模型精度很有帮助。
图3 特征相关性系数柱状图Fig.3 Histograms of feature correlation coefficients
研究中也存在一些不足。首先为了减少创伤,抑制转移,本文未采用淋巴结穿刺行病理检查。其次对淋巴结进行判断时依据PET中的SUVmax>2.5与CT中最大横截面短轴长度,而PET对直径小于10 mm的ROI具有较高的假阳性率[21-22],虽然两种判断方式的结合可以一定程度上提高对转移淋巴结分类的准确率,但是对仅满足某一标准的淋巴结认为转移可能对机器学习中获得的特征集合有一定的干扰。另外,受限于短期内接受CT与PET检查的患者数量较少,研究中获得的严格满足转移与良性的淋巴结数量较少,后续希望能够通过多中心联合搜集更多满足要求的病例资料或前瞻性研究,提高研究中鉴别的准确性。
本研究通过使用机器学习方法构建转移淋巴结鉴别模型,可以初步实现对转移淋巴结的鉴别。这一模型对临床中快速判断鼻咽癌淋巴结转移情况,为放射治疗中计算机辅助靶区勾画提供一种浅显的新思路。