韩磊,王军成,王凯
(联勤保障部队第985医院,山西 太原 030001)
肺癌是目前常见的恶性肿瘤之一,其发病率和死亡率均居恶性肿瘤的首位[1]。腺癌是肺癌的主要病理类型之一,近年来发病率呈上升趋势[2]。有资料显示,如果能在早期发现肺肿瘤,其治愈率可达65%。若能在早期准确地检测肿瘤,并知晓肺肿瘤的种类、分型以及是否有淋巴结转移等情况,将对肿瘤的治疗计划起到至关重要的作用。本文采用机器学习的方法对肿瘤进行分类和分期,有着明显的优势,它不仅可以减少活检带来的痛苦,也在一定程度上提高了工作效率,减少了人为因素的影响。本文采用支持向量机,对肺肿瘤淋巴结转移情况进行预测,取得很好的预测效果。
本文采用基于图论的图像分割方法对CT图像进行分割。
图2 原始图像
图3 分割后的图像
对上述分割的肺肿瘤进行观察,发现分割的结果中,部分图像存在空洞,对于后续的特征提取有影响,所以采用图像形态学变化的方法对分割后的图片进行处理[3]。
图4 分割后的图像
图5 闭运算后的图像
由于肺肿瘤实际是三维的,主要从三维特征的全局特征出发,对肺肿瘤的体积、表面积、球形度、以及空间位置等进行特征提取,理论上应该具有更高的准确度和敏感度[4]。
(1)体积特征
肺肿瘤体积的计算方法为统计肺肿瘤分割后的图像中所有灰度值不为零的像素点的个数,然后将得到的像素点个数转化为相应的面积值,最后将面积乘以CT图像的层厚。计算公式如下:
图1 图像分割流程
式中,V表示肺结节的体积大小,Z表示CT图像的张数,I(x,y)表示图像上肺肿瘤的像素点,h为单张图像的层厚。
(2)表面积特征
肺肿瘤表面积计算的方法为用边缘算子提取肺肿瘤的边缘,然后统计该边缘中所有灰度值不为零的像素点的个数,将其转化为相应的长度,最后乘以CT图像的层厚。计算公式如下:
式中,S表示肺结节的表面积大小,Z表示CT图像的张数,u(x,y)表示图像上肺肿瘤的边缘像素点,h为单张图像的层厚。
(3)球形度
球形度表示为肺肿瘤接近于球体的概率,计算公式如下:
(4)空间位置
本文空间位置的判断方法为统计获取的CT图像中含有肺部图像信息的数量以及起始张数,最终通过两者的比例来确定轴向位置。而肺肿瘤在某一平面上的位置可以算它与边界的距离。
纹理是一种反映图像中同质现象的视觉特征,它体现了物体表面的具有缓慢变化或者周期性变化的表面结构组织排列属性。
本文利用灰度共生矩阵和频域转换计算其特征值。
图6 灰度共生矩阵特征提取程序框图
图7 频域纹理特征提取程序框图
最后将提取的特征值保存成35×283的表格,前282列为特征,第283列为每种分类的标签。
支持向量机(support vector machine,SVM)在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
本文核函数参数选择为1,惩罚因子为0.6,交叉验证折数为5次,随机次数为10次。
第一轮特征筛选:总计282种特征,为了节省训练和预测时间,以13个特征分为一组,分为22个组,每个组进行预测(最优特征中的数字代表特征的序号,eg:1代表282种的特征的第1个,是三维体积,2代表第2个特征,是三维表面积)。以下为第一轮筛选结果:
表2 淋巴结特征第二轮筛选
经过第一轮的预测,我们将AUC大于0.8的特征提取出来,作为下一轮筛选的初始样本。筛选出的特征有第八组(95 96 97 98 99 104),第十组(119 121 122 124 129 130),第十一组(137 138 142),第十二组(147 148 149),第十三组(159 161 162 164 169),第十五组(185 186 187 191 193),第十八组(222 224 226 227 233),第十九组(239 243 245 246),第二十组(253 254 255 258 259),第二十一组(265 271 272 273),第二十二组(274 278 279),共计49个,将其分为4组。以下为第二轮筛选结果:
表1 淋巴结特征第一轮筛选
经过第二轮的预测,我们将AUC大于0.9的特征提取出来,作为下一轮筛选的初始样本,筛选出的特征有第一组(96 98 99 104 119 122 124),第二组(137 138 147 148 169),第三组(185 186 191 193 239 243),第四组(253 255 258 259 272 273 278),共计25个,将其分为2组。以下为第三轮筛选结果:
表3 淋巴结特征第三轮筛选
将上述最优的特征合并,提取出最终的特征13个特征(96 99 104 137 138 147 148 185 193 258 259 272 278)。
涉及到疾病的分类,首先要了解灵敏度和特异度。
(1)灵敏度(Sensitivity)
灵敏度又称为敏感度或者真阳性率,是指筛选方法能将实际有病的人正确地判定为患者的比例。计算公式如下:
式中,TP为真阳性的人数,FN为假阴性的人数,真阳性为实际有病,诊断为有病,假阴性为实际有病,诊断为无病。
表4 淋巴结转移预测情况
图8 默认参数淋巴结转移预测的ROC曲线
(2)特异度(Specificity)
特异度又称真阴性率,是指筛选方法能将实际无病的人正确地判定为非患者的比例。计算公式如下:
式中,TN为真阴性的人数,FP为假阳性的人数,真阴性为实际无病,诊断为无病,假阳性为实际无病,诊断有为有病。
(3)准确性(Accuracy)
敏感性和特异性是一个事物的两个方面,存在本质的联系,为了全面把握诊断的真实性,本文引出了准确性,计算公式如下:
(1)ROC曲线
接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,roc曲线上每个点反映着对同一信号刺激的感受性,是分类器的评价指标之一[5]。
(2)AUC (Area Under Curve)
AUC 被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。
从AUC判断分类器(预测模型)优劣的标准:当0.5 支持向量机预测模型的结果如下: 灵敏度为0.8462,特异度为1。 分析:可以发现,ROC曲线最左上角的点依上述方法被判断为具有最佳诊断效果的界限点也就是在假阳性率大约为0-0.1的时候,此时的真阳性率即敏感度在0.85-0.95之间,与上述实验的结果是一致的,证明本实验筛选出的特征以及建立的预测模型具有较高的准确性。 随着肺肿瘤对人类的危害越来越大,适用计算机对肿瘤进行辅助诊断和治疗变得越来越重要。本文针对CT图像中肺肿瘤的情况,提出了基于支持向量机的预测模型,同时结合基于图论的图像分割算法和机器学习的方法,在保证预测性能的同时,有效降低了预测复杂度,提高了预测的准确率。5.3 预测结果
6 结论