梁银莹,张凌烟,刘志勇,黄 君*
(1.暨南大学附属第一医院超声科,广东 广州 510630;2.广东技术师范大学计算机科学学院,广东 广州 510665)
前列腺癌发病率位居全球男性恶性肿瘤第二[1]。Gleason分级(Gleason score, GS)系统是临床广泛应用的评估前列腺癌生物学侵袭特征的病理学标准,已成为制定前列腺癌治疗方案的重要参考[2]。经直肠超声(transrectal ultrasonography, TRUS)为筛查前列腺癌的一线影像学检查手段,但所能提供的信息有限。随着技术发展,人工智能逐渐广泛用于医疗领域[3]。本研究基于卷积神经网络(convolutional neural network, CNN)构建前列腺癌TRUS模型,观察其预测前列腺癌GS的价值。
1.1 一般资料 前瞻性纳入2018年5月—2021年1月101例拟于暨南大学附属第一医院接受TRUS引导下前列腺穿刺活检的前列腺癌患者,年龄45~88岁、平均(72.0±9.3)岁。纳入标准:①随后经穿刺活检证实为前列腺癌且有明确GS;②无其他恶性肿瘤病史。排除标准:①图像质量不佳;②穿刺前曾接受前列腺疾病相关治疗。本研究经院伦理委员会审批通过(KY-2023-154),患者均签署知情同意书。
1.2 TRUS引导下穿刺前列腺 穿刺前以GE Discovery MR750 3.0T MR仪采集前列腺多参数MRI(multiparametric MRI, mpMRI),将脂肪抑制T2快速自旋回波序列、弥散加权成像及动态对比增强序列图像以DICOM格式导入超声设备。采用GE LOGIQ E9超声诊断仪,配备可进行融合成像的容积导航仪。嘱患者侧卧,对肛周皮肤及直肠下段黏膜进行消毒,之后铺巾、麻醉;以腔内探头扫查前列腺,针对靶病灶处选取与mpMRI最为一致的TRUS图像并对二者进行认知融合后实施2针靶向穿刺,之后再行10针系统穿刺;期间每穿刺1针后采集TRUS图像,由此构建前列腺癌超声数据集、共568幅超声图像,并按6∶2∶2比例分为训练集(n=340)、验证集(n=114)和测试集(n=114),见表1。
表1 各集前列腺癌TRUS图像分布(幅)
1.3 病理分组 根据2014年国际泌尿外科病理协会GS系统共识[4],将568幅TRUS前列腺癌图像分为低危(GS≤6)、中危(GS=7)及高危(GS≥8)并导入Labelme软件,通过手动点击于前列腺癌边缘区域创建多个离散坐标点,完成标注后形成前列腺癌区(图1)。
图1 采用Labelme勾画超声图像中的前列腺癌区(红线区域) A.患者男,75岁,弥漫性前列腺癌; B.患者男,68岁,前列腺右叶癌
1.4 构建模型 构建基于改进索贝尔掩模区域CNN(Soble-mask region CNN, S-Mask R-CNN)+Xception的前列腺癌GS超声模型。首先,基于S-Mask R-CNN构建前列腺癌病灶自动标记网络,通过全卷积网络产生对应前列腺癌区域二值掩码,自动提取图像中的前列腺癌ROI;之后对图像进行形态学处理,以脉冲耦合神经网络(pulse coupled neural network, PCNN)算法行2倍扩增,扩增后训练集含680幅、验证集含228幅、测试集含228幅图像;基于Xception网络模型构建GS系统,并以训练集和验证集进行调试;最后构建可自动识别超声图像中前列腺癌区域并预测其GS的网络模型,并将测试集超声图像输入其中,评估其分级效能。
1.5 评估GS 由2名具有5年前列腺TRUS工作经验的超声科主治医师观察测试集228幅图像所示前列腺两侧叶对称性、实质回声均匀性、包膜完整性、内外腺体分界清晰度、是否出现低回声结节或弥漫性病变,以评估前列腺癌的GS,意见不一致时提请1名具有10年以上工作经验的超声科主任医师判定;最后由另1名具有10年以上工作经验的超声科主任医师以病理所见为金标准对超声评估结果进行判断。
1.6 统计学分析 基于TensorFlow学习框架以matplotlib函数绘制模型训练过程图,观察其准确率及损失率随迭代次数增加的变化。采用SPSS 26.0统计分析软件。以χ2检验比较精确率、召回率(Recall)及F1-score。以受试者工作特征(receiver operating characteristic, ROC)曲线和混淆矩阵分析诊断效能,以DeLong检验比较曲线下面积(area under the curve, AUC)。P<0.05为差异有统计学意义。
2.1 模型训练曲线 随迭代次数增加,基于CNN的TRUS模型的准确率呈上升趋势、损失率呈下降趋势;以Earlystop使网络模型收敛时停止训练,模型于迭代次数约70次时趋于稳定,此时准确率趋于1、损失率降至0.2以下。见图2。
图2 基于CNN的TRUS模型训练曲线 A.模型准确率变化曲线; B.模型损失率变化曲线
2.2 混淆矩阵检测 基于CNN的TRUS模型预测前列腺癌GS≤6、=7和≥8的效能均优于超声医师,见图3。
图3 预测前列腺癌GS结果的混淆矩阵图 A.基于CNN的TRUS模型预测结果; B.超声医师预测结果
2.3 精确率、Recall、F1-score及准确率 基于CNN的TRUS模型预测GS≤6前列腺癌的精确率高于超声医师(P<0.05),而二者Recall和F1-score差异无统计学意义(P均>0.05);预测前列腺癌GS=7、GS≥8的精确率、Recall及F1-score均高于超声医师(P均<0.05)。见表2。基于CNN的TRUS模型预测前列腺癌GS的总体准确率(76.75%)高于超声医师(51.75%,χ2=31.021,P<0.001)。
表2 基于CNN的TRUS模型与超声医师预测前列腺癌GS的效能
2.4 ROC曲线 以病理结果为状态变量(“GS=7和GS≥8”赋值=1,“GS≤6”赋值=0),基于CNN的TRUS模型和超声医师诊断结果为检验变量(“GS=7和GS≥8”赋值=1,“GS≤6”赋值=0)行ROC分析。结果显示,基于CNN的TRUS模型预测前列腺癌GS的AUC为0.72,特异度为47.22%,敏感度为96.88%;超声医师的AUC为0.67,特异度为52.78%,敏感度为80.21%;二者AUC差异无统计学意义(Z=0.859,P=0.390)。见图4。
图4 基于CNN的TRUS模型与超声医师预测前列腺癌GS的ROC曲线
前列腺癌发病隐匿,确诊时多已发展至晚期而错失手术治疗最佳时期[5]。TRUS剪切波弹性成像[6]、TRUS造影[7]及mpMRI-TRUS融合[8]等技术可提高超声诊断前列腺癌的准确率。GS系统是临床广泛用于评估前列腺癌组织学分级的方法,GS≤6预后较好,≥7则转移率和复发率较高,若不及时予以积极治疗将使致死率逐年攀升[9]。TRUS引导下穿刺活检是术前诊断前列腺癌的“金标准”。目前TRUS已不再局限于诊断前列腺良、恶性疾病,亦可用于术前评估前列腺癌GS。
LIU等[10]采用基于S-Mask R-CNN的前列腺超声图像分割技术和基于InceptionV3的前列腺声像图分类技术诊断前列腺癌良、恶性病变,发现其诊断准确率均高于超声医师。张凌烟等[11]指出,利用基于深度学习的辅助诊断网络模型可对TRUS所示前列腺病变进行良、恶性分类,以提高超声医师诊断前列腺癌的准确性。基于人工智能的超声预测模型可用于定性诊断前列腺癌、肿瘤分级和预后评估[12]。目前已有基于CNN的病理学[13]和mpMRI[14]的前列腺癌GS研究,但鲜见基于CNN评估TRUS所示前列腺癌GS的报道。
本研究观察基于CNN的TRUS模型的准确率和损失率变化曲线,发现随训练迭代次数增加,准确率呈上升而损失率呈下降趋势,表明该模型的适应能力、收敛速度及能力均较好。同时,本研究发现基于CNN的TRUS模型预测GS≥7前列腺癌的效能较佳,但预测GS≤6前列腺癌的精确率和Recall并不高,且与超声医师诊断差异无统计学意义,即二者识别低危前列腺癌的效能均不突出;分析可能原因:①GS≤6前列腺癌入组病例数较少,结果可能存在偏倚;②GS≤6前列腺癌超声常表现为阴性,而GS≥7前列腺癌的组织成分更混杂,可出现明显占位效应,更有利于机器学习。
本研究发现基于CNN的TRUS模型与超声医师预测前列腺癌GS的AUC差异无统计学意义,但前者略高于后者(0.72vs.0.67),且二者预测总体准确率差异显著(76.75%vs.51.75%),说明模型的预测效能更高,主要原因之一为临床上超声医师进行诊断时多需结合病史、CDFI和超声弹性成像等进行综合分析,而在本研究中仅观察二维超声而忽略了其他信息。无论如何,本研究结果提示,基于CNN的TRUS模型可辅助超声医师基于二维超声图像判断前列腺癌GS,从而减轻其工作负担。
本研究的主要不足:①样本量小且分布不均;②仅对二维超声图像进行分析;③所获结论是否适用于其他品牌及型号超声设备有待进一步观察。
综上所述,基于CNN的TRUS模型有助于预测前列腺癌、尤其需积极治疗的中-高危前列腺癌的GS。