张 玥,张 策,杨 玻,沈惠文,马得原,温立洁,谭万龙,于 洋
(1.大连医科大学附属第二医院泌尿外科,辽宁大连 116000;2.大连医科大学附属第二医院发展规划与质量管理部,辽宁大连 116000;3.大连医科大学附属第二医院药学部,辽宁大连 116000;4.南方医科大学南方医院泌尿外科,广东广州 510080)
膀胱尿路上皮癌(bladder urothelial carcinoma,BUC)是全球发病率排名前十的恶性肿瘤,在泌尿生殖系统恶性肿瘤中发病率位居第二[1-2]。经尿道膀胱肿瘤电切术(transurethral resection of bladder tumor,TURBT)和膀胱全切术分别被认为是非肌层浸润性和肌层浸润性膀胱癌的标准治疗术式,部分患者根据一般状况、肿瘤生长部位、肿瘤负荷等具体情况选择膀胱部分切除术治疗[3-4]。目前研究普遍认为,肿瘤的术后病理分期及分级可作为BUC患者的主要生存预后因素,次要生存预后因素有年龄、性别、吸烟史等[5-6]。近年有研究报道诸如中性粒细胞/淋巴细胞比值、血清白蛋白/球蛋白比值等新的术前预后评估标志物具有一定价值[7-8]。然而将各预后指标进行综合评价,并以量化的形式评估对不同肿瘤负荷患者采取不同手术方案治疗后具体生存预后情况的研究不多。本文拟建立一种手术预后预测系统,藉此评估采取不同术式治疗膀胱癌患者的生存预后影响因素。同期探索人工智能模型软件转化途径,以期实现术前导入已知因素,经模型处理后,得到不同术式膀胱癌患者生存预后的预判输出。与传统研究对比,患者能直观感受不同手术的治疗效果,方便医生与患者共同优化治疗决策,提高术前沟通效率,并有助于为患者制定个性化的随访方案。
1.1 研究对象及分组查询大连医科大学附属第二医院(大医二院)和南方医科大学南方医院(南医)电子病历系统,收集2007年1月-2019年1月间于两院初诊、初治,接受手术,且病理证实为膀胱尿路上皮癌的成年患者共832名的临床资料。所有患者均未接受新辅助治疗或辅助放化疗,保留膀胱者术后接受足疗程以表柔比星为主的膀胱灌注化疗,均有完整的临床及随访数据。其中,大医二院的438例患者被纳入训练组进行模型训练,南方医院的394例患者被纳入测试组进行模型验证,综合评价模型是否存在过拟合,并考察模型的泛化能力。
1.2 数据收集为提高模型的临床适用性,纳入临床常规的生理和实验室指标,包括常见的肿瘤标志物,及与肿瘤负荷及恶性程度相关的病理指标进行生存预后分析。患者一般资料、术前检验及检查数据、术后病理报告采集自住院病历,随访资料来源于门诊病历系统及电话回访,本研究纳入患者随访时间至少3年。
一般指标包括:年龄、性别、吸烟、高血压或心脑血管疾病史、糖尿病史。病理学指标包括:肿瘤数量、TNM分期(Tumor-Node-Metastasis classification)及病理分级。术前实验室指标包括白细胞计数、血红蛋白浓度、中性粒细胞计数、淋巴细胞计数、中性粒细胞/淋巴细胞比值、血小板计数、血清白蛋白水平、血清球蛋白水平、血清白蛋白/球蛋白比值、谷丙转氨酶、谷草转氨酶、乳酸脱氢酶、碱性磷酸酶、血钙、血磷及血肌酐水平。此外,肌酐清除率通过Cockcroft-Gault公式计算得到。
1.3 统计学分析使用社会科学统计软件包(Statistical Package for the Social Sciences,SPSS)18.0 软件进行统计学分析。计量资料采用均值和标准差表示,计数资料采用数值和百分率表示,单因素筛选采用卡方检验和两独立样本t检验。单因素分析具有显著差异性的变量确定为输入变量,患者3年总体生存情况(overall survival,OS)确定为输出变量。检验水准定为0.05。
应用Python3.7.4软件建立深度神经网络(deep neural network,DNN)人工智能学习模型,其包含输入层、输出层和隐藏层,在较大数据集中,利用隐藏层自我学习的特征,不断更新信息和网络,持续提高分类精确度。其网络拓扑结构如图1所示,建立输入特征和输出特征的变量关系,以实现从输入到输出的预测。具体到本研究,就是建立患者术前各影响因素及术式选择到患者3年OS间的模型关系,用于术前对患者采取不同手术治疗可分别对应的远期生存情况进行预测评估,并根据重要性高低对各影响因素赋予权重并排序,研发预测软件。
图1 深度神经网络结构示意图
神经网络依赖于核心激活函数建立,本研究中我们采用四层神经网络,输入层和隐含层应用Relu激活函数,输出层应用Sigmoid函数,通过训练集建立模型,再通过测试数据集进一步考察模型的准确率和泛化能力,避免由于输出过于稀疏而导致的模型过度泛化。同时,采用python2.7软件的Tensorflow软件包,采用随机梯度下降算法进行影响因素的权重计算。并通过反向传播的方法提升模型拟合效果,即通过对误差的反向传播,将每次训练得到的结果与预期结果进行误差对比分析,通过梯度下降法进行迭代优化求极小值。
Relu激活函数:
f(x)=max(0,x)
Sigmoid激活函数:
影响因素权重计算公式(随机梯度下降算法):
ωji(n)=ωji(n-1)-ηΔωji(n-1)
准确率(Accuracy)测评函数:
表1 预测类别与实际类别的拟合
TP:true positive,阳性,预测也是阳性,预测正确;TN:true negative,阴性,预测也是阴性,预测正确;FP:false positive,假阳性,实际是阴性,预测是阳性,预测错误;FN:false negative,假阴性,实际是阳性,预测是阴性,预测错了。
2.1 患者的基本资料832例患者中,438(52.64%)例在大医二院接受治疗,394(47.36%)例就诊于南医;最小年龄19岁,最大者96岁,平均年龄64岁;687名(82.6%)男性,145名(17.4%)女性;482例(57.9%)肿瘤为单发,350例(42.1%)为多发;肿瘤病理,Ta-T1期579例(69.6%),T2期158例(19%),T3期69例(8.3%),T4期26例(3.1%);其中低度恶性潜能99例(11.9%),低级别284例(34.1%),高级别449例(54%);539(64.8%)例采用经尿道膀胱肿瘤电切术治疗,66(7.9%)例接受膀胱部分切除,227(27.3%)例接受膀胱全切术治疗。两中心患者人群基本特征对比见表2,除性别、肿瘤单发/多发、N分期无明显差异外,其余特征两医院间具备统计学差异,但趋势一致,考虑原因为地区间经济和人群文化水平差异,以及医院影响力的区域辐射效应不同。
表2 两中心膀胱癌手术患者基本资料组间对比 [例(%)]
2.2 数据特征的提取将大医二院治疗的438名患者纳入测试组,应用单因素分析进行数据特征工程的选择,根据患者术后36个月时的生存情况将患者分为生存组和死亡组,单因素分析结果显示两组间患者年龄、吸烟、淋巴细胞计数、血红蛋白、白蛋白、白蛋白/球蛋白比、肌酐清除率、血钙、T分期、N分期、病理分级、术式具有显著性差异(P<0.05),可将其作为输入变量纳入DNN模型,其中,高血压或心脑血管疾病史(P=0.079,表3)在统计临界状态,但因其有潜在的临床指导意义,也一并纳入分析,最终以上13个变量作为输入变量纳入最终深度学习模型。
表3 术后3年大医二院膀胱癌手术患者死亡组与生存组一般资料组间对比 [例(%)]
2.3 DNN模型建立模型参数设置采用4层网络,2个隐含层(图2),各层神经元个数分别为64、32、16和1,各层采用Dense全连接(紧密全连接),目标函数为随机梯度下降,迭代次数为50(表4)。
表4 模型训练概况表 (模型:“连续”)
图2 深度学习神经网络模型架构
在DNN建模过程中,采用Tensorflow的Keras框架,数据结果可视化采用TensorBoard建模数据可视化面板。数据前期处理(缺失值和异常值)采用Python的Pandas模块和Numpy模块。将分类映射到三维,图3为建模效果,很好的区分了患者随访截止点死亡与否。
图3 各数据点在三维空间分布情况
图4 模型训练中各神经网络层收敛情况
DNN模型建立后,使用随机梯度下降算法进行影响因素权重计算(表5),最终得出T分期是影响患者生存最重要的因素,后续依次是病理分级、高血压或心脑血管疾病、血红蛋白、血钙、吸烟、白蛋白、淋巴细胞、年龄、白蛋白/球蛋白比、术式、N分期、肌酐清除率。
表5 影响术后并发症因素的权重值
DNN模型建立后,应用南方医院膀胱癌患者数据进行模型准确性验证,最终测试训练组模型准确率为88.57%,验证组模型准确率为92.05%,证明本例DNN模型具有良好的预测效能,后续将根据各因素权重进行软件转化。
BUC是一种常见并具有高复发率的恶性肿瘤[2],肿瘤的病理分期及分级是主要的生存预后因素。近年来,不断有新的预后因素被报道,如血清白蛋白、血清白蛋白/球蛋白比值、淋巴细胞计数、粒细胞/淋巴细胞比值等,检测方便且经济有效。但目前生存预后相关报道多为单中心小样本研究,且多用Logistic或COX单/多因素回归模型进行分析,所得结论不一且各预后指标的重要程度无法量化。故将各预后指标进行综合评估并得出准确性高且泛化良好的预后模型,用以量化评估不同肿瘤负荷患者接受不同术式治疗后的生存预后情况,将非常值得期待。
神经网络技术起源于上世纪五十年代,拥有输入层、输出层和一个隐含层,通过隐含层的计算,每个变量在隐含层获得相应权重,并将最终变化结果传达到输出层,得出预测结果。时至今日,已有部分研究者尝试采用人工智能技术进行医学建模用于疾病的诊断及治疗[9-10]。在泌尿系统肿瘤领域,人工智能技术在改善前列腺癌、肾癌和膀胱癌的诊断和治疗方面取得了诸多进步,但因其复杂性,利用机器学习和神经网络技术进行膀胱肿瘤的生存预后预测、治疗计划优化和患者随访教育的研究不多,技术尚不成熟[11]。本文采用DNN算法建模,主要依赖反向传播的方法提升模型拟合度,通过反复训练,将每次得到的结果与预期结果进行误差对比分析,根据对比结果修正每个神经节点的权值和阈值,使模型不断逼近预期结果,提高准确性。最终本例模型训练组测试准确率为88.57%,外部验证组测试准确率为92.05%,证明该模型具有良好的预测效能,后续可根据权重进行软件转化。
本研究纳入的两中心膀胱癌患者人群,除性别、肿瘤单发/多发、N分期无明显差异外,其余特征存在统计学差异,考虑原因为地区间经济和人群文化水平,以及医院影响力的区域辐射效应不同。即发达地区(广州南医)人群更关注自身身体状况,重视体检并在疾病早期(如初次血尿)就诊,故患者人群平均年龄较小,病理分级较低;同时,患者经济水平和对生活质量的要求较高,促使就医选择向影响力或规模更大的省会医院倾斜,故南方医院膀胱癌患者人群T分期更高,进而膀胱部分切及膀胱全切比例高于大医二院。虽地区间患者基本特征存在统计学差异,但特征趋势一致,差异不大,采用南北两单位患者数据分别进行建模及验证,可验证所得模型对中国膀胱癌患者的普适度。
本研究以3年OS为研究终点进行单因素分析,将生存与死亡患者间具有明显差异性的指标纳入DNN模型中进行分析。其中年龄为基础指标,反映体力储备情况,高龄为几乎所有恶性肿瘤疾病近、远期生存的危险因素[12]。高血压或心脑血管疾病史反映患者基础疾病情况,可显著影响患者全因死亡[13]。吸烟为导致膀胱癌复发的明确危险因素[14]。现研究证明维生素D缺乏可能与肿瘤复发及进展相关,血钙水平可间接反映患者体内维生素D水平,故低钙可能是影响肿瘤患者生存的危险因素[15-16]。肿瘤病理T、N分期及分级反映肿瘤负荷及恶性程度,分期及分级越高,预后越差[17]。血红蛋白、血清白蛋白水平及白蛋白/球蛋白比可反映患者营养水平、肿瘤消耗程度,营养不良被认为是术后并发症发生率高的主要原因,患者的防御机制减弱,其术后并发症的发生及癌症的快速进展更为常见,多项研究证实贫血及低白蛋白血症是需接受外科手术治疗患者的不良预后因素[7-8,18]。淋巴细胞计数反映机体免疫能力,研究发现机体免疫能力的下降与肿瘤不良预后相关[8]。肌酐清除率反映患者肾功能情况,即基础身体素质的高低。当然,同等情况下手术方案的不同对应患者不同的手术预后。以上因素均通过单因素分析证实与肿瘤患者生存预后相关,被纳入进一步的DNN模型行进一步分析。
本例DNN模型分析后发现影响患者手术预后的前三位因素为:肿瘤T分期、病理分级及高血压或心脑血管疾病,相较于其他指标对患者远期生存拥有更高的预测效能;病理分期及肿瘤分级越高、基础疾病状态越差,预示患者手术预后越差,这与既往研究结果一致。其他影响因素按其重要性由高至低排序分别为血红蛋白、血钙、吸烟、白蛋白、淋巴细胞、年龄、白蛋白/球蛋白比、术式、N分期、肌酐清除率。本研究随访病例数量,且为多中心研究,纳入南医随访数据进行外部验证。通过外部验证,本例DNN模型对于患者3年OS预测准确率高达92%,证明本研究模型具有良好的预测效能。依据各预后因素所对应权重研发软件,通过输入各影响因素数值,即可得出患者对应3年全因生存率,并可计算出不同术式对应术后远期生存率的差异,具有准确率高及量化对比性强的特点,在临床工作中具有极好的应用前景。
本研究的局限:①本文是DNN人工智能算法在BUC手术生存预后方面的初步探索,病例数据来源有限,患者的基线情况和技术水平可能存在差异。②所有患者均未接受辅助或新辅助治疗,后续可将辅助治疗方案纳入影响因素进行人工智能学习,完善生存预后模型。未来,研究组将利用DNN人工智能模型自学习的性质,纳入更多中心的患者数据,丰富预后因素,调整模型神经单元权重,提升模型预测精度,提高其生存预测效能,从而对患者不同手术方案治疗效果进行直观的术前预判,便于医患术前沟通并选择适宜治疗方法,制定个体化随访方案。
利益冲突:所有作者均声明不存在利益冲突。