[摘要]目的构建预测雌激素受体(ER)及孕激素受体(PR)双阴性乳腺癌的CT影像学机器学习模型。
方法收集2020年1月—2023年5月本院经病理确诊乳腺癌病人223例,按 7∶3的比例随机分为训练集(156例)及验证集(67例)。收集病人的临床资料,分别采用CRT决策树及BP神经网络构建ER及PR双阴性乳腺癌的预测模型。
结果年龄、组织学类型、组织学分级、增殖细胞核抗原-67增殖指数、淋巴结转移及毛刺征在双阴性乳腺癌组与非双阴性乳腺癌组间差异有统计学意义(χ2=4.078~15.177,P<0.05)。在训练集和验证集中,CRT决策树模型预测双阴性乳腺癌的受试者工作特征曲线下面积(AUC)分别为0.758(95%CI=0.670~0.846)和0.796(95%CI=0.672~0.920),BP神经网络模型的AUC分别为0.787(95%CI=0.701~0.874)和0.836(95%CI=0.722~0.950)。
结论CRT决策树模型及BP神经网络模型对ER及PR双阴性乳腺癌具有一定的预测效能,BP神经网络模型优于CRT决策树模型。
[关键词]乳腺肿瘤;受体,雌激素;受体,孕激素;体层摄影术,X线计算机;机器学习;决策树;神经网络,计算机;预测
[中图分类号]R737.9
[文献标志码]A
[文章编号]2096-5532(2024)04-0552-05doi:10.11712/jms.2096-5532.2024.60.138
[开放科学(资源服务)标识码(OSID)]
[网络出版]https://link.cnki.net/urlid/37.1517.R.20240929.1904.001;2024-09-3013:03:13
Establishment of a CT imaging-based machine learning model for predicting breast cancer negative for both estrogen receptor and progesterone receptor
JIANG Wenyun, CAO Zhiguo, XU Zhi, ZHOU Lihao (Affiliated Hospital of West Anhui Health Vocational College, Lu′an 237000, China); [Abstract]ObjectiveTo establish a CT imaging-based machine learning model for predicting breast cancer negative for both estrogen receptor (ER) and progesterone receptor (PR).
MethodsA total of 223 patients with pathologically confirmed breast cancer in our hospital from January 2020 to May 2023 were enrolled and randomly divided into training group with 156 patients and validation group with 67 patients at a ratio of 7∶3. Related clinical data were collected, and the CRT decision tree model and BP neural network were used to establish a predictive model for breast cancer negative for both ER and PR.
ResultsThere were significant differences in age, histological type, histological grade, Ki-67, lymph node metastasis, and spiculation sign between the double-negative breast cancer group and the non-double-negative breast cancer group (χ2=4.078-15.177,P<0.05). The CRT decision tree model had an area under the receiver operating characteristic (AUC) curve of 0.758 (95%CI=0.670-0.846) in the training group and 0.796 (95%CI=0.672-0.920) in the validation group, and the BP neural network model had an AUC of 0.787 (95%CI=0.701-0.874) and 0.836 (95%CI=0.722-0.950), respectively.
ConclusionBoth the CRT decision tree model and the BP neural network model have a certain prediction efficiency for breast cancer negative for both ER and PR, and the BP neural network model is superior to the CRT decision tree model.
[Key words]breast neoplasms; receptors, estrogen; receptors, progestin; tomography, X-ray computed; machine learning; decision trees; neural networks, computer; forecasting
2017年我国乳腺癌病人占女性癌症的31%,病死人数约4.3万[1]。乳腺癌危害病人的健康,使病人产生负性情绪,严重影响生活质量[2]。乳腺癌发展受雌激素受体(ER)、孕激素受体(PR)的调控,ER及PR双阴性乳腺癌病人预后较差,不适合内分泌治疗[3-4]。目前,机器学习已广泛应用于疾病的预测诊断[5]。本研究采用CRT决策树及BP神经网络构建ER及PR双阴性乳腺癌的预测模型,以期为医护人员评估、防治ER及PR双阴性乳腺癌提供依据。
1资料与方法
1.1研究对象
选取2020年1月—2023年5月本院经病理确诊的乳腺癌病人。纳入标准:①经手术病理或活检确诊为乳腺癌;②无碘试剂过敏史;③ER、PR免疫组织化学染色结果明确。排除标准:①哺乳期、妊娠期妇女;②存在认知功能障碍;③存在其他恶性肿瘤;④临床资料不完整者;⑤幽闭空间恐惧症者。共纳入病人223例,按照 7∶3的比例随机将病人分为训练集(156例)及验证集(67例)。
1.2研究方法
1.2.1CT检查对所有病人进行CT平扫。平扫结束后,病人肘部静脉注射碘海醇后再进行增强扫描。增强扫描结束后将数据传输至后处理工作站,对病人轴位扫描图像行冠状位、矢状位图像重建,并将相关数据传输至影像归档和通信系统,后由诊断医师分析该扫描图像。
1.2.2病人分组与资料收集根据病人是否为ER及PR双阴性乳腺癌分为双阴性组和非双阴性组。细胞核染色<10%为ER、PR阴性,≥10%为阳性。收集病人的年龄、组织学类型、临床分期、组织学分级、肿瘤原发部位、绝经状态、增殖细胞核抗原-67(Ki-67)增殖指数、CT征象(肿瘤大小、钙化、分叶征、毛刺征、密度、淋巴结转移)等指标。其中Ki-67增殖指数<20%为低表达,≥20%为高表达。
1.3统计学方法
采用SPSS 23.0软件进行统计分析。计数资料以例数表示,组间比较采用χ2检验。采用CRT决策树及BP神经网络构建ER及PR双阴性乳腺癌的预测模型。构建BP神经网络模型时选择梯度下降法优化模型,输入变量进行重要性分析,列出模型中ER及PR双阴性乳腺癌病人危险因素排序;构建可视化决策树风险预测模型时,选择CRT算法,设置3层的最大树深度,父节点和子节点的最小样本量分别设为30和5,验证选择交叉验证。采用受试者工作特征(ROC)曲线下面积(AUC)、灵敏度、特异度评价预测模型的预测效能。P<0.05为差异有统计学意义。
2结果
2.1训练集及验证集病人一般资料比较
训练集和验证集ER及PR双阴性乳腺癌病人的一般资料差异无统计学意义(P>0.05)。见表1。
2.2训练集中双阴性组与非双阴性组病人一般资料比较
年龄、组织学类型、组织学分级、Ki-67增殖指数、淋巴结转移及毛刺征在双阴性组与非双阴性组间差异有统计学意义(χ2=4.078~15.177,P<0.05)。见表2。
2.3CRT决策树双阴性乳腺癌预测模型的构建
将表2中差异有统计学意义的年龄(>50岁=1,≤50岁=0)、组织学类型(浸润性导管癌=1,其他=0)、组织学分级(Ⅰ=0,Ⅱ=1,Ⅲ=2)、Ki-67增殖指数(≥20%=1,<20%=0)、淋巴结转移(有=1,无=0)及毛刺征(有=1,无=0)作为自变量,双阴性乳腺癌作为因变量构建双阴性乳腺癌的决策树预测模型。CRT决策树模型包括毛刺征、年龄、Ki-67增殖指数、组织学分级4个特征。毛刺征是CRT决策树的根节点,内部节点包括年龄、Ki-67
增殖指数、组织学分级。见图1。
双阴性乳腺癌的影响因素重要性及标准化自变量重要性排序见表3。
2.4BP神经网络双阴性乳腺癌预测模型的构建
将表2中差异有统计学意义的年龄(>50岁=1,≤50岁=0)、组织学类型(浸润性导管癌=1,其他=0)、组织学分级(Ⅰ=0,Ⅱ=1,Ⅲ=2)、Ki-67增殖指数(≥20%=1,<20%=0)、淋巴结转移(有=1,无=0)及毛刺征(有=1,无=0)作为自变量,双阴性乳腺癌作为因变量构建双阴性乳腺癌的BP神经网络预测模型。见图2。各变量对模型的重要性正态化后结果显示,组织学分级>年龄>Ki-67增殖指数>毛刺征>组织学类型>淋巴结转移。见表4。
2.5双阴性乳腺癌CRT决策树与BP神经网络预测模型预测性能比较
在训练集和验证集中,CRT决策树预测模型预测双阴性乳腺癌的AUC分别为0.758(95%CI=0.670~0.846)和0.796(95%CI=0.672~0.920),BP神经网络模型的AUC分别为0.787(95%CI=0.701~0.874)和0.836(95%CI=0.722~0.950)。见表5。
3讨论
乳腺癌发病率逐年上升,具有较高恶性程度及转移风险[6]。乳腺癌细胞ER、PR含量多少,是反映乳腺癌生物学特性的重要标志,可作为内分泌治疗和预后判断的重要生物指标。ER、PR阳性的乳腺癌病人对内分泌治疗多有疗效反应,预后也较好,受体含量越高相应结果也越好,ER、PR阴性病人预后较差[7]。
本文结果显示,CRT决策树模型特征为毛刺征、年龄、Ki-67增殖指数、组织学分级。采用BP神经网络构建预测模型,各变量对模型的重要性正态化结果显示,组织学分级>年龄>Ki-67增殖指数>毛刺征>组织学类型>淋巴结转移。本研究中ER及PR双阴性乳腺癌病人有毛刺征者的比例低于非双阴性病人。陈功泉等[8]研究结果表明,三阴性乳腺癌病人超声图像特征多表现为毛刺征,毛刺征病理表现为不同程度胶原纤维组织增生,与预后相关。ER及PR阳性的病人出现毛刺征概率相对较大,乳腺癌组织学级别较低的病人更容易出现毛刺征,对内分泌治疗敏感性较高,预后较好[9-10]。本研究双阴性乳腺癌病人中年龄高者的比例高于非双阴性病人。郑小维等[11]指出,三阴性乳腺癌病人年龄偏大,预后较差。本研究ER及PR双阴性乳腺癌病人中Ki-67增殖指数≥20%者的比例高于非双阴性病人。Ki-67可特异性地反映肿瘤细胞的增殖指数,肿瘤的恶性程度越高其表达水平越高[12-14]。组织学分级越晚提示病人病情越严重,乳腺癌的组织学分级可有效反映病灶组织分化程度,对病人预后具有一定的影响[15-16]。
近年来,机器学习被广泛应用于医学领域,包括决策树算法及BP神经网络算法[17]。决策树模型主要通过建立决策树节点,并根据字段不同值来建立分支[18]。而BP神经网络是一种按误差逆传播算法训练的多层前馈网络[19]。经验证,本研究构建的CRT决策树模型及BP神经网络模型对ER及PR双阴性乳腺癌具有一定的预测效能。
综上所述,本研究构建的两种模型对ER及PR双阴性乳腺癌均具有一定的预测效能,其中BP神经网络模型优于CRT决策树模型。两种模型得出的结果可应用于临床,对于有模型中相关特征的病人需重点关注,并及时采取相应治疗和干预措施。
[参考文献]
[1]SIEGEL R L, MILLER K D, FEDEWA S A, et al. Colorectal cancer statistics, 2017[J]. CA: a Cancer Journal for Clinicians, 2017,67(3):177-193.
[2]石飞娅,陈俊,沈渊,等. 首次纳入社区管理的新诊断乳腺癌患者生活质量状况分析[J]. 现代肿瘤医学, 2023,31(20):3860-3864.
[3]LI Z, WEI H R, LI S Y, et al. The role of progesterone receptors in breast cancer[J]. Drug Design, Development and The-
rapy, 2022,16:305-314.
[4]刘运麟,彭厚坤,罗朝朗,等. 老年乳腺癌新辅助化疗前后Her-2、ER和PR表达变化及其与患者预后的关系[J]. 中国老年学杂志, 2023,43(16):3902-3905.
[5]郑江元,祝锐,颜永杰,等. 基于机器学习算法的子痫前期预测模型构建[J]. 解放军医学杂志, 2022,8(8):802-808.
[6]宫文亮,周建,朱道伟. 超声造影联合剪切波弹性成像评估乳腺癌病灶可切除性的研究[J]. 影像科学与光化学, 2022,8(6):1375-1380.
[7]莫佳妮,赵慧. ER、PR、Her-2及Ki-67在乳腺癌患者新辅助化疗后表达情况及意义分析[J]. 现代诊断与治疗, 2023,9(1):8-10.
[8]陈功泉,石琳,胡卯秀,等. 三阴性乳腺癌的超声图像特征及其与P53、BRCA1蛋白表达的相关性[J]. 临床超声医学杂志, 2021,23(6):406-409.
[9]韩剑剑,马培旗,王小雷,等. 基于数字化乳腺X线影像组学列线图预测浸润性乳腺癌组织学分级的多中心研究[J]. 放射学实践, 2024,39(5):634-640.
[10]祁乐,史欣,苏宁. 乳腺癌不同CT征象与雌激素受体、孕激素受体及C-erbB-2表达的关系[J]. 中国CT和MRI杂志, 2022,8(11):82-84.
[11]郑小维,王冉,朱舒虹,等. 肌动蛋白结合蛋白2在人表皮生长因子受体2阳性型和三阴性乳腺癌患者中的表达及临床意义[J]. 癌症进展, 2023,21(13):1443-1447,1474.
[12]丁红云,陆红梅,黄丽. 乳腺癌新辅助化疗疗效预测模型的建立及其影响因素[J]. 临床与病理杂志, 2023,43(3):436-443.
[13]宋晶,谢利. 基于胸部CT平扫纹理特征预测肺癌Ki-67表达水平的可行性研究[J]. 影像研究与医学应用, 2023,7(12):68-70.
[14]宋鹏媛,刘丽娜,慈丽娜,等. 超声造影表现评估乳腺癌患者血管生成拟态的可行性及其与Ki-67增殖指数的关系[J]. 生物医学工程与临床, 2023,27(4):464-470.
[15]汪正燕,杨磊,黄云辉,等. 三阴性乳腺癌患者MutT同源蛋白1基因状态与免疫治疗疗效及预后分析[J]. 中国优生与遗传杂志, 2023,31(6):1162-1170.
[16]苏晓,张万林,张金波. 雌激素相关受体α在三阴性乳腺癌中的表达和临床意义[J]. 中国妇幼保健, 2021,36(7):1630-1633.
[17]徐守权,唐国文,黄舞标,等. BP神经网络、随机森林和决策树预测急性脑梗死患者静脉溶栓后发生早期神经功能恶化的效能比较[J]. 实用心脑肺血管病杂志, 2023,9(2):16-21.
[18]宫文浩,兰天莹,莫清莲,等. 基于决策树和人工神经网络的小儿肺炎痰热闭肺证诊断模型研究[J]. 世界科学技术-中医药现代化, 2020,22(7):2548-2555.
[19]秦传东,廖奥林. 基于PSO-BP的抗乳腺癌药物毒性研究[J]. 计算机仿真, 2024,41(4):320-324.
(本文编辑周晓彬)