基于46 个基因的预测三阴性乳腺癌患者新辅助化疗疗效模型的构建和优化△

2023-10-14 08:15谢文倩庄颖刘智威张恋恋袁沛怡龚浩

癌症进展 2023年15期

谢文倩，庄颖，刘智威，张恋恋，袁沛怡，龚浩

惠州学院生命科学学院，广东惠州 516007

乳腺癌是女性最常见的恶性肿瘤，对多个国家和多种肿瘤的发病率和病死率进行评估发现，2018 年新发恶性肿瘤1810 万例，其中乳腺癌占比11.6%，病死960 万例，其中乳腺癌占比6.6%[1]。2020 年全球癌症统计数据显示，女性新发乳腺癌860 万例，占所有恶性肿瘤新发病例的24.2%，因乳腺癌病死420 万例，占所有恶性肿瘤死亡病例的15.0%[2]。乳腺癌按照分子类型分为Basal-like 型、人表皮生长因子受体2（human epidermal growth factor receptor 2，HER2）过表达型、Luminal A 型和Lumimal B 型四种。三阴性乳腺癌（triple negative breast cancer，TNBC）指雌激素受体、孕激素受体及HER2 均阴性表达的乳腺癌。TNBC 的生长与雌激素有关，雌激素的水平升高以及雌激素受体的分布、质和量的异常均有可能促进乳腺癌的发展。TNBC 常见症状包括乳房胀痛、刺痛，乳腺肿块、疼痛、糜烂或皮肤凹陷，腋窝淋巴结肿大等[3-4]。TNBC的转移方式倾向于通过血行转移至内脏，包括肺、肝等器官，Ⅲ期TNBC 患者更倾向于骨转移，是一种比较难治的乳腺癌亚型。

临床常采用新辅助化疗（neoadjuvant chemotherapy，NAC）来缩小肿瘤大小和杀死部分不可见的肿瘤转移细胞，通常被用于局部治疗前。NAC预后一般分为病理学完全缓解（pathologic complete response，pCR）和残留病灶两种，pCR 与更好的临床预后紧密相关。与其他分子类型肿瘤相比，TNBC 患者接受NAC 具有更大的可能性获得pCR，但其不良反应导致肿瘤转移的风险也是其他分子类型的2 倍左右。因此，根据患者的临床特征和一些分子分型结果对NAC 的疗效进行提前预测尤为重要，但部分常用的临床指标和分子分型均不能很好地对NAC 的疗效进行准确预测。目前有研究利用一些影像学检查、miRNA 表达量检测等方法对预测价值进行了探索[1]，但这些方法都有一定的局限性，不能在临床大规模使用。基因表达水平经常被用来辅助制订患者个性化的治疗方法，如美国国立综合癌症网络（National Comprehensive Cancer Network，NCCN）指南推荐采用21个基因检测结果来指导乳腺癌患者采用化疗还是内分泌治疗。因此，本研究拟通过构建基于基因表达量的NAC 疗效预测模型，旨在为NAC 在TNBC 中的应用提供参考。

目前，采用分子数据对疾病进行分类的预测模型有很多种，常见的包括监督式或非监督式的机器学习算法，一些较复杂的深度神经网络算法在一些场景中也有使用[5]。这些算法各有优劣也有不同的应用场景，为找出最好的TNBC 患者NAC疗效的预测方法，本研究选取7 种常规的机器学习算法和深度神经网络进行对比测试，旨在寻找最合适的分类方法，现报道如下。

1 资料与方法

1.1 数据获取

通过基因表达综合（Gene Expression Omnibus，GEO）数据库的公共数据集（GSE163882）（https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE-163882）采集基因表达数据和患者病历资料。该数据集包括222 例TNBC 患者的转录数据和相关临床特征，其中1 例患者由于预后结果缺失被剔除，本研究共收集221 例TNBC 患者的相关病历资料。此前研究分别利用免疫指标和筛选的免疫相关指标得到预测TNBC 患者NAC 疗效的准确率最高为76.9%和75.2%[6]。

1.2 模型构建特征基因的筛选和过滤

从GEO 数据库的公共数据集（GSE163882）中下载的原始基因表达量数据表中共有60 279 个人类基因不同转录本的原始表达量数据。由于转录本在不同个体中的表达量存在差异，一些基因在研究群体中表达的不是很多，缺失率大。首先将缺失率﹥70%和预后表型缺失的样本剔除，共剩余221 个样本的19 451 个基因表达量数据。随后采用U检验检测pCR 和残留病灶中基因表达量的差异，以P﹤0.01 作为筛选标准过滤掉两组表达量差异不大的基因，筛选后剩余527 个基因表达量数据。最后采用单因素方差分析根据pCR 和残留病灶分为两组，计算两组表达量的差异，计算P值，通过计算所有527 个基因相关性的P值，以两个位点相关性P﹤1.0×10-16作为筛选标准，保留方差差异较大的位点，最后筛选得到46 个基因，用这些基因构建预测模型。为验证不同特征数构建模型的差异，本研究采用最小绝对收缩和选择算子交叉验证法计算每个特征值的重要性并排序，选取5 种不同的特征数（分别为10、14、24、34、46 个基因）构建预测TNBC 患者NAC 疗效的模型并进行验证。

1.3 模型的构建和优化

采用Python 3.96 的sklearn 1.1.2 模块中7 种不同机器学习算法[线性判别分析（linear discriminant analysis，LDA）[2]、线性回归（linear regression，LN）[7-8]、贝叶斯（navie bayes，NB）[9-12]、决策树（decision tree，DT）[13-15]、支持向量机（support vector machine，SVM）[16]、随机森林（random forest，RF）[17-22]、K 最邻近节点算法（K-nearest neighbor，KNN）]预测TNBC 患者的NAC 疗效，包括准确度、曲线下面积（area under the curve，AUC）和F1 度量值3 个指标。221 个样本被随机分为训练集（n=131）、测试集（n=40）和验证集（n=40），所有的模型参数和结果均采用20 次重复计算后取平均值作为最后的结果。采用Python 的Tensorflow 2.9.1 软件包中的深度神经网络进行后续优化，采用grid search 方法对单次训练模型样本数、训练步长数、神经网络层数、每层神经节点数进行优化。

2 结果

2.1 7 种不同机器学习算法对TNBC 患者NAC 疗效的预测价值

不同机器学习算法在TNBC 患者NAC 疗效预测时大部分预测效果一般，但也有在不同指标上表型突出的算法。在准确度这个指标上，LDA 算法在46 个特征数构建的模型的测试集和验证集上（测试集0.850、验证集0.829）整体优于其他6 种算法；虽然LN 算法在34 个特征数构建的预测模型的验证集的准确度和LDA 相似，但在测试集时差别较大（测试集0.825、验证集0.830）；整体来看，不同模型达到最优准确度时所用的数据集不一样，但与其他4 个（10、14、24 和34 个）特征数构建的预测模型相比，46 个特征数构建的预测模型的预测准确度最高（图1A）。在AUC 这个指标上，RF 和LDA 测试集的结果接近，但验证集上差别较大；整体来看，46 个特征数构建的LDA 模型预测TNBC患者NAC 疗效的AUC 最大（测试集0.750、验证集0.747）（图1B）。在F1 度量值这个指标上，LDA 算法的预测价值依然比较好，但RF 算法（测试集0.919、验证集0.894）在46 个特征数构建的预测模型表现比LDA（测试集0.856、验证集0.843）效果好；RF 算法在34 个特征数构建的预测模型（测试集0.923、验证集0.900）比46 个特征数构建的预测模型的结果更好（图1C）。综合3 个指标来看，RF算法在F1 度量值上优于LDA 算法，但LDA 算法在准确度和AUC 上有一定优势（图1D）。（表1）

表1 7 种机器学习算法对NAC 疗效的预测效果评价指标

图1 7种不同机器学习算法对TNBC患者NAC疗效的预测价值

2.2 深度神经网络对模型的优化

神经网络很强大的地方在于其完美的拟合能力，此外，神经网络包含的隐藏层中的隐藏结点，使神经网络的表达能力十分强大，同时，神经网络出现了自编码，可以无监督地学习数据的特征，尤其是图片等抽象的特征，对于后续的分类、检测、分割等提供了很好的特征支持。在一定程度上，传统的特征提取方法可以为神经网络特征的学习提供参考方案。深度神经网络的优化分为两步[23]：①参数batch size 和step 的优化；②对神经网络的层数和每层节点数的优化。对参数batch size 和step 进行优化，根据合并平均准确率、合并最大准确率、测试集平均准确率、测试集最大准确率、验证集平均准确率、验证集最大准确率6 个指标进行排序，选取前3 名的batch size 分别为130、80、140，而step 选取20 000、10 000、15 000，最后通过对测试集和验证集得到的结果求取平均值，发现130 的batch size 和20 000 的step 综合起来表现效果最好（表2）。验证batch size 和step 后，对两层的神经网络及节点进行优化，首先对两层神经网络优化后的节点进行排序打分，当每个指标排第一时，多个指标的总和得到1 个数值，这个数值越小，证明准确率越高。测试集中，第1 层神经网络节点数为50时、第2 层神经网络节点数为10 时的准确率最高，为90.00%；验证集中，第1 层神经网络节点数为100 时、第2 层神经网络节点数为10 时的准确率最高，为85.00%；将测试集的数据和验证集的数据进行合并后，第1 层神经网络节点数为45 时，第2 层神经网络节点数为30 时的准确率最高，为86.25%（表3）。以上4 个参数的优化结果显示，batch size为130、step 为20 000、隐藏层层数为2 时的测试集和验证集预测TNBC 患者NAC 疗效的准确率最高，测试集为90.00%，验证集为85.00%，二者合并后为86.25%（图2）。

表2 batch size 和step 分数评估

表3 3 种数据集的最高准确率所在的节点数

图2 两层隐藏层神经网络参数的平均值优化结果

3 讨论

乳腺癌是对全球女性威胁最大的恶性肿瘤，其中TNBC 指雌激素受体、孕激素受体及HER2 均不表达的乳腺癌。与其他类型的乳腺癌相比，TNBC的治疗手段较少，预后较差[24]。目前，TNBC 无明确的治疗标准，凭检测报告和医师的经验，诊断准确度不高。传统的机器学习算法对肿瘤各个时期的预测已有良好的结果，结合深度神经网络能够提高预测的准确度。本研究基于传统机器学习算法，结合深度神经网络的优化对TNBC 患者NAC的疗效进行预测，取得了一定成果。

首先7 种不同的机器学习算法在基于不同的基因表达量构建的数据集中的表现有一定差异，但差异没有很大。同一种算法利用相同基因表达量数据集时在测试集和验证集上基本差别不是很大。整体来看，46 个基因构建的数据集预测效果较好，虽然在一些指标上其他基因数构建的模型预测效果更好。然而采用递归特征消除算法（recursive feature elimination，RFE）计算时发现，21～27个特征数构建的预测模型的AUC 最高，这也表明不同的机器学习算法适用于不同的特征数集合。研究显示，RF 算法在很多基本模型预测时被证实优于LDA 等简单算法模型[25]。本研究显示，LDA算法在准确度和AUC 方面都优于RF 算法，推测这可能与本研究纳入的样本量少、RF 模型的训练样本不足有关。事实上不同机器学习算法对训练要求的样本不一样，真实训练的样本数目也会对算法准确性造成一定影响，导致其可能由于训练样本不足而不能发挥模型的作用。因此，这也提示临床选择模型时没有最好的预测模型，只有最适合该数据集的模型，后期可以通过多中心联合来增加样本量，以提高各个模型的分类准确率。

深度神经网络是一个适用范围很广的模型，在临床的疾病分类模型上也有很多应用，本研究通过深度神经网络对不同参数进行简单优化后，对比前面的7 种简单机器学习模型，其在测试集和验证集的准确率上均有一定的提高，准确率优于LDA 模型。但本研究深度神经网络模型在一些节点组合上出现测试集准确率明显大于验证集的结果，这可能是因为本研究训练样本不足造成局部模型过度拟合的现象[26]。因此，提高样本量应该会大幅提高深度神经网络模型的准确率。

乳腺癌的21 个免疫相关基因构建的模型已经被NCCN 指南推荐用于乳腺癌化疗和内分泌治疗的选择上，这表明基于基因表达量构建的模型有一定的稳健性。除了用于乳腺癌治疗，荧光定量聚合酶链反应（polymerase chain reaction，PCR）检测基因表达量用于辅助其他临床治疗也已经有大量的应用。这也证实本研究提出的基于46 个基因构建的模型也具有一定的可操作性。由于样本量的限制，本研究没能更好地缩小模型构建需要的基因数目，导致需要检测的基因还很多，但后期随着样本量的增加应该会减少需要检测的基因数目。

综上所述，基于基因表达数目构建的模型具有预测TNBC 患者NAC 疗效的作用，可为后期的病情预测提供参考依据。