张舒莹,韩鑫胤,何小雨,袁丹阳,栾海晶,李瑞琳,何佳茵,牛北方*
1.中国科学院计算机网络信息中心,北京 100190
2.中国科学院大学,北京 100049
《2020全球癌症报告》显示,全球癌症病例数呈增长趋势,癌症已对人类健康产生了重大威胁。探究癌症的产生原因,可以对癌症进行预防并且有助于癌症患者的诊断和治疗。研究证实,癌症源于基因突变的不断积累,基因突变表现为基因序列上发生改变,包括碱基的点突变、碱基序列的插入和删除变异等[1]。
人类基因组中有一些特殊的短串联重复序列,被称为微卫星(microsatellites,MS)。当MS序列发生插入或删除突变且无法被修复时,则会产生微卫星不稳定性(microsatellite instability,MSI)现象。1993年,MSI现象在遗传性结直肠癌中被发现[2]。后续的研究表明,除了结直肠癌外,子宫内膜癌、胃癌、肺癌和食管癌等多种癌症中均有不同比例的MSI现象发生[3-6]。MSI检测可以对癌症患者进行遗传筛查、预后判断以及免疫治疗等。
目前,已经有多种MSI检测的方法,包括传统的生物学实验方法以及基于高通量测序的方法[7]。随着人工智能的发展,机器学习逐渐渗入生物信息学领域并发挥巨大作用[8-10]。基于机器学习的MSI检测方法,借助机器学习的强大学习能力,可以对数据进行多维度的分析,找出影响MSI的主要因素。
MS是一种以1-6个碱基为单位,重复次数为10-60次的短核苷酸序列[11]。MSI是指在DNA复制过程中由于滑移引起的MS序列长度改变的现象[12]。在正常情况下,细胞中的错配修复(mismatch repair,MMR)系统可以修复由于滑移导致的碱基错配,当MMR通路基因发生突变或甲基化则会导致MMR系统出现错配修复缺陷(deficient mismatch repair,dMMR),此时碱基错配无法被修复,从而产生MSI[13]。根据不稳定程度,MSI可以划分为:微卫星稳定性(microsatellite stability,MSS),低频微卫星不稳定性(MSI-low,MSI-L)和高频微卫星不稳定性(MSI-high,MSI-H)。在研究中通常将MSI-L作为MSS处理[14-15]。MSI现象在多种癌症中均有出现,其状态检测在临床上有重要意义。
MSI的检测在林奇综合征遗传筛查中发挥重要作用。林奇综合征又称为遗传性非息肉病性结直肠癌,源于MMR基因发生胚系突变[16]。林奇综合征具有家族遗传倾向,该群体患有结直肠癌的概率可达80%[17-18]。除此之外,该群体也易患其它癌症[19-20]。因此,建议对所有癌症患者进行MSI检测,以便筛查林奇综合征[21],如果确诊林奇综合征可及早采取治疗,并对其直系亲属进行筛查和早期干预。
MSI状态的检测还有助于Ⅱ期结直肠癌患者的预后判断。相对于MSS结直肠癌群体,MSI-H群体的总生存期及无进展生存期有较为显著的延长[14,22-23]。另有研究表明,对Ⅱ/Ⅲ期结直肠癌患者使用5-氟尿嘧啶药物会影响其预后,缩短其总生存期[24]。因此,鉴于MSI-H的Ⅱ期结直肠癌患者具有较好预后,不建议对其使用氟尿嘧啶类的药物进行辅助化疗[25]。
MSI是重要的免疫治疗生物标志物。MSI-H/dMMR癌症患者体内携带大量的可被免疫系统识别的新生抗原,这使得患者对免疫检查点阻断疗法敏感[26-27]。大量研究证实,对于MSI-H癌症患者,使用免疫检查点抑制剂(PD-1/PD-L1抗体)治疗可取得较好的疗效[28-30]。MSI已成为重要的免疫治疗生物标志物,对患者进行MSI检测有助于指导患者后续治疗。
常见的MSI检测方法主要分为两大类,第一类是传统的生物学实验的方法,第二类是基于高通量测序的方法。传统的生物学实验方法包括多重荧光PCR法(MSI-PCR)和蛋白免疫组织化学法(MMRIHC)[31-32]。MSI-PCR使用多重荧光PCR结合毛细管电泳的方法,对肿瘤组织和正常组织中分离出的DNA序列进行扩增,比较扩增后的MS位点突变情况,进而判定样本的MSI状态。通常检测的位点是Bethesda panel中的5个MS位点,以及Promega分析系统提出的7个MS位点。MMR-IHC通常检测肿瘤组织中的4个MMR蛋白表达情况来查看MMR系统是否发生故障,从而判断样本MSI状态。相比于MSI-PCR,MMR-IHC操作较简单,成本较低,可广泛应用于临床检测中,但其需要人眼阅片计数,受个人主观因素影响较大。
随着高通量测序技术的快速发展,以全基因组测序(WGS)、全外显子组测序(WES)以及靶向测序(TS)为主的高通量数据已纳入常规的生物信息学研究中。基于高通量测序的检测方法比生物学实验方法具有明显的优势:(1)不需要额外的临床测试和样本处理,对于不具备生物学实验条件的团队也可进行MSI检测;(2)可同时捕获多段基因序列,有助于从多个维度评估样本MSI状态,极大提高诊断效率和检测的灵敏性;(3)不同于MSI-PCR只检测个位数的MS位点,基于高通量测序的检测方法覆盖的MS位点数以千计,可以进行更加深入和全面的评估,并且可提供单个MS位点的定量信息。
目前,已发布了多种使用测序数据进行MSI检测的方法,比如MSIsensor[33]、mSINGS[34]和MANTIS[35]等。其中,MSIsensor已经被成功应用于FDA批准的基于高通量测序的肿瘤检测方法MSK-IMPACT中[36]。这些方法分别采用卡方检验、Z-score和平均距离等传统的统计学方法评估MS位点稳定性,它们虽然可以判定MSI状态,但是缺乏多维度的考量。测序数据本身蕴含丰富的生物学信息[37],传统的统计学方法无法高效处理复杂的海量数据,可能会忽略某些影响MSI判定的关键要素。机器学习作为传统统计学的延伸,可以从大量的数据中抽取关键特征进行迭代学习,并且在此过程中屏蔽复杂的细节。机器学习在MSI的探索中发挥了巨大的作用,同时也为MSI检测提供了新角度和新思路。
MSI检测在机器学习领域是一个二分类任务,使用决策树、支持向量机、逻辑回归等常用的机器学习算法可以高效的解决此类问题。本文对目前基于机器学习的MSI检测方法进行了充分的调研,涵盖了主流的检测方法,比较了各个方法使用数据集的测序方法和最终采用的机器学习算法,以及该数据集在对应机器学习模型中的检测效果(表1)。下面将分别介绍这些方法结合机器学习算法进行MSI状态检测的流程。
表1 基于机器学习的MSI检测方法Table 1 MSI detection methods based on machine learning
(1)MSIseq
远程监测设备,即水库监测终端(太阳能供电型)。负责采集现场检测设备检测到的数据和图片信息,并通过GPRS网络将现场信息传送给监测中心。
MSIseq算法考虑到dMMR会影响单核苷酸替代(single nucleotide substitution,SNS)比率和小片段插入删除(indel)比率,因此从SNS和indel这两个突变信息入手,构建了9个待选特征,具体含义如表2中(1-9行)所示,其中括号内表示的是该特征在MSIpred中的标记。
表2 MSIseq和MSIpred的特征Table 2 Features of MSIseq and MSIpred
序号特征含义10Frame_Shift_Del导致ORF偏移的删除比率11Frame_Shift_Ins导致ORF偏移的插入比率12In_Frame_DelORF没有偏移的删除比率13In_Frame_InsORF没有偏移的插入比率14Missense_Mutation错义突变比率15Nonsense_Mutation无义突变比率16Silent沉默突变比率17Splice_Site剪接位点的突变比率183’UTR3’UTR区域突变比率193’Flank3’Flank区域突变比率205’UTR5’UTR区域突变比率215’Flank5’Flank区域突变比率22Intron内含子区域突变比率
该研究共收集了526例多癌种的WES突变数据,这些样本也使用MSI-PCR进行了状态测定。在实验中,分别使用决策树、逻辑回归、随机森林和贝叶斯算法,采用k折交叉验证法(k=5)进行训练,将验证结果与MSI-PCR测定的结果进行对照,其一致性分别为98.6%、96.5%、98.1%和96.7%。从结果上看,决策树模型的准确率最高。
进一步研究发现,在决策树模型中,特征S.ind对结果的判定取决定性作用,即只需这一个特征就可以将MSI-H和MSS样本区分开,当S.ind>0.395时,样本被标记为MSI-H,否则为MSS。出于准确率考虑,该研究最终选取只具有一个特征(S.ind)的决策树算法进行MSI状态的检测,该模型在测试集中的准确性高达98.8%。
该方法选取解释性较强的决策树算法构建检测流程,其输入的是MAF格式的突变数据,相较于mSINGS等需要BAM格式数据的方法节省了大量的计算资源。从测试结果上看,该方法判定样本MSI状态的准确率很高,但是其只使用一个特征参与模型训练和预测,会产生过拟合现象。
(2)MSIpred
与MSIseq类似,MSIpred也是基于突变信息构建特征。不同的是,为了防止过拟合,MSIpred在MSIseq的9个待选特征基础上,又新增了13个特征,如表2中所示。其中第1-9行特征与MSIseq的待选特征一致,描述的是SNS和indel信息,10-22行是新增的特征,描述了突变有害程度的关键信息。
该方法的输入同样是MAF格式的突变数据,可以节省计算资源,提高检测效率。除此之外,在MSIseq研究的基础上,选取具有22个特征的支持向量机算法构建检测流程,弥补了MSIseq的不足之处,减少了过拟合风险。
(3)MOSAIC
MOSAIC从MS位点稳定性出发,根据MS位点的不稳定情况判定样本的MSI状态。该方法需要使用肿瘤样本(Tumor,T)配对的正常样本(Normal,N)作为参照。首先获得单个MS位点在T和N中的等位基因分布数据,由于MS位点不稳定会伴随着MS序列长度发生波动,因此对比T和N中的等位基因支持的reads数即可评估此MS位点的稳定性。
该研究共收集了617例多癌种T-N配对的WES测序数据,根据MSI-PCR的结果将其划分为两组,一组为MSI-H的T-N样本,一组为MSS的T-N样本,分别对这两组样本中的MS位点进行稳定性分析。该研究设定以N中的等位基因分布为基准,如果T中出现在N中没有的等位基因,则该MS位点为不稳定的位点。该研究使用Fisher精确检验评估了每个MS位点在MSI-H和MSS样本中的区分能力,对在MSI-H样本中最显著不稳定的MS位点进行了排名,其中位于DEFB105A/B基因上的chr.8:7679723-7679741位点排在第一位,在该研究中被记作defbsite。
基于以上分析,该研究结合前100个在MSI-H样本中显著不稳定的MS位点(包括defbsite)和另外4个待选特征进行分析(表3)。采用决策树算法进行训练,并使用留一法进行验证,筛选可以预测MSI状态的最佳特征,结果显示peak_avg和defbsite是最显著的两个特征,当只使用这两个特征进行训练时,结果准确率达96.6%。
表3 MOSAIC的待选特征Table 3 Features of MOSAIC
该研究对单个MS位点进行稳定性分析,可以提供位点的定量信息,获得影响样本MSI状态的显著MS位点集合,有助于MSI检测的后续探索。该方法只适用于具有配对正常样本(T-N)的情况,如果没有可参照的正常样本,则无法使用该方法进行MSI检测。
(4)MIRMMR
不同于以上三种方法,MIRMMR不再局限于根据MS序列的插入删除情况来评估样本MSI状态,而是从MSI发生的根本原因出发,分析35个MMR通路基因的甲基化水平和突变数据,构建逻辑回归模型预测样本状态。该方法提供5个模块,其中三个模块(univariate、stepwise和penalized)代表三种构建模型的策略,另有一个预测模块(predict)和一个比较模块(compare)。
Univariate模块将对每个单变量建立逻辑回归模型,最终汇集每个单变量的模型供后续使用。Stepwise模块对特征进行筛选,选择最佳的特征组合参与训练。Penalized模块采用了弹性网络回归模型,使用k折交叉验证的方法寻找最优的参数(k=10),该模块是MIRMMR默认使用的策略。Predict模块使用前期训练好的模型进行预测,给出MSI-H的概率值,由用户权衡灵敏性和特异性划分判定MSI状态的基准线。Compare模块用来比较不同策略下的结果,绘制出对应的ROC曲线以及计算AUC值。
MIRMMR提供了三种构建模型的策略,用户可使用多种策略构建检测模型,验证检测结果。MIRMMR的研究对象是35个MMR通路基因,提供了一个不依赖于MS位点检测MSI的新方法。
(5)MIAmS
MIAmS的检测流程主要分两步,第一步是MIAmS_learn,在这一步骤中会对MS位点进行筛选和标注标签,当MS位点的测序深度不能满足最小测序深度限制时,该位点会被过滤掉,默认的最小测序深度是300X。第二步是MIAmS_tag,对样本MSI状态进行检测,在这一步中,MIAmS工具提供了两种检测模式,第一种借助mSINGS进行评估,第二种使用机器学习的方式进行评估。
mSINGS模式是采用的传统统计方法,首先借助MSS样本计算MS位点的等位基因个数的平均数mean和方差SD,以[mean+3×SD]作为当前MS位点的基线,在测试过程中,如果MS位点的等位基因个数超过对应的基线,那么这个位点被判别为不稳定,最终根据样本中不稳定的MS位点个数在所有MS位点中的占比情况判断样本MSI状态。
机器学习模式默认使用支持向量机模型,可使用classifier参数更改为决策树、逻辑回归和随机森林等模型。该方法是结合MS位点的等位基因稳定和不稳定分布模型对该位点进行评估,每个MS位点会得到一个分数,以样本中所有MS位点得分的平均值判断样本MSI状态。
MIAmS包含基于传统统计学以及基于机器学习的两种检测方式,并提供友好的图形化界面对结果进行展示,有助于从多个角度评估样本MSI状态。
以上方法使用机器学习算法对MSI状态检测进行了多方面的探索。MSIseq和MSIpred使用突变数据构建训练特征,MSIseq最终只使用MS序列小片段插入删除情况判定样本状态。为了更全面的探究突变对MSI状态的影响,MSIpred对突变数据进行了更详细的分类,最终构建了22个特征进行检测。MOSAIC和MIAmS从单个MS位点出发,检测MS序列的波动情况评估该位点的稳定性,进而判定样本状态。MIRMMR从MSI产生的原因入手,根据MMR通路基因的甲基化水平和突变情况构建机器学习模型预测样本状态。总体而言,基于机器学习的MSI检测方法一般从MSI发生的原因或者MSI伴随的现象入手,根据MMR通路基因的突变信息或者MS序列区域的插入删除情况来预测样本的MSI状态。
本文首先介绍了MSI产生的原因以及其状态检测在临床上的重要性,并对目前常用的检测方法进行了介绍,归纳了基于高通量测序的MSI检测方法的优势。相对于高通量测序方法,传统的统计学方法无法聚焦MSI发生的分子机制,而人工智能领域的发展为此提供了新的思路。作为人工智能领域重要的分支之一,机器学习可以高效的从海量数据中学习知识,挖掘出影响MSI的要素并对数据进行多维度的分析。本文对目前主流的基于机器学习的检测方法进行了介绍,各项结果显示该类方法可以对样本的MSI状态进行较为准确的判别。
目前机器学习算法已经广泛的应用到MSI检测中,并且取得了很好的检测效果,但是在临床应用中仍有探索空间及挑战:
(1)如何提高检测方法的适用性。目前多数检测方法基于WES数据展开,覆盖的MS位点数量庞大,但当检测数据是基于小panel的靶向测序数据时,使用该方法进行MSI状态检测,检测结果会产生较大偏差。
(2)如何从外周血中检测MSI状态。当前的检测方法多数采用肿瘤组织测序数据,但是组织活检具有侵入性,部分患者无法完成检测。科研人员继而开展从外周血中检测MSI状态,该项研究的主要难点在于外周血中的肿瘤DNA在癌症早期含量较低[43],无法精确捕获MSI信号。
应对以上挑战是MSI检测未来发展的方向,也是如何灵活应用机器学习算法助力的新方向。
利益冲突声明
所有作者声明不存在利益冲突关系。