肿瘤新抗原预测与鉴定的研究进展*

2022-11-01 03:25海博宁田怡然邵吉民

中国病理生理杂志 2022年10期

海博宁，王琳，田怡然，严翔，邵吉民

（浙江大学医学院病理学与病理生理学系，浙江大学医学院附属第二医院肿瘤研究所，浙江杭州 310058）

肿瘤新抗原是肿瘤免疫治疗的特异性靶标，具有高度异质性。如何准确且快速地鉴定肿瘤新抗原是其应用于临床肿瘤免疫治疗的关键，目前仍处于早期开发阶段且具有挑战性［1］。根据基因组测序、转录组测序或表位肽质谱数据、并结合计算工具评估免疫原性是肿瘤新抗原预测和鉴定的基本方法。近年，肿瘤新抗原的类型及其预测和鉴定的策略和技术取得了新进展，包括多组学（multi-omics）和T 细胞受体（T-cell receptor，TCR）表位筛选技术、生物信息学预测方法、以及免疫原性鉴定方法等方面。本综述聚焦肿瘤新抗原预测与鉴定的研究进展，并讨论目前存在的问题与展望。

1 肿瘤新抗原的概念与类型

1.1 肿瘤新抗原的概念体细胞发生突变是癌症的一大标志［2］，由此产生的突变蛋白经加工成为突变肽段、继而被主要组织相容性复合体（major histocompatibility complex，MHC）I 类分子递呈至肿瘤细胞表面并被T 细胞所识别时，会引发抗肿瘤的免疫应答，这种突变表位肽被称为“新抗原”［3-5］。新抗原只特异性地存在于肿瘤细胞中，既不受既存的免疫耐受性的影响，也不会产生自身免疫性，因此肿瘤新抗原被认为是基于T 细胞免疫疗法的安全有效的肿瘤特异性靶点。目前免疫疗法更多靶向患者个体肿瘤特有的私有新抗原，往往步骤繁多、耗时长且成本高。而靶向衍生自肿瘤驱动基因的公共新抗原如KRAS、TP53、PIK3CA等可以规避靶向个体肿瘤特异性新抗原的限制，实现在患者中广泛应用［6］。目前已有研究证明了公共新抗原具有免疫原性且相应临床实验正在进行中［7］。

1.2 肿瘤新抗原的类型肿瘤新抗原除了传统意义上来源于DNA 水平的体细胞突变如单核苷酸变异（single-nucleotide variant，SNV）、插入-缺失突变（insertion-deletion mutation，INDEL）［8］和基因融合［9］外，还来源于转录水平，比如 RNA 的可变剪接［10］和RNA 修饰［11］；同时，免疫蛋白组学研究显示，蛋白酶体产生的剪接肽，以及经磷酸化、甲基化和糖基化等［12］翻译后修饰（post-translational modification，PTM）的肽也可被T细胞识别而引发免疫反应。这些发现扩大了肿瘤新抗原的概念和种类。这些不同类型的新抗原均特异性存在于肿瘤细胞并具有免疫原性。

2 肿瘤新抗原筛选与预测方法

2.1 基于组学技术筛选出肿瘤新抗原我们先前的综述曾介绍肿瘤新抗原多组学的鉴定以及在临床上的治疗应用［13］。肿瘤新抗原的预测和鉴定主要包括以下几个步骤：（1）从全外显子测序（whole-exome sequencing，WES）数据中获取基因组体细胞突变的列表并结合转录组测序（RNA-Seq）中的基因表达水平；（2）预测适当长度的包含突变的“新抗原多肽”与患者特异性MHC-I/II 类分子之间的亲和力；（3）体内外实验验证亲和力并鉴定预测肽段的免疫原性。

针对不同来源的新抗原会有不同的筛选方法。首先，对于体细胞突变，基于基因组学的策略应用最为普遍。WES靶向占整个基因组2%～3%的、与蛋白质编码相关的基因，这些基因是导致突变蛋白出现的体细胞突变的主要来源［14］。同时RNA-Seq 可提供有关基因表达水平的信息，以确定突变基因是否在肿瘤中表达，以及表达的相对丰度，从而可以筛选更可能产生真实蛋白质的突变基因［15］。突变类型的多样性导致针对不同类型的突变需要用到不同的识别工具。例如，Mutect2 和Strelka2 是用于体细胞SNV识别的最可靠的工具［16］，它们运用多种突变检测算法以提高灵敏度与精度，应用Bayesian 方法检测低频突变。Strelka［17］、EBCall 及 Pindel［18］是用于检测INDEL 的专用工具而用于鉴定融合基因的常用工具是 INTEGRATE［19］和 STAR-fusion［20］。

在转录水平上，RNA 可变剪接和RNA 修饰可产生新抗原。与正常样本相比，在肿瘤中转录剪接多样性的增加会导致新的肿瘤特异性外显子-外显子连接［21］，从而导致新抗原的产生。同时，肿瘤中可变剪接的类型也与正常组织不同。Kahles 等［22］通过对样本RNA-Seq 数据分析，结果表明在肿瘤样本中选择性3'剪接位点和互斥外显子的剪接调控得到增强，他们也开发了SplAdder 工具包来识别肿瘤特异性剪接事件。RNA 修饰本身不会改变RNA 序列，但对蛋白编码序列的修饰会导致功能改变的蛋白表达。通过结合肿瘤基因图谱（The Cancer Genome Atlas，TCGA）中的 RNA-Seq、WES 及蛋白质组数据，Peng 等［23］的研究表明 A-to-I 的 RNA 修饰方式增加了肿瘤中的蛋白质多样性，相当多的修饰事件会导致氨基酸序列发生变化。

随着质谱技术的发展，研究者可使用较少的组织样本在蛋白水平上直接分析MHC 配体组，从细胞系和患者组织中筛选出成千上万个MHC 呈递的肽序列，得以确定真实存在的抗原表位。典型的质谱工作流程（基于免疫沉淀）如下：利用MHC 特异性抗体嵌合的磁珠免疫沉淀肽-MHC 复合物，同时设置阴性对照；随后逐步洗脱，确保去除未结合以及非特异结合的多肽；之后对洗脱物进行质谱分析［24］。同时基于质谱技术的免疫蛋白组学可更好地鉴定经翻译后修饰（如磷酸化［25］、甲基化和糖基化［26］等）的肽段，以及蛋白酶体产生的剪接肽。

2.2 基于计算机算法预测肿瘤新抗原在基于组学技术筛选得到候选表位之后，研究者进一步研究它们是否可以最终成为能引发免疫反应的新抗原，其中验证突变体肽的表达以及预测肽与MHC 之间的亲和力是当前计算新抗原预测算法的2 个关键要素［27］。现已开发出了许多基于MHC-I类分子与肽段之间亲和力的人工神经网络模型（artificial neural network，ANN），用以预测肽段与MHC分子亲和力水平。这些算法工具利用源自生化方法检测的大规模肽与MHC 分子的结合数据以及通过MHC 配体组的高通量质谱分析获得的洗脱配体数据，训练基于机器学习的分类器，该分类器可以识别结合体和非结合体并计算亲和力得分［28］，例如 NetMHC［29］和 NetMHCpan［30］工具可以预测超过80 个不同长度的MHCA、MHC-B和MHC-C分型表位肽的亲和力。

除了对表位肽与MHC 分子之间亲和力的预测，许多新抗原预测工具如 Netchop、NetCTL 等［31-32］也整合了蛋白酶体加工及内质网转运的相关信息。此外，肽与MHC 之间相互作用的稳定性也与免疫原性关系密切［33］。虽然MHC分子呈递突变肽是T细胞活化的必要条件，但并非所有呈递的肽都能触发T 细胞活化，候选新抗原可能由于难以触发TCR 反应或有反应的TCR对自身抗原也有反应，从而被剔除［34］。

在前期研究中关于新抗原的预测工具大多仅是基于肽-MHC 亲和力与加工递呈的预测，由于有较多的质谱/亲和力数据集可用于训练与验证，关于肽-MHC亲和力的在线预测算法软件发展迅速且逐渐成熟，但预测准确性有限。近几年来，研究重点逐渐集中到其他与免疫原性相关的生物学特性上［27］，如多肽的氨基酸特征、理化性质、序列相似性等来预测其能否引发免疫反应，以提高准确性。

例如，Kim 等［35］开发的工具 Neopepsee 根据基因和蛋白质水平的信息，将与免疫原性相关的潜在特征分为3 类：MHC-I 分子结合和呈递、氨基酸特征及复杂分数（complex scores），之后选定了IC50、亲和力排名百分数、氨基酸疏水性、极性及与已知表位序列相似性等9 个特征构建深度学习分类器以预测新抗原免疫原性。Tang 等［36］开发的 TruNeo 则考虑了抗原肽递呈至MHC 分子过程中的生物学特征、肿瘤的异质性和人类白细胞抗原（human leukocyte antigen，HLA）杂合性缺失（HLA-loss of heterozygosity，HLALOH）等因素综合得到免疫原性预测得分。此外，Zhang 等［37］开发的 ASNEO 是一种基于 RNA-Seq 数据来准确预测可变剪接新肽的算法，比较可变剪接肽与体细胞突变肽的免疫原性，以及对选择剪接肽对T细胞反应的进行预测评估。

在 2020 年 11 月，肿瘤新抗原筛选联盟［1］（Tumor Neoantigen Selection Alliance，TESLA）联合了 25 个研究团队对临床样本的新抗原进行了预测分析，利用各团队独立的预测方法以及基于重复随机子样本的方法鉴定出影响新抗原表位免疫原性的关键参数，即肽-MHC 亲和力、肿瘤中表达丰度、结合稳定性、突变多肽与野生型多肽的亲和力比值以及突变多肽与已知表位的相似度（外源性），这对新抗原预测与鉴定工作具有指导意义。2021 年，Lang 等［38］开发了NeoFox 工具，通过将文献报道的描述代表新抗原的单个特征或单个特征组合的算法整合到NeoFox中来注释具有16 种新抗原特征的候选新抗原。Lu等［39］开发的基于迁移学习构建的pMTnet 模型可以预测I 类肽-MHC 的TCR 结合特异性，使用长短期记忆（long short-term memory，LSTM）网络对 I 类肽-MHC 进行编码，以便可以用数字表示抗原和MHC 的蛋白质序列；堆叠式自动编码器对TCR 序列进行编码，再次以数字方式对TCR 序列的文本字符串进行编码；最后利用经过训练的TCR和肽-MHC数字向量编码来学习它们之间的配对，从而解决了长期存在的TCR-肽-MHC 配对预测问题。表1 是对近年来计算机在线预测算法与数据库的梳理和总结。

表1 新抗原预测的计算机在线方法与数据库Table 1. Computer online pipelines and databases for neoantigen prediction

Table 1. (continued)

新抗原肽从产生到被MHC 分子递呈，最后被TCR 识别并激活T 细胞这一过程复杂且影响因素众多，普遍认为很多参数会影响到新抗原的预测，但问题是如何对这些参数综合评估以提高预测准确性，这需要大量已验证的表位肽信息来支持。同时还有很多其他因素，如这些突变是否导致突变蛋白的产生，肽翻译后修饰对肽稳定性和MHC 结合能力的影响，以及不同的MHC 分子对抗原呈递细胞获得的交叉呈递抗原的能力等［1］，都会对最终效果产生影响。

2.3 基于TCR 的预测方法新抗原引发免疫反应的关键是能被T细胞识别，T细胞主要通过TCR 的互补决定区 3（complementarity-determining region 3，CDR3）环来识别肽-MHC 复合物。之前已经提到过呈递的肽可能会由于与自身肽相似而被清除，源自SNV 的新抗原往往只有一个氨基酸的变化，而大多情况下MHC 呈递的自身多肽中的单个氨基酸变化足以逃避自身耐受性［50］。基于此，Calis 等［51］进行了模型的开发，通过将突变多肽的序列与对应野生型进行比较，该模型可用于为新抗原赋予“外源性分数”，从而增加被TCR所识别的可能。

具有不同TCR 库的不同个体可以识别相同的抗原表位，由此说明这样的表位存在某种内在模式，使得它更容易被TCR 识别［52］，也说明对同一表位具有特异性的TCR 库在其核心序列中具有相似性［53］，由此可基于肽与TCR 组成部分的序列进行模拟。现今已报道的预测多肽与TCR 结合的工具有TCRex［54］、NetTCR［55］、Repitope［56］、ERGO［57］、Deepwalk approach［58］、TCRdist［53］、GLIPH2［59］等。其中，TCRex 基于相似的TCR 序列通常靶向相同的表位的原理，可以使用机器学习技术来学习这些表位特异性TCR 序列所共享的分子基础，使用在公开可用的TCRβ序列数据上训练的表位特异性预测模型来评估结合目标表位的可能性；Repitope则基于表位序列包含一些易于激活T 细胞反应的内在隐藏模式，利用TCR 序列作为“诱饵”来探测具有免疫原性的表位，并提出了一种模拟肽-MHC 复合物与公共TCR 克隆型之间热力学相互作用的计算框架。

还有计算TCR 序列相似性的方法，如TCRdist使用BLOSUM62 评分矩阵计算两个受体环之间的相似性权重错配距离，每个TCR 都映射到受体内已知与肽-MHC 提供接触的环的氨基酸序列，通过使用相似性加权Hamming 距离比较这些串联的CDR 序列来计算两个TCR 之间的距离，引入空位罚分以捕获长度变化；GLIPH 算法则可根据CDR3 中的共有相似性，对识别相同表位的TCR 进行聚类，并预测其MHC 分型，而在此基础上研发出的GLIPH2 可以快速分析数百万个TCR 序列，具有较高的聚类效率和准确性。另外，也可以基于结构进行预测，例如PePSSI［60］（通过溶剂化界面预测肽-MHC 结构）是一种可预测与HLA-A2分子结合的肽结构的方法，它包括肽主链构象的采样和MHC 侧链的灵活移动，并考虑了肽-MHC 复合体界面处的水分子。HLAffy［61］是基于肽-MHC 识别机制开发的模型，通过学习对肽结合的重要配对电位，再通过评估肽-MHC 复合物的结合亲和力来预测任何MHC-I 类表位。在与MHC 结合的肽的构象中也应考虑诸如氨基酸电荷和大小以及疏水性残基的组成等性质的影响。表2 总结了近年来预测多肽与TCR结合的工具与数据库。

表2 预测多肽与T细胞受体结合的工具与数据库Table 2. Tools and databases for predicting peptides binding to T-cell receptor（TCR）

目前有些研究表明，肽-HLA 的TCR 识别概率与突变肽和致病性抗原之间的相似性呈正相关，且多肽的芳香族氨基酸侧链（色氨酸、苯丙氨酸和酪氨酸）或疏水性氨基酸侧链（缬氨酸、亮氨酸和异亮氨酸）可触发其与TCR 的高度亲和力［62］，多肽的第4～6位氨基酸对TCR 的识别十分重要［63］。在此基础上也开发了一定的模拟算法，但目前这类工具尚处于开发早期，其算法质量很大程度上依赖于实验数据集的大小，而目前描述新抗原免疫原性的数据集仍然很小，不断增加的实验数据量将支持具有更大预测能力的模型的生成。若能确定TCR 与多肽间识别的模式，结合之前的计算机预测方法定能大大提高肿瘤新抗原预测与鉴定的准确性与应用性。

3 肿瘤新抗原免疫原性验证方法

在完成了上述对于肿瘤新抗原的预测分析与筛选后，接下来则是验证出真正能激活T 细胞的新抗原表位，这可通过利用来自患者本身或健康个体的T细胞来实现。与使用质谱法相比，基于T 细胞的测定法具有直接检测患者的T 细胞库是否已检出MHC呈递的新抗原的优势。

但实际中，验证得出T 细胞新抗原的工作具有一定的挑战，主要因为：（1）靶向某一特定抗原的T细胞在外周血中的含量很低，很难准确地检测出来；（2）TCR 与抗原肽存在多特异性，某一特异TCR 可能会识别出不相干的抗原［64］；（3）TCR 与肽-MHC 之间相互作用的亲和力比抗体及其抗原之间的亲和力要低好几个数量级［65］，需要更为灵敏的生化技术；（4）抗原的加工和呈递产生大量潜在的T 细胞表位，使其难以在抗原呈递细胞中合成或表达以进行筛选。目前，比较常见的TCR抗原靶点筛选技术分为以下2个类别：

3.1 通过新抗原去筛选其特异性TCR 这类方法的经典策略是通过检测T 细胞暴露于给定抗原后的功能反应来评估TCR-肽-MHC 相互作用，包括通过流式细胞术检测T 细胞增殖，铬释放试验检测活化T细胞的抗原特异性杀伤细胞能力，以及酶联免疫斑点测定法（enzyme-linked immunospot assay，ELISPOT）和胞内因子染色（intracellular cytokine staining，ICS）检测T 细胞活化后释放的细胞因子等。另一个常用策略是应用荧光标记的肽-MHC 多聚体，即MHC 分子与合成表位肽的寡聚体形式，与流式细胞术结合，筛选和分离抗原特异性T细胞［66］。

近年来还有多种新技术手段被研发出来。例如质谱流式标记技术，通过结合使用质谱流式与肽-MHC 多聚体染色技术，Newel 等［67］报道了在单个样本中同时鉴定109 个肽-MHC 多聚体的特异性以及20～30 个细胞表面和胞内标志物的方法；还有DNA-条形码标记技术［68］，使用DNA 条码可同时标记上千种肽-MHC 多聚体，可以并行检测上千种多肽的特异性。这些技术均为提高T 细胞表位筛选能力提供了方便。这些方法同时也都存在需要大量T 细胞，荧光染料数量不够等缺点。

3.2 通过已知TCR 筛选被识别的抗原以TCR 为主导的筛选方法在早期主要使用随机合成肽库，该库将肽段中某一个或几个位置固定而对其余所有位置的氨基酸进行随机化，通过分析其对携带某一TCR 的T 细胞的激活能力从而找到该TCR 识别的抗原信息［69-70］。该策略也已用于鉴定肿瘤特异性T 细胞克隆的模拟表位以及评估TCR交叉反应性［71］。

2019 年，Li 等［72］利用了 T 淋巴细胞和抗原递呈细胞之间特有的胞啃作用开发了新的筛选方法，一旦表达某一TCR 的Jurkat T 细胞成功识别了携带肽-MHC的K562靶细胞，事先标记过的TCR会在胞啃作用下转移至K562细胞表面，通过流式分选这些K562细胞，后续经测序可得到递呈的抗原信息。还有Kula 等［73］研发的 T-scan 平台则使用了颗粒酶 B 报告基因系统，T 细胞一旦成功识别了靶细胞，T 细胞分泌的颗粒酶B 导致靶细胞中报告基因系统活性荧光蛋白的激活，从而筛选出能被T 细胞的靶细胞，经测序得到抗原信息。这些基于细胞的方法可在104～105范围内对表位进行筛选，且更接近于真实的T 细胞与抗原之间的识别，接下来的研究需进一步确定所需的最小T细胞丰度。

4 讨论与展望

在基因组学测序等技术以及计算能力的增强和不断改进的推动下，肿瘤新抗原预测与鉴定领域在近十年来已经有了巨大的发展。在新抗原预测工具与技术不断改进的同时，临床试验也对新抗原作为肿瘤免疫治疗的单一或组合靶点进行了探索［27］。早期临床报告表明，以mRNA 为载体、以新抗原为靶点的个性化新抗原疫苗单独或者与PD-1和PD-L1阻断剂联合使用具有临床抗肿瘤活性［74-75］。同时，基于新抗原的T 细胞疗法［如肿瘤浸润淋巴细胞（tumor-infiltrating lymphocytes，TIL）和TCR-T 疗法］的临床试验也在稳步推进中［76］。

但新抗原筛选和鉴定所需的时间相对较长，至少需要6～8 周，对于治疗窗口较短的患者来说没有足够的时间，且鉴于当前可用的新抗原预测算法的准确性有限，因此仍需要努力来利用机器学习平台来提高新抗原预测的准确性。缺乏实验数据是最主要问题，同时用于训练这些模型的数据集通常非常冗余，包含许多相同或非常相似的表位，如不加处理会导致预测工具过度拟合，从而降低准确率［77］。尽管对T 细胞表位内的锚定残基和面向TCR 的残基的研究正在不断发展［78］，但新抗原表位与TCR 分析数据集相连接的能力还尚未完全发展。

目前在个性化新抗原免疫治疗推向更广泛临床应用之前存在几个主要障碍，包括准确检测和定量免疫原性肿瘤新抗原以及对免疫逃逸的准确生物学障碍的了解，这些都限制了个别患者对免疫治疗的有效性［79］。尽管鉴定突变来源的新抗原的实验方法和计算机模拟方法的准确性有所提高，但是大多数MHC 表位预测方法严重偏向可提供训练数据的MHC-I 类新抗原，对II 类新抗原和罕见的MHC 同种异型缺乏敏感性和特异性［79］，还有其他因素可能会影响预测表位的最终免疫原性包括基因表达、RNA剪接、蛋白质体加工的整体模式等。目前这些预测算法与模型都存在各自的问题，如何提高准确性，更好地将这些预测方法组合起来，同时临床研究上将免疫疗法合理组合，扩大新抗原特异性T 细胞群，增强T 细胞向肿瘤的转运将极大的推动肿瘤免疫治疗的发展。