陈 雯 刘智文 游小龙 袁分钱 张 丽 乐 飞 高 源 饶 军
皮肤鳞状细胞癌(CSCC)是起源于表皮或附属器角质形成细胞的一类恶性肿瘤,在非黑色素皮肤癌中,其发病率位列第二[1]。近年来,CSCC发病率在全球范围内以3%~10%的增幅呈逐年递增趋势。美国的统计研究表明其每年新发患者约20万~40万,相关死亡人数超过3000人[2]。早发现、早诊治很大程度上影响CSCC的预后,并且CSCC多见于老年人,随着我国人口老龄化的到来,提高CSCC的早期诊治,进一步研究其发病机制显得尤为重要。一般认为,机体正常细胞经过多因素多基因协同引起细胞DNA损伤,引起表达异常,最后导致肿瘤发生。因此,从基因表达、蛋白质水平研究方向揭示肿瘤的发生,阐明肿瘤发生的本质,对于肿瘤的早期诊断、鉴别诊断、预后评估及早期预防具有重要的意义[3]。随着人类基因组计划的实施,蛋白质组学成为生命科学研究在后基因组时代的核心内容之一[4]。通过蛋白质组学对不同时间和空间上发挥功能的特定的蛋白质组群进行研究,进而在蛋白质的水平上探索其作用模式、功能机理、调节调控以及蛋白质组群内的相互作用,从而为临床诊断、病理研究、药物筛选、新药开发、新陈代谢途径研究等提供理论依据和基础。目前基于DIA/SWATH的质谱定量技术研究CSCC患者血清蛋白质组学的报道国内外尚处于空白阶段,因此本研究针对CSCC患者及其对照组进行全面的蛋白图谱分析,通过统计学和生物信息学等方法找出差异性表达的蛋白,构建相关调控网络图,从而明确CSCC可能的发病机制,为该病的早期诊断和后期治疗提供数据基础及策略。
我们收集了2019年1月至2020年6月在我院住院的CSCC患者20例及同期在我院体检中心常规体检的健康人群20例(对照组)的血清样本。本研究得到本院医学伦理委员会的批准,所得研究均知情同意。所有病例首次确诊为CSCC并且无常规使用药物或接受治疗史。除了CSCC外有其他癌症或者其他疾病包括哮喘、关节炎、高血压、糖尿病、肝肾疾病史等排除在外。CSCC患者20例和健康人群20例血清样本最终均混成6个生物学重复。
1.2.1 蛋白提取 分别向待测的12个混合的血清样品中加入0.5 ml的细胞裂解液(8M UREA,蛋白酶抑制剂,100 mM Tris-HCl pH 7.6)。冰浴超声15 min后在离心机上离心15 min,18000 g。接着吸取上清,采用BCA法进行蛋白定量。定量后各取20 μg的待测样品混合pool后用于后期的建库。需要指出的是我们利用超滤管方法将以上待测样品和pooled样品进行酶解。
1.2.2 数据依赖性采集模式(DDA) 将酶解后的多肽样本溶解在25 μl的A液(0.1%甲酸的水,含iRT标准肽)中,然后在EASY-nano-LC 色谱系统上进样5 μl。先以4.5 μl/min的流速载样至预柱上,而后以300 nl/min的流速在分析柱上进行分离。采用Orbitrap Fusion 质谱仪完成质谱数据的采集。
1.2.3 DIA分析 每个样品各取2 μg肽段(含iRT 标准肽段)进行1次DIA 质谱测试,时长2 h,之后同样在EASY-nano-LC 色谱系统上完成分离。DIA分析时使用Thermo Orbitrap Fusion Tribrid lumos质谱仪进行质谱数据的采集。
1.2.4 蛋白质定性定量分析 通过Protein Discoverer 2.1 SP1软件DDA谱图库,然后将其原始数据导入到Spectronout Pulsar X完成蛋白质的定性定量分析。定性分析使用Precursor Qvalue Cutoff 0.01;定量参数为iTR标曲采取非线性拟合,使用子离子峰面积,至少选择三个子离子的平均强度定量。
1.3.2 生物学功能分析 利用OmicsBean组学数据整合分析云平台,对筛选出的差异蛋白进行了基因本体(gene ontology,GO)功能注释和富集分析。利用KEGG数据库进行Pathway分析确定蛋白质参与的最主要生化代谢途径和信号转导途径。借助STRING (http://string.embl.de/) 实现蛋白相互作用网络(PPI)分析。
基于DIA/SWATH的质谱定量技术我们对12个样品进行了蛋白图谱分析,结果表明人血清中共检测到411个蛋白。接着通过在线的PANTHER(www.pantherdb.org)系统对所有的411个蛋白进行功能分类。209个蛋白根据进化关系得到注释,其功能可以归纳为17类,主要为defense/immunity protein (93个蛋白)、protein-binding activity modulator (28个蛋白)、protein modifying enzyme (25个蛋白)和metabolite interconversion enzyme (16个蛋白)。
通过对比6个CSCC和6个正常人血清样品的蛋白图谱特征,我们发现共有28个蛋白具有显著性差异,差异倍数范围在0.46至3.12之间。同时,上调的19个蛋白中包括3个免疫蛋白(IGKV2-29、IGHV3-64和IGKV4-1)以及2个代谢代谢酶(VNN1和TTR)。而下调的9个蛋白中涉及免疫蛋白(IGLV1-40)、蛋白修饰酶(Cathepsin B)和蛋白酶抑制剂(IGFBP2和ITIH3)。进一步的聚类分析结果显示这些差异蛋白质能够很好地区分以上两组血清样品。
针对以上28个具有显著性差异的蛋白,进一步做了GO富集分析,结果表明:biological process (BP)、cellular component (CC)和molecular function (MF)三个本体中分别有533个、62个和57个显著性差异(adjusted P value<0.05)的条目(GO terms)。图1为 GO 富集分析概图,展示了 BP、CC 和 MF 三类富集分析显著性排名前十的条目。可以看出,BP本体中主要涉及的应激反应和免疫反应,包括regulation of response to stimulus(应激反应调控)、immune effector process(免疫效应过程)和positive regulation of immune system process(免疫系统过程的正调控)等。CC本体中主要富集的是胞外成分,比如extracellular region part(胞外区部分)、extracellular region(胞外区)和extracellular space(细胞外空间)等。而对于MF本体而言,最富集的10个条目涉及多个酶活性(比如serine-type endopeptidase activity等)、受体结合(receptor binding)、蛋白结合(protein binding)和抗原结合(antigen binding)。
在生物体内,不同蛋白相互协调行使其生物学行为,基于Pathway的分析有助于更进一步了解其生物学功能。因此我们也进行了Pathway代谢通路富集注释。如图2所示,这些差异的蛋白主要显著地富集在pantothenate and coA biosynthesis(泛酸与辅酶的生物合成)、MAPK signaling pathway(MAPK信号通路)、propanoate metabolism(丙酸代谢)、propanoate metabolism(丙酮酸代谢)和cysteine and methionine metabolism(半胱氨酸和蛋氨酸代谢)五条代谢通路上。这些代谢通路有3条归类于新陈代谢组,而剩余2条分别属于环境信息处理和人类疾病组。
为了进一步了解CSCC的发生和发展过程,基于差异表达蛋白我们进行了蛋白-蛋白相互作用网络(PPI)分析。结果表明共有10条代谢通路和8个蛋白关联同一个PPI中,具体包括癌症相关的代谢途径glycolysis/gluconeogenesis、MAPK signaling pathway等,以及与癌症发生密切关联的的蛋白CTSB、LDHB等。需要指出的MAPK signaling pathway关联了4个蛋白(IL1RAP、IGF2、IGFBP2和ITIH3),而LDHB涉及了5个代谢途径(glycolysis/gluconeogenesis、pyruvate metabolim、central carbon metabolism in cancer、propanoate metabolism和cysteine and methionine metabolism。
图1 基于差异蛋白的GO富集分析
1为泛酸与辅酶的生物合成;2为MAPK信号通路;3为丙酸代谢;4为丙酮酸代谢;5为Ⅱ型糖尿病;6为半胱氨酸和蛋氨酸代谢
对于蛋白质组学的研究,以前主要采用传统的数据依赖采集(DDA)技术,该技术对于成分复杂的生物样本蛋白组学的研究,其应用有一定的局限性。本研究将采用可以将整个质谱扫描质量范围分为若干窗口,依次对每个窗口的所有离子进行碎裂,采集全部子离子信息的数据非依赖采集(DIA)定量技术。相比传统的DDA定量技术,DIA定量具有可以获取全部离子,具有更高的蛋白覆盖度;可重现性高,样品间具有更高的相关性;定量准确度几乎与MRM技术相当;线性动态范围可跨越4个数量级;一次实验最多可检测到5000种以上蛋白并定量的优点。我们首次对CSCC患者和对照组的血清样本进行了DIA/SWATH分析,期望能更全面地更深入地展示CSCC血清蛋白组的分子特征。研究结果表明在血清样本中检测并鉴定了411种蛋白,包括蛋白修饰酶、转运子、细胞粘性分子、结构蛋白和防御/免疫蛋白等14类蛋白。与之前的研究相比,我们鉴定出来的蛋白某种程度上来说种类最广泛、数目最多[5]。如此广泛和深入的蛋白图谱分析更加有利于我们从分子层面研究CSCC的发病机制,通过发现相关生物标志物为该病的早期诊断和后期疗效评价提供数据基础及策略。
血清作为1种平衡稳定的体液样本,被广泛应用于蛋白组学研究,可以作为很好的生物标志物来源。我们通过统计学方法发现CSCC患者血清有28个蛋白显著性变化,进一步的聚类分析结果表明这些蛋白可以很好的区分患者和正常样品。更重要的是在28个蛋白中,有多个蛋白据报道与癌症(甚至是CSCC)的发生发展密切相关。比如泛酸酶(VNN1)Vnn1通过挽救线粒体活性来抑制Warburg效应和肉瘤生存[6]。VNN1过表达与直肠癌患者术前放化疗反应不良及预后不良有关。另外乳酸脱氢酶(LDHB)在肿瘤微环境中能够作为肿瘤及其间质之间的代谢纽带,它能够在肿瘤细胞中控制肿瘤溶酶体活性和自噬[7]。这些差异蛋白的发现将对CSCC的早期疾病诊断、早期发生及转移等肿瘤标志物的鉴定、以及新的临床治疗方案的制定具有非常重要的意义。后续的生物学功能分析结果表明MAPK signaling pathway在CSCC血清中发生显著性变化。众所周知,MAPK 信号通路在调节肿瘤细胞增生及存活的过程中起主要作用。近来研究表明MAPK信号通路在光化性角化病(actinic keratosis)向CSCC的转化过程中起重要作用[8]。
综上所述,本研究发现CSCC患者血清中28个差异蛋白,主要参与pantothenate and coA biosynthesis、MAPK signaling pathway、propanoate metabolism、propanoate metabolism和pyruvate metabolism 5条代谢通路。本研究从分子水平探究 CSCC 的发生、进展机制,为 CSCC 的诊断、靶向药物研究及判断预后提供有价值的信息。需要指出的是本研究中样本量较小,后期仍需要通过大规模的临床样本对潜在生物标志物进行验证。