沈品,谢芹,杨恩泽,程祥,孙毅
1 无锡市第二人民医院急诊科,江苏 无锡 214000;2 昆明医科大学生物医学工程研究院;3 昆明医科大学附属心血管病医院/云南省阜外心血管病医院心外科
单个细胞是最小的功能性生物单位。在细胞动力学和独特的细胞微环境共同作用下,即使相同基因型的细胞也可表现出不同的化学表型。异质性是单个细胞的固有特征,普遍存在于细胞系统中,可在生物学过程中发挥重要作用[1]。单细胞基因测序技术能直观反映细胞基因间的差异性,但其仍无法具体阐述细胞在生物体复杂环境中的表型和功能。蛋白质是细胞内所有功能的直接执行者,可提供结构支持、复制基因组信息、调节基因表达、控制信号传导、催化代谢反应并在细胞内转运分子等[2]。因此,对单细胞蛋白质组的定性和定量分析,是揭示细胞类型及其状态的重要工具,在肿瘤异质性、干细胞分化、生殖细胞发育、循环肿瘤细胞等领域具有重要应用价值。单细胞蛋白质组学可通过研究单个细胞内蛋白质的功能信息,揭示正常和受损发育中的细胞异质性[3]。质谱技术[4-6]是目前研究蛋白质组学的一种常规方法,其检测蛋白质的灵敏度较高[7-9]。基于质谱数据的单细胞蛋白质组学分析方法能以无偏倚的方式量化单细胞蛋白质并对其进行定性分析,其分析流程包括肽段识别和蛋白质推断、蛋白质丰度定量、蛋白质生物功能分析等。现将基于质谱数据的单细胞蛋白质组学分析方法的应用研究进展综述如下。
肽段识别和蛋白质鉴定是蛋白质组学测序的基础。从单细胞质谱仪中获取单细胞蛋白质碎片谱数据后,第一个步骤是从单细胞蛋白质裂解质谱数据中确定肽段的序列[10]。肽段分析方法通过计算机检索蛋白质序列来建立单细胞蛋白质的目标数据库,从单细胞蛋白质目标数据库中为检测得到的单细胞蛋白质碎片质谱图和理论单细胞蛋白质碎片质谱图信息计算一个肽谱匹配分数,最终识别出具有最高匹配分数的单细胞蛋白质的肽段。
目前临床常见的可用于肽段识别和蛋白质推断的单细胞质谱分析工具主要有MASCOT 和Andromeda。MASCOT 软件可将质量测量与蛋白质序列信息、来自蛋白质消化的肽分子量以及串联质谱数据相结合,生成基于概率的蛋白质鉴定评分,进行蛋白质推断[11]。SLAVOV 等[12]开发的基于质谱的单细胞蛋白质组学分析法中,他们在蛋白质搜索鉴定流程中使用MASCOT 软件来鉴定单个细胞中的数千种蛋白质,并识别不同种类型的癌细胞,与常用的蛋白质组学分析方法比较,在单细胞蛋白质组学中应用MASCOT鉴定蛋白质的精度高。
Andromeda 是一种使用概率评分模型的新型肽搜索引擎,已广泛应用于单细胞蛋白质组学的研究中[13]。Andromeda 软件根据可根据肽段的敏感度和特异度,判断目标肽段与蛋白质。同时,Andromeda的数据库非常大,能以任意高的片段质量精度,处理复杂的蛋白质数据,识别翻译后修饰的复杂模式肽段,如高度磷酸化的肽段[14]。
单细胞质谱分析方法有三类,分别是基于毛细管电泳—质谱方法、基于液相色谱—质谱方法和无分离手段直接检测方法。KELLY 等[15]采用液相色谱法来研究单细胞的蛋白质组学信息,采用Andromeda 引擎在UniProtKB 数据库中搜索谱图并选择N 末端蛋白乙酰化和甲硫氨酸氧化作为可变修饰,肽和蛋白质均以0.01 的最大错误发现率进行过滤,说明Andromeda 软件在检索高度磷酸化的肽段中准确度更高。ZHU 等[16]在采集质谱数据时实用Andromeda 用于数据库搜索和无标记蛋白质定量,最终运用单细胞蛋白质组学方法揭示了毛细胞发育过程中表达的变化。肽段识别完成后将肽段序列构建为原始蛋白质,这个过程称为蛋白质推断。肽段较短时构建可靠蛋白质具有一定难度,因为一些肽段可能由两个或多个蛋白质共享,因此蛋白质推断过程中常采用概率模型[17]。SCoPE-MS[12]是一种蛋白质统计建模框架,可通过定量单个细胞中的肽段来推断蛋白质,且肽段在单细胞通道中的检测强度不受到其在载体细胞中的丰度影响。
测定单细胞蛋白质丰度有助于后续研究蛋白质功能及单个细胞动态变化的生长轨迹,探索疾病的发病机制。单细胞蛋白质丰度定量可用于计算单细胞肽段及蛋白具体含量。目前多数单细胞蛋白质组学领域的研究均使用有标定量法进行蛋白质丰度定量。有标定量法是一种在样本里混入同位素标记物,利用同位素标记物来定量单细胞蛋白质组的方法。有标定量法的应用成本较高,但其对低丰度蛋白质的检测效率和单细胞蛋白质定量的准确性均较高。同时,有标定量法可以量化每个细胞中每个标签标记肽段水平,同时从所有细胞中汇集的总肽量识别其序列。
基于质谱数据的定量蛋白质分析软件主要是MaxQuant。MaxQuant 采用MASCOT 作为搜索引擎,与主流的质谱平台结合使用[18]。MaxQuant 在Max-LFQ模式下的定量完整蛋白质组和低丰度蛋白质组的准确性和精密度均优于其他方法[19]。BANEK等[20]在对卵裂期青蛙胚胎的各个胚胎细胞中的蛋白质进行定量时,使用毛细管电泳电喷雾电离高分辨率质谱技术后,使用MaxQuant来处理原始数据。
单细胞蛋白质功能分析,需要首先进行蛋白质定量数据的统计分析,后进行蛋白质功能富集分析,构建蛋白质互作用网络。
3.1 单细胞蛋白质的定量 蛋白质丰度数据经过数据清理、过滤和标准化过程,就可以进行后续差异表达蛋白的统计分析。比较分析不同状态下单细胞蛋白质的差异性是单细胞蛋白质组学的关键步骤,可运用不同的方法[21-24]寻找差异蛋白。Slavov 团队开发了一个原则性的贝叶斯框架[21],在确定肽序列时纳入肽的保留时间信息,对数据驱动的保留时间比对以进行识别。数据驱动的识别保留时间比对可以用于多数质谱数据集,并且这个框架应用于单细胞蛋白质组学时非常有效,它可以在错误发现率为1%的情况下将确信识别的多肽数量增加50%[22]。
为优化单细胞质谱数据,HUFFMAN 等[25]基于质谱交互式可视化和分析开发得到数据驱动质谱优化平台(DO-MS),可用于单细胞蛋白质组学的检索和分析,后续还将进一步分析并量化哺乳动物中的单细胞蛋白质及其所有修饰[26]。
3.2 单细胞蛋白质的功能富集分析 基因本体论(Gene Ontology,GO)富集是富集分析中使用最广泛的一个技术[27]。GO有三个主要类别,即:生物过程、分子功能、细胞成分。GO富集分析的常用数据库有Amigo 、DAVID[28]、STRING[29]。LI 等[30]新开发了一个基于质谱的单细胞蛋白分析软件,可用于分析单细胞生物的各种细胞,监测响应受扰动的细胞培养条件的代谢变化,利用莱茵衣藻来研究植物特异性生物过程,如植物光合作用及在极端条件下生物的生长过程。
京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)富集分析方法可用于分析各种生物通路[31]。生物通路用来描述生物过程中的细胞内分子之间的生物作用和化学反应。蛋白质集富集分析(Protein Set Enrichment Analysis,PSEA)源自基因集富集分析(Gene Set Enrichment,GSEA)。在PSEA 中,富集分数是根据加权运行总和统计计算的,而丰度没有显着变化的蛋白质可能会对富集分数产生负面影响。PSEA-Quant 是专门为蛋白质定量数据开发的,可以为单细胞蛋白质组学提供更方便和更可靠的分析流程。Slavov[12]课题组为比较单细胞蛋白质组学分析方法与单细胞转录组学分析方法在不同功能的基因之间的一致性,对找出的单细胞蛋白进行KEGG 富集分析,结果发现在蛋白水解和发育中起作用的基因在mRNA 和蛋白质水平上的一致性显着低于所有基因,这种差异可能反映了不同基因组的转录后调控或测量噪点的差异。才能提高功能富集分析的准确性。
3.3 构建蛋白质相互作用网络 当前,基于蛋白质组学的网络生物学主要有两个类别:蛋白质-蛋白质相互作用(Protein-Protein Interaction,PPI)网络和信号网络。PPI 网络描述了两种蛋白质之间的直接相互作用。 许多生物网络数据库如STRING、HPRD[32]、MINT[33],BioGRID[34]和PIPs 等为PPI 数据库,信号通路数据库有KEGG、Reactome[35]、Pathway Commons[36]。Perseus 用于分析和可视化基于质谱定量的MaxQuant 数据[24],可进行蛋白质差异表达矩阵、结果图、各种质量控制图以及通路-基因本体富集分析。
综上所述,基于质谱的单细胞蛋白质组学分析方法主要有肽段识别和蛋白质推断、单细胞蛋白质丰度定量、单细胞蛋白质生物功能分析等。肽段与蛋白质识别主要采用MASCOT 和Andromeda 等软件,可从质谱仪获取的单细胞蛋白裂解质谱数据中鉴定肽段序列。MaxQuant 等蛋白质丰度定量软件可计算出细胞中的肽段及蛋白的具体含量;生物信息学分析中主要应用Perseus 等软件进行蛋白质功能富集分析及蛋白网络构建。目前单细胞蛋白质组学分析方法的研究正处于新兴阶段,更多研究方法正在深入开发。