三种统计指标在IGH免疫组库分析中的应用

2018-11-28 09:06房建成许媛丽李婷婷刘红星
中国免疫学杂志 2018年11期
关键词:重排均数克隆

王 芳 房建成 许媛丽 李婷婷 刘红星

(河北燕达陆道培医院病理和检验医学科,廊坊065201)

某个体或群体中,免疫球蛋白(Immunoglobulin,IG)和/或T细胞受体(T cell receptor,TCR)基因V区序列多样性的集合称为免疫组库(Immune repertoire,IR)。理论上讲每个人体内可以有超过2×1012个可能的重排的IG和TCR序列,几乎每个B/T细胞都有自己不同的IG/TCR序列,称为序列多样性[1]。但在抗感染、自身免疫病、实体肿瘤以及B/T细胞肿瘤时,由于反应性或克隆性B/T细胞增殖,可导致IG/TCR序列多样性减少。因此IR中IG/TCR基因序列多样性反映了B/T细胞增殖克隆性和机体的免疫状况,与B/T细胞肿瘤、其他实体肿瘤、自身免疫病和感染都密切相关[2]。

目前普遍采用多重PCR和毛细管电泳技术(Capillary electrophoresis,CE)对IR的多样性进行分析[3,4]。近年来新一代高通量测序(Next generation sequencing,NGS)技术的日渐成熟和推广应用,提供了接近成熟的技术基础,促进了IR分析的研究和应用。IR分析本质上是基于大数据量的统计学分析,目前分析结果多是将序列按照家族分类以柱状图的形式展示,缺乏量化的多样性评价指标。本研究以初诊急性B淋巴细胞白血病(B cell acute lymphoblastic leukemia,B-ALL)和免疫球蛋白重链(Immunoglobulin heavy chain,IGH)基因为例,拟探讨稀疏分析、Shannon-Wiener指数和Simpson指数三种统计学指标在IR分析中的应用。

1 材料与方法

1.1实验材料、试剂 随机选取2015年11月至2017年12月经CE检测IGH基因重排克隆性分析结果为阳性的36例初诊B-ALL患者,以及经CE检测IGH基因重排克隆性分析结果为阴性的15例健康对照。男女比1.43∶1,年龄范围3~53岁,中位年龄14岁。本研究经过河北燕达陆道培医院伦理委员会批准,志愿者均签署了知情同意书。

实验所用的主要仪器和试剂:血液基因组柱式小量提取试剂盒(苏泰械备20140022号,江苏康为世纪生物科技有限公司); LymphoTrack IGH Assay-PGM试剂盒(美国Invivoscribe公司); Ion Torrent PGM二代测序仪及配套试剂、AB 2720 PCR仪和7500荧光定量PCR仪均为美国Thermo Fisher公司产品;超微量紫外分光光度计Quawell Q5000(美国Quawell公司)。

1.2实验方法 提取骨髓或外周血标本中的基因组DNA并测量浓度。分别取50 ng DNA进行IGH V区片段扩增建库,使用荧光定量PCR法对文库定量,然后取合适浓度的文库进行NGS测序。所有操作均按照试剂和仪器的说明书进行。

将Ion PGM上产生的FASTQ格式数据使用MiXCR软件[5]进行数据质控、IGH序列的家族比对分析,采用稀疏分析、Shannon-Wiener指数(以Shannon-Wiener指数均值表示)、Simpson指数(以inverse Simpson指数均数表示)三种指标进行多样性分析,并绘制稀疏曲线[6]。

2 结果

2.1CE和NGS测序结果 36例初诊B-ALL患者的标本IGH重排克隆性用CE法均检测为阳性,呈单克隆或双克隆结果。15例健康个体对照标本均为阴性,呈多克隆结果。每份标本NGS测序所得到的可供分析的序列条数均>50 000,质量≥Q20的碱基占比>90%。将51例标本根据CE检测IGH克隆性重排的结果分为两组:阳性(36例初诊B-ALL患者P1-36,组1)和阴性(15例健康个体N1-15,组2)。

2.2两组标本在稀疏分析中绘制的稀疏曲线不同 稀疏分析根据随机抽样来计算抽样所得到的序列中所观察到的序列种类的数目,根据稀疏分析所绘制的稀疏曲线可以将不同组标本的IGH基因IR多样性可视化地展现出来,同时可以显示该分析的随机抽样量是否充分。两组标本在稀疏分析中通过抽样所观察到的序列种类的数目有所差异(图1),组1中位数为75(33~215.5),组2中位数为363(243.5~500.5)。以标本N7和P31为例,N7的CE检测IGH克隆性重排结果为阴性,IGH的三个范围的扩增片段均为高斯分布(图2A);而P31的CE检测结果为阳性,三个范围的扩增片段均只有一个片段,多样性显著减少(图2B)。

两份标本NGS所得序列的稀疏曲线也有差异(图2C)。在抽样的序列数由0增加至5×104时,P31曲线上升较少,快速到达平台期,纵坐标显示其序列种类较少;而N7曲线快速上升,纵坐标显示其在采样很小的情况下序列多样性即超过800,说明其序列多样性显著。在进一步加大抽样序列数的情况下,P31的曲线始终维持在平台期,多样性没有增加,说明该标本抽样充分,多样性较少;而N7通过数据外推所得拟合曲线仍然缓慢上升直至平台期,说明其随着抽样序列数的增加,其多样性仍在进一步增加,同时由于拟合曲线只是反映根据实际数据外推所得到的假设数据,因此拟合曲线的出现也说明该标本的采样需要进一步增加。但由于真实数据所得的稀疏曲线已经可以表现为出现平台期的趋势,因此该例标本的抽样量被认为可接受。

图1 标本多样性Fig.1 Sample diversity Note: The horizontal represented the samples,the vertical represented the number of species that were sampled in every sample.Blue dots and red dots marked group 1 and group 2,respectively.

图2 CE检测结果及稀疏曲线Fig.2 CE testing results and rarefaction curvesNote: A and B were the CE testing results of IGH clonal rearrangement in Sample N7 and P31,respectively.C were the rarefaction curves of Sample N7 and P31,the horizontal “sample size” represented the number of reads randomly sampled from the sequenced reads in the analysis,and the vertical “Diversity” represented the number of species that were actually observed in a sample size.Solid and dashed lines marked interpolated and extrapolated regions of rarefaction curves respectively.Shaded areas marked 95% confidence intervals.

图3 两组标本Shannon-Wiener指数和Simpson指数Fig.3 Shannon-Wiener Index and Simpson IndexNote: A and B were the mean values of Shannon-Wiener index and inverse Simpson index,respectively.The horizontal represented the samples,the vertical represented the index values.Blue dots and red dots marked group 1 and group 2,respectively.

2.3两组标本的Shannon-Wiener指数及Simpson指数不同 Shannon-Wiener指数和Simpson指数可以将IGH 基因序列多样性进行量化。两组标本的两个指数均数均有差异(图3)。组1(CE检测IGH克隆性重排阳性)中Shannon-Wiener指数均数中位数为2.78(1.95~3.83),其中88.89%(32/36例)标本Shannon-Wiener指数均数<10,而组2(CE检测IGH克隆性重排阴性)中100%(15/15例)Shannon-Wiener指数均数>100(图3A),中位数为232.35(151.46~418.63)。Simpson指数的结果类似(图3B),组1中inverse Simpson指数均数中位数为2.01(1.58~2.64),其中Shannon-Wiener指数均数<10的32例标本inverse Simpson指数均数<3,组2中100%(15/15例)inverse Simpson指数均数>80,中位数为203.21(130.57~372.47)。

通过计算组1标本NGS测序结果中每一份标本前两位的序列比例之和(以S表示),可以发现,Shannon-Wiener指数均数<10的32例标本S值的中位数为93.72%(85.49%~98.60%),而Shannon-Wiener指数均数 >10的4例标本P21、P24、P29、P34的S值低于上述水平,分别为15.80%、15.70%、66.33%、50.58%。而在Simpson指数这个指标中,仅P21、P24这两例S值非常低的标本inverse Simpson指数均数>5,而P29、P34这两例标本的inverse Simpson指数均数分别为4.29、4.27,接近其余32例标本的指数均数水平(图3B)。

3 讨论

IR分析在感染、自身免疫病、实体肿瘤及B/T细胞肿瘤的诊断和鉴别诊断方面有广泛且重要的潜在应用价值。NGS由于测序原理的优势,能够同时得到片段长度和序列信息,为IR分析提供了较为理想的技术基础,也是近年来分子医学的研究热点之一。近年来使用NGS 方法确定IG 基因序列多样性的研究进展迅速, 可用于对淋巴细胞组库的组成进行定性、疾病监测、描述与疾病进展和复发相关的恶性肿瘤细胞中的抗体演变和多样化的程度、以及评估造血干细胞移植之后的免疫重建等方面[7-11]。但在IR分析时,一直缺乏较好的量化评价指标。本文用IGH和初诊的B-ALL为样本,探讨稀疏分析、Shannon-Wiener指数、Simpson指数三种指标在IR分析中的应用价值。

稀疏分析经常被用于生物学中群落物种及微生物的多样性分析[12,13]。其应用的前提条件有采样相对充分、均质分布等[14]。而IR分析时,对B/T细胞的采样,一般通过外周血采集,能够满足上述条件。因此稀疏分析可能也适用于IR多样性的分析。本研究的结果也显示可以通过稀疏曲线来可视化地展现不同标本中IGH基因IR的多样性。在图1中可以看出两组标本多样性的不同,但在组1中P36标本的序列种类数目为2 002,远远偏离组1其余35例标本的范围,看起来IGH克隆性重排应该为阴性,但是结合其优势克隆的比例(95.27%)以及Shannon-Wiener指数均数(1.32)与inverse Simpson指数均数(1.10)可以看出该标本中有一个高比例的优势克隆,其IGH克隆性重排结果与CE检测结果相符。因此对于标本IGH重排克隆性的分析,不能简单依靠一个指标来判断,应该结合多个指标综合分析。

Shannon-Wiener指数与Simpson指数是描述群落物种多样性的两种α多样性指数,能够对群落物种组成的丰富度及均匀度进行综合评价,是目前生态学中应用最广泛的两个数量指标[15]。正常情况下,不同的B细胞的IGH序列几乎互不相同。一般认为B细胞肿瘤起源于一个B细胞,所有的肿瘤细胞均应该具有相同的IGH序列。因此,IGH序列多样性可以反映不同B细胞组成的丰富度。在一定程度上Shannon-Wiener指数与Simpson指数可能也适用于对IGH序列多样性的分析。本研究的结果显示,Shannon-Wiener指数和Simpson指数可以对IG的多样性进行量化。组1和组2数据之间具有很大差异,在组1中,由于不同标本中克隆细胞的比例不同,因此这两个指数值会出现较大的差异。优势克隆所占比例高的标本整体B细胞的多样性自然会减少。本研究中出现的P21、P24、P29、P34这4例标本中,由于P21、P24标本中优势克隆所占比例很低(15.80%、15.70%),因此Shannon-Wiener指数与Simpson指数值均高于组1的普遍水平;而P29、P34这2例标本,其优势克隆所占比例虽然低于其余32例标本,但比例也在50%以上,相对P21、P24来说多样性相对少一些,因此Simpson指数值更接近于其余32例标本,这也说明在丰富度不变的情况下,Simpson指数比Shannon-Wiener指数对均匀度更敏感,这与文献报道一致[14]。综上所述,本研究初步显示稀疏分析可以通过稀疏曲线可视化地展现IGH基因IR的多样性,而Shannon-Wiener指数 与Simpson指数可以给出评价多样性的部分量化指标,而对于IGH多样性的分析不应单独应用某一个指标,应综合运用多种指标进行更全面地判断。

猜你喜欢
重排均数克隆
克隆狼
浙江:诞生首批体细胞克隆猪
环己酮肟重排反应酸肟比联锁方案评析
重排滤波器的实现结构*
Ig/TCR基因重排在儿童急性T淋巴细胞白血病中的表达模式特点
属于“我们”
属于“我们”
基于像素重排比对的灰度图彩色化算法研究
关于均数与偏差
关于均数与偏差