王 蕾,魏 威,周 培,冯 琳,李润乐,汤 锋
(1.青海大学高原医学研究中心,青海省高原医学应用基础重点实验室,青海 西宁 810001;2.青海大学研究生院,青海 西宁 810001;3.青海大学基础医学部,青海 西宁 810016)
研制表位疫苗的关键是要找到优势抗原表位,但如何寻找优势抗原表位是一个难题。生物信息学工具的应用使筛选潜在优势抗原表位成为可能,并且不必承担培育相关病原体的风险。本课题拟通过多房棘球蚴葡萄糖转运蛋白(glucose transporters,GLUT)抗原表位生物信息学预测优势抗原表位。
GLUT的编码基因是SLC2,属于膜转运蛋白中的易化载体超家族(the major facilitator superfamily,MFS)。已有明确的证据表明,不同的GLUT在调节代谢、基因表达、基因分化和肿瘤发生等方面发挥特定的作用。Cora Delling等[1]发现感染急性期宿主肠道上皮细胞对葡萄糖的吸收发生了适应性变化。Abdul Aziz Qureshi等[2]阐明了疟原虫GLUT影响糖摄入的分子机制。Takuya Kashiide等[3]成功克隆并鉴定了多房棘球蚴的GLUT同源物,获得了2个推测的GLUT基因(EmGLUT1和EmGLUT2)的全长序列;同时发现EmGLUT1是一种简单的易化葡萄糖转运体,可能在多房棘球蚴整个生命周期的葡萄糖摄取过程中起重要作用。由此可以通过蛋白质序列鉴定多房棘球蚴GLUT的优势抗原表位。
EmGLUT蛋白的二级结构特征通过在线预测软件Self-Optimized Prediction Method with Alignment(SOPMA)得出结果。使用生物信息学软件Immune Epitope Database(IEDB)和Syfpeithi预测EmGLUT潜在的T细胞优势抗原表位,使用生物信息学软件Bcepred和ABCpred预测EmGLUT潜在的B细胞优势抗原表位。
从NCBI-Gen Bank中(http://www.ncbi.nlm.nih.gov/genbank/)[4]获得多房棘球蚴GLUT氨基酸序列和核苷酸序列。
使用生物信息学软件SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopma.html)[5,6]分析二级结构特征。输入从NCBI中获取的EmGLUT蛋白的全部氨基酸序列,参数为默认值,分析其蛋白二级结构特征,包括α螺旋、β折叠、β转角和无规则卷曲这四种构象。
使用生物信息学软件Bcepred(http://www.imtech.res.in/raghava/bcepred/bcepred_submission.html)、ABCpred (http://www.imtech.res.in/raghava/abcpred/)[9]预测多房棘球蚴GLUT的B细胞抗原表位。输入从NCBI中获得的EmGLUT蛋白的全部氨基酸序列,参数为默认值,ABCpred的抗原表位长度分别设置为10、12、14、16;剩下的参数为默认值。
从NCBI-Gen Bank中获得多房棘球蚴GLUT的全部氨基酸序列与核苷酸序列,多房棘球蚴GLUT由509个氨基酸组成(GenBank:BBE21055.1),由1530 bp的mRNA编码组成(GenBank:LC385549.1)。氨基酸序列如表1所示。
采用SOPMA Server软件对其二级结构进行预测,结果显示二级结构中存在较大比例的β折叠和无规则卷曲区域,这两个区域的数值越高,该蛋白质成为抗原表位的可能性越大。EmGLUT蛋白二级结构预测结果如图1所示:α螺旋占比为51.08%,β折叠占比为17.88%,β转角占比为3.73%,无规则卷曲占比为27.31%。
为了研制抗原表位疫苗,必须确定抗原表位的精确位置。在本研究中,使用IEDB、Syfpeithi软件对MHC I类HLA-A*0201限制性T细胞表位进行预测,这两个软件分别用不同的得分值代表不同区域形成T细胞表位的概率。IEDB软件的预测结果如表2所示,排名前二十位的是G454-462、G499-506、G47-56、G498-508、G493-504、G498-506、G206-214、G493-503、G453-463、G454-463、G48-56、G213-220、G494-501、G494-505、G592-503、G499-508、G81-89、G496-506、G492-504、G286-293。使用SYFPEITHI软件预测结果如表3所示,排名前十七位的是G162-170、G333-342、G89-98、G161-170、G300-309、G339-348、G21-29、G57-65、G332-340、G339-347、G435-443、G310-318、G343-351、G428-436、G97-106、G173-182、G435-444。结合蛋白质的二级结构特点与两个预测软件的分析结果显示存在10个T细胞潜在优势抗原表位,分别为G48-56、G81-89、G162-170、G213-220、G333-340、G339-347、G435-443、G454-462、G494-501、G499-506。
表1 多房棘球蚴GLUT的氨基酸序列Table 1 Amino acid sequence of the EmGLUT
A:EmGLUT氨基酸序列图谱;B:SOPMA软件预测数据结果 蓝色:α螺旋;红色:β折叠;绿色:β转角;紫色:无规则卷曲
表2 多房棘球蚴EmGLUT的T细胞抗原表位IEBD预测结果Table 2 Analysis of the T-cell epitopes of EmGLUT using IEDB online prediction software
续表
表3 多房棘球蚴EmGLUT的T细胞抗原表位Syfpeithi预测结果Table 3 Analysis of the T-cell epitopes of EmGLUT using Syfpeithi online prediction software
使用Bcepred软件预测B细胞抗原表位(图2),主要对氨基酸序列分四个方面做评价,包括亲水性、弹性、抗原倾向和抗原暴露表面积[4]。预测结果如表4所示。亲水性较强的位点区域有7个:G45-54(YKPDNTSGLD)、G210-221(LKKKDEEAARKA)、G226-232(NGSENVD)、G294-300(GANVSSD)、 G324-331(EKAGRRT)、G454-460(PETKNRT)、G487-509(FTKEDEEAATALRRTDDDSKVDA)。弹性较强的位点区域有9个:G43-50(GYYKPDNT)、G80-88(IADGLGRKR)、G120-126(RAISGLN)、G207-215(WLYLKKKDE)、G255-261(ELFRRRD)、G321-329(PLLEKAGR)、G451-458(LFMPETKN)、G485-491(PVFTKED)、G496-504(TALRRTDDD)。抗原倾向性较明显的位点区域有16个:G3-27(GISGPLVLSIFTTCFGSSFLLGYNL)、G39-47(RFLVGYYKP)、G61-69(QTTSVLVIC)、G93-109(NNVVGIVGSIISSVCLV)、G158-174(ITIGILISYVLTLTHLL)、G195-202(LVISFFTV)、G251-257(FKFVELF)、G262-268(LRMPVIL)、G270-278(VLIQVMQQL)、G301-319(MLEYFVVGLGLLNVICTIV)、G332-340(LLLWPTLVL)、G342-353(VTLLLLVIFVNI)、G362-377(KMPFVLVSAVLVFIYV)、G405-411(YSLSQSI)、G428-454(GLLKGYVYLPYLVVVVVCWVVFFLFMP)、G470-478(FGSIVVGKR)、G482-488(LQSPVFT)。抗原暴露表面积较强的位点区域有7个:G44-50(YYKPDNT)、G207-220(WLYLKKKDEEAARK)、G246-252(QNQPEFK)、G257-264(FRRRDLRM)、G453-463(MPETKNRTFDE)、G487-494(FTKEDEEA)、G499-506(RRTDDDSK)。
为了进一步验证这些结果,使用ABCpred软件预测潜在的B细胞抗原表位。预测结果如表5所示,长度为10的优势抗原表位有G249-258、G220-229、G131-140、G88-97、G45-54、G182-191、G92-101、G54-63、G171-180、G58-67、G293-302、G126-135、G307-316、G153-162、G145-154、G24-33;抗原表位长度为12的优势表位有G186-197、G152-163、G338-349、G104-115、G181-192、G29-40、G288-299、G25-36、G6-17、G265-276、G79-90、G361-372、G357-368、G33-44;抗原表位长度为14的优势表位有G88-101、G128-141、G61-74、G193-206、G137-150、G344-357、G66-79、G404-417、G421-434、G42-55、G409-422、G428-441、G360-373、G229-242、G184-197、G3-16、G165-178、G48-61;抗原表位长度为16的优势表位有G82-97、G99-114、G42-55、G139-154、G175-190、G431-446、G470-485、G491-506、G452-467、G321-336、G218-233、G161-176、G408-423、G391-406。结合GLUT的二级结构特征和Becpred、ABCpred预测结果,共筛选出18个B细胞优势抗原表位:G6-16、G25-36、G45-55、G61-69、G131-140、G139-154、G158-174、G186-197、G210-220、G255-261、G256-276、G324-331、G362-373、G408-423、G428-441、G454-463、G487-491、G499-506。
黑色:亲水性;蓝色:弹性;黄色:抗原倾向性;棕色:抗原暴露表面积
表4 多房棘球绦虫GLUT的B细胞抗原表位Becpred预测结果Table 4 Analysis of the B-cell epitopes of EmGLUT using Becpred online prediction software
表5 多房棘球蚴EmGLUT的B细胞抗原表位ABCpred 预测结果 Table 5 Analysis of the B cell epitopes of EmGLUT using ABCpred online prediction software
续表
与传统疫苗研制技术相比,本研究使用方法具有巨大的优势,具有高效、省时和低成本的特点。识别抗原中的优势表位具有重要的现实意义,因此它成为了生物和医学科研人员的探索热点。Xuelei Liu等[10]利用SOPMA软件预测分析细粒棘球蚴铁蛋白的二级结构,利用IEDB、LEPS软件预测了7个B细胞抗原表位,利用SYFPEITHI、IEDB软件预测了4个T细胞抗原表位。Vargab Baruah等[11]使用NetCTL1.2软件识别新型冠状病毒2019-nCoV表面糖蛋白序列中的5个CTL表位,使用BepiPred2.0、ABCPred软件预测了3个连续B细胞表位和5个不连续B细胞表位,其中一些已确定的表位可能成为SARS-COV-2疫苗开发的潜在候选表位。Zhiwei Li等[12]使用生物信息学软件(ProtParam,SWISS-MODEL,Rasmol,BepiPred,SYFPEITHI,IEDB)预测布鲁氏菌外膜蛋白OMP2b、BCSP31表位,通过分析预测了OMP2b蛋白的3个Th细胞表位、7个CTL表位、8个B细胞表位和1个T-B联合双表位,还获得了BCSP31蛋白的3个Th细胞表位、6个CTL表位、9个B细胞表位和1个T-B联合双表位。
蛋白质二级结构所具有的特征是其能成为表位的重要参考指标之一,表位很容易在β转角和无规则卷曲中形成[13],在蛋白抗原表面很容易见到这两个结构特征,它们起到积极识别抗原的作用。多房棘球蚴GLUT中β转角占比为3.73%,无规则卷曲占比为27.31%,这些结果表明该结构位于抗原表位的分布区域内,具有明显的免疫原性。α螺旋与β折叠都含有氢键,且属于蛋白的内部结构,起到维持稳定蛋白质二级结构的作用。在多房棘球蚴GLUT中α螺旋占比为51.08%,β折叠占比为17.88%,故其蛋白质结构较稳定。
一种有效的候选表位不仅要具有合理的蛋白质结构,而且还应该能够诱导T、B细胞产生免疫反应,产生抗体。预测T细胞表位的目的是识别抗原中能够刺激CD4或CD8 T细胞的最短肽,这个过程最关键的是MHC分子与肽相结合。分析MHC分子自身结构特点发现,MHC Ⅰ类分子比MHCⅡ类分子高(预测T细胞表位的准确度)[14],MHC Ⅰ类分子表位预测精度估计在90%~95%。HLA的多态性赋予了机体应对各种病原体入侵的能力,不同类型的HLA可引起不同特异性和强度的免疫应答[15]。HLA等位基因的分布频率因不同种族和不同地区而异。HLA-A0201型限制性表位在我国汉族人群中最为常见[16]。因此,本研究使用IEDB、SYFPEITHI软件对GLUT的T细胞HLA-A0201限制性表位进行预测,结果预测出了10个EmGLUT的T细胞潜在优势抗原表位。
B细胞的表位是由B细胞受体或抗体特异性识别的[17],线性B细胞表位由连续肽段组成,这种结构易于成为抗原并诱导机体产生抗体。对线性B细胞表位的预测虽有限,但受到了广泛的关注。线性B细胞表位预测主要是根据氨基酸理化性质(如亲水性、电荷、暴露表面积和二级结构等)完成的[18]。亲水性参数反映了亲水性残基在整个抗原氨基酸序列中的具体位置[19]。亲水残基位于蛋白质表面,这种构象有利于亲水性残基与溶液中的极性分子结合;这种结合中和了蛋白质的电荷,使蛋白质保持其最低能量的状态[19]。因此,亲水性区域与表位高度相关。弹性参数表明该蛋白具有弯曲和折叠的能力[4];随着弹性程度的增加,蛋白质的多肽骨架具有更好的折叠和弯曲能力,从而促进二级结构的形成[4,20]。抗原倾向分析显示抗原的免疫原性区域的具体位置[4],潜在的显性表位可能位于抗原倾向高的区域[21]。暴露表面积分析反映了氨基酸残基在蛋白质外层的分布情况[4],抗原暴露的表面积增加了与溶剂分子接触的可能性[22]。据报道,ABCpred软件服务器的预测精度为65.93%[23],而根据氨基酸性质设计而成的Becpred预测精度为52.92%~57.53%[24]。这两个软件综合预测了18个EmGLUT的B细胞优势抗原表位。
本研究旨在获得EmGLUT抗原的生物信息学特征。本研究使用多房棘球蚴GLUT作为研究对象,因其在利什曼虫[25]、恶性疟原虫、华支睾吸虫[26]和血吸虫[26]等多种寄生虫的虫体中广泛存在,并都进行过功能鉴定。Takuya Kashiide[3]等首次从多房棘球蚴中分离出GLUT,并测出其氨基酸全长序列,在寄生虫的每个发育阶段都稳定表达。基于上述发现选择预测GLUT,看它是否可以作为抗多房棘球蚴疫苗的候选表位。根据文中所述5个软件预测结果表明EmGLUT分值较高的T细胞抗原表位有10个,B细胞抗原表位有18个。其中,5个同时具有T-B双表位,分别为G48-55、G162-170、G213-220、G454-462、G499-506。
本研究已经完成了对EmGLUT蛋白优势抗原表位的初步预测,下一步的工作主要是鉴定抗原表位和筛选优势抗原表位,这些结果将为后续EmGLUT的免疫原性与免疫特异性研究提供帮助,在未来有可能成功研制出用于多房棘球蚴病免疫预防和免疫治疗的多表位疫苗。