田 淇,李耀旺,李 博,2*
(1 中国农业大学食品科学与营养工程学院 北京100083 2 教育部功能乳品重点实验室 北京100083)
随着计算机技术的高速发展,定量构效关系(Quantitative structure-activity relationship,QSAR)作为1 种经济有效的方法,被广泛应用于各个领域的结构与活性、结构与性质关系的研究中。QSAR 是在化学、物理学、数学等多门学科的理论支持下,分析小分子化合物的结构特征,并与活性参数构建定量的数学模型,最终给出新化合物设计建议。
近年来,已知的活性肽序列急剧增加,并将持续增长。然而,具有相同生物活性的肽类通常具有不同的氨基酸组成和氨基酸数量,如苦味肽(Bitter peptides,BT)、ACE 抑制肽(Angiotensin I-converting enzyme inhibitor,ACE)[1]和抗氧化肽等。人乳、羊奶酪乳清、菜籽、核桃等多种蛋白质水解得到的抗氧化肽通常由3~16 个氨基酸残基组成[2-6]。然而,在建立活性肽的定量构效关系模型时,肽的序列结构大多由氨基酸描述符表征,要求所用的数据库中肽段具有相同长度。一方面,等长序列活性肽的数据量较少,不足以建立QSAR 模型;另一方面,采用单一长度的多肽数据库建立的QSAR模型,不能预测其它长度活性肽的生物活性,也难以给出这种活性肽的固有结构特征[7]。急需对肽段长度不一的数据库进行适当处理,使所有氨基酸序列转换为具有相同数量变量的数据。
Andersson 等[8]采用自交叉协方差(Auto cross covariances,ACCs)法对数据进行结构表征,使每个样本均产生相同数目的变量,从而使常规的建模方法得以应用。该方法起初用于蛋白质、肽和DNA 模式识别领域的研究,于1995年首次应用于大肠杆菌中多肽序列与性质关系的研究[9]。此后,ACCs 在生物活性肽领域的应用越来越广泛。Mee 等[10]采用ACCs 技术对不同长度的肽段进行均匀化。Nystroom 等[11]使用ACCs 技术研究了α-Melanotropin 类似物。Stecker[12]研究了神经连通性对自协方差和交叉协方差估计的影响。虽然ACCs法可以描述不同长度的肽序列,但是仍存在一些缺陷,比如难以解释QSAR 结果中具体的物理化学意义,因此迫切需要一种新方法来解决这个问题。
本研究提出两端排序法 (Two-terminal position numbering,TTPN),即分别从氨基酸序列的C端和N 端提取相同数量氨基酸残基的信息,使不同长度的序列转化为等长序列,并将不同长度的肽数据库描述为相同的X 矩阵。将疏水、空间和电子性质的载体 (Vectors of hydrophobic,steric,and electronic properties,VHSE)、疏水、电子、空间和氢(Hydrophobic,electronic,steric,and hydrogen,HESH)、物理化学性质分值(Divided physico-chemical property scores,DPPS)等物理化学意义较为明确,易于解释,信息量较大的描述符应用于3 组肽的QSAR 研究中[13-15]。
本研究以3 个活性肽数据库为材料,重点研究TTPN 相比ACCs 表征方法构建QSAR 模型时的有效性及其应用范围。首先对苦味肽、ACE 以及氧自由基吸收能力(Oxygen radical absorption capacity,ORAC)数据库同时使用ACCs 和TTPN 两种方法进行序列表征处理,建立描述变量矩阵X,活性数据矩阵Y。然后,建立QSAR 模型进行偏最小二乘法(Parital least squares,PLS)回归分析,用于比较这两种方法的优劣。其次,先前苦味肽的构效关系研究显示,其两端氨基酸对活性影响较为重要[16],故使用此数据库考察TTPN 法对两端氨基酸重要且序列长度不一的活性肽的有效性。对于ORAC 数据库,研究结果认为其中间位置的氨基酸最为重要[17],故用于考察TTPN 法对中间氨基酸重要且序列长度不一的活性肽的有效性。最后,考虑到苦味肽数量庞大,可以找到充足的等长肽样本,故按序列长度2~8 分成7 个数据库,使用TTPN 法进行结构表征后建模和统计分析,用于考察TTPN 法对序列相差极大时,不同长度的肽的活性的影响因素异同。
1.1.1 苦味肽数据库 关于苦味肽的研究已较为成熟,有充足的样本和明确的影响其活性的结构特征,适用于TTPN 法的验证。从文献中共收集到228 条苦味肽[18],其序列长度从1~14。虽然相同长度的肽数量充足,但主要集中在二肽(76 个)和三肽(52 个)。出于对TTPN 法的有效性及适用范围的考虑,做如下处理:
1)比较ACCs 与TTPN 法的试验中,为了使数据更具代表性,故从二肽和三肽中分别随机抽取20 个样本与其它序列长度的肽共同组成一个新的数据库(表1)。
表1 苦味肽数据库[18]Table 1 BT database[18]
(续表1)
2)在考察序列两端的位置对活性影响及TTPN 法的有效性时,逐次将最短序列的样本从数据库中删除,共产生6 个数据库,分别是二肽及以上的数据库、三肽及以上的数据库、四肽及以上的数据库、五肽及以上的数据库、六肽及以上的数据库和七肽及以上的数据库。
3)在考察序列长度相同的肽使用TTPN 法进行结构表征对其结果的影响时,选择序列长度为2,3,4,5,6,7,8 的肽,分别建立数据库,相应的样本量为76,52,23,12,20,16,11。
1.1.2 ACE 数据库 由于ACE 数据稳定,一些氨基酸描述符的建立是以ACE 数据为验证的标准,因此建立了ACE 数据库。ACE 抑制肽共有130个[19],序列长度2~8,其中二肽101 个。与苦味肽采取同样的方法,从二肽中随机抽取20 个样本与其它样本共同组成一个新的数据库(表2),使数据更具代表性。
表2 ACE 数据库[19]Table 2 ACE database[19]
1.1.3 ORAC 数据库 建立ORAC 数据库的目的与ACE 数据库相同,在于考察TTPN 法表征肽的可行性和有效性。ORAC 数据共26 个[19](表3),从二肽到二十肽,数据分布较为均匀。
1.2.1 ACCs 法原理 ACCs 法是依据方程 (1)和(2) 实现的,式中,p——氨基酸描述符变量的个数;lg——步长值,则生成的ACCs 的变量个数为lg×p2;j——ACCs 的维数;n——序列中氨基酸的个数;i——氨基酸的位置;z——氨基酸描述符[9]。处理的目的是将长短不同的序列统一为可以用于QSAR 建模的数据举证,如图1所示。
表3 ORAC 数据库[19]Table 3 ORAC database[19]
图1 ACCs 技术所要达到的效果图[20]Fig.1 Effect of ACCs Technology[20]
1.2.2 TTPN 法原理 从数据库中查找长度最短的肽段,以其氨基酸数量为基准,分别对每个肽的C 端和N 端取基准数量的氨基酸序列,组成新的用于表征其结构的序列。例如:在ACE 数据库中,肽的序列长度为2~8,那么就从C 端与N 端分别取2 个氨基酸长度的序列,组成新的用于表征结构的序列。计算方法见公式(3)。
式中,y——肽的活性;i——N 或C 端的氨基酸的位置;j——氨基酸描述符的变量个数;Ni,j——N 端第i 个氨基酸第j 个变量;Ci,j——C端第i 个氨基酸第j 个变量。例如,从N 端第1 个位置的氨基酸被指定为N1,它的3 个z 分数性质被描述为N1,1,N1,2,N1,3。从N 端到第2,3,4 位置的氨基酸残基分别为N2,N3,N4。同样地,C 端第1,2,3,4 位氨基酸残基分别为C1,C2,C3,C4。
1.2.3 PLS 回归分析 偏最小二乘回归(Partial least square regression,PLSR) 是目前最流行的回归分析方法之一,它能有效地解决变量之间的共线性问题。即使样本数量小于变量数量时,也可使用偏最小二乘回归建立回归模型[20-21]。
应用于研究氨基酸描述矩阵X 与活性数据矩阵Y 之间相关性的PLSR 分析均由本研究编写的PLS 程序处理,分析的平台为MATLAB software(7.6.0 version,The Mathworks,Inc.)。本次试验是验证TTPN 法的有效性及适用范围,故未分成校正集与预测集,数据全部用于建立QSAR 模型。使用交互验证作为内部验证,基于预测残差平方和得出主成分的个数,R2和相对标准偏差(Relative standard deviation,RSDc)作为校正集模型的评价标准。异常值影响着模型的质量,为了获得一个较好的模型和较好的预测能力,需要将一些异常值去除。在本文中,应用Hotelling's T2[22]和残差分析[23]两种方式考察异常点。
由自由基体系中的抗氧化肽构成的ORAC 数据库由于其序列长度分布较为均衡,作为序列长度不等问题的试验数据,具有较强的代表性。分别使用ACCs 与TTPN 两种方法对数据进行处理,然后进行PLS 回归分析。根据前期研究,采用氨基酸描述符VHSE 表征ORAC 数据库中的肽的结构特征[24]。表4为其建模统计分析表。从表中可以看出,应用TTPN 技术后所建立的QSAR 模型与应用ACCs 技术所建立的模型相比,提取的主成分数均为1。然而R2和Q2却相差较大,特别是Q2。应用TTPN 技术得到的QSAR 模型R2为0.847,远高于应用ACCs 技术所得到的0.411。对Q2而言,应用TTPN 技术的QSAR 模型为0.529,达到了建模的要求。然而应用ACCs 技术的模型Q2却小于0,也就是说,该QSAR 模型无效。
表4 ORAC、ACE、BT 数据库使用ACCs 和TTPN 方法后模型统计分析表Table 4 Comparing to TTPN and ACCs methods based on the ORAC,ACE and BT databases
仅使用ORAC 数据库验证TTPN 与ACCs 技术的优劣还不足以说明问题,故而ACE 数据库也通过这2 种技术进行分析,采用筛选出的最佳描述符HESH 表征其结构特征,进而得到相应的QSAR 模型,结果如表4所示。从使用TTPN 和ACCs 技术后所得到的QSAR 模型来看,使用TTPN 技术要明显优于使用ACCs 技术。TTPN 法所建立模型的R2和Q2分别为0.724 和0.599,表明该模型具有较高的可靠性。然而,使用ACCs 技术的QSAR 模型其R2和Q2分别为0.329 和0.038。结果表明,TTPN 技术比ACCs 技术更适合对ACE 数据库的数据进行信息提取和表征。
苦味肽数据量庞大,是众多研究者研究的热点,故对BT 数据库进行同样处理。选择最适合的DPPS 描述符描述其结构特征。ACCs 是一种有效的序列技术,其效果在BT 数据库中得到体现,然而仍不及TTPN 技术所带来的效果。从表4可以看出,使用ACCs 技术后,通过PLS 回归分析,提取了3 个主成分,而使用TTPN 技术却提取1 个主成分。从QSAR 模型结果来看,使用ACCs 技术处理后,其R2和Q2已达到QSAR 建模的要求(R2=0.676,Q2=0.583)。使用TTPN 技术得到的QSAR 模型其R2和Q2分别为0.718 和0.681。可见,对于建立苦味肽的QSAR 模型,TTPN 与ACCs 两种处理技术都是可行的,而使用TTPN 技术进行表征所建立的QSAR 模型更为优良。
由结果可知,虽然ACCs 对序列进行结构表征是一种不错的方法,但是并不理想,并不是对每种数据库都适合。而TTPN 技术相比而言,则显示出其优越性,且应用范围广泛,对ORAC 数据库中的抗氧化肽、ACE 抑制肽以及苦味肽,均具有良好的表征效果。除此之外,有研究证实TTPN 法对金属螯合肽[7]、自由基和脂质体系下的抗氧化肽仍适用[17,25]。
根据TTPN 原理,即以数据库中最短肽的序列长度作为基准,然后对肽的N 端和C 端取同样长度的序列组成新的序列用于结构表征。这也就是说,数据库中,最短的序列越长,越能包含序列中更多氨基酸的信息。为此,本试验选择了一个序列长度相差较大的数据库(BT 数据库)用于验证TTPN 法的应用范围,其序列长度从2~14,考察了序列长度2-14、3-14、4-14、5-14、6-14、7-14 的情况。建立了6 个数据库,分别使用TTPN 技术处理,然后进行PLS 回归分析,建立QSAR 模型。
表5为这6 个数据库应用TTPN 技术后,得到的QSAR 模型的统计分析表。其中HESH 为建模所用的氨基酸描述符。从数据库2-14 到7-14的统计分析结果看,R2逐渐升高(R2为0.717~0.888),RSDc 逐渐下降,Q2保持在0.7 左右。也就是说,随着序列长度差异的缩小,建立的QSAR 模型更为有效。可见,对于氨基酸序列(长度)差距较大时,TTPN 处理技术仍然是有效的,然而对序列长度差异较小的数据库效果更好。图2更为直观地显示出6 个数据库经过TTPN 技术处理后,建立的QSAR 模型的拟合能力。数据库2-14、3-14、4-14、5-14、6-14、7-14 分别对应图2a~2f。
表6为基于重要变量项目(Variable important project,VIP 值)计算的序列位置重要性排序,数据库2-14 和3-14 均显示出N1、C1位置的重要性,也就是说两端的氨基酸特别是N 端的氨基酸对活性影响较大,与先前苦味肽的构效关系研究显示“其两端的氨基酸对活性影响较为重要”这一结论相符[17]。随着序列长度的增加,对活性影响的序列位置也发生着改变,数据库4-14 与5-14 就显示出N 端与C 端附近位置的重要性,例如:数据库4-14 中的N3 与数据库5-14 中的C4 与N5。而数据库6-14 与7-14 除了显示出C 端位置重要性外(C2,C1,C3),也显示出序列中间位置的重要性(N6,N5)。这说明,随着序列长度的增加,可能由于肽的序列发生卷曲、折叠等变化,形成二级结构,进而影响了肽的活性。
表5 应用TTPN 技术分析数据库2-14、3-14、4-14、5-14、6-14、7-14 后建立的QSAR 模型统计表(HESH 氨基酸描述符表征)Table 5 QSAR results of databases 2-14,3-14,4-14,5-14,6-14,7-14 with TTPN method (HESH descriptor)
图2 苦味肽数据库2-14,3-14,4-14,5-14,6-14,7-14 的计算值和观察值Fig.2 Calculation value and observation value for BT databases 2-14,3-14,4-14,5-14,6-14,7-14
试验结果表明,数据库中最小的肽的氨基酸序列越长,则对较长肽的分析越有利,能包含长肽的信息越多,对研究结构特征与活性之间的关系越有利。
在TTPN 法应用于数据库序列长度相等的情况下,为考察其序列结构表征效果对建模的影响,采用BT 三肽数据库用于检验此种情况。从QSAR结果来看(表7),与普通建模方式相比(用数据库3 表示)、采用TTPN 技术处理后(用数据库3-3 表示)的QSAR 模型统计参数完全一样(R2=0.758,Q2=0.616,RSDc=0.103,A=1)。也就是说2 种方法建模所得的拟合效果丝毫不差,可见重复序列表征对建立QSAR 模型没有影响。
表7为基于VIP 总和计算出序列中重要位置的顺序。分析可知,数据库3 与数据库3-3 的结果相同,均显示出序列位置的重要性由C 端向N 端依次减弱。因此,基于以上结果认为使用TTPN 技术对序列等长数据库的分析不存在差异,是完全可接受的。
对于序列等长的数据库,应用TTPN 技术与常规建模得到的模型相同,仅增加几个与常规建模得到的相重复的变量(表7)。PLS 回归分析的主要目的是降低维数,由于多元数据的复杂性,难以找到主要因素,因此,PLS 回归分析采用主成分分
析方法,以降低数据维数,凸显重要因素,即主成分。因此,TTPN 法对短肽的重复描述对QSAR 研究结构没有影响。
TTPN 技术对数据库中长短不一的序列进行结构表征有一定的局限性,如果将最长序列肽的氨基酸信息全部包括,则数据库中最短肽的序列长度为其一半。为此,在BT 数据库的基础上,考察了以下2 种情况:1)考察数据库中肽的氨基酸序列长度为3~6 个;2)考察氨基酸序列长度3~14个。目的在于探索TTPN 技术对以上情况的作用效果。
表6 数据库2-14、3-14、4-14、5-14、6-14、7-14基于VIP 总和计算得出的重要序列位置的顺序Table 6 The rank of important positions calculated based on the VIP summation for databases 2-14,3-14,4-14,5-14,6-14 and 7-14
从QSAR 研究结果可知 (表7),3-3、3-6、3-14 数据库的QSAR 模型均可,都能建立起不错的模型(R2>0.75,Q2>0.6),也能较好地提取信息,主成分数均为1。基于以上结果,可以认为最长序列的信息“全部包含” 或者“部分包含” 对建立的QSAR 模型影响不大。从图3可以看出QSAR 模型拟合的效果。数据库3-3(或3)、3-6、3-14 建模结果分别对应图3a~3c。
表7 数据库3 以及应用TTPN 方法数据库3-3、3-6、3-14 进行结构表征后的QSAR 模型结果Table 7 Database 3 and QSAR model results after structural characterization of databases 3-3,3-6 and 3-14 using TTPN method
图3 数据库3、3-6、3-14 的计算值与观察值Fig.3 Calculation value and observation value for databases 3,3-6 and 3-14
表8为基于VIP 总和计算出序列中重要位置的顺序。对应于数据库3-3、3-6、3-14 所建的QSAR 模型结果,数据库3-3 与3 的结果显示出三肽中氨基酸所在序列位置的重要性由C 端向N端依次减弱。然而,当序列长度扩大到6 以上时候(六肽以上),则显示出N1位置的重要性。数据库3-6 与数据库3-14 的结果相似,只是N2和N3的重要性略有差异。由以上结果可知,对于序列不等长的数据库,经TTPN 处理后对数据库中氨基酸序列信息“部分包含”与“全部包含”进行比较,得到的模型相差不大,有小范围变动。
比较数据库3-3、3-6 的建模结果,随着序列长度增加(由三肽增加到六肽),发现活性肽的序列特征具有较大差异,最为重要的序列位置由C1变为N1(表8)。也就是说,随着序列长度的增加,对活性影响较大的序列位置发生变化。数据库3-6 所用TTPN 法处理仍然包含了各个肽段的全部序列信息,因此排除了TTPN 法本身的影响。推测这可能是由于长肽段(如五肽、六肽)本身所表现出的物理化学属性与三肽相比产生了不同的效果。无论如何,均为序列两端的位置对活性造成较大的影响,也从另外一个角度说明TTPN 法的可行性。
通过数据库3-6、3-14 的建模结果比较,说明序列信息的“全部包含”与“部分包含”得到的结果相差不大,对活性影响较大的序列位置并没有改变,仅为影响较小的位置发生了改变。这可能是对于序列长度在6 及以上的肽,形成了二级结构,对活性影响较大的位置为两端的位置以及形成二级结构后突出的部分。因此,对序列较长的肽,两端及突出的位置更加重要。因此,应用TTPN 法对数据进行结构表征是可行且有效的。
对比数据库3-14、7-14 建模结果的分析可知,数据库7-14 的QSAR 模型反映出N6 位置对活性的影响明显。随着数据库中肽序列长度的增加,序列中对活性影响的位置出现在序列中间部位,因此,序列越长,中间位置的氨基酸对肽段活性的影响越大。故TTPN 法更适合序列长度较短的数据库,对于序列长度较长的数据库 (六肽以上),则需要将序列中全部信息包括在内,方可全面对其进行结构特征分析。
表8 数据库3、3-3、3-6、3-14 基于VIP 总和计算得出的重要序列位置的顺序Table 8 The rank of important positions calculated based on the VIP summation for databases 3,3-3,3-6,3-15 and 7-14
本文使用ORAC 数据库、ACE 数据库以及庞大的BT 数据库,对分别采用TTPN 与ACCs 技术对肽表征后构建的QSAR 模型质量进行比较分析。研究显示,在3 个数据库中,TTPN 技术与ACCs 技术相比,不仅具有良好的表征能力,所构建的QSAR 模型也具有更好的预测和分析能力,而且能够阐明对活性具有重要影响的氨基酸残基的位置和特性。此外,TTPN 技术应用范围广泛,适合多种活性肽数据库。TTPN 法适用于肽段两端位置对活性影响较大的情况,特别是适合短链的寡肽数据库,对于序列长度较大的活性肽数据库,则需要将序列中全部信息包括在内,方可全面对其进行结构特征分析。综上所述,TTPN 是一种更有效且更适合处理数据库中不同长度肽序列的新方法。