谭 江,李亦舟,周 江
(1.重庆大学药学院,重庆 400030;2.北京大学化学与分子工程学院,北京 100871)
核酸是由核苷酸单体组成的生物大分子,是生物体重要的遗传物质,其结构具有多样性的特点,除了能够形成经典的DNA双螺旋结构[1]、RNA发卡结构[2]外,还可以形成诸如G-四链体[3]、i-motif[4]、Z-DNA[5]等非典型的高级结构。G-四链体最早由Davies等[3]在对鸟嘌呤核苷酸凝胶结构进行X射线衍射实验中发现,其结构是富G核酸序列的G碱基之间通过Hoogsteen氢键首先形成G-四分体平面,再由2层及以上的G-四分体通过π-π键堆叠而成。因G-四链体在癌基因的调控与表达过程的重要作用,引起了研究者们极大的兴趣。在人体内有许多可能形成G-四链体的富含鸟嘌呤的核酸序列,这些富G序列主要存在于端粒、基因启动子区及功能基因组等区域[6-10]。目前,G-四链体已经成为癌症等相关疾病的重要靶标,同时还在化学不对称催化[11-14]、生物传感器[15-18]等相关领域被深入研究。
G-四链体结构与性质的研究方法较多,如表面等离子体共振(surface plasmon resonance, SPR)[19-20]、圆二色光谱(circular dichroism, CD)[21-24]、差示扫描量热法(DSC)[25-26]、X射线晶体学(X-ray)[27-29]、核磁共振(nuclear magnetic resonance, NMR)[30-32]等,但是大多存在核酸样品用量大、数据不直观、操作复杂等局限性[38]。而质谱因其灵敏度高、准确度高、样品量少、分析速度快的特点,已成为研究G-四链体及G-四链体与小分子配体之间的非共价相互作用不可或缺的工具[33-43]。
1993年,Smith等[37]利用电喷雾质谱在乙二胺四乙酸和磷酸钠溶液中观察到G-四链体的存在。后来,Pauw等[33]在H2O-CH3OH-NH4OAc体系条件下进一步开展了G-四链体结构的质谱研究,发现G-四链体序列与NH4+的结合峰可作为判断G-四链体平面层数的依据,示于式(1):
NG-四分体平面层数-1=N铵离子的个数
(1)
Yuan等[39]同样利用电喷雾质谱研究了四链体 DNA的形成性质,发现XGGGGX序列(X=T, A, C)会自组装形成单纯的四链体,而不是杂链四聚体,并且再次通过质谱验证了中心配位的铵离子数目为 G-四分体平面层数减1。此外,G-四链体自身的序列变化乃至碱基突变对自身的二级结构影响也非常重要。周江等[44]采用电喷雾质谱(ESI-MS)和圆二色谱法研究了Kras基因G-四链体在部分碱基突变的构象转变,碱基突变使得G-四链体的结构构象发生变化,稳定性明显降低。
G-四链体可以由DNA、RNA、LNA和PNA通过静电引力相互作用形成,但形成G-四分体平面的内侧氧负离子会造成静电排斥作用,一般会导致形成的G-四链体结构稳定性差、多态性增加。而加入合适的阳离子恰巧能够中和G-四链体腔体内的负电荷,提高G-四链体结构的稳定性。Smith等[37]通过ESI-MS首次观察到K+、Ca2+、Na+和Li+对d(CGCG4GCG)4G-四链体的结合情况,随后报道了NH4+、K+、Na+、Ca2+、Mg2+、Ba2+、Pb2+等阳离子与G-四链体结合的质谱研究,且这些结果在大多数情况下与通过核磁共振获得的结果相近。其中,大多数阳离子都能起到稳定G-四链体结构的作用,然而并不是所有阳离子都能够稳定G-四链体。研究发现,阳离子对G-四链体的稳定能力主要与阳离子的半径、阳离子与鸟嘌呤O6的结合强度,以及阳离子水和自由能有关[45-46]。通常,阳离子对G-四链体的稳定性表现为Sr2+>Ba2+>K+>Ca2+>Na+、NH4+、Rb+>Mg2+>Li+≥Cs+。阳离子除了能够稳定G-四链体外,不同的阳离子还可能诱导G-四链体形成不同的结构类型。Lu等[47]通过ESI-MS和CD发现,PW17 G-四链体能够在同一体系条件下与Pb2+和K+竞争结合并形成不同构型的G-四链体。此外,阳离子浓度也可能影响G-四链体的结构类型。例如,在Na+低浓度条件下,PW17 G-四链体形成反平行结构;而在Na+高浓度条件下,则形成杂合G-四链体结构。
G-四链体结构的形成与稳定除了与阳离子有关外,还与溶液pH值有关。Yuan等[48]通过设置3种不同NH4OH/NH4OAc/AcOH的缓冲溶液,研究了溶液酸碱性对Bcl-2 G-四链体[d(G3CGCG3AG2A2G5CG3)]形成及质谱检测的影响。在NH4OAc缓冲溶液条件下,通过ESI-MS检测到自由缠绕的单链DNA以及分子内的G-四链体基峰,缠绕的DNA单链离子峰的相对强度为基峰的70%。在碱性溶液中,G-四链体DNA的离子峰仍为基峰,但是自由缠绕的DNA单链离子峰的强度有所增加。然而,与中性条件和碱性条件不同之处是,在酸性条件下(pH 4.0)的ESI-MS谱图中只观察到G-四链体的分子离子峰,但信号强度相对减弱,几乎看不到自由缠绕的DNA单链离子峰的存在。这表明,虽然碱性条件下不利于分子内G-四链体的形成,但酸性条件也会抑制带负电荷DNA的质谱信号,不利于G-四链体的质谱检测。因此,通常选择接近生理条件pH 7.4的NH4OAc缓冲溶液作为质谱研究G-四链体的溶液条件。
在G-四链体的质谱分析过程中,通常需要向样品溶液中添加一定比例的挥发性有机溶剂以发挥去溶剂化作用,并提高G-四链体检测的信噪比。目前已报道的用于G-四链体ESI-MS分析的常用有机溶剂有甲醇[49-52]、异丙醇[53-54]、乙腈[55]等,但有机溶剂对提升G-四链体的检测能力各不相同。通常情况下,有机溶剂的去水合作用越强,其诱导能力越显著,越有利于G-四链体的检测。Gabelica等[56]研究发现,当与ESI-MS兼容的有机溶剂(甲醇、乙醇、异丙醇、乙腈)加入到含有端粒DNA序列(d(TAGGGTTAGGGT))的NH4OAc水溶液中,除了会增加二聚体G-四链体的形成速率和稳定性,还能够使其从反平行结构向平行结构转变。另外,Yuan等[57]在对miR-1587 G-四链体的研究过程中发现,常见的3种有机溶剂去水合作用及分子拥挤效应的顺序为:甲醇>乙醇>乙腈。而在这3种高浓度有机溶剂条件下,并不能促使miR-1587形成单链的G-四链体,而是促使miR-1587形成二聚G-四链体,并且分子拥挤试剂的去水合作用越强,其诱导能力越显著。此外,该课题组还发现,提高有机溶剂的比例虽然有利于miR-1587形成G-四链体,但是过高的G-四链体浓度会影响G-四链体的结构转换和解离。因此,合适浓度的有机溶剂和富G核酸序列对G-四链体的质谱检测非常重要。
G-四链体作为非典型的核酸二级结构,表现出重要的结构多态性,不同的结构可能与其功能密切相关。因此,研究生理和病理条件下G-四链体的真实结构,对于了解相关致病机理及以G-四链体为靶标的前药筛选极为重要。但是,生理条件下的G-四链体处在高浓度的KCl和NaCl中,而要通过质谱实现类生理条件下G-四链体结构与性质以及小分子配体的筛选研究,首先要克服KCl、NaCl对G-四链体的检测和数据质量的影响。目前,通常采用离子半径与K+接近的挥发性NH4+(NH4OAc)模拟高浓度KCl、NaCl条件,然而NH4OAc中的G-四链体比KCl溶液中G-四链体的稳定性更差、多态性更强。同时,NH4+还易与磷酸基团进行特异性结合,导致谱图复杂性增加,与生理状态下G-四链体的真实结构存在较大差异[58]。因此,该条件不能真实反映G-四链体在细胞环境内的真实构型。对此,Gabelica等[58]开发了与ESI-MS 兼容的TMAA+KCl缓冲体系,用于ESI-MS研究G-四链体在生理条件下的拓扑结构,与等效的NH4OAc相比,TMAA+KCl混合物通过抑制G-四链体外部的非特异性加合物从而降低谱图复杂性,有利于形成与生理状态下高浓度KCl和NaCl(生理相关阳离子)类似的拓扑结构。此后,Richter等[59]检测了TEA/HFIP+IPA+KCl体系下K+与G-四链体的结合状态,相比于TMAA/KCl体系,能够在不影响生理折叠的情况下提高对G-四链体的检测灵敏度及有序性(相比于NH4OAc,KCl的多电荷峰消失),实现对亚微摩尔级别G-四链体和小分子配体复合物的分析。最近,Bartlett等[60]采用九氟叔正丁醇(NFTB)和辛胺(OA)体系进行了G-四链体的质谱研究,相比于含六氟异丙醇(HFIP)和三乙胺(TEA)的传统流动相组合,能够进一步降低NH4OAc-CH3OH-H2O条件下G-四链体的质谱图复杂性,提高对G-四链体的灵敏度,有望用于KCl条件下G-四链体拓扑构型的研究。
研究G-四链体在质谱条件下的碰撞解离行为,可以进一步了解其在气相条件下与配体以及阳离子的结合比例及稳定性。2002年,Thomas等[61]首次通过质谱CAD碎裂模式研究G-四链体及其小分子配体的结合。此后,Mazzitelli等[62]发现,具有不同链数量和不同结构的G-四链体在CAD碰撞模式下会产生不同的断裂途径。在一定的能量碰撞情况下,四条链组成的G-四链体会被解离成三链和单链,相应核酸序列的碱基也会存在不同程度掉落的情况,而双链组成的G-四链体主要通过前体离子的鸟嘌呤碱基丢失而仅存在部分解离。此外,在三条链组成的G-四链体CAD谱图中观察到更低的单链分离比例。这表明,四链体的不同序列或方向可能会影响G-四链体的碎裂途径。
Yuan等[63]发现,3种对Bcl-2 mRNA G-四链体具有高结合亲和力的天然生物碱(两面针碱、黄藤素和麻黄碱)会导致G-四链体不同碰撞解离现象。在低能量状态下,G-四链体及其配合物在较低的碰撞能量下均丢失NH4+。当碰撞能量增加时,复合物中碱基的丢失比小分子丢失更容易,这表明,生物碱分子与mRNA G-四链体之间的非共价结合作用较强,并不是依靠简单的静电吸附发生结合。近期,Lee等[64]观察到Na+一种有趣的碰撞诱导解离行为,其特征是在低能量状态下优先同时丢失2个G配体,在碰撞激活Na+结合的G-四分体时,可以轻松产生中性氢键二聚体,再次丰富了对G-四链体结构及性质的认知。
RNA G-四链体是细胞内主要的非常规RNA二级结构,具有重要的生物学和病理学作用,受到研究者们的重视[65-72]。Kim等[73]最早在大肠杆菌中发现长度为19个碱基的RNA片段能够形成G-四链体结构,随后又陆续报道了在mRNA、长链非编码RNA和端粒末端中存在RNA G-四链体。与DNA G-四链体结构不同的是,RNA为单链结构,主要存在于细胞质中,不存在像DNA一样的双链竞争平衡,能够稳定存在于细胞结构中,可以更直接地参与很多生理过程。因此,探索RNA的高级结构对解释诸多关键生物学过程尤为重要。
在常规条件下,DNA一般可形成3种不同的G-四链体构型,但是RNA由于呋喃糖环上2’-羟基的存在限定了糖苷键的取向,增加了RNA G-四链体与水分子以及分子内作用力,使RNA G-四链体通常只能形成热稳定性更高的正平行结构[74-77]。因此,在电喷雾质谱实验中,RNA G-四链体通常表现为较低加和电荷的现象,一般为2~4电荷,而长链序列电荷一般为5~11。通常,RNA G-四链体能够被小分子稳定并调控,从而达到抑制致病基因表达的目的。Richter等[78]通过质谱、CD等仪器手段研究发现,HIV-1核衣壳蛋白NCp7能够结合并展开HIV-1 RNA G-四链体促进DNA/RNA双链体形成,从而允许逆转录进行。但小分子配体的加入却阻碍逆转录过程在逆转录酶和NCp7的作用,这种新的机制将为研制抗HIV-1药物提供一定的帮助。另外,RNA容易发生二聚现象。Yuan等[57]在对miR-1587与小分子配体的质谱研究中发现,miR-1587可以在较高浓度NH4+和分子拥挤环境的诱导下形成上下堆叠的二聚G-四链体结构,并能够与2种药根碱衍生物按照1∶2的比例结合,但药根碱本身不能够诱导miR-1587形成G-四链体二聚结构。此外还发现[79],与miR-1587具有相同序列的DNA-1587和dU-DNA-1587均不能形成二聚G-四链体结构,说明RNA G-四链体发生二聚可能会受到阳离子、核苷酸、小分子配体等多种因素的影响。Li等[80]利用电喷雾电离质谱与圆二色光谱发现,与乳腺癌相关的miR-92a启动子区域的富含G序列能够在KCl或NH4OAc溶液中形成平行的G-四链体结构。在高浓度NH4OAc情况下,ESI-MS显示具有4个铵离子的二聚G-四链体结构的峰。
此外,通常需要使用退火处理以解开RNA的其他二级结构,从而使RNA G-四链体的结构更偏向于单一结构,但也存在少数情况[81-83]。例如,Xu等[84]借助NMR、CD和ESI-MS等仪器,发现含有8-溴鸟苷修饰的人类端粒RNA 序列形成反平行结构的RNA G-四链体。这些研究增加了我们对于RNA G-四链体结构性质更深层次的了解。
筛选高亲和力和选择性结合诱导G-四链体形成并稳定G-四链体的配体小分子对于相关疾病的治疗具有重要的意义,目前已有文献报道通过G-四链体小分子配体调控癌症基因的表达[85-86]。质谱在非共价相互作用的检测方面具有高灵敏度、高准确度,并可获得化学计量比等优势,因此广泛应用于G-四链体的小分子识别研究。根据G-四链体的特征来看,G-四链体与小分子可能的结合位点包括:G-四链体平面、G-四链体中心通道、侧链碱基、磷酸骨架及其临近沟区等[87]。因此,将G-四链体配体分子按照其结构特征以及作用力类型的方式分为3类[88-89]:1) 平面堆叠结合的分子;2) 沟区结合分子;3) 侧链结合分子。
配体对G-四链体的亲和力和选择性可以根据质谱中G-四链体及其结合离子峰强度的特定参数进行评估。为了评价小分子配体与G-四链体的结合能力,常使用参数IRa值定义小分子配体与G-四链体结构结合能力的强弱[33,48],示于式(2):
IRa=ΣIr[G+nP]m-/
ΣIr[G+nP]m-+ΣIr[G]m-
(2)
其中,m为电荷数,n为结合小分子的个数。分子部分表示G-四链体与小分子配体复合物所有谱峰的相对强度之和,分母部分表示所有包含G-四链体峰的相对强度之和。因此,IRa值表示所有结合占总G-四链体的比例,该值越大,表示G-四链体-小分子配体复合物的比例越高,即G-四链体与小分子配体的亲和力越强。根据这一评价算法,后续就可以利用质谱对配体小分子的结合亲和力进行评价。
目前已报道的G-四链体配体分子大多属于平面堆叠结合小分子,其母核包括喹啉、吖啶、蒽醌等芳香基团,主要以π-π键与G-四链体的G-四分体平面相互作用。Yuan等[38]利用电喷雾质谱法研究了端粒G-四链体、双链DNA与二萘嵌苯类衍生物(Tel03)、PyPyPyγImImImβDp、ImImImβDp等小分子之间的相互作用,首次在同一体系中检测到小分子对双链、G-四链体DNA特异性的识别,发现Tel03分子与端粒G-四链体的结合最强,且有特异的选择性识别。质谱图中同时显示出多种核酸结构及相应结合物的峰,凸显了质谱的化学专一性。Yuan等[48]还利用前述IRa质谱算法研究了7种小分子与bcl-2序列四链体之间的亲和性强弱顺序, 并找出了2个能够引起四链体与双链 DNA转化的小分子。
在平面结合的分子基础上,加入能够增强配体分子结合力、选择性和亲水性的正电荷或易于质子化的氨基团等亲水基团,可以增强沟区或侧链区的静电力、氢键或范德华力。例如,Neidle等利用质谱发现,TMPy4[90]、BSU6039[91]、四取代萘酰亚胺分子能够与d(TAGGGTTAGGG)2G-四链体的平面进行堆叠以及与侧链结合。当配体小分子的共轭平面大于双链中互补碱基对的平面时,会增加小分子配体与G-四分体的π-π堆叠作用,使G-四链体的稳定性增加,同时实现对G-四链体的选择性识别。Carla等[92]利用ESI-MS与XRD对人类端粒DNA G-四链体与具有平面结构、带有正电荷以及具有芳香基团的[Au(9-methylcaffein-8-ylidene)2]+形成的复合物进行表征,发现[Au(9-methylcaffein-8-ylidene)2]+能够在双螺旋DNA存在下选择性地结合DNA G-四链体结构。Alessandro等[93]通过ESI-MS对3种不同的G-四链体结构(人类端粒重复序列的寡核苷酸HTelo21、2种人类致癌基因启动子c-myc、c-kit)、双链DNA(DK66)与苯并吡喃类生物碱塔斯品碱及其合成类似物的非共价相互作用进行研究,发现塔斯品碱对人类端粒重复序列HTelo21和双链寡核苷酸DK66具有不同化学计量比的结合。这一研究展示了质谱技术在化学计量比确定方面直观、准确的特性。
Yuan等[94]在具有旋光异构的分子对N-myc G-四链体识别的质谱研究中发现,当DNA样品与粉防己碱配体分子的浓度比为1∶4时,可以观察到N-myc G-四链体结合1个和2个粉防己碱分子的G-四链体复合物峰,最终结合2个配体分子的复合物峰为基峰,几乎无法观测到不结合小配体分子的G-四链体峰。在相同的实验条件下,异粉防己碱与N-myc G-四链体结合峰的相对强度较弱,在50%以下,不结合配体分子的N-myc G-四链体为基峰。实验结果表明,配体小分子的旋光异构性对其与G-四链体的结合有着重要影响。
当配体分子骨架具有一定柔性,其分子结构与G-四链体不规则沟区相匹配时,也会增大结合选择性。例如,Li等[95]在利用质谱对c-myc G-四链体的研究中发现,双苄基异喹啉类生物碱——粉防己碱和防己诺林碱能够选择性地与c-myc G-四链体的单碱基螺旋桨侧链形成中等尺寸的沟区进行结合,同时具有显著的G-四链体/双链DNA选择性和平行链/杂交链G-四链体选择性。此外,粉防己碱还能够诱导端粒G-四链体序列发生构象转变。另有报道发现,偏端霉素A也能够与d(TGGGGT)4 G-四链体的沟区进行结合[96],而芳香族化合物diamidine DB832与特殊的G-四链体结合时[97],会有2个小分子堆叠在G-四链体平面上,此外还会有3~4个分子结合在该G-四链体的沟区。Yuan等设计了1个环状分子cβ,利用质谱验证其可以高选择性地识别c-myb原癌基因G-四链体[98]。理论计算显示,cβ环状分子是在大沟区与c-myb 四链体侧链部分以氢键相互作用。
常规的质谱技术很难确定G-四链体的构型,将传统质谱与其他技术联用将有助于G-四链体结构的解析,包括H/D交换质谱法(HDX-MS)、红外多光子解离质谱法(IRMPD-MS)、离子淌度质谱法(IM-MS)等。
尽管氢-氘交换质谱已被广泛用于分析蛋白质的结构和动力学[99],但该技术用于G-四链体结构与性质分析的报道较少。理论上,寡核苷酸上的H/D交换可能包含以下几个交换位点:核糖的5’-和3’-羟基末端、核糖的2’-羟基末端、磷酸基团、以及碱基的氨基和亚氨基。因此,H/D交换可用于G-四链体的结构分析。研究表明[100],DNA G-四链体在三甲基乙酸铵溶液和ESI源的条件下,磷酸基团完全H/D交换,而交换的碱基会保持标记状态,不会进行反向交换。H/D交换率不取决于它们的电荷状态和非特异性加合物的存在,而是在很大程度上取决于寡核苷酸的二级结构(氢键状态)。此前,Vairamani和Gross[101]报道了凝血酶结合适体GGTTGGTGTGGTTGG的H/D交换,在气相H/D交换条件下,与不带阳离子的适配体相比,带有K+或Sr2+结合的适配体具有更紧凑的结构。Gabelica等[102]研究发现,四链体[(TGGGGT)4·3NH4+]与相应的单链TGGGGT,DNA双链体和其他测试的四链体相比,在正离子和负离子模式下能实现较快的H/D交换。此外还发现,G-四链体的H/D交换主要取决于基本位点对氘化溶剂的可及性。与液相条件下不同的是,气相状态下结构越紧凑的G-四链体更容易发生快速的H/D交换。
离子淌度质谱是基于离子在飘移管中与缓冲气体碰撞时的碰撞截面不同,将离子按大小和形状进行分离,实现对蛋白质、多肽、核酸及复杂化合物异构体分析的重要工具,因此可以用来对G-四链体结构进行构象分析。2005年,Bowers等[104]首次利用离子淌度质谱进行了G-四链体的结构研究,并成功得到了4种不同G-四链体的碰撞横截面积(CCS),而平行结构和反平行结构具有不同的碰撞横截面积。Gabelica 等[105]发现,G-四链体碰撞横截面积与末端堆积和嵌入模型明显一致,末端堆积是具有G-四链体结构与配体分子的首选结合模式。周江等[106]利用离子淌度质谱验证了c-myc序列退火后构象从单体四链体转化形成二聚四链体。最近,Gabelica等[107]比较了TMAA/KCl体系中端粒RNA和DNA G-四链体,并对离子淌度质谱是否有助于分析G-四联体拓扑结构进行了评估,发现气相高电荷状态下的G-四链体结构更接近溶液状态下G-四链体的真实结构。但是在液相条件下的低电荷G-四链体在气相条件下的结构将进一步紧缩,与真实状态下的G-四链体结构具有差异。
在过去的20多年,已经对G-四链体有了较为广泛深入的研究,表明G-四链体结构在调控许多疾病基因的表达过程中发挥着重要的作用。当前的质谱技术在表征核酸高级结构方面具有快捷、灵敏、直观,以及能够实现化学计量比等检测优势。但是,G-四链体结构具有动态多样性,容易受到多种因素的影响,质谱能够提供的构象信息有限,因此在G-四链体的结构及性质研究中,常联合搭配使用NMR、CD、SPR等技术对质谱结果进行验证,从而获得更加全面的结构信息。今后,随着解析G-四链体多样性结构的质谱技术与算法的突破,以及用于区别不同构型、不同核苷酸类型的G-四链体探针的开发,将会为G-四链体的质谱研究带来更大的突破。