张博,何依然,刘迎春,王琦
(浙江大学化学系,浙江杭州310027)
四链体是核酸的一种非经典二级结构,由序列富含鸟嘌呤碱基(G 碱基)的DNA 分子构成。四链体通常由四段单链DNA 组成,每一段单链DNA 序列含有2~4个连续的G碱基,称为G片段。在每个G片段内,相邻的G碱基相互堆叠,形成层状结构。而在四个单链DNA 分别形成的G 片段之间,在空间结构上能够共面的G 碱基则以4 个为一组,通过氢键结合,形成正方形平面结构,称为G 平面,如图1 所示[1]。通过实验所得G-四链体构象发现,一个G-四链体结构通常含有2~4个相互堆积的G 平面。在两个G 平面之间的中心区域,通常存在一个一价阳离子,可以与G平面碱基富集的π电子相互作用,稳定G平面结构。
图1 G平面中的Hoogsteen配对Fig.1 Hoogsteen pairing in G-quartet
G-四链体能够引起广泛关注是由于其结构特性与癌症的发生、发展密切相关。通过研究表明,基因的核心区或启动子区存在多种能形成G-四链体结构的DNA 序列,这些序列在调控细胞微环境过程中起到多种关键的作用,如促进组织浸润和转移、促使细胞无限增殖、逃避凋亡等[2]。其中,Pu22 DNA G-四链体是人源原癌基因c-myc 启动子区域G-四链体的常用研究模型之一[3],其原型DNA 序列Pu27是人DNA上与癌症有关的一个重要片段,它在生物学中是细胞骨髓细胞癌基因(cellularmyelocytomatosis oncogene,简称c-myc)的重要组成部分。该种基因编码的核蛋白称为myc 蛋白,可用于进行转录,对细胞增殖起到重要的作用。分子生物学研究表明,myc 蛋白会与MAX(myc-associated factor X)蛋白发生二聚,进而结合到多种与细胞增殖相关的基因的E-box(enhancer box)区域上,对目标基因的转录过程起调控作用[4]。c-myc 基因在正常组织中的表达受到上游信号的严格调控。正常细胞在一个细胞周期中,myc 蛋白水平在细胞由静止期转向有丝分裂开始(G0/G1)时急剧上升,然后回落到基线水平[5]。而在血液肿瘤[6]以及胃癌[7]、肝癌[8]、宫颈癌[9]等多种人类实体肿瘤组织的癌变细胞中,c-myc 基因呈现异常的高表达状态,说明c-myc基因与肿瘤的发生和发展关系密切。
由于myc蛋白在肿瘤细胞生长增殖过程中有着特殊影响,对此进行了许多以其为核心的抗癌策略研究。例如:抑制myc 基因的表达,阻止myc 蛋白与MAX 蛋白之间的二聚,阻止myc-MAX 二聚物与DNA 结合,保护与二聚物可能发生作用的主要几种目标基因等。其中,通过设计药物配体结合myc 基因启动子区域的G-四链体序列,以干扰其正常生理功能,是目前受到较多关注的一种策略。肿瘤细胞的myc 基因的功能受到干扰以后,可以使癌细胞难以摄取养分,影响生物物质合成,细胞周期停滞,还可能诱导细胞凋亡的发生。因此,G-四链体与小分子配体的结合可以阻止癌细胞增殖。
在G-四链体的配体中,杂环生物碱作为一类具有药用价值的特异性结合配体,引起了许多研究者的关注。这些可以作为G-四链体配体的杂环生物碱主要包括喹啉衍生物、吖啶与吖啶酮衍生物、异喹啉及其衍生物等杂环化合物[10]。异喹啉类生物碱是众多含有异喹啉结构单位的生物碱及其衍生物的统称,包括:原小檗碱类、苯骈菲啶类、阿朴啡类、双苄基异喹啉生物碱等。异喹啉生物碱来源于自然界中的某些药用植物,是生物碱中分布最广、种类最丰富的一种,有着非常多样的生理活性。因此异喹啉生物碱作为药物有获取成本低的优势。目前亦发展了较多有关异喹啉生物碱的合成与修饰手段。所以,异喹啉类生物碱对于药物筛选是一个很有价值的化合物库。
有关Pu22 DNA G-四链体与异喹啉类生物碱结合过程的机制的研究中,成效较为卓著的有小檗碱及衍生物对c-myc 基因表达效应的一系列研究[11]。在基于两者结合特质的工具性应用中,文献也报道了利用小檗碱、血根碱、白屈菜红碱等异喹啉配体与Pu22 DNA G-四链体的竞争结合,构成核酶适配体,建立生物荧光检测方法[12]。基于目前的实验与模拟研究,已知异喹啉类生物碱与G-四链体的作用类型主要包括π-π 堆积、静电作用、小沟作用、疏水作用等,方式主要可分为外部堆积与插入式两大类别[13]。分子模拟中发现配体主要可以通过非共价键作用,结合在G-四链体的碱基、尾端G 平面或两者之间,分别可称为碱基堆积、尾端堆积、夹心式堆积。
目前已经有一些研究通过结合分子动力学模拟的方法,对G-四链体及配体的结合机制进行考察。如Verma 等[14]用分子对接和其他分析表征手段研究了c-myc G-四链体和硫磺素T的结合机制。Li等[15]提出过自身结构不是平面的配体在G-四链体上的结合方式。另有Li 等[16]、Huang 等[17]拓展了G-四链体配体种类的界限,结合分子动力学模拟方法研究了甾体类小分子和G-四链体的结合机制。因此,结合计算机模拟的手段,对原癌基因启动子区域的G-四链体与配体结合进行分子动力学研究,可以提供更多有关结合动力学过程、配体-受体各部分相互作用与构效关系的信息,对靶向抗癌药物的设计提供指导性建议。
实验选取了表1所示的四种具有相关性的异喹啉类生物碱作为研究对象,其中,血根碱是一种研究较多的典型G-四链体配体。在作为G-四链体配体的研究中,已经被证实为有效配体的还有二氢血根碱。其余两种未见作为G-四链体配体的研究或报道。四种配体在生理活性上均有细胞毒性,在细胞实验中显示促进癌细胞凋亡或抑制癌细胞代谢的功能。
为了考察配体结构对配体与G-四链体结合作用的影响,在选取四种异喹啉类生物碱时考虑了分子结构的相关性和差异性(图2)。其中,二氢血根碱为血根碱的二氢还原产物,白屈菜碱的母核为血根碱母核的四氢还原产物,南天宁碱的母核中环的排布则与其他三种不同,分别用来考察电性、平面结构及母核对作用的影响。
表1 本工作选取的四种异喹啉类生物碱Table 1 Four isoquinoline alkaloids selected in this work
本实验选取的G-四链体结构为Pu22 G-四链体DNA 的结构,且结构数据来自于数据库Protein Data Bank 上的结构文件(PDB ID:1XAV)[22]。配体的分子结构根据文献由GaussView 绘制,初始构型经过Gaussian09 软件的优化,并获得净电荷等参数[23]。
模拟中对DNA 分子采用的是parmbsc1 力场[24]。这种力场是AMBER 力场的一种优化版本,其对G-四链体等一些核酸的特殊结构具有一定的适用性。对配体采用的力场为GAFF(general AMBER force field)[25],是一种广泛用于药物分子研究的力场,包含了更多用于描述有机物基团的参数。
在构建体系时,DNA 分子被放置于边长为6 nm的立方盒中心,随机插入5 个同种配体,然后使用TIP3P 模型的溶剂水分子进行溶剂化填充,最后向体系加入钾离子、氯离子以使体系成为电中性,体系浓度为生理浓度0.1 mol/L。
图2 四种异喹啉类生物碱的分子结构Fig.2 Molecular structure of four isoquinoline alkaloids
模拟体系构建完成后,采用Gromacs 4.5 对体系进行分子动力学模拟[26]。每个G-四链体-配体体系首先分别采用能量最小化处理,然后先后在NVT、NPT 系综条件下分别进行时长为0.2、0.5 ns 的预平衡。最后运行时间长度为80 ns 的分子动力学模拟。其中,模拟时间步长为2 fs,并采用了周期性边界条件。体系温度设置为310 K,并用Nose-Hoover 恒温方法进行控制[27-28],气压为1 bar (1 bar = 100 kPa),并采用Parrinello-Rahman 恒温方法进行控制[29],其中等压恒温系数为4.5×10-5bar-1。相互作用能的计算包含Lennard-Jones 势能和库仑势能,两者的截断半径均设为1.0 nm,通过Lorentz-Berthelot 法计算非键作用,可以获得Lennard-Jones 势能[30]。而长程库仑作用则采用PME(particle mesh Ewald)进行计算[31]。最终构象及轨迹的可视化部分使用VMD 软件完成。
实验选取的四种异喹啉生物碱中,血根碱与白屈菜碱已有实验证据或计算模拟证明具有和G-四链体结合的能力[32]。为检测在分子模拟环境下四种异喹啉类生物碱是否都能与G-四链体进行很好的结合,实验首先考察了模拟时间内,体系中所有异喹啉生物碱和G-四链体DNA 的总相互作用能变化。计算相互作用能的结果(图3)显示,四种体系在80 ns 的平衡模拟中,总相互作用能的趋势进入一个相对平稳阶段,说明四种异喹啉和G-四链体都可以形成较为稳定结合。相互作用能的总值在-400~-600 kJ/mol 之间,说明四种异喹啉配体和G-四链体之间可以形成比较强的相互作用。
通过分析结合过程中的运动轨迹和结合过程中的瞬时构象,如图4所示,可以观察到异喹啉类配体和G-四链体的结合主要存在如下四种独立的结合区域:头部(5'端)G 平面,侧面的7 号T 碱基(T7)、11 号T 碱基(T11),尾部(3'端)的21 号A 碱基(A21)。主要分为两种类型:G 平面与G 平面外的独立碱基。且在结合过程中,每个结合的药物分子都能够分别与特定的单个结合区域进行结合。计算配体平面到碱基平面的距离以及四个结合区域上配体-碱基的相互作用,可以发现配体均处于碱基发生π-π 作用的范围内与碱基相互作用,且Lennard-Jones 势是相互作用的主要贡献者。
图3 四种异喹啉配体和G-四链体的相互作用能Fig.3 Interaction energy of four isoquinoline ligands and G-quadruplex
图4 异喹啉配体在G-四链体上的四个结合区域Fig.4 Four binding regions of isoquinoline ligand on Gquadruplex
T7、T11 和T21 三个碱基均分布于G-四链体的外围。模拟的轨迹显示,与G-四链体上其他非G 平面上的碱基比较,这三个碱基的活动较少受到G 平面的限制,持续发生振动和翻转。这一特点使这三个结合区域的碱基与异喹啉配体有较多的作用机会。
对四种结合区域上结合发生的概率(图5)、配体-结合区域的平均相互作用能(图6)进行统计和计算。统计分析对每种体系进行三次平行实验模拟的结果显示,各药物分子与G-四链体结合时相互独立,G-四链体存在与多个药物在不同位点同时结合的情况,且每个作用区域最多只能结合一个药物分子,不存在多个药物分子作用同一位点的情况。位于G-四链体5'端的G 平面,是上述四种位点中,结合发生的概率最高、平均相互作用能最强的位点。因此,上述四种结合区域相互独立,且最具优势的结合区域是G平面。配体与G平面的结合机理将进行进一步探讨。
为进一步探究配体在G 平面区域内的作用细节,对配体与G 平面作用构象以及能量进行了进一步探究。首先通过模拟得到的轨迹,分析比较了G平面在与异喹啉类结合后自身构象的变化。如图7所示,G平面在与白屈菜碱配体发生结合时,构象由平面变化为向中心塌陷。这一形变可能是在白屈菜碱配体非平面的分子结构的影响下发生的。而G平面在与实验中其余三种分子结构为平面型的配体结合时,自身平面的构象基本不变。
图5 配体结合在四种位点上的概率Fig.5 Probability of ligand binding at four sites
图6 四个结合位点和相应配体的相互作用能Fig.6 Interaction energies of four binding sites and corresponding ligands
同时,观察结合构象可得,由于异喹啉配体的分子尺寸仅有G平面的大约一半大小,在G平面上,配体通常只与G平面上的两个碱基结合。在结合状态下,配体在G 平面上方的区域可能会有小幅度的左右运动或旋转,调整自身的取向,但观察到最多的状态是异喹啉配体与G平面上的8号G碱基(G8)、13号G碱基(G13)结合。
为进一步研究配体在G 平面上的主要作用位点,实验将G 平面上的四个G 碱基及其所带的脱氧核糖和磷酸部分,分别作独立的原子组,计算每个部分对配体的作用能大小。
计算血根碱、二氢血根碱以及南天宁碱与G 平面各碱基的相互作用能的结果(图8)显示,在配体与G 平面区域形成较为稳定的结合以后,配体与G平面的相互作用能在表观上基本保持不变。而G平面的各个部分对配体的作用,由于配体在G 平面上发生一定范围内的平行运动,产生交替,基本符合此增彼减的趋势。
图7 四种异喹啉配体和G平面的结合构象Fig.7 Binding conformation of four isoquinoline ligands and G-quartet
配体与G平面各部分相互作用能的分析结果显示,在构成G平面的四个G碱基中,与配体的作用能较强的是8 号、13 号G 碱基。这个发现支持异喹啉生物碱倾向于8 号G 碱基、13 号G 碱基结合位置这一现象。产生这种结果可能是因为5'端G平面附近存在5'末端的碱基对配体与4 号、17 号G 碱基的结合构成了空间位阻效应。以上结论表明,G 平面附近5'末端的碱基对配体在G平面上的结合存在一定的引导作用。
另外对于前述的特例白屈菜碱,为了进一步探究配体分子结构对结合构象的影响,通过控制桥头碳原子手性、设置位阻两种方式,设计得到了具有类似白屈菜碱的不共面结构的两种配体Z01、Z02,如图9 所示。其中Z01 在与G-四链体的结合构象中,显示了与白屈菜碱比较类似的结果。Z01 由于具有和白屈菜碱类似的非平面结构,和G 平面结合后,使G 平面发生了变形。由于Z01 和其中个别G碱基的作用能较大,Z01 还破坏了G 平面的完整性,如图10 所示。而Z02 由于位阻较小,不能使配体核心保持刚性的立体结构,因而在与G-四链体进行结合的过程中,倾向于平面结合。
在Z01 与G 平面结合的模拟过程中,G 平面由原先的平面正方形结构不断变化,形成了键角在68°~108°,二面角平均近30°,键长也相应增加的立体构型(图11)。其中,在30 ns 时,G 平面形变程度最大。G 平面4 个残基间能量的变化(图12)也说明了Z01 分子能够减少G 平面4 个碱基间的相互作用,对G平面的稳定性产生一定影响。
图8 异喹啉配体和G平面上各个碱基的相互作用能Fig.8 Interaction energy between isoquinoline ligands and each base on G-quartet
图9 白屈菜碱及设计配体构象Fig.9 Conformation of CHL and designed ligands
图10 Z01与G平面的结合构象Fig.10 Conformation of Z01 bound to G-quartet
为综合考察G-四链体的5'末端碱基对异喹啉配体-DNA 结合的影响,比较了同一种配体在G 平面这一结合区域中,形成的两种稳定结合构型。
如图13 所示,在结合构型A 中,G-四链体的5'末端碱基和血根碱分子的距离较远,没有碱基在ππ 作用的距离范围内。构型B 中,G-四链体的5'末端和血根碱配体的距离较近,存在位于π-π 作用的距离范围内的碱基,可能与之发生π-π 作用。处于构型B 的G-四链体与血根碱的结合区域,实际上并非仅仅G平面,而是一个形似口袋的结构,由G平面构成“口袋”的下半部分,由5'末端构成“口袋”的上半部分。而在构型A中,这种“口袋”并未完全形成,但也可以使异喹啉配体和G-四链体达到稳定结合的状态。随着5'末端的自由运动,当其与G 平面上的药物分子进行相互作用,就可由构型A 转换成构型B。
图11 模拟过程中G平面结构变化示意图Fig.11 Schematic diagram of G-quartet structure changes during simulation
分别计算两种构型与G-四链体相互作用能,并与血根碱配体和G 平面、5'末端、G-四链体整体的相互作用能大小进行比较(图14),得出两种结合构型下,G 平面与血根碱的结合作用能基本相等,而5'末端和血根碱的相互作用能在构型B中明显比构型A 大,导致了以构型B 与G-四链体结合的配体与DNA 分子的总相互作用能,比以构型A 结合的配体的结合作用能强。因此,5'末端与配体的相互作用,具有增加配体和G-四链体的结合强度的作用。
图12 与Z01结合过程中G-平面四个碱基相互作用能变化示意图Fig.12 Schematic diagram of interaction energy change of four bases in G-quartet during binding with Z01
图13 血根碱在G平面上结合的两种结合构型Fig.13 Two configuration of SAU binding with G-quartet
图14 两种结合构型中G-四链体不同部分的作用能比较Fig.14 Comparison of action energies of different parts of Gquadruplex in two binding configurations
为进一步研究5'末端各个碱基在作用中的贡献大小,分别计算了结合构型B 状态下5'末端每个碱基和血根碱的Lennard-Jones 势的大小。如图15结果显示,5'末端的1号T碱基和血根碱的范德华作用能最强,可达到-40 kJ/mol。
图15 构型B中5'端各个碱基对血根碱的作用Fig.15 Interaction of 5'terminal bases on SAU in configuration B
以上结果说明,5'末端不仅对异喹啉在G 平面上主要结合的碱基有引导性的影响,其中某些碱基也可以直接与配体发生π-π 作用,增加配体与G-四链体总相互作用强度。这种作用有助于配体和G-四链体的结合。
本论文通过分子动力学模拟G-四链体与异喹啉类药物分子结合的过程,分析了两者结合的能量、作用类型以及结合位点,阐述了异喹啉类药物与G-四链体的结合机理,为设计能够与G-四链体结合的抗癌药物提供了有用的信息。结论具体如下。
(1)通过模拟轨迹与能量分析发现,G-四链体能够与多种异喹啉类生物碱进行稳定结合,且结合的主要作用为π-π 作用,主要位点为G 平面的G8、G13两个碱基。
(2)在G-四链体与异喹啉类生物碱配体结合过程中,异喹啉类生物碱的空间构型能够影响结合的G平面稳定性。
(3)G-四链体的5'末端能够增强配体与G-四链体的稳定结合。
(4)异喹啉类生物碱自身的空间结构会对G-四链体稳定性产生影响,对于靶向破坏含G-四链体的DNA 结构方向有潜在的价值,然而其他种类及特征的药物与G-四链体的结合情况以及药物结合与药物分子的结构关系还有待进一步探究。