成瘾的行为学动物模型研究

2021-01-04 06:34:48李佩云景漫毅吴宁宋睿李锦

中国药物滥用防治杂志 2021年2期

李佩云，景漫毅，吴宁，宋睿*，李锦*

（1.军事科学院军事医学研究院毒物药物研究所，抗毒药物与毒理学国家重点实验室，神经精神药理学北京市重点实验室，北京 100850； 2.南京中医药大学，南京 210023； 3.解放军总医院药剂科，北京 100850

1 前言

药物成瘾是一种由遗传和包括成瘾性药物在内的环境因素共同作用于机体引起的一种慢性复发性脑疾病，给成瘾者自身和社会造成了严重的危害，是重大医学生物学和社会学问题[1]。令人遗憾的是，到目前为止，国内外尚无理想的抗药物成瘾防复吸的有效药物及其他干预手段[2]。深入探讨药物成瘾的神经生物学机制是寻找防复吸药物靶点，发现有效的防复吸药物的重要途径，而建立具有高临床代表性的动物模型又是开展药物成瘾神经生物学机制研究的基础。

药物成瘾的研究整合了广泛的研究领域，包括社会科学，心理学，精神病学，行为学，药理学和遗传学。历史证明，行为学研究是成瘾概念提出的重要依据。在大约一个世纪前，行为学研究对药物成瘾概念的确立，理解成瘾的心理学现象发挥了重要的、不可替代的作用。即使在今天，药物成瘾的每一个神经生物学的重大突破都离不开行为学的发现和进展。可以毫不夸张地说没有行为学的进步就没有人类对成瘾的了解和认知深入。虽然动物模型永远无法完全再现人类成瘾的复杂社会和个体原因，但其仍然能提供高效严格的手段来精确描述环境、药物暴露以及成瘾前后机体的行为和认知表现，为客观研究成瘾提供了科学手段[3-4]。

2 药物成瘾动物模型

用动物模型对人类疾病的病因学、发病机制、行为特征和防治进行研究是人类研究疾病的重要的、不可替代的手段。动物模型是指由人类利用动物，在符合动物伦理前提下建立的，可以用来研究人类疾病某一个或几个特征的特殊有机体[5]。药物成瘾的模型是动物模型的一类，能较好反映临床药物成瘾的神经生物学、心理学、病因学、临床治疗学的特征或者至少能模仿临床药物成瘾的某一或某些方面。药物成瘾的动物模型是否理想，主要从可靠性、测试效度、实用性和敏感性四个方面进行评估[6]，其中可靠性和测试效度是最为关键的环节。可靠性是指，药物成瘾模型必须允许在标准条件下对自变量（成瘾性药物）进行精确且可重现的操控，并能够对因变量（成瘾性行为）进行客观且可重现的测量。可将测试效度分为预测效度、病因效度、表观效度及结构效度四个组成部分。预测效度是指，理想的动物模型应对临床治疗学中有效的药物表现出疗效；病因效度指临床上具有成瘾潜能的成瘾性药物能诱发动物出现类成瘾样行为；表观效度则是指模型的因变量（实验动物在成瘾情况下的行为）与人体状况（即病理症状）之间的相似性，这在模型设计中尤为重要，但成瘾的行为表现在实验动物和人类之间可能存在很大的物种差异性，造成客观评价实验动物的行为输出与人类药物成瘾行为之间相似性的困难。结构效度是指，模型动物行为表现与成瘾患者特定病理过程的心理或神经生物学机制的一致性。基于以上标准，根据操作范式设计的不同，目前广泛用于成瘾研究的动物模型主要分为：自身给药模型，条件性位置偏爱模型，行为敏化模型，脑电自我刺激模型以及自给光模型等[7-8]。

2.1 自身给药模型

根据中国精神障碍分类与诊断标准（CCMD-3）及国际疾病分类（IDC-10）的精神与行为障碍类别目录以及美国精神科医师协会出版的精神疾病诊断与统计手册第五版（DSM-V），一般将药物成瘾定义为物质使用障碍（Substance use disorder）[9]。物质使用障碍者核心行为特征是不可控制用药，具体表现为在一定剂量范围内药物使用量逐渐增加、用药行为不可控和明知用药会给身体带来伤害的不可控制用药；不可控制觅药，主要表现为对药物的强烈渴求和不计后果的强迫性觅药；高复吸倾向。自身给药模型最显著的特征是实验动物通过特定的自主行为操作（压杆或鼻触）获取药物。根据获取药物途径的不同可将自身给药模型分为静脉、口服、脑区自身给药模型，以静脉自身给药模型最为常用。自身给药模型涵盖了药物成瘾全过程：①形成：偶然用药、规律用药和强迫用药；②戒断和消退；③复吸。虽然不同种类的成瘾性药物作用的初始靶点各不相同，但均能通过上调多巴胺奖赏环路（中脑腹侧被盖——伏隔核）神经传递功能而产生正性强化（Reinforcement）效应，这是药物成瘾的起始机制，维持规律用药的内在动力。随着训练时间的延长和用药量的增加，操作性行为的条件化作用导致了行为反应增加，使得用药行为由原来的目标导向性行为转变为刺激反应行为，也就是通常所说的强迫性用药行为。中脑边缘皮质多巴胺系统的关键核团，中脑腹侧被盖、伏隔核以及前额叶皮层等发生可塑性改变成为介导行为长期维持的神经解剖学结构基础。在经过戒断消退后，相关药物、线索及应激条件下可通过激活发生可塑性改变的核心脑区伏隔核诱发复吸觅药行为的出现[10-11]。因此，基于以上研究基础形成了自身给药模型的构建原理。

自身给药模型最初是在非人灵长类动物中发展起来的[12]。1962 年Weeks 开创性地成功建立了大鼠静脉吗啡自身给药模型[13]。在固定比率程序下将吗啡注射到活动相对自由的大鼠中，大鼠很快建立了压杆操作行为与获得吗啡的关系，实现了通过压杆或者触鼻获得药物。事实上，除了致幻剂（LSD）[14]，其他成瘾性药物均可以诱导动物建立自身给药行为。因此，该模型较好地满足预测效度、表观效度和结构效度。在预测效度中，成瘾性物质均能诱发动物和人类的自主用药行为，通过自身给药实验能够预测潜在成瘾物质的成瘾阈值及特征（如渴求的程度，即用药次数），并且可用来评价抗成瘾物质对抗成瘾的药效学作用。在表观效度中，该模型中实验动物的用药及觅药行为与人类表现相似[15]。成瘾者主要通过静脉或黏膜吸收形式获得成瘾性药物，动物则可通过自主鼻触或压杆触发药物注入静脉，或者药物（酒精）释放到食槽中通过口服饮用。在结构效度方面动物成瘾的机制与人类的相似，这是研究成瘾机制和治疗成瘾最重要的方面。如上所述，成瘾性药物的强化作用是导致动物和人类自主用药的根本原因，在强化作用的驱使下，随着药物的反复使用，出现中枢神经系统的病理改变，同时药物渴求逐渐强化，用药次数、剂量逐渐增加，最终演变成难以控制的强迫用药、强迫性觅药行为[16]。

自身给药的训练程序包括固定比率给药和累进比率给药[17]。固定比率（Fixed ratio, FR）给药是指动物每完成一次或一组固定的操作次数（触鼻或压杆）后就能得到一次药物（FR1：压杆1 次获得1 次药物注射；FR2：压杆2 次获得1 次药物，以此类推）。该程序反映了实验动物的操作反应能力和药物获得之间的直接关系，即揭示了成瘾性药物本身的强化作用。而累进比率（Progressive-ratio，PR）给药，则指动物每次获得药物的操作数量成倍数或指数级递增，即：1，2，4，6，9，12，15，20，25，32，40，50，62，77，95，118，145，等，而断点（Break point）则是该程序的评价指标，即动物获得最后一次药物所付出的最大的劳动量。该程序得到的断点主要反映被测成瘾性药物成瘾潜能的高低，在一定程度上也可反映动物的觅药动机的强弱。

目前在评价药物的潜在成瘾性或者抗成瘾药效学作用的研究中，通常以啮齿类动物为研究对象，采用FR 给药程序（每天训练1 次，每次2～4 小时，训练14天）或PR 给药程序（在FR 程序训练达到稳定的自身给药基础上，每天训练1 次，每次不少于6 小时），给予不同剂量的待评价药物观察是否能够诱导啮齿类动物的自身用药行为从而确定其强化作用的程度（潜在成瘾性）或者改变成瘾性药物诱导的自身给药行为（抗成瘾），及对应的量效关系。

上述训练流程设计仅凸显成瘾性物质的正性强化作用，并不能反映出强迫性用药和强迫性觅药的特征，Clark 等人发现缺水的猴子同样可以形成静脉（颈内）自我给予盐水注射的行为[18]，因此并非真正意义上的“成瘾”。设计出更符合成瘾核心特征的模型更利于揭示成瘾的行为药理学或者神经生物学机制，这就要求对动物的持续用药或觅药的强迫性程度进行量化。Koob 和Everitt 设计了长时程（Extended access 或Long access）的自身给药训练流程（每天训练一次，每次训练从2小时提高到6 小时以上），或者延长自身给药的训练周期（Prolonged 或Extended access，每天训练一次，连续训练50 天以上）[19-20]，随着训练时程或周期的延长，实验动物的用药行为呈现递增反应。而短时程训练组（Short access，每天每次训练不大于2 小时，训练周期不多于25 天）则通常会达到相对稳定的用药行为平台期，每天用药量无显著性的变化。

但长时程用药的训练程序也存在一定的局限性，无法体现在无药可用状态下的强烈渴求状态和强迫性觅药行为，而后者才是诱发复吸行为的主要心理机制[21]。因此，根据结构效度的要求需要区分用药与觅药的状态并进行量化比较，即最大限度地避免由药物本身引起的兴奋或镇静的干扰，对觅药程度进行定量分析。双链异质取药强化程序（Two-link heterogeneous chain schedules of reinforcement）[22]和二级强化程序（Secondorder schedule of reinforcement）[23]为解决这一问题提供了较为理想的实验方法。

2.1.1 双链异质取药强化程序

该程序中设置觅药压杆（压杆后无药物注射）和获药压杆（压杆后有药物注射）。在FR1 给药程序下训练流程分为两步进行。首先程序开始后只出现获药踏板，训练动物获得稳定的自身用药行为。随后开始引入觅药踏板进行双链异质测试，此时获药踏板收回，觅药压杆出现，动物通过压觅药杆后随即启动随机时间间隔（Random interval, 60～120 秒），RI 结束后觅药压杆收回，获药压杆伸出，蹬该踏板即可获取药物注射，随即进行固定时间的不应期（15～20 秒内压动获药压杆不能获取药物注射）。不应期结束后，获药杆收回觅药杆出现开始下一轮的训练。该模型所设置的不同压杆较好地区分了觅药和用药行为，通过检测寻找觅药压杆的潜伏期、压杆数量或响应率，以及寻找取药压杆的潜伏期和压杆数量较理想的分离了渴求状态和目标获取行为。采用该程序研究发现在可卡因自身给药早期即短时程训练后，获药杆行为显著高于觅药杆其行为不依赖于背外侧纹状体[4，8]；但随着训练的延长，觅药杆的寻求行为显著升高，并失去对获药杆的兴趣即对药物作用本身追求降低成为习惯性/强迫性行为，该行为依赖于背外侧纹状体的失活[24]。因此，该程序清晰明确地反映了成瘾者的渴求状态，为揭示成瘾的强迫性行为的神经生物学机制提供理想的动物模型。

2.1.2 二级强化程序

成瘾相关环境线索是诱发复吸的最危险因素[25]。所谓线索也被称为二级强化物，即中性刺激被赋予奖赏激励价值的特性[26]，其是成瘾患者在无药可用状态下觅药行为形成、维持、消退和诱发的基本元素[27]。因此研究线索在药物成瘾中的调控作用为阐明成瘾复吸的神经机制就显得尤为重要。在上述自身给药训练程序中，线索与药物同时出现无法排除药物的直接药理作用，而在异质链训练程序中虽然探究了觅药状态，却无法体现线索条件性刺激的二级强化作用。因此，模拟和建立高临床特征的无药可用状态的觅药行为不仅要分离成瘾性药物的直接药理学效应，而且需要深入解析动物在线索条件性刺激的影响下按压杠杆以寻求药物的行为，从而真正反映成瘾者的渴求状态。二级强化（Second-order schedules）的自身给药程序设计中，重点研究了实验动物对二级强化物（即条件性线索）而非药物本身进行反应，在表观效度上更具有临床指导意义。

首先采用固定压杆次数（FR）或者固定时间间隔（Fixed interval, FI）程序训练动物在获得药物注射的同时伴随灯光等条件性线索的呈现，建立稳定的自身给药行为。然后进行二级强化程序的训练，不同于第一阶段的训练，该程序中将FI 和FR 进行组合，通常有四种组合 FI（FR：S）、FR（FI：S）、FI（FI：S）、FR（FR：S），其中S（Stimulation，表示线索出现）。FI（FR：S）组合的使用最为广泛，比如FI 10 min（FR3：S）中，子程序是FR3，即实验动物每压杠或者触鼻3 次呈现一次S（如灯光、声音等），10 min 后，呈现S 的同时给予成瘾性药物。经过该程序的训练，动物通过压杆获得的是二级强化物条件性线索而非药物本身，更为准确地反映了觅药行为。研究发现，线索匹配组动物的压杆行为相对于无线索刺激组显著增高[28]，撤掉或改变条件性线索动物的压杆行为显著降低，而线索再次出现压杆行为则快速恢复[29]。因此，二级强化自身给药模型揭示了线索是促进动物成瘾觅药行为的充分必要条件，更准确模拟了人类成瘾行为中相关线索的重要作用。

综上所述，自身给药模型较好地满足了可靠性和测试效度的有效标准，为研究成瘾的提供高临床特征的动物模型。然而其也存在一定的缺陷，静脉插管在长时间的实验训练过程中经常发生堵管、漏液、导管脱落以及严重感染等问题，导致实验数据采集中断及样本量的缺失[30]。因此，手术和训练维护的难度是该模型的主要瓶颈。

2.2 自给光模型

光遗传学技术被认为是21 世纪神经科学领域最引人注目的技术革新[31]，通过在神经细胞中表达光敏蛋白，响应不同波长的光刺激实现对神经细胞的实时调控和记录，具有独特的高时空分辨率和细胞类型特异性两大特点[32]，突破了精准地探究特定神经环路和大脑功能与行为之间的直接因果关系的技术壁垒。在神经科学领域得到了飞速的发展，在成瘾[33]、学习记忆[34]、睡眠障碍[35]、帕金森症模型[36]等多个神经精神疾病中得到广泛应用。

目前研究认为中脑边缘皮质的多巴胺奖赏中枢在是驱动成瘾的始动因素，其中多巴胺（Dopamine, DA）神经元则是介导其作用发挥的最重要神经结构物质基础[37]。因此借助于光遗传学技术可实现多巴胺神经元进行实时操控结合自身给药操作范围可为揭示成瘾的致病机制提供理想的动物模型[38]。首先将光激活蛋白特异性地表达在中脑腹侧被盖区（Ventral Tegmental Area, VTA）的DA 能神经元上，将刺激光纤埋置VTA 脑区训练小鼠自给光行为[39]。随着激光刺激强度和时间的延长，其压杆或者触鼻行为显著升高[40]；在训练过程中，自给光用药行为强的小鼠在经历电击等不可避免的负性刺激后仍然保持自给光行为；经过消退训练后，线索可显著诱发觅光行为的重建[39，41]。刺激VTA 的DA神经元建立的自给光模型复制了成瘾的核心特征：不计后果的强迫性用药行为以及复吸行为。因此自给光模型可作为成瘾研究的行为学范式，有助于理解和阐明非物质成瘾形式（如性成瘾、网络成瘾等）背后的神经机制。本实验室采用该技术建立的自给光模型，科学解析了成瘾所涉及的神经元类型及多巴胺神经投射通路特定环路[42]，为成瘾的治疗策略提供新视野和新方法。

2.3 条件性位置偏爱模型

条件性位置偏爱模型（conditioned place preference, CPP）是指，将两种不同的非条件刺激（药物注射）与两种不同的环境（条件性线索）配对，环境线索的空间配置、颜色、地板，甚至嗅觉线索尽量保持不同。然后在不同的环境中分别给动物注射药物或对照溶剂，进行条件性匹配。在CPP 的形成阶段，根据拉丁方和无偏设计将对实验环境线索无偏性实验动物进行药物与环境的匹配训练。然后在无药物注射的情况下，受试对象被允许进入两个隔间，如果受试对象对药物配对环境产生了偏好，则表明药物具有奖励特性使得环境线索成为条件性刺激而被赋予了奖赏价值。所以，CPP 就是基于巴甫洛夫条件刺激学习记忆原理而设计的[43]。1976年，Rossi 和Reid 就报道了基于CPP 现代范式的第一项研究[44]，尽管早在20 世纪40 年代就已发表了关于非人灵长类吗啡慢性处理后展现了对药物配对环境的偏好[12]，但该研究对非条件性刺激和条件性刺激并未做严格的对照，无法排除动物的天然偏好对CPP 实验结果的影响。Rossi 和Reid 将停留时间作为实验动物的偏好指标，到目前为止该实验流程已被大家认同，并且不断进行修改和完善，自20 世纪80 年代以来CPP 模型在药物成瘾研究领域得到广泛应用。

尽管一些研究者认为CPP 是寻求药物行为（或药物渴望）的模型，其本质上依赖于巴甫洛夫关联，因此单纯的CPP 不能解释药物寻求和用药行为，这可能是自身给药模型更具优势的原因。然而，相比较于自身给药等操作式强化动物模型，CPP 自身也具有独特的优点，比如受试对象是在植物性神经系统支配下进行的行为反射，是一种低级的反射活动，无须太多的学习和训练，实验周期短，简单易行且廉价[45]。因此，CPP 模型也能满足预测效度、表观效度和结构效度的要求，可广泛应用于成瘾研究。

2.4 行为敏化模型

在动物模型中，成瘾性药物直接或间接引起多巴胺升高引起的动物活动性升高是其兴奋性作用的直接表征[46]。那么根据成瘾性药物的作用特点，行为敏化模型是指，在反复或固定间隔给予成瘾药物会导致的运动行为的逐渐增加[47]。然而，精神运动行为的增加并非简单的活动性的升高，而是需要对行为反应的各个组成部分进行表征，因为药物对行为的影响可能存在竞争关系，因此其具体表现应视不同环境和动物种属而有所不同，如成瘾研究中常用的啮齿类动物，表现为在相对狭窄封闭的环境内水平和竖直运动量的增加，或者反复小幅度刻板运动（如咀嚼、摇头等）的增多，在试验中常以自发活动模型或旋转行为模型来测量[48]。刻板行为的增加势必影响活动度的升高，因此对于行为敏化的分析要进行多维度的测量[49]。

行为敏化模型是基于“激励敏化”理论[50]，该理论认为，药物成瘾的本质是心理“需求”的过度放大，尤其是由线索引发的心理“需求”，而不一定是“喜好”的放大，这是因为易感个体与多巴胺相关的动机系统发生了长期的变化，即神经敏化。早20 多年前，对于动机敏化理论最大的争议在于，没有证据表明人类表现出行为或神经过敏[51]。而近10 年的研究发现，反复间歇性地给予苯丙胺后，人类可产生持续的行为的致敏作用（例如，眨眼反应，活力和能量升级），在苯丙胺高剂量给药时表现的尤为显著[52]。与此同时，即使停药一年后给予苯丙胺仍能引起人体内多巴胺的敏感性释放，并且相关线索也会在与奖励相关的大脑结构中引起强烈的多巴胺反应[53]。此外，在吸毒成瘾者中，通过眼动追踪注意力的检测中，成瘾患者更倾向与毒品线索的追踪，并且以与激励敏化一致的方式吸引注意力[54]。综上所述，人类的成瘾致敏理论也逐渐得到广泛的认同。因此，行为敏化模型具有良好的结构效度，并且操作简单易行，实验周期短，是研究成瘾机制和药物成瘾潜能和抗成瘾药效评价的良好模型。

2.5 脑电刺激模型

20 世纪50 年代，来自麦吉尔大学的Olds 和Milner Olds 两位科学家研发的颅内自我电刺激的实验模型发现了脑内的奖赏中枢系统，这一里程碑的发现标志着成瘾神经机制研究的一个重要转折点[55]。该模型的基本操作原理是通过将电极直接插入特定部位如脑内侧前脑束，然后将大鼠放入经典的斯金纳操作性条件反射箱中，大鼠通过不断地压杆获得电刺激，该行为被称为正性强化行为。因此确定了奖赏中枢的神经解剖位置及物质基础，即从腹侧被盖区到伏隔核，嗅结节，杏仁核，眶额皮层以及内侧前额叶皮质，其中多巴胺神经递质是有效的物质基础，这引发了人们对大脑中多巴胺系统相当大的兴趣，认为其奖励属性是天然物质（食品）和成瘾性药物的强化基础[11，56]。该模型的设置，为自身给药模型的建立打下了良好的实验基础。与自身给药模型不同的是，该模型通过不同的电流刺激表征个体大脑的奖赏刺激阈值，通过压杆行为能够灵敏地量化药物的欣快或厌恶效应，并且可测量成瘾戒断过程中所产生的烦躁程度。因此，该模型也具备了良好的表观效度和预测效度可灵敏地检测和评价未知药物的奖赏效能和潜在成瘾性。

3 结语

药物成瘾作为慢性复发性的神经精神类疾病，不同于肿瘤、心血管等疾病，其发病和诊疗均具有特殊性。因此，研究和建立稳定、可靠的高临床特征动物模型成为研究疾病的关键环节。成瘾作为一种独特的人类现象，而单个模型只能捕捉成瘾某个阶段的特性，因此就需要在多种模型中进行互相印证，才有可能全面系统地揭示药物成瘾的行为药理学和神经生物学基础。在未来，不断完善成瘾的临床前动物模型，不能仅限于药物强化或神经生物学适应性研究，还需要包括通过反复接触成瘾性药物（长时程用药）来模拟成瘾患者的强迫性用药特质，而该特征也正是不同体系诊断标准所强调的。只有多管齐下，优势互补才能为深入理解成瘾的病因和病理生理学提供新的见解。