周士兵 翟纯艺
条件反射理论是巴甫洛夫的高级神经活动学说的核心内容,指在一定条件下,外界刺激与有机体反应之间建立起来的暂时神经联系。条件反射为后天形成,有经典条件反射和操作式条件反射两种形式,操作式条件反射亦称“工具性条件反射”,是由美国行为主义心理学家斯金纳于20 世纪30 年代在经典条件反射的基础上创立的理论。他为研究动物的学习行为,采用精确的测量习得反应技术,设计了一种由动物进行操作活动的实验箱(通常称斯金纳箱),用来测定动物完成压杆或按键活动的特定反应。除了可训练大鼠,还可训练猫、家兔和猕猴等实验动物进行该项操作。
操作式条件反射理论在心理学或教育学中有较多的研究和广泛的应用,在警犬训练中也常应用此基本原理。通过警犬训练实践发现,斯金纳操作式条件反射中相关的中文名词,存在含义混淆或使用混乱的问题,这会对研究和使用这一理论的训导员或心理学研究者造成误导,本文对此进行辨析和修正。
在警犬训练中,训导员、助训员或环境作用于犬的刺激,从犬的体验及好恶角度来考虑,可以将刺激划分为奖励和惩罚。奖励是犬喜欢的刺激,多指在特定情境下能使犬产生愉悦感的刺激,比如喂给犬喜欢的食物、抛给犬喜欢的玩具、让犬到喜欢的区域玩耍等。惩罚是犬厌恶的刺激,多指在特定情境下能使犬产生疼痛感或恐惧感等负面情绪的刺激,比如使用电击脖圈使犬感受到电刺激的疼痛、用硬木棒击打犬的背脊或尾根部使其产生疼痛感等。犬有趋利避害的本能,在操作式条件反射形成过程中,将奖励或惩罚作为犬某一动作的后果,会对某一动作的形成起到促进或减弱的作用。
在警犬训练中,建立条件反射时,较多的情况是由训导员或助训员等对警犬予以奖励或惩罚。在某些特殊情况下,也可以将已经施予犬的奖励或惩罚撤销,以达到训练目的。将其归纳起来,有以下四种情形:
(一)给予奖励。在利用犬的食物本能训练犬吠叫时,训导员往往创设能使犬产生焦急情绪的情境,比如在犬舍门外向犬展示美味食物,犬往往因为急于得到食物而产生在犬舍内转圈、扒门、向上蹿跳或吠叫等动作,每当犬吠叫时训导员就给予犬食物,经过多次操作,犬处于相同情境时转圈、扒门、向上蹿跳的动作会减少,而吠叫的动作会更多地出现,这是典型的操作式条件反射形成过程,给予奖励增加了犬吠叫发生的概率,逐渐形成吠叫的条件反射。
(二)撤销奖励。在训练随行过程中,训导员左手持食物小块,一边步行前进一边频繁地喂饲犬,犬就会保持着寻食的抬头姿态随行,而当训导员撤销给予食物小块的奖励,犬的抬头寻食状态将逐渐减弱甚至消失,这符合操作式条件反射的基本原理,即无奖励的支持使形成的条件反射消退。撤销奖励减少了犬抬头的发生概率。
(三)给予惩罚。在训练犬搜爆示警能力期间,当犬出现扒物品的动作时,训导员用硬棍击打犬的爪子使其疼痛,经过多次刺激后犬这种扒物品的动作会减少直至消失。给予惩罚减少了犬扒物品的发生概率。
(四)撤销惩罚。在训练犬的衔取能力时,有一种不常用的方法,就是使用电击脖圈给犬施予较强的电刺激,犬会因为疼痛而挣扎或乱咬,这时给犬一个衔取物品,当犬突然间咬住物品时立即撤销对犬的电击,经过多次重复后,犬会为防止受到电击而主动地咬住衔取物品,从而形成衔取能力。撤销电击惩罚增加了犬衔取物品的发生概率。
综上,给予或撤销对犬的奖励或惩罚,构成了训练中的四种模式,且只有这四种形成操作式条件反射的模式,它们的效果包括两类:给予奖励和撤销惩罚能增加某种行为的发生概率;撤销奖励和给予惩罚能减少某种行为的发生概率。
斯金纳操作式条件反射理论,按照目前通用译法,它有四个相关的概念,分别是:正强化、惩罚、负强化和消退(或称为“负惩罚”)。
在期金纳的理论中,强化是一个基础概念。“一种自发性的行为会有什么样的结果?根据斯金纳对行为的分析,最重要的结果便是强化。如果一个行为受到强化,它就可以得以维持和加强,将来在类似的环境中再次出现此种行为的可能性增加。”
正强化,指给予一个愉快刺激,来增加行为发生的概率。应用于人的行为常举的例子是:你完成作业,就可以看电视。呈现看电视这个愉快刺激,来增加完成作业行为的发生概率。这与前述的“给予奖励”原理基本一致。
惩罚,呈现一个厌恶刺激(如体罚、谴责等),来降低行为发生的概率。典型的例子是:你完不成作业,就去打扫卫生。呈现打扫卫生这个厌恶刺激,来减少不完成作业行为的发生概率。这与前述的“给予惩罚”原理基本一致。
负强化,指撤销一个厌恶刺激,来增加行为发生的概率。典型的例子是:你完成作业,就不用打扫卫生了。撤销打扫卫生这个厌恶刺激,来增加完成作业行为的发生概率。这与前述的“撤销惩罚”原理基本一致。
消退(或称为“负惩罚”),简单说就是减掉奖励或不予理睬,能使动作发生的概率减少。这与前述的“撤销奖励”类似。
分析操作式条件反射原理中现有的名词,结合将本文的二、三点进行对比,可以发现在操作式条件反射理论中的名词,存在几个明显的问题。
(一)“正强化”和“负强化”定义界定的标准不合逻辑。对比“正强化”和“负强化”的定义不难发现:正强化和负强化的结果均为“增加行为发生的概率”,故可以理解为“强化”意指对某行为巩固的效果。据此推论:假设“正”和“负”分别代表其前提,即分别代表“给予一个愉快刺激”中的“给予”和“撤销一个厌恶刺激”中的“撤销”,则两种刺激中的“愉快刺激”和“厌恶刺激”均有意义但未做区别,逻辑上说不通;假设“正”和“负”分别代表其刺激的性质,即分别代表“给予一个愉快刺激”中的“愉快刺激”和“撤销一个厌恶刺激”中的“厌恶刺激”,则两种刺激中的“给予”和“撤销”均有意义但未做区别,逻辑上也说不通。换言之,在“正强化”定义中使用一个“正”来指代“给予一个愉快刺激”中的“给予”和“愉快刺激”两个要素,不合逻辑。
(二)“正强化”和“惩罚”不匹配。在操作式条件反射理论中“正强化”与“惩罚”通常作为一对相反的概念出现,但其含义明显不对等。正强化描述的是“给予一个愉快刺激,来增加行为发生的概率”,而惩罚描述的是“呈现一个厌恶刺激(如体罚、谴责等),来降低行为发生的频率”。在这里按照“正”表示的是“给予”,则“惩罚”一词中没有表示“给予或呈现”的字;假设“惩罚”表示“厌恶刺激”则对其“增加”或“减少”的不同效果未做区分。从字面也可以看出,这两个名词的组词方式不对等,不构成一对概念。造成这一问题的根源在于对一对名词定义的标准不一致,原理论存在缺陷。或者从另一个角度来说,根据操作式条件反射理论,在自发动作后出现某一正强化物时动作得到了加强称为强化,同理在自发动作后出现某一负强化物时动作得到了减弱,为什么不称为“弱化”呢?使用“惩罚”一词在原理论中显然将“撤除正强化物”这一过程替代了其对效果的描述,与“正强化”不对应。
(三)“惩罚”和“负惩罚”(或称为“消退”)的含义不对等。在原理中,“惩罚”定义为“呈现一个厌恶刺激(如体罚、谴责等)来降低行为发生的频率”,与中文里面偶尔出现的“负惩罚”的定义“减掉奖励或不予理睬,能使动作发生的概率减少”相对比,如果按“惩罚”的定义将惩罚理解为“厌恶刺激”,则在“负惩罚”中并无“厌恶刺激”,故这一理解不正确;如果将“负惩罚”中的“负”理解为“减掉”,则在“惩罚”定义中默认为不表述的“呈现”,此时对于“厌恶刺激”和“奖励”则未做区别,这两个定义仍不对等。此外,理论中对于“奖励”这一名词的回避,导致了“惩罚”这一名词的无法配对和“负惩罚”这一非中文常见词的被迫使用。
从上述这三对名词的对比分析可以看出,虽然我们直译了原文的名词,并赋予他们特定的含义,但从逻辑和中文习惯的角度,这几个名词存在含义混乱、逻辑不通的问题。分析其根源,在操作式条件反射理论中,对名词界定的标准不一致,同时在翻译为中文的过程中,采用直译的方法也使其含义不准确。为明晰在警犬训练中的使用,不妨在符合基本理论的前提下,规范或重新界定各名词,以方便在训练中使用,也建议在心理学和教育学中进行修正。
通过前述的分析,结合本文的前两点,我们可以将操作式条件反射中的各种要素,按照刺激的特性、操作方法以及对行为效果等,进行更为简化而准确的定义和分类。
(一)犬或动物个体感受到的刺激包括两种,即:奖励与惩罚。奖励是指犬喜欢的刺激,惩罚是指犬厌恶的刺激。在警犬训练中,训导员对犬施加刺激的方式包括两种,即:施予和撤除,施予或给予刺激是常见情形,撤除、撤销或减除的情况较少。对犬的训练操作包括:给予奖励、撤除奖励、给予惩罚、撤销惩罚。在通常情况下,根据实际使用的情况,简化给予奖励称为“奖励”。同时,奖励和惩罚在中文里是一对相反定义的词。
(二)通过各种操作,对犬能力形成的效果定义为两种,可以有两种方案,一种是凡是使某种行为出现的概率增加的称为“强化”,而使某种行为概率减少的称为“弱化”,这又需要新引入“弱化”一词;另一种即笔者主张的方案,即重新定义正强化和负强化。“强化”的含义是使某一效果程度加剧,“正”“负”意指其效果的方向,“正”的含义是使某种行为增加,“负”的含义是使某种行为减少。导致“正强化”效果的操作,包括给予奖励和撤销惩罚,均是使某种行为发生的概率增加;导致“负强化”效果的操作,包括撤销奖励和给予惩罚。
这种重新界定的名词,既能对应原操作式条件反射的各种要素,又弥补了原理论存在的缺陷,还能将各名词与中文本义贴近,符合中文习惯。此分析基于警犬训练,但是对于操作式条件反射相关名词的剖析纠正,笔者认为此观点适用于动物行为学,也适用于心理学和教育学范畴。