
图1:巴甫洛夫;图片来源:巴甫洛夫著《条件反射:动物高级神经活动》
下面我们将会做一些联结两者的沟通工作,首先从心理学说起。
一个新的生命诞生时,遗传基因只赋予它最基本的生存本能。比如吃、喝、寻求安全、避免伤害等。更复杂的生存能力需要通过后天的学习获得。
食物、水、安全、温暖、哺乳、爱抚、性等是有机体的基本生理需要,也是确保物种的生存、繁衍和延续的基本条件。它们会激发有机体先天和本能的获取和趋近反应。此外,疼痛、炽热、寒冷等则会激发有机体本能的逃避反应。这种趋利避害的本能称为非条件反射,通常把能引发非条件反射的刺激物称为初级强化物,或一级强化物。
在复杂多变的自然环境中,只拥有对初级强化物的本能反应是远远不够的,动物不能只靠食物掉入口中才引起吃食动作,它们必须在纷繁复杂的环境中具有发现食物的线索并获取食物的能力。这些能力要依靠后天的学习来掌握。
条件反射是动物及人类为适应千变万化的复杂环境而进化出来的学习机制。每个生命在出生时“出厂内置”了非条件反射和条件学习这两样利器,便可以掌握适应复杂多变环境的扩展技能。
条件反射的学习机制常常是无意识进行的。当一个中性刺激物与初级强化物同时展现时,学习过程就自动启动了。神经系统会识别并记忆其中的关联,学习完成后,原本中性的刺激会变成条件刺激,激发有机体产生条件反射。
这种通过学习而引发条件反射的刺激物称为次级强化物,或二级强化物。对动物来说,次级强化物通常是能预测食物、水、性等初级强化物的线索或信号,对于人类来说,除了以上的预测线索和信号外,金钱、权力、地位、名声、赞美等也是有力的次级强化物。
次级强化物还可以与新的刺激结合,形成更高一级的条件反射。称为高级条件反射,或二级条件反射。人类可以建立多级的条件反射。
也许有的朋友对以上内容混用操作条件反射与经典条件反射的术语感到不适应,这样做是因为在之前的文章中我们推导出一个结论:经典条件反射和操作条件反射本质是一样的,并无根本不同,详见:
下面进一步探讨条件反射形成的神经机制时,这个结论会在神经层面得到进一步的证实。
桑代克的学习理论认为,学习的实质就是在大脑中形成联结,获得正确联结的方式是反复尝试,不断试错,直至获得满意的结果。这种方法称为“试误学习”或“联结学习”。
在人工智能中,这种学习方法称为强化学习,即以强化物为目标的探索性学习。条件反射的建立过程即是一种强化学习。在后续文章中,我们还会再谈强化学习,从0基础编程小白的程度开始学习编写一个简单的强化学习程序,这样可以通过正向设计机器学习的过程来深入理解动物及人类的学习机制。有兴趣的朋友请关注本号。
在此之前,我们需要先了解条件反射形成的神经机制。
早在100年前,巴甫洛夫就试图解决这个问题,他认为,在神经系统中,条件刺激的兴奋焦点与非条件刺激的兴奋焦点由于多次结合,在它们之间会开辟出一条通路,形成暂时的神经联系,从而建立条件反射。[1]”
巴甫洛夫认为,条件反射的反射弧可以分为三个部分:分析器、联结器和反应器,其中的核心部分位于大脑两半球中”。但是由于当时的技术所限,他只能依靠“割除大脑的各部分以解释其机能”[2]。所以,巴甫洛夫没有找到明确的神经通路,他说:“条件反射的存在需要大脑两半球全部参与,并不依赖两半球中的任何特殊部分[3]”。
1990年代,德国神经科学家沃尔夫拉姆·舒尔茨(Wolfram Schultz)对条件反射的研究取得重大进展。他在动物实验中发现,给予初级强化物后,在大脑中部的伏隔核等区域的多巴胺能神经元会被被激活,而给予中性刺激时,这部分神经元没有活动。但两种刺激同时呈现并多次重复后,该部分神经元对中性刺激也产生反应了。舒尔茨对多巴胺能神经元进行了深入的研究,2017年,他和另外两位科学家共同获得“大脑科学奖”。
在《心理学》教材中,有关条件反射的神经机制的叙述非常少,在桑德拉·切卡莱丽等著的《心理学最佳入门》中介绍了一些进展,书中写到:“随着大脑和神经元工作研究的新方法的发展,研究人员正在研究经典条件反射和操作性条件反射的神经基础”。书中只用不大的篇幅简单介绍了有关的大脑区域,如伏隔核、前扣带回皮层等,提出多巴胺的释放参与了强化过程。
下面我们系统地介绍一下有关条件反射的神经科学研究进展。
首先,我们从彭聃龄著的《普通心理学》起步。书中把条件反射的建立过程分为三个阶段,如下图:
图2.条件反射建立的三个阶段。图片来源:彭聃龄《普通心理学》
阶段1:准备阶段。
激活一个先天的非条件反射,比如,给狗吃干面包时,狗的腺体会分泌出唾液。再施加一个中性的刺激,如对狗摇铃铛,此时,狗的腺体不会分泌唾液。
阶段2:条件反射的建立阶段。
在摇响铃铛的同时,给狗吃干面包,狗的腺体会继续分泌唾液,这时,学习过程会自动启动。学习过程一般要重复若干次,以便建立可靠的联结。
阶段3:测试阶段。
摇响铃铛后,在没有给狗吃干面包之前,狗的腺体已经分泌出唾液。说明条件反射建立成功。
按照巴甫洛夫的思路,如果能找到以上三个阶段被激活的神经通路,分析神经通路之间的关系,就可以找出条件反射的神经机制。
我们看看舒尔茨的发现:
阶段1:
舒尔茨在猴子头部植入电极,观察神经系统激活后的动作电位。首先给猴子一滴果汁,这是初级强化物。他观察到猴子大脑中的多巴胺能神经元出现了一个动作电位的峰值,如下图所示[4] :
图3.阶段1的动作电位图。图片来源:Schultz (1995), 图形数据是23~44个神经元的反应叠加生成。
阶段2和阶段3:
下一步,舒尔茨不再无条件给猴子果汁了。他点亮一个信号灯,猴子看到后如果立刻触击一个小杠杆,就能得到一滴果汁作为奖励。多次训练后,猴子只要看到信号灯点亮,就会触击杠杆。这是猴子学会的一个操作性条件反射。
学会以后,大脑神经系统的动作电位如下图所示:
图4.阶段3的动作电位图。图片来源:Schultz (1995), 图形数据是23~44个神经元的反应叠加生成。
图中显示,在猴子触击杠杆的时间点(Trigger位置)0.5秒之内,多巴胺能神经元产生了动作电位的峰值,而在给予果汁奖励的时间点(Reward位置),原有的动作电位的峰值消失了。即在条件反射形成后,多巴胺能神经元动作电位的峰值从奖励(Reward)的位置转移到了触击行为(Trigger)的位置。
有朋友会发现,缺了阶段2的动作电位图。是的,作者没有给出。我猜测是因为阶段2处于学习阶段,动作电位在不断变化,没有形成稳定的峰值图形。
根据阶段1和阶段3的图形变化规律,我P了一张阶段2的示意图,如下所示:
图5.阶段2的多巴胺能神经元动作电位变化图
注意图中两个蓝色的峰值区域,阶段2的神经元动作电位的峰值是随着学习进程逐步变化的。在Reward(奖励)的位置,神经元动作电位的峰值逐渐下降(如蓝色箭头所示)。而在Trigger(触击)的位置,神经元动作电位的峰值逐渐上升(如蓝色箭头所示)。直到学习完成,图形就成为阶段3的样子,触击位置的动作电位峰值达到最大,而在奖励位置的峰值完全消失。
作者给出一张动作电位幅度变化曲线图,证明以上的猜测没错。如下所示:
图6.图片来源:Schultz (1995)
这张图表示,随着实验进程的延续,神经元动作电位的幅度变化曲线。左边Novelty部分,代表在出现奖励时,动作电位变化曲线,右边Conditioning部分,代表在触击杠杆时,动作电位的变化曲线。为了方便与图5的峰值图形相对应,我把上图的左右两部分拆成两张图,并交换位置,如下图所示:
图7.条件作用和非条件作用的神经元动作电位幅度曲线图。图片来源:改造图
左图是在触击杠杆时,即在条件反射的学习过程中,神经元动作电位幅度曲线,可以看出动作电位的幅度从基线位置随着实验进程逐步上升,图形呈S形曲线形状。
右图是在给予奖励的位置,神经元动作电位的幅度曲线,图形显示,动作电位的幅度随着实验进程逐步下降,直至降到基线位置。
这两幅图和我们猜测的阶段2神经元动作电位的峰值变化情况完全一致。
顺便说一下图中Conditioning这个词,早期译为“条件反射”,但现在译为“条件作用”。因为“条件反射”这个词过于强调“反射”而没有体现出“学习”。而条件反射的形成是必须经过条件学习这个阶段的。
可以把Conditioning(条件作用)这个词理解为“条件学习+条件反射”的合称。
另外,图中用“Novelty(新奇)”这个词也很奇怪,之前一直是用“Reward(奖励)”,为什么换了?这个问题我们会在后续的文章中解释。此处暂时理解其为“奖励”即可。
现在,我们把形成条件反射的三个阶段的神经元动作电位图合在一起,如下图所示:
图8.条件反射形成的三个阶段,神经元动作电位的变化情况。图片来源:Schultz (1995)
可以看出,条件反射建立的过程首先是多巴胺能神经元对初级强化物产生峰值动作电位,之后,动作电位峰值逐步过渡到对条件刺激的反应上。最后,在强化物位置的动作电位峰值完全消失,而在条件刺激位置的峰值上达到最大值。这就是两种刺激在神经元的层面建立联结的过程。
舒尔茨在条件反射实验的基础上,还做了二级条件反射实验:
当灯光指示信号点亮后,训练猴子等待1秒之后再触击杠杆,这样才能得到果汁作为奖励。多次练习之后,猴子很快学会了这个新规则。从猴子大脑采集的电信号显示,多巴胺能神经元动作电位的峰值,又从触击杠杆的位置前移到灯光指示信号的位置,如下图所示:
图9.二级条件反射的神经元动作电位峰值。图片来源:Schultz (1995)
从图8和图9中的四个图形可以看出,多巴胺能神经元的动作电位首先在初级强化物位置被激发出峰值,之后,随着学习的进程,动作电位峰值逐步前移到触击杠杆的位置,建立起一级条件反射。当灯光指示信号提前1秒点亮时,动作电位峰值又前移到灯光点亮的位置,形成二级条件反射。这表明,条件反射的目标是提前预测奖赏出现的信号,并尽早做出反应。
需要注意的是,无论是灯光指示信号,还是猴子“触击”的动作,对应的都是多巴胺能神经元被激发的动作电位峰值,在神经元层面上两者的表达是一样的。也就是说,经典条件反射与操作条件反射在神经元层面对应的都是动作电位信号。
也可以这样说:在操作性条件反射中,强化物强化了一个肢体的操作行为,比如按压杠杆。而在经典条件反射中,强化物强化了一个神经元层面的辨别信号行为。比如识别铃声信号或灯光信号,它们都必须由神经系统的反应来实现辨别和记忆。所以,所谓“操作性行为”,并不能限定是肉眼可识别的肢体行为。
所以,从广义来说,所有的条件反射都可定义为操作性条件反射。“经典”和“操作“这两种条件反射的区别是,一种是内在的神经系统的反应,另一种是外部的肢体反应或行为。
经过以上的论述,我们知道,初级强化物会激发多巴胺能神经元产生峰值动作电位,进而引发非条件反射。那么,条件反射的建立过程到底是强化物引发的还是神经元动作电位引发的呢,哪个是根源呢?
我们可以用排除法进行鉴别:
(1)给出强化物但不产生动作电位,检测能否建立条件反射。
多巴胺能神经元需要依靠释放多巴胺才能把动作电位从一个神经元传递到下一个神经元。如果没有多巴胺,动作电位就无法传送到目的器官。
实验调查表明,如果多巴胺的耗尽,动物无法习得条件反射,即使给予强化物,它们也不能学会新的反应。一些出生时没有多巴胺的动物,从不会发育条件性反射,只有非条件反射[5]。
以上证据表明,强化物不是建立条件反射的直接因素,如果没有多巴胺的支持,强化物便不能发挥作用。
(2)不给强化物,直接激发多巴胺能神经元产生动作电位,检测能否建立条件反射。
1953年,心理学家奥尔兹和米尔纳在老鼠大脑的下丘脑附近植入电极,当老鼠按压杠杆时,电极被接通。他们意外地发现,对此位置进行电刺激可以强化大鼠按压杠杆的行为,而且强化的效果比食物、水等生命物质更强大。老鼠会疯狂按压杠杆,频率高达每小时 5000 次,甚至可以连续按压 15 至 20 小时,直到精疲力尽。研究表明,受到电刺激的脑区,正是多巴胺能神经元产生动作电位的脑区。
1970年代,美国精神病学家罗伯特·希斯把这个实验移植到人身上。他找到一位年轻的同性恋男子,在其大脑内部9个不同区域植入电极,然后把电刺激的开关按钮交给他。这位男子按动电钮后,体验到一种强烈的愉悦和兴奋。他一直不停按动按钮,长达3小时,直到实验员强制断开连接为止。
其实,这位疯狂的科学家并不是仅想检验人是否和老鼠一样,能通过电刺激强化按电钮的条件反射,他想要的更多。在这位年轻男子进行颅内“自我刺激”时,实验员同时给他播放异性小电影,目的是用电刺激强化他对异性的条件反射,以改变他的同性恋倾向。这种实验是违反伦理原则的,具体结果我们就不多说了。
近年来,光遗传技术的发展使实验人员不需要在大脑内植入电极,只需在神经元细胞膜上植入光敏蛋白,用激光照射该处,即能精确地在神经元上激发出动作电位。
实验证明,使用光遗传技术产生的动作电位,可以代替任何强化物,让动物建立起条件反射。能让动物学会按压杠杆,还能调节它们按压杠杆的习惯[6]。
中国的研究团队进一步发现,多巴胺能神经元有不同的通路,可以分别调控奖赏和厌恶反应。通过激发不同通路神经元的动作电位,可以分别建立趋利的条件反射,或避害的条件反射[7]。
以上实验结果说明,激发大脑中的多巴胺能神经元的动作电位,就可以建立起条件反射,不再需要从外部给予具体的强化物。
可以得出结论:多巴胺,或者多巴胺能神经元产生动作电位,是比初级强化物更高一级的强化物,可称之为顶级强化物。
图10.条件反射的反射弧--多巴胺奖赏回路,图片来源:网络
条件反射的反射弧主要包括感官输入、腹侧被盖区(VTA)、伏隔核(NA)、纹状体(S)、前额叶皮质(PFC)以及运动输出等。
巴甫洛夫在发现条件反射现象的同时,还发现了条件反射的消退现象。在条件反射形成后,如果不再给予强化物,条件反应会逐渐消弱,直至消失。例如,如果建立条件反射后不再给予食物,狗听到铃声时分泌的唾液量会逐渐减少。如下图(右图)所示:
图11.图片来源:彭聃龄《普通心理学》,左图是条件反射建立时的唾液分泌量曲线,右图是条件反射消退时的唾液分泌量曲线。
巴甫洛夫认为,消退的原因是“假若作为无条件反射的信号的条件反射,不再能准确地起到信号作用时,便会渐次失去它的刺激作用。[8]”
下面我们看看条件反射的消退过程在神经层面如何表现?
舒尔茨给出一张条件反射在建立前、建立后及消退时的多巴胺能神经元动作电位峰值变化图:
图12.图片来源:Schultz (1995)
上图:只有奖励R,没有条件刺激CS。多巴胺能神经元在奖励R附近出现一个明显的动作电位峰值,此时还没有建立条件反射。需要说明的是,图中除了有一个较高的峰值以外,在其他位置也有参差不齐的较小的动作电位值,表明动作电位的初值不是0。我们把这些较小的电位值称为基准值。
中图:奖励R依然存在,但多巴胺能神经元激发的动作电位峰值已经前移到条件刺激CS所在的位置。表明条件反射建立完成。
下图:条件刺激CS还在,但是奖励R被撤除了。此时在CS处依然激发出动作电位峰值,但注意奖励R右边的红圈位置,图形上出现了一个“小坑”。意味着在这个位置,动作电位非但没有比基准值增加,反而比基准值更低。如果把基准值定义为0,那么红圈处的动作电位就是负值。
前面说过,条件反射的目的是使动作电位的峰值前移,以便实现对奖励的预测。但是,如果预测以后奖励却没有出现,说明预测失败了。负的动作电位值就是预测失败的信号。如果总是预测失败,就需要撤销预测。消退过程即是对预测的撤销过程。进行条件反射时,如果每次都不给奖励R,在条件刺激CS处的动作电位峰值会逐渐降低,直至完全消失,实现条件反射的消退。
1972年,心理学家雷斯科拉(Robert Rescorla)和瓦格纳(Allan Wagner)发表了一组公式,成为条件反射的学习模型。这是条件反射研究的一个里程碑事件,因为它第一次把一个心理或神经活动过程用数学公式表达。这组公式被称为Rescorla-Wagner模型[9]。
Rescorla-Wagner模型描述了条件刺激CS与奖励R之间建立联结的学习过程。公式如下[10]:
ΔV(n+1)=βα(λ-Vn)
V(n+1)=Vn+ΔV(n+1)
其中:
ΔV(n+1)为在最近的一次学习中新增的联结强度;
Vn为当前已建立的联结强度;
β为学习速率(%),例如β取值0.5意为一次学习可建立50%的联结强度;
α为条件刺激CS的显著程度,通常取值为1;
λ为CS与R之间最大的联结强度;
我知道不少人看到数学公式就头疼,所以我们不过多解释,直接用EXCEL计算这个公式,并且画出图表,看看结果是什么。
(1)条件反射的建立过程的计算
在建立条件反射时,每次学习都需要给予强化物R,CS与强化物R之间可建立的联结最大值λ=1(100%)。Rescorla-Wagner模型计算出的数据表和对应曲线见下图:
图13.条件反射建立过程的计算数据。图片来源:自制
表中,n代表学习次数。
可以看出,随着学习次数n的增加,已建立的联结Vn的值从0开始以弧形曲线逐步增加,直至趋近于100%。
而每次学习新增的联结强度ΔVn则逐步下降,直至趋近于0。
Vn图与ΔVn图分别与学习曲线的正确率和错误率图非常相像。我们比对一下:
图14.学习曲线。图片来源:彭聃龄《普通心理学》
实际上这两张图也分别与多巴胺能神经元在CS处与奖励R处的动作电位变化幅度图(见图7)非常相似,说明Rescorla-Wagner模型可以较好地反应条件反射以及多巴胺能神经元的运作过程。其中,ΔVn值代表多巴胺能神经元的动作电位峰值在强化物位置的变动状态,而Vn值代表多巴胺能神经元的动作电位峰值在条件刺激CS位置的变动状态。
(2)条件反射的消退过程的计算
条件反射在消退时,由于撤掉了强化物,即R=0,故CS与R之间最终的联结值λ=0。Rescorla-Wagner模型计算的数据表和对应曲线见下图:
图15.条件反射消退过程的计算数据。图片来源:自制
可以看出,在消退过程中,随着学习次数n的增加,已建立的联结值Vn从100%开始以弧形曲线逐步降低,直至趋近于0。而每次学习联结强度的变化量ΔVn则从-1(-100%)开始逐步上升,最后也近于0。
还记得消退时多巴胺能神经元动作电位峰值变化图(图12的下图)中红圈中的那个小坑吗?它代表动作电位值为负值。而此处计算出的ΔVn的值是从-1逐步变化到0。也就是说,ΔVn值体现了在消退过程中,动作电位的变化情况。
写到这里,我觉得大自然这个“设计师”真的很奇妙,不但能根据公式计算的值实现有机体的学习过程,而且当神经元的动作电位无法表达负值时,巧妙地利用一条抬高的基准线,间接实现了负值的表达。牛!
消退过程的联结强度Vn图与巴甫洛夫的消退实验中的唾液分泌曲线也非常吻合,我们对比一下,见下图:
重复图11.图片来源:彭聃龄《普通心理学》
左图是条件反射建立过程唾液分泌量曲线,对应条件反射建立时的联结强度Vn图。右边是条件反射消退过程唾液分泌量曲线,对应条件反射消退时的联结强度Vn图,两者图形非常吻合。说明,Rescorla-Wagner模型能比较准确地表达条件反射的建立和消退过程。
为了方便有兴趣的朋友在EXCEL上计算Rescorla-Wagner模型,把在EXCEL中使用的Rescorla-Wagner模型公式贴在下图中,供参考:
图16.在Excel中计算Rescorla-Wagner模型的公式写法
— - — - — - — - — - — - — - —