excel学习库-Rescorla-Wagner模型真的不能解释二级条件反射吗？

01 Rescorla-Wagner模型

雷斯科拉-瓦格纳（Rescorla-Wagner）模型是在动物行为研究中最具影响力的理论，由雷斯科拉和瓦格纳在1972年提出，首次以定量的方式模拟出条件反射的学习过程。

雷斯科拉-瓦格纳模型对联想学习的理论研究做出了重大贡献，也对人工智能的发展起到促进作用。

20世纪80年代末期，受行为心理学对动物学习研究的启发，机器学习领域的“强化学习”理论迅速发展起来，其中的时间差分（TD：Temporal-Difference）算法就是由Rescorla-Wagner公式演化而来。

近来特别热门的自然语言人工智能工具ChatGPT，对它进行训练时也需要使用深度强化学习算法。

由于雷斯科拉-瓦格纳模型可以用数学公式表达，使我们可以用计算的方法进行模拟实验。

在计算神经科学的经典教材《理论神经科学》中，列出7种类型的条件反射模式，指出雷斯科拉-瓦格纳模型可以正确解释其中的6种，但对二级条件反射的解释失败。如图1所示：

图1：7种条件反射的模式；

仔细研究了条件反射的机制后发现，雷斯科拉-瓦格纳模型并非不能解释二级条件反射，而是公式用法错了。

下面我们公式具体计算一下这7种类型的条件反射。

雷斯科拉-瓦格纳模型的公式如下：

ΔV(n+1)=β*α*(λ-Vn)

V(n+1)=Vn+ΔV(n+1)

其中：

n为训练次数；

α为条件刺激S的显著程度，β为学习速率，取值0~1；

λ为非条件反射的最大强度；

Vn为第n次训练时条件反射的强度；

ΔV(n+1)为第(n+1)次训练时新增的条件反射的强度；

02 前6种条件反射的计算模拟

我们使用EXCEL对公式对图1中前6种条件反射模式进行计算，列表显示计算数据，并画出图形。

1、条件反射的习得（Acquisition）

习得即建立巴甫洛夫条件反射（Pavlovian）的过程，即把刺激S与奖赏R配对进行训练，逐步建立两者的联结。

设：奖赏R引发的非条件反射强度为：λ=100，

设：α=1，β=0.5

则：ΔV(n+1)和V(n+1)的计算结果如下图：

图2：条件反射习得的计算数据和曲线图

从图1左侧表中可以看出，Vn的值从初始值0开始，随着训练次数的增加逐步增大，到n=8时，Vn=99.61接近λ的值100。

右侧图中橙色线即为Vn的变化曲线，可以更直观地看到Vn是如何从0上升到接近100的。

Vn表达的是在学习过程中，条件反射的强度变化情况。

以巴甫洛夫的狗为例，在训练开始前，摇响铃铛，狗不会分泌唾液（唾液量为0），经过若干次铃铛声与食物的配对训练后，狗分泌的唾液量逐渐增加，最后达到最大值。如图3左侧图所示。

图3：习得和消退实验中狗的唾液分泌量

可以看出，图3左侧的曲线与图2右侧的曲线形状非常类似，表明雷斯科拉-瓦格纳模型计算的结果可以较准确地模拟条件反射的习得过程。

2、条件反射的消退（Extinction）

经过第1阶段建立起条件反射（习得）后，如果给出刺激S，但不再给奖赏R，这种情况下，之前习得的条件反射会逐渐消退。我们看一下公式计算出的结果：

由于奖赏R=0，其引发的非条件反射强度λ=0，

设：α=1，β=0.5，

则：ΔV(n+1)和V(n+1)的计算结果如图4所示：

图4：条件反射消退的计算数据和曲线图

从图4左侧表中可以看出，Vn的值从初始值100开始，随着训练次数的增加逐步减少，到n=8时，Vn=0.39接近λ的值0。

右侧图中橙色线为Vn的变化曲线，可以更直观地看到Vn是如何从100下降到接近0的。这条曲线与图2右侧的实测的唾液量消退曲线非常接近，表明雷斯科拉-瓦格纳模型可以较准确地模拟条件反射的消退过程。

3、部分（Partial）条件反射

如果在训练过程中，在刺激S一直出现的情况下，间隔给予奖赏R，会出现什么结果呢？

如图5左侧表格所示，在训练次数为单数n=1、3、5、7、9时，给予奖赏R，此时，λ=100；

而在训练次数为偶数n=2、4、6、8、10时，奖赏R=0，此时，λ=0；

设：α=1，β=0.5，

则：ΔV(n+1)和V(n+1)的计算结果如图5所示：

图5：部分条件反射的计算数据和曲线图

由图5右侧的橙色曲线可以看出，条件反射的强度值Vn最终在50上下波动，形成部分条件反射。真实的实验结果与此相近。

4、阻塞（blocking）条件反射

在这种条件反射中，出现了两个刺激：S1和S2。

首先单独用S1与奖赏R配对进行习得训练，使S1对应的条件反射强度V1n达到最大值V1n=100。

第二步，使刺激S1和S2同时出现，并与奖赏R（λ=100）配对进行训练，那么S2也会习得条件反射吗？强度V2n会是多少呢？

设：总强度Vn=V1n+V2n ,

初始时，V1n=100，V2n=0，

则：Vn=100+0=100；

设：ΔVn为第n次训练时，S1与S2合计新增的条件反射的强度；

则根据公式：ΔV(n+1)=β*α*(λ-Vn) 进行计算：

λ-Vn=100-100=0；

则：ΔV(n+1)=β*α*0=0；

次数n从1~8，每次计算的ΔVn均为0。

又根据公式：V(n+1)=Vn+ΔV(n+1)，

因为ΔV(n+1)=0

所以：V(n+1)=Vn=100；

训练次数n从1~8，每次计算的Vn均为100，如图6左侧数据表所示。

所以：V2n=Vn-V1n=100-100=0；

说明，S2不会习得条件反射，强度V2n保持为0；

图6：阻塞条件反射的计算数据和曲线图

实验结果与图6计算结果相同，S1保持原来的条件反射，S2无法习得条件反射。所以把这种情况称为S1对S2的阻塞。

5、抑制（inhibition）条件反射

这种条件反射也有两个刺激S1和S2。训练方法是：

第一步：单独呈现S1并与奖赏R配对出现。此实验称为A；

第二步：同时呈现S1与S2，但不给奖赏R。此实验称为B；接着按A-B-A-B间隔模式连续训练，结果会如何呢？

在进行A类实验时，由于有奖赏R（λ=100），做的是对S1的习得；计算出新增的ΔVn全部给S1对应的条件反射强度V1n；而进行B类实验时，由于没有奖励R（λ=0），做的是对S1和S2的消退。计算出的减少的ΔVn各分一半，分别给S1和S2对应的条件反射强度V1n和V2n；

计算出的数据和曲线图如图7所示。

图7：抑制条件反射的计算数据和曲线图

图7右侧曲线中，灰色线为S1对应的条件反射强度，在不断上升。黄色线为S2对应的条件反射强度，在不断下降，并成为负值。负值代表能抑制条件反射。中间的橙色曲线是灰色线与黄色线叠加后的结果，强度在50上下波动。

实际实验的结果与计算结果相符。

6、掩盖（Overshadow）条件反射

这个实验使用两种不同类型的刺激，例如S1为声音，S2为灯光，同时与奖赏R（λ=100）配对进行训练，结果会怎样呢？

设：ΔVn为第n次训练时，S1与S2合计新增的条件反射的强度，Vn为合计的条件反射强度。两者合计做习得训练，计算结果如图8左侧表格所示，对应于右侧的橙色曲线。

由于两种刺激的显著程度不同，我们设显著性参数α1=0.7，α2=0.3；按这个比例把Vn分为V1n和V2n，结果见图8表格右侧数据。分别对应右侧图中绿色和黄色曲线。

图8：掩盖条件反射的计算数据和曲线图

结果显示，S1和S2同时出现时，建立条件反射的强度要弱于它们单独建立条件反射的强度，由于显著性不同，对S1的学习效果要大于对S2的学习效果。即前者掩盖了后者。

以上6种情况的实验结果与计算结果相符。

03 二级条件反射

二级条件反射的实验过程是：

首先用刺激S1与奖赏R（λ=100）配对进行训练，完成习得联结。此时，S1对应的条件反射强度V1n=100。

第二步，用刺激S2与S1进行配对训练，不给奖赏R（λ=0），结果会怎样呢？

设：ΔVn为S1与S2合计新增的条件反射的强度，Vn为合计的条件反射强度。

由于λ=0，两者一起做消退训练，计算得出的数据如图9左侧表格。图形见右侧，橙色曲线为Vn的变化情况，可见Vn的值从100消退为0。

S2对应的条件反射强度V2n=Vn-V1n，表现为一条从0下降到负值的曲线。

图9：二级条件反射的数据和曲线图(误)

但是，实验结果与上述计算结果不符。

实际情况是，刺激S2的条件反射强度不但没有变为负值，反而由0增大成为正值。

问题出在哪里呢？

我们看一下实验中测得的一级和二级条件反射的多巴胺峰值图，如图10所示：

图10：一级和二级条件反射的多巴胺峰值

我们看到，在一级条件反射建立前，多巴胺峰值在奖赏R附近，如图10上图。在《》中我们讨论过，峰值的大小即对应于ΔVn的值。

当一级条件反射建立后，多巴胺峰值在刺激S1附近，其值大小对应于V1n的值。而原先在奖赏R附近的多巴胺峰值消失了，如图10中图。

当二级条件反射建立后，多巴胺峰值在刺激S2附近，而建立前在S1附近的多巴胺峰值消失了，就如同一级条件反射建立后，在奖赏R附近的多巴胺峰值消失一样。如图10下图所示。

也就是说，当刺激S2与S1配对出现时，虽然没有奖赏R，但由于S1引发条件反射，释放并产生多巴胺峰值（大小对应于V1n），它起到了与奖赏R相同的作用，即启动了S2的条件反射习得过程。

所以，在使用公式ΔV(n+1)=β*α*(λ-Vn)计算S2产生的条件反射强度增量ΔV2n时，λ值应该代入S1的条件反射强度值V1n=100，而不是奖赏R对应的值0。

这样计算出的数据如图11左侧表格所示。

图11：二级条件反射的计算数据和曲线图

图11的右侧图形中，橙色线为S2产生的二级条件反射强度值V2n，绿色线为S1对应的V1n。可以看出，V2n从0开始逐步上升，而V1n从100开始逐步下降到0。

这个结果符合实验结果，也与图10 中的多巴胺峰值变化一致。

所以说，并不是Rescorla-Wagner模型不能解释二级条件反射，而是因为在计算时λ的值代入错了，导致计算结果与实际不相符。

— 完 —

标签: Excel多个曲线图叠加

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。

« 2024年12月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

控制面板: 您好，欢迎到访网站！
登录后台查看权限

网站分类

excel表格教程

搜索: Search

最新留言

文章归档

友情链接

系统之家

excel学习库

excel表格_excel函数公式大全_execl从入门到精通

Rescorla-Wagner模型真的不能解释二级条件反射吗？2024-08-20 05:26:00

01 Rescorla-Wagner模型

02 前6种条件反射的计算模拟

03 二级条件反射