excel学习库

excel表格_excel函数公式大全_execl从入门到精通

Rescorla-Wagner模型真的不能解释二级条件反射吗?

01 Rescorla-Wagner模型

雷斯科拉-瓦格纳(Rescorla-Wagner)模型是在动物行为研究中最具影响力的理论,由雷斯科拉和瓦格纳在1972年提出,首次以定量的方式模拟出条件反射的学习过程。

雷斯科拉-瓦格纳模型对联想学习的理论研究做出了重大贡献,也对人工智能的发展起到促进作用。

20世纪80年代末期,受行为心理学对动物学习研究的启发,机器学习领域的“强化学习”理论迅速发展起来,其中的时间差分(TD:Temporal-Difference)算法就是由Rescorla-Wagner公式演化而来。

近来特别热门的自然语言人工智能工具ChatGPT,对它进行训练时也需要使用深度强化学习算法。

由于雷斯科拉-瓦格纳模型可以用数学公式表达,使我们可以用计算的方法进行模拟实验。

在计算神经科学的经典教材《理论神经科学》中,列出7种类型的条件反射模式,指出雷斯科拉-瓦格纳模型可以正确解释其中的6种,但对二级条件反射的解释失败。如图1所示:

图1:7种条件反射的模式;


仔细研究了条件反射的机制后发现,雷斯科拉-瓦格纳模型并非不能解释二级条件反射,而是公式用法错了

下面我们公式具体计算一下这7种类型的条件反射。

雷斯科拉-瓦格纳模型的公式如下:


ΔV(n+1)=β*α*(λ-Vn)

V(n+1)=Vn+ΔV(n+1)

其中:

n为训练次数;

α为条件刺激S的显著程度,β为学习速率,取值0~1;

λ为非条件反射的最大强度;

Vn为第n次训练时条件反射的强度;

ΔV(n+1)为第(n+1)次训练时新增的条件反射的强度;

02 前6种条件反射的计算模拟

我们使用EXCEL对公式对图1中前6种条件反射模式进行计算,列表显示计算数据,并画出图形。

1、条件反射的习得(Acquisition)

习得即建立巴甫洛夫条件反射(Pavlovian)的过程,即把刺激S与奖赏R配对进行训练,逐步建立两者的联结。

设:奖赏R引发的非条件反射强度为:λ=100,

设:α=1,β=0.5

则:ΔV(n+1)和V(n+1)的计算结果如下图:

图2:条件反射习得的计算数据和曲线图


从图1左侧表中可以看出,Vn的值从初始值0开始,随着训练次数的增加逐步增大,到n=8时,Vn=99.61接近λ的值100。

右侧图中橙色线即为Vn的变化曲线,可以更直观地看到Vn是如何从0上升到接近100的。

Vn表达的是在学习过程中,条件反射的强度变化情况。

以巴甫洛夫的狗为例,在训练开始前,摇响铃铛,狗不会分泌唾液(唾液量为0),经过若干次铃铛声与食物的配对训练后,狗分泌的唾液量逐渐增加,最后达到最大值。如图3左侧图所示。

图3:习得和消退实验中狗的唾液分泌量

可以看出,图3左侧的曲线与图2右侧的曲线形状非常类似,表明雷斯科拉-瓦格纳模型计算的结果可以较准确地模拟条件反射的习得过程。

2、条件反射的消退(Extinction)

经过第1阶段建立起条件反射(习得)后,如果给出刺激S,但不再给奖赏R,这种情况下,之前习得的条件反射会逐渐消退。我们看一下公式计算出的结果:

由于奖赏R=0,其引发的非条件反射强度λ=0,

设:α=1,β=0.5,

则:ΔV(n+1)和V(n+1)的计算结果如图4所示:

图4:条件反射消退的计算数据和曲线图


从图4左侧表中可以看出,Vn的值从初始值100开始,随着训练次数的增加逐步减少,到n=8时,Vn=0.39接近λ的值0。

右侧图中橙色线为Vn的变化曲线,可以更直观地看到Vn是如何从100下降到接近0的。这条曲线与图2右侧的实测的唾液量消退曲线非常接近,表明雷斯科拉-瓦格纳模型可以较准确地模拟条件反射的消退过程。

3、部分(Partial)条件反射

如果在训练过程中,在刺激S一直出现的情况下,间隔给予奖赏R,会出现什么结果呢?

如图5左侧表格所示,在训练次数为单数n=1、3、5、7、9时,给予奖赏R,此时,λ=100;

而在训练次数为偶数n=2、4、6、8、10时,奖赏R=0,此时,λ=0;

设:α=1,β=0.5,

则:ΔV(n+1)和V(n+1)的计算结果如图5所示:

图5:部分条件反射的计算数据和曲线图


由图5右侧的橙色曲线可以看出,条件反射的强度值Vn最终在50上下波动,形成部分条件反射。真实的实验结果与此相近。

4、阻塞(blocking)条件反射

在这种条件反射中,出现了两个刺激:S1和S2。

首先单独用S1与奖赏R配对进行习得训练,使S1对应的条件反射强度V1n达到最大值V1n=100。

第二步,使刺激S1和S2同时出现,并与奖赏R(λ=100)配对进行训练,那么S2也会习得条件反射吗?强度V2n会是多少呢?

设:总强度Vn=V1n+V2n ,

初始时,V1n=100,V2n=0,

则:Vn=100+0=100;

设:ΔVn为第n次训练时,S1与S2合计新增的条件反射的强度;

则根据公式:ΔV(n+1)=β*α*(λ-Vn) 进行计算:

λ-Vn=100-100=0;

则:ΔV(n+1)=β*α*0=0;

次数n从1~8,每次计算的ΔVn均为0。

又根据公式:V(n+1)=Vn+ΔV(n+1),

因为ΔV(n+1)=0

所以:V(n+1)=Vn=100;

训练次数n从1~8,每次计算的Vn均为100,如图6左侧数据表所示。

所以:V2n=Vn-V1n=100-100=0;

说明,S2不会习得条件反射,强度V2n保持为0;

图6:阻塞条件反射的计算数据和曲线图


实验结果与图6计算结果相同,S1保持原来的条件反射,S2无法习得条件反射。所以把这种情况称为S1对S2的阻塞。

5、抑制(inhibition)条件反射

这种条件反射也有两个刺激S1和S2。训练方法是:

第一步:单独呈现S1并与奖赏R配对出现。此实验称为A;

第二步:同时呈现S1与S2,但不给奖赏R。此实验称为B;接着按A-B-A-B间隔模式连续训练,结果会如何呢?

在进行A类实验时,由于有奖赏R(λ=100),做的是对S1的习得;计算出新增的ΔVn全部给S1对应的条件反射强度V1n;而进行B类实验时,由于没有奖励R(λ=0),做的是对S1和S2的消退。计算出的减少的ΔVn各分一半,分别给S1和S2对应的条件反射强度V1n和V2n;

计算出的数据和曲线图如图7所示。

图7:抑制条件反射的计算数据和曲线图


图7右侧曲线中,灰色线为S1对应的条件反射强度,在不断上升。黄色线为S2对应的条件反射强度,在不断下降,并成为负值。负值代表能抑制条件反射。中间的橙色曲线是灰色线与黄色线叠加后的结果,强度在50上下波动。

实际实验的结果与计算结果相符。

6、掩盖(Overshadow)条件反射

这个实验使用两种不同类型的刺激,例如S1为声音,S2为灯光,同时与奖赏R(λ=100)配对进行训练,结果会怎样呢?

设:ΔVn为第n次训练时,S1与S2合计新增的条件反射的强度,Vn为合计的条件反射强度。两者合计做习得训练,计算结果如图8左侧表格所示,对应于右侧的橙色曲线。

由于两种刺激的显著程度不同,我们设显著性参数α1=0.7,α2=0.3;按这个比例把Vn分为V1n和V2n,结果见图8表格右侧数据。分别对应右侧图中绿色和黄色曲线。

图8:掩盖条件反射的计算数据和曲线图


结果显示,S1和S2同时出现时,建立条件反射的强度要弱于它们单独建立条件反射的强度,由于显著性不同,对S1的学习效果要大于对S2的学习效果。即前者掩盖了后者。

以上6种情况的实验结果与计算结果相符。

03 二级条件反射

二级条件反射的实验过程是:


首先用刺激S1与奖赏R(λ=100)配对进行训练,完成习得联结。此时,S1对应的条件反射强度V1n=100。

第二步,用刺激S2与S1进行配对训练,不给奖赏R(λ=0),结果会怎样呢?

设:ΔVn为S1与S2合计新增的条件反射的强度,Vn为合计的条件反射强度。

由于λ=0,两者一起做消退训练,计算得出的数据如图9左侧表格。图形见右侧,橙色曲线为Vn的变化情况,可见Vn的值从100消退为0。

S2对应的条件反射强度V2n=Vn-V1n,表现为一条从0下降到负值的曲线。

图9:二级条件反射的数据和曲线图(误)


但是,实验结果与上述计算结果不符。

实际情况是,刺激S2的条件反射强度不但没有变为负值,反而由0增大成为正值。

问题出在哪里呢?

我们看一下实验中测得的一级和二级条件反射的多巴胺峰值图,如图10所示:

图10:一级和二级条件反射的多巴胺峰值


我们看到,在一级条件反射建立前,多巴胺峰值在奖赏R附近,如图10上图。在《》中我们讨论过,峰值的大小即对应于ΔVn的值。

当一级条件反射建立后,多巴胺峰值在刺激S1附近,其值大小对应于V1n的值。而原先在奖赏R附近的多巴胺峰值消失了,如图10中图。

当二级条件反射建立后,多巴胺峰值在刺激S2附近,而建立前在S1附近的多巴胺峰值消失了,就如同一级条件反射建立后,在奖赏R附近的多巴胺峰值消失一样。如图10下图所示。

也就是说,当刺激S2与S1配对出现时,虽然没有奖赏R,但由于S1引发条件反射,释放并产生多巴胺峰值(大小对应于V1n),它起到了与奖赏R相同的作用,即启动了S2的条件反射习得过程。

所以,在使用公式ΔV(n+1)=β*α*(λ-Vn)计算S2产生的条件反射强度增量ΔV2n时,λ值应该代入S1的条件反射强度值V1n=100,而不是奖赏R对应的值0

这样计算出的数据如图11左侧表格所示。

图11:二级条件反射的计算数据和曲线图


图11的右侧图形中,橙色线为S2产生的二级条件反射强度值V2n,绿色线为S1对应的V1n。可以看出,V2n从0开始逐步上升,而V1n从100开始逐步下降到0。

这个结果符合实验结果,也与图10 中的多巴胺峰值变化一致。

所以说,并不是Rescorla-Wagner模型不能解释二级条件反射,而是因为在计算时λ的值代入错了,导致计算结果与实际不相符

— 完 —

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

«    2024年12月    »
1
2345678
9101112131415
16171819202122
23242526272829
3031
控制面板
您好,欢迎到访网站!
  查看权限
网站分类
搜索
最新留言
    文章归档
      友情链接