如何科学地训练狗狗(上)
人人都希望家里的狗狗乖巧懂事,能听得懂人话。让它站起来,嗖一声它就站起来。让它蹲下,它夹着尾巴立刻就蹲下。
想想就倍有面子。
然而,大多数时候,你在发号施令,狗狗却一脸无辜地看着你,不知所以然,狗狗当然听不懂人话。
但你知道,实验室里的老鼠远不如狗聪明,但老鼠可以服从科学家的命令,做一些普通人听起来头晕的行为实验。
大鼠正在做压杆实验
其实,早在上一世纪,科学家就发展出了一套关于训练动物行为理论——操作性条件学习。
什么是操作性条件学习?操作条件学习是一种通过奖励加强动物行为和惩罚来削弱动物行为的学习模式。这里的奖励被称为强化刺激,而惩罚被称为惩罚刺激。
例如,如果老鼠每次踩到感应杆都会得到食物奖励,那么老鼠的压杆行为就会得到加强,老鼠就会增加压杆行为。如果老鼠每次踩到感应杆都会被电击,那么老鼠肯定会躲在感应杆上。
训练狗狗做一个动作,对狗狗来说,也是一种操作性条件性学习,需要通过奖励来强化。
对于操作条件学习,最常见的行为强化策略是持续强化策略。
连续强化策略例如大鼠,如果它每一次正确的压杆都会得到奖励,那么,这种强化策略称为连续强化(Continuous reinforcement)。当实验动物刚开始学习某一行为时,连续性强化是最快的训练方法。连续强化会让动物很快在行为和奖励之间建立因果关系。
如何将持续的强化策略应用到你的狗训练行业中?事实上,狗想与主人合作,但在语言障碍的情况下,你和它缺乏有效的沟通方式。奖励正确的行为是让狗理解你复杂意图的最有效、最准确的方式,这可能是唯一的方式。
假如,你想训练狗狗握你的手。
首先,准备好狗最喜欢的牛肉。伸出右手,用另一只手把狗的前爪放在左手里,然后握手。然后迅速奖励狗一块牛肉,越快越好。间隔越短,狗就越能握手和奖励。经过一段时间的训练,你会发现每当你伸出手掌,狗就会主动把爪子放在手掌里。因为狗知道这样做会得到他们最喜欢的牛肉。
需要注意的是,训练期间,牛肉只能在握手时给狗狗,其他任何时间都不能给。只有这样,才能让狗狗在握手和牛肉奖励之间建立一条清晰的因果链。如果在不握手的时间也给狗狗牛肉,狗狗就会迷惑,误以为其他动作也能获得牛肉奖励,这会削弱握手和牛肉之间的因果关系。
但你也不可能每次握手都给狗狗块肉,太败家,也失去了训练狗狗的本意。你的本意是让狗狗跟你握手,不是喂狗狗吃肉。因此,我们需要在狗狗学会握手后,减少甚至停止奖励,但仍能让狗狗保留和你握手的习惯。
幸运的是,科学家们长期以来一直在开发一系列间歇强化策略,以稳定和加强实验动物的可操作性反应。
如果正确的行为不再得到奖励,实验动物的奖励,实验动物的行为就会消退。通常,不到50只空手套白狼,实验动物就不再关注你了。
而采用了间歇强化策略的动物,在奖励消失后,还会心甘情愿地做上千次、甚至上万次的行为。
什么样的强化策略有如此强大的魔力?在下一篇文章中,让我们揭开它神秘的面纱。