当前位置: 代码迷 >> 综合 >> Continual and Multi-task Reinforcement Learning With Shared Episodic Memory
  详细解决方案

Continual and Multi-task Reinforcement Learning With Shared Episodic Memory

热度:82   发布时间:2023-12-02 08:10:03.0

1 引言    

       人类和其他动物使用情景记忆来快速适应复杂的环境(Kumaran et al., 2016;Lake等人,2017;麦克莱伦等人,1995)。动物行为的一个显著特征是能够在同一环境中实现几个不同的目标。在强化学习领域,自适应行为得到了积极的研究(Rusu et al., 2015;Chaplot等人,2017;Teh et al., 2017;Oh等人,2016;Parisotto & Salakhutdinov, 2017;桑托罗等人,2018;(施瓦茨等,2018)。然而,大多数研究都是孤立地考虑它们,要么关注情景记忆(Blundell et al., 2016;Pritzel等人,2017;(Santoro et al., 2018)或学习实现不同目标的策略(Frans et al., 2017;Dosovitskiy & Koltun, 2016;Tessler等人,2017;(施瓦茨等,2018)。然而,情景记忆的内容不仅对单个任务有用,而且对完成多个连续任务也有用,此外还可以帮助人们获得新的技能。例如,你可以想象一个机器人家庭助手被指示去取回一个特定的物体。如果机器人在过去的房屋清洁中遇到过这个物体并回忆起它,那么这个记忆可以极大地帮助定位所请求的物体。

       在这项工作中,我们提出了一种能够存储环境情景表示的深度神经架构,以改进多任务问题的解决方案,并促进对新技能的持续学习。

2 相关工作

        多任务学习最流行的一种方法是同时对Agent进行所有任务的训练。这种方法称为批量多任务学习(Chen & Liu, 2016)。在深度强化学习领域,它通常与权值共享技术相结合。在这种情况下,子任务网络共享它们的部分层,而当前任务的表示representation通常被作为额外的输入输入到网络中(Florensa等,2017;Dosovitskiy & Koltun, 2016;Kaplan等人,2017)。权值共享可以泛化任务的经验,促进每个任务的学习(Taylor & Stone, 2011)。该方法的一个显著扩展是用描述性系统a descriptive system表示子任务(Denil et al., 2017)。之前关于多任务随机环境下的神经进化的研究(Lakhman & Burtsev, 2013)表明,智能体进化出了情景记忆episodic memory 的表征,并将其用于行为。已经有几项研究将自然语言任务描述映射成动作序列(Chaplot等,2017;Misra等人,2017)。该领域的另一项研究(Kaplan et al., 2017)使用指令序列来指导蒙特祖玛的复仇游戏中的智能体。然而,目前该领域的研究大多集中在子任务的孤立执行上,忽略了情景记忆在子任务之间的迁移。  

       在过去的几年里,在向深层RL架构添加记忆方面已经完成了大量的工作(Mnih et al., 2016;Hausknecht & Stone, 2015)。研究的一个方向是提高agent对环境状态的相关记忆的存储能力(Parisotto & Salakhutdinov, 2017;Oh等人,2016;桑托罗等人,2018)。或者,关于最近状态转换的记忆可以用来促进快速学习(Blundell et al., 2016;Pritzel等人,2017)

 

       研究表明,递归神经网络具有元学习能力(Thrun & Pratt, 1998;Santoro等,2016)。元学习在这种情况下通常指的是两个学习过程的相互作用。当神经网络的权值在环境中逐渐学习到持久的规律性时,适应速度较慢。而快速动态的递归网络以适应快速变化的环境。最近,该方法被扩展到RL设置上 Wang等人(2016);Duan等人(2016)。在另一项工作中(Peng et al., 2018),类似的训练技术有助于将在模拟中学习的策 略迁移到物理机器人上。虽然当前关于循环架构的元强化学习的重点主要放在一个策略对环境的不同变化的适应上,但是我们将考虑通过共享记忆实现几个面向目标的策略进行联合适应。

3 多任务强化学习的共享情节记忆

       在这项工作中,我们使用两种思想来促进在多个子任务策略之间情景记忆的迁移。首先介绍了两个独立的递归子网络(1)用于环境,(2)用于特定任务的记忆。二是使用元学习设置(Duan et al., 2016;Wang et al., 2016;(Frans et al., 2017)在同一环境下,通过一系列任务对agent进行优化。   

       传统的多任务强化学习设置是在每一情节的开始选择一个新的任务,使每一情节对应一个任务。然后,智能体与环境的多个实例同时交互,并使用为不同任务收集的样本更新策略。此过程不能为多个任务存储表征。为了使情景记忆有用,我们在类似于meta-RL的环境中训练一个多任务智能体(Wang et al., 2016;Duan等人,2016)。

       在我们的研究中,训练包括持续T步的情节。每一情节都会对环境进行一定程度的修改,即墙壁、目标或物体的位置。在一情节的开始,一个任务被随机选择。如果任务由智能体完成,则激活一个新任务,但环境状态保持不变。任务完成后,智能体收到一个奖励和一个所有任务共享的“完成”信号。代理优化了所有T步的累积奖励。  

因此,一个智能体在可用时间内完成的任务越多,它获得的奖励也就越多。这种训练模式鼓励智能体的神经网络不仅学习适合任务的策略,而且还能在它们之间共享关于环境状态的记忆。     

 

  相关解决方案