论文笔记之:Deep Recurrent Q-Learning for Partially Observable MDPs

论文笔记之:Deep Recurrent Q-Learning for Partially Observable MDPs

参考资料

鼻祖论文:

Playing Atari with Deep Reinforcement Learning

Human-level control through deep reinforcement learning.


论文笔记之:Deep Recurrent Q-Learning for Partially Observable MDPs


最近老师让看一写DQN算法上前人都做了哪些改进,下面是我自己写的一些理解

首先我总结一下这篇文章:


创新点:DQN与LSTM的结合,提出一种新的结构DRQN

改动原因:DQN经验池内存限制,并且需要依靠完整的游戏界面(状态)

改动:在DQN基础上,将第一个Fc层换成了LSTM结构

带来益处:对于存在partial observation(部分观测状态)问题的游戏,在性能表现上优于DQN


Abstract

描述了DQN的两个缺陷:

1.内存限制

2.在每个决策点需要依靠完整的游戏界面

用部分状态进行训练+略完整状态评估,DRQN的性能随评估图像的完整性而提高

用完整状态训练+部分状态评估,DRQN的性能低于DQN

Introduction

前人DQN,只取了过去四帧(即用四张图作为输入),而任何需要四帧以上的记忆的游戏将出现部分可观测马尔科夫性(Partially-Observable Markov Decision Process ,POMDP),如Pong游戏,只显示了棍子和球的位置,没有球的速度,而了解球的行进方向是玩好游戏的关键,即特征不完整,状态信息有noisy。而行进方向需要查看球的行进,而不是当前状态(球在一个时刻的位置),这就不满足马尔科夫性中的:未来状态仅取决于当前状态。

因为DQN在面对不完全的状态(incomplete state),性能会下降,引入LSTM(可弥补闪烁的游戏界面和卷积层缺乏的速度检测,见文中Flickering Atari Games部分),DRQN更擅长解决信息丢失问题。

Deep Q-Learning(略)

Partial Observation(部分可观测)

POMDP被描述为6-元组(S,A,P,R,Ω,O),S,A,P,R,就是鼻祖论文中状态,动作,转移概率,奖赏,但我们现在获得的状态不完整为o∈Ω,并且服从o~O(s)分布。

由于我们获得的状态不完整使得现在预测的Q值不准,Q(o,a|θ)≠Q(s,a|θ),我们的目标就是缩小这两者之间的差距使得Q值预测更准确。

DRQN Architecture

Stable Recurrent Updates(略)

Atari Games:MDP or POMDP?(略)

Flickering Atari Games

在使用具有长历史的observation(输入多帧图像)作为输入的DQN,可以用加了recurrent network的DRQN代替,这里仅输入一帧图像。recurrent network可以整合信息

实验与结论

在最后实验验证上发现Frostbite游戏(注)中DRQN表现极好,Beam Rider游戏中DRQN表现极差,得出结论在对于游戏引起的状态部分观测问题,DRQN性能比DQN性能好。

注:粗看了一下Frostbite这个游戏介绍(在论文Evaluation on Standard Atari Games部分),就是小人向上蹦穿过四层移动的冰块,到达顶端就可以建冰屋了。这个游戏需要查看冰块的移动方向,而传统DQN只依靠卷积层无法获取移动方向的信息(就算是有历史的四帧图像),所以LSTM在处理历史信息时可以弥补这个方向特征,所以DRQN效果好。

emmmm具体LSTM为什么就能捕捉到速度特征我就不清楚了,应该是LSTM有遗忘门的原因,但为什么遗忘门可以捕捉到速度特征还是很迷。需要查一下LSTM。。。

本人小白,网上资料太少了,只为帮助到更多的人。码出这么多字,累死了。。。

还请大神看出问题指出,谢谢!

编辑于 2018-05-27