David Silver 增强学习——笔记合集(持续更新)

David Silver 增强学习——笔记合集(持续更新)

前言

收录David Silver的Reinforcement Learning课程笔记,方便以后查阅。


首先,介绍一下David Silver

  • David Silver本科和研究生就读于剑桥大学,他在那里认识了戴密斯·哈萨比斯并与其成为了朋友。
  • David Silver于2004年赴加拿大阿尔伯特大学就读博士学位。之后成为伦敦大学学院讲师,并在伦敦大学学院盖茨比计算机与脑科学研究中心继续他的研究。
  • 2013年David Silver加入DeepMind公司作为首席程序员,AlphaGo创始人之一,项目领导者。

  • 视频链接:

youtube.com/watch?

  • PPT链接:

www0.cs.ucl.ac.uk/staff


David Silver的课程一共分为了10个lectures,其中前5讲是第一部分,偏重于基础理论;后5讲是第二部分,偏重于解决大规模问题的应用理论。

  • Lecture 1: Introduction to Reinforcement Learning
搬砖的旺财:David Silver 增强学习——Lecture 1 强化学习简介zhuanlan.zhihu.com图标
  • Lecture 2: Markov Decision Processes
搬砖的旺财:David Silver 增强学习——Lecture 2 马尔可夫决策过程zhuanlan.zhihu.com图标
  • Lecture 3: Planning by Dynamic Programming
搬砖的旺财:David Silver 增强学习——Lecture 3 动态规划zhuanlan.zhihu.com图标
  • Lecture 4: Model-Free Prediction
搬砖的旺财:David Silver 增强学习——Lecture 4 不基于模型的预测zhuanlan.zhihu.com图标
  • Lecture 5: Model-Free Control
搬砖的旺财:David Silver 增强学习——Lecture 5 不基于模型的控制zhuanlan.zhihu.com图标
  • Lecture 6: Value Function Approximation
搬砖的旺财:David Silver 增强学习——Lecture 6 值函数逼近zhuanlan.zhihu.com图标
  • Lecture 7: Policy Gradient Methods
搬砖的旺财:David Silver 增强学习——Lecture 7 策略梯度算法(一)zhuanlan.zhihu.com图标搬砖的旺财:David Silver 增强学习——Lecture 7 策略梯度算法(二)zhuanlan.zhihu.com图标搬砖的旺财:David Silver 增强学习——Lecture 7 策略梯度算法(三)zhuanlan.zhihu.com图标
  • Lecture 8: Integrating Learning and Planning
  • Lecture 9: Exploration and Exploitation
  • Lecture 10: Case Study: RL in Classic Games

其他(D)RL相关笔记:

搬砖的旺财:David Silver 增强学习补充知识——神经网络zhuanlan.zhihu.com图标搬砖的旺财:《RL——An Introduction》第二章笔记——多臂赌博机问题zhuanlan.zhihu.com图标搬砖的旺财:独立同分布 independent and identically distributedzhuanlan.zhihu.com图标搬砖的旺财:强化学习——每次访问MC方法和首次访问MC方法的相关理论证明zhuanlan.zhihu.com图标搬砖的旺财:Bootstrapping的数学定义zhuanlan.zhihu.com图标搬砖的旺财:ε-贪婪策略提升定理的理论证明zhuanlan.zhihu.com图标搬砖的旺财:David Silver 增强学习补充知识——梯度下降法zhuanlan.zhihu.com图标搬砖的旺财:一文概览深度强化学习(一)——Value-based DRLzhuanlan.zhihu.com图标

结语

在学习他的课程之前,我还学习了UC Berkeley的introductory artificial intelligence课程。

相关链接如下:

ai.berkeley.edu/home.ht

这门课程让我算是对AI各方面的知识有了一个全面的认识,后来之所以专注于增强学习,是因为从进实验室开始,就非常喜欢Motion Planning(运动规划),从事的研究也一直是路径规划和任务规划(决策规划),在我看来,决策规划和增强学习是分不开的。

希望可以和大家探讨关于Motion Planning(Deep)Reinforcement Learning的问题。

编辑于 2019-09-01

文章被以下专栏收录