【AI】新书速递 - MIT科学家教你使用强化学习进行最优控制(附PDF&讲义)

【AI】新书速递 - MIT科学家教你使用强化学习进行最优控制(附PDF&讲义)

编者按:强化学习是机器学习的一个重要组成部分,是多学科多领域交叉的一个新兴学科,近年来得到了飞速的发展。2013年DeepMind团队将强化学习与深度神经网络相结合,创造了AlphaGo在围棋上击败人类的传奇,掀起了新一轮的强化学习热潮。而本文要推荐的这本书则是从最优控制的角度解读强化学习。想了解MIT的Bertsekas大神的最新研究成果么,快来看看吧!!!

文章作者:Leo
责任编辑:霍华德
文章发表于微信公众号【运筹OR帷幄】:【AI】新书速递 - MIT科学家教你使用强化学习进行最优控制(附PDF&讲义)
欢迎原链接转发,转载请私信@运筹OR帷幄获取信息,盗版必究。
敬请关注和扩散本专栏及同名公众号,会邀请全球知名学者发布运筹学、人工智能中优化理论等相关干货、知乎Live及行业动态:『运筹OR帷幄』大数据人工智能时代的运筹学

作者简介

Dimitri Panteli Bertsekas教授,1942年出生于希腊雅典,美国工程院院士,麻省理工大学电子工程及计算机科学教授。Bertsekas教授因其在算法优化与控制方面以及应用概率论方面编写了多达16本专著而闻名于世。他也是CiteSeer搜索引擎学术数据库中被引用率最高的100位计算机科学作者之一。Bertsekas教授还是Athena Scientific出版社的联合创始人。

Bertsekas教授的代表作包括:

  • 动态规划和最优控制(Dynamic Programming and Optimal Control )
  • 数据网络(Data Networks)
  • 非线性规划(Nonlinear Programming )
  • 概率导论(Introduction to Probability)


出版信息

  • 书名:强化学习与最优控制
  • REINFORCEMENT LEARNING AND OPTIMAL CONTROL
  • 作者:Dimitri P. Bertsekas
  • 出版社:Athena Scientific
  • 出版时间:2019年


内容提要

今天要给大家推荐的是一本有关强化学习的书。该书的名字叫《强化学习与最优控制》,作者是美国工程院院士、麻省理工大学的Dimitri P. Bertsekas教授。本书预计将于2019年由Athena Scientific(athenasc.com/)出版社出版问世。由于本书尚未定稿,在内容方面还会进行定期的更新,因此有可能会出现一些错误,作者也欢迎广大读者朋友提出宝贵的意见和建议,作者的邮箱是dimitrib@mit.edu。

我们知道,动态规划和最优化控制可以解决大型的多阶段决策问题,本书关注的重点是在计算资源有限的情况下,如何获得获得近似解。并且要求找到的近似解达到一定的性能需求。而这类方法通常被统称为强化学习,有时也会被叫做近似动态规划或神经动态规划。

本书的主要灵感来自于最优化控制领域和人工智能领域的结合。本文的主要目之一就是探索这两个领域之间的边界,并为这两个领域的工作人员搭建互联互通的桥梁。

在数学公式的推导和解释方面,本书的写作风格和之前的作者的《动态规划》以及同John Tsitsiklis教授合著的《神经动态规划》略有不同。本书更注重于直观的感受,而不是严密的证明。但是,本文仍然在附录中提供有限和无限水平动态规划理论的简短说明,以及一些基本的近似方法。因此,我们希望读者具备如下的数学背景:微积分,概率论基础和最基本的矩阵向量代数。

本书中提到的方法都在实践中取得巨大的成功,比如在近期让计算机在国际象棋和围棋中取得惊人成就的方法。不过要注意的是,如果面向更加宽泛的问题,该方法的效果也许没有那么稳定。这也是该领域中最先进技术的缩影:没有任何一种方法是可以保证适用于所有或甚至大多数问题的银弹,但是我们有足够多的方法来尝试着合理的解决挑战性的问题。因此,本书的目标是提供一系列基于合理原则的方法,并为其属性和参数选择提供一些先验的知识,即使这些知识并不能保证有方法具备可靠的性能。本书希望通过对这些方法及其变体的充分探究,让读者将能够具备举一反三的能力,从而解决自己面临的问题。


前言、目录和章节

  • 本书的章节包括:
  • 第一章: 精确动态规划(Exact Dynamic Programming)
  • 第二章: 值空间估计(Approximation in Value Space)
  • 第三章: 参数估计(Parametric Approximation)
  • 第四章: 无限水平强化学习(Infinite Horizon Renforcement Learning)
  • 第五章: 方法整合(Aggregation)
  • 参考文献(Reference)


针对本书的内容,作者做了一次名为“Reinforcement Learning and Optimal Control——A Selective Overview”的演讲。作者认为,强化学习是针对人工智能和决策控制理念的一个Happy Union,人工智能(AI)或者说强化学习(RL)和决策控制(DP)在很多思想上是互相补充。从表1中的术语表对照就能看出来,RL和DP虽然优化的目标不一样(RL追寻奖励值的最大化,DP追求开销的最小化),但是无论是在结构上、控制系统上还是在方法上,使用的思想都可以一一对应。

表1. 强化学习和决策控制术语对照表


延伸阅读

这里列出了ATHENA SCIENTIFIC出版社优化和计算系列的相关书籍,感兴趣的童鞋可以深入的学习。

  1. Abstract Dynamic Programming, 2nd Edition, by Dimitri P. Bertsekas, 2018, ISBN 978-1-886529-46-5, 360 pages
  2. Dynamic Programming and Optimal Control, Two-Volume Set, by Dimitri P. Bertsekas, 2017, ISBN 1-886529-08-6, 1270 pages
  3. Nonlinear Programming, 3rd Edition, by Dimitri P. Bertsekas, 2016, ISBN 1-886529-05-1, 880 pages
  4. Convex Optimization Algorithms, by Dimitri P. Bertsekas, 2015, ISBN 978-1-886529-28-1, 576 pages
  5. Convex Optimization Theory, by Dimitri P. Bertsekas, 2009, ISBN 978-1-886529-31-1, 256 pages
  6. Introduction to Probability, 2nd Edition, by Dimitri P. Bertsekas and John N. Tsitsiklis, 2008, ISBN 978-1-886529-23-6, 544 pages
  7. Convex Analysis and Optimization, by Dimitri P. Bertsekas, Angelia Nedi´c, and Asuman E. Ozdaglar, 2003, ISBN 1-886529-45-0, 560 pages
  8. Network Optimization: Continuous and Discrete Models, by Dimitri P. Bertsekas, 1998, ISBN 1-886529-02-7, 608 pages
  9. Network Flows and Monotropic Optimization, by R. Tyrrell Rockafellar, 1998, ISBN 1-886529-06-X, 634 pages
  10. Introduction to Linear Optimization, by Dimitris Bertsimas and John N. Tsitsiklis, 1997, ISBN 1-886529-19-1, 608 pages
  11. Parallel and Distributed Computation: Numerical Methods, by Dimitri P. Bertsekas and John N. Tsitsiklis, 1997, ISBN 1-886529- 01-9, 718 pages
  12. Neuro-Dynamic Programming, by Dimitri P. Bertsekas and John N. Tsitsiklis, 1996, ISBN 1-886529-10-8, 512 pages
  13. Constrained Optimization and Lagrange Multiplier Methods, by Dimitri P. Bertsekas, 1996, ISBN 1-886529-04-3, 410 pages
  14. Stochastic Optimal Control: The Discrete-Time Case, by Dimitri P. Bertsekas and Steven E. Shreve, 1996, ISBN 1-886529-03-5, 330 pages


可以在本公众号后台回复关键词:“RLOC”获取本书的前言和目录,以及全书概述的演示幻灯片,如果觉得有用, 请勿吝啬你的留言和赞哦!~


文章由作者授权『运筹OR帷幄』原创发布,如需转载请在公众号后台获取转载须知

【AI】板块副主编招聘要求:

1.计算机视觉、语音识别、自然语言处理方向硕士毕业或博士在读,及以上学历也可。

2.有文字编辑经验,博客或知乎专栏写作经历,善于沟通与协调

3.有时间,有责任心,保证每周工作 2-3个小时。


扫二维码关注『运筹OR帷幄』公众号:

点击查看『运筹OR帷幄』志愿者招募介绍及加入方式

发布于 2019-02-01

文章被以下专栏收录