MIT OpenCourseWare
  • OCW home
  • Course List
  • about OCW
  • Help
  • FeedbackSupport MIT OCW

教学大纲

专题报告

根据学生的兴趣采用专题报告,包含下面的全部或部分内容:

马尔科夫决策过程和动态规划 (2-3周)

  • 随机模型,动态规划理论,数值和策略迭代。

模拟方法 (2周)

  • 强化学习异步数值和策略迭代,Q-学习算法,复杂度。基本工具的修正,如Lyapunov函数分析和ODE方法.

数值函数近似 (4周)

  • TD学习算法,近似线性规划,性能界,函数近似理论。

策略查找方法 (2-3周)

  • 策略梯度和演员评论家方法。策略查找复杂度。

在线学习和练习 (2周)

  • 专家算法,最小化后悔及校正。

我们在整个过程中都能看到实际应用,包括动态的资源分配,金融和排队网络,等等。


教材

Bertsekas, Dimitri P. Dynamic Programming and Optimal Control. 2 vols. Belmont, MA: Athena Scientific, 2000-2001. (ISBN: 1886529086)

Bertsekas, Dimitri P., and John N. Tsitsiklis. Neuro-Dynamic Programming. Belmont, MA: Athena Scientific, 1996. (ISBN: 1886529108)

个别论文同样被很多课程采用,在参考读物中列出。


评分标准

评分内容 百分比
每周或每两周习题集中的2或3个习题 40%
期末项目 60%


学期项目

学生可自由选择理论、算法或实际应用工作。项目建议在期中提交,最后的项目报告在期末提交。

需要准备10-15页的项目,以及15-20分钟的演讲。